項(xiàng)目名稱: 基因組生物信息學(xué)分析的系統(tǒng)新算法研究及其應(yīng)用
推薦單位: 天津市
項(xiàng)目簡(jiǎn)介: 本項(xiàng)目屬于生物學(xué)一級(jí)學(xué)科下屬的生物信息學(xué)和基因組學(xué)領(lǐng)域,是一門學(xué)科高度交叉的研究領(lǐng)域。人類及模式生物基因組等計(jì)劃的快速進(jìn)展積累了大量的DNA序列信息。本項(xiàng)目以近十年的努力,致力于基因組序列分析的新算法研究與應(yīng)用,提出了基于幾何學(xué)途徑的基因組序列分析的4個(gè)新算法,即:基因識(shí)別;GC輪廓圖;差異曲線及基因組段落化算法。這4個(gè)算法相互獨(dú)立又相互印證與協(xié)調(diào),構(gòu)成了一個(gè)內(nèi)部和諧的系統(tǒng)的算法集合。
本項(xiàng)目利用這4個(gè)新算法對(duì)大量基因組序列進(jìn)行分析,研發(fā)了適用于細(xì)菌、古細(xì)菌、病毒、噬菌體以及酵母基因組的基因識(shí)別軟件,它們已經(jīng)被國(guó)內(nèi)外學(xué)者應(yīng)用于許多新測(cè)序基因組(如細(xì)菌,噬菌體及SARS冠狀病毒基因組等)的注釋。論證了人、小鼠、雞和擬南芥等生物基因組Isochore結(jié)構(gòu)的存在性,制定出人類基因組在DNA序列水平上的Isochore結(jié)構(gòu)圖譜。根據(jù)GC輪廓圖算法提出了識(shí)別細(xì)菌與古細(xì)菌水平轉(zhuǎn)移基因組島的系統(tǒng)方法,并識(shí)別出一些重要的基因組島。利用差異曲線算法和基因組分段算法在國(guó)際上首先預(yù)測(cè)出硫磺礦硫化葉菌具有3個(gè)復(fù)制原點(diǎn)及它們的準(zhǔn)確位置。由于原核生物長(zhǎng)期被認(rèn)為只具有單一的復(fù)制原點(diǎn),所以該預(yù)測(cè)引起廣泛關(guān)注并很快被實(shí)驗(yàn)所證實(shí)。
本項(xiàng)目從1998年元月開(kāi)始至2006年12月為止經(jīng)歷了近10年的努力。先后發(fā)表SCI論文54篇,包括5篇 Bioinformatics, 4篇 Nucleic Acids Research 以及 Nature Biotech, Genomics 等本領(lǐng)域重要刊物,累積影響因子(按2005年JCR報(bào)告)達(dá)208.7點(diǎn)。被SCI刊物引用489次,其中他人引用355次。刊物Physiol. Genomics 曾專門刊發(fā)2頁(yè)的評(píng)論文章,對(duì)GC輪廓圖算法及其在水平基因轉(zhuǎn)移研究中的貢獻(xiàn)予以積極評(píng)價(jià)。受邀在重要國(guó)際刊物撰寫綜述論文2篇;被邀在國(guó)際會(huì)議上做大會(huì)報(bào)告3次。被近20種國(guó)際刊物邀請(qǐng)為審稿人,評(píng)審論文數(shù)十篇。
主要發(fā)現(xiàn)點(diǎn): 核心發(fā)現(xiàn)點(diǎn):本項(xiàng)目基本屬于基因組研究方法學(xué)上的創(chuàng)新,在Z 曲線(一種DNA序列的等價(jià)三維表示)的基礎(chǔ)上發(fā)明了四個(gè)新算法,并用其對(duì)大量生物基因組進(jìn)行分析,發(fā)現(xiàn)了一些較重要的生物學(xué)新知識(shí)。
1、基因識(shí)別算法。我們發(fā)現(xiàn)蛋白質(zhì)編碼序列和非編碼序列的Z曲線的三維及多維空間特征完全不同,可利用這一特點(diǎn)對(duì)其進(jìn)行識(shí)別。這是一項(xiàng)全新的,基于幾何學(xué)的方法,識(shí)別準(zhǔn)確率高而偽正率較低,尤其對(duì)于高GC含量的微生物基因組表現(xiàn)尤為優(yōu)秀。此外,它還具有參數(shù)少、運(yùn)行速度快,同樣適用于大、小各種基因組等優(yōu)點(diǎn)。這一新算法已成功應(yīng)用于單細(xì)胞真核生物(如酵母)[1]、細(xì)菌與古細(xì)菌[2]、病毒與噬菌體基因組的基因識(shí)別[8,9],(計(jì)算生物學(xué);計(jì)算基因組學(xué);細(xì)菌學(xué))。
2、基因組GC含量無(wú)窗口計(jì)算方法(累積GC輪廓圖算法)。傳統(tǒng)的GC含量窗口計(jì)算方法不能精確反映基因組GC含量的局部突變位點(diǎn),而它們往往具有重要生物學(xué)意義。我們定義在基因組中某一點(diǎn)的GC含量正比于基因組Z曲線的z分量在該點(diǎn)處的導(dǎo)數(shù), 從而使GC含量在基因組處處都有定義, 并能精確顯示基因組GC含量的突變位點(diǎn)。這一算法廣泛應(yīng)用于原核生物基因組的水平基因轉(zhuǎn)移研究,識(shí)別出一些具有重要功能的基因組島[4],并發(fā)現(xiàn)基因組島的獲得有兩種模式:?jiǎn)渭兊夭迦耄换虿迦胪瑫r(shí)伴隨原基因組部分基因簇的丟失。這兩種模式被認(rèn)為在微生物進(jìn)化中具有普遍性的意義[3]。該方法還被用于多種真核生物基因組Isochore結(jié)構(gòu)研究,并制定出人類基因組在DNA序列水平上的Isochore結(jié)構(gòu)圖譜[6](計(jì)算生物學(xué);細(xì)菌學(xué);計(jì)算基因組學(xué))。
3、 RY, MK, GC 和AT差異曲線算法。DNA序列的堿基可分為嘌呤(R)、嘧啶(Y)、氨基(M)和酮基(K)四種類型。而Z曲線的x和y分量和它們的線性組合可表示RY, MK, GC和AT沿序列的分布,分別稱為RY,MK,GC和AT差異曲線,它們的突變點(diǎn)往往對(duì)應(yīng)于基因組的復(fù)制起始和終止位點(diǎn)。針對(duì)這四種差異曲線設(shè)計(jì)了求其突變點(diǎn)的具體算法,并成功地應(yīng)用于預(yù)測(cè)多種微生物基因組復(fù)制原點(diǎn)[5,6](計(jì)算生物學(xué);細(xì)菌學(xué))。我們?cè)趪?guó)際上首先預(yù)測(cè)硫磺礦硫化葉菌基因組具有3個(gè)復(fù)制原點(diǎn)及它們的準(zhǔn)確位置。由于原核生物長(zhǎng)期被認(rèn)為只有單一復(fù)制原點(diǎn),所以該預(yù)測(cè)引起廣泛關(guān)注并很快被實(shí)驗(yàn)所證實(shí)[5](細(xì)菌學(xué))。
4、基因組分段算法。由Z曲線導(dǎo)出基因組序指標(biāo)的概念,該指標(biāo)可以很好的反映基因組序列的有序程度及堿基組成的突變。在序指標(biāo)的基礎(chǔ)上,我們發(fā)明了計(jì)算基因組的分段點(diǎn)算法,可以有效地、高精度地計(jì)算基因組的分段點(diǎn),而這些分段點(diǎn)通常具有明確生物學(xué)意義。這一算法在基因組島識(shí)別,復(fù)制原點(diǎn)預(yù)測(cè),Isochore結(jié)構(gòu)邊界確定等方面得到具體的應(yīng)用[7] (計(jì)算生物學(xué);細(xì)菌學(xué))。
以上4個(gè)算法是在Z曲線基礎(chǔ)上用幾何學(xué)方法對(duì)基因組進(jìn)行分析,在國(guó)際上獨(dú)樹(shù)一幟,具有獨(dú)創(chuàng)性和系統(tǒng)性的特點(diǎn)。越來(lái)越多的國(guó)內(nèi)外同行已經(jīng)加入此項(xiàng)研究;谶@些算法開(kāi)發(fā)的系列軟件已經(jīng)獲得廣泛應(yīng)用。
主要完成人: 張春霆
張春霆是所有科研項(xiàng)目的唯一負(fù)責(zé)人,是所有論文的唯一通訊作者,是本項(xiàng)目的唯一完成人。張春霆在近十年里為本項(xiàng)目投入了主要精力,并全部在國(guó)內(nèi)完成。
|