基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)。de novo組裝得到的基因組進(jìn)行的下一步分析就是基因組注釋,通常注釋內(nèi)容主要包括以下四個(gè)方面:基因結(jié)構(gòu)注釋、基因功能注釋、重復(fù)序列分析、非編碼RNA注釋。本文主要介紹真核生物中的基因組注釋方法。 (1)基因結(jié)構(gòu)注釋 基因結(jié)構(gòu)預(yù)測(cè)包括預(yù)測(cè)基因組中的基因位點(diǎn)、開(kāi)放性閱讀框架(ORF)、翻譯起始位點(diǎn)和終止位點(diǎn)、內(nèi)含子和外顯子區(qū)域、啟動(dòng)子和終止子、可變剪切位點(diǎn)以及蛋白編碼序列(CDS)等。需要指出,真核生物基因結(jié)構(gòu)注釋難度較大,主要因?yàn)檎婧松镏械膯?dòng)子和終止子等信號(hào)位點(diǎn)較為復(fù)雜,且存在廣泛的可變剪切現(xiàn)象,預(yù)測(cè)真核生物的基因結(jié)構(gòu)常用隱馬科夫模型。 基因結(jié)構(gòu)注釋采用從頭測(cè)序,同源預(yù)測(cè)和基于RNA-Seq的證據(jù)支持預(yù)測(cè)相結(jié)合的方法。利用物種已發(fā)表的基因序列,蛋白序列,mRNA/ESTs序列集構(gòu)建物種的基因結(jié)構(gòu)模型;同時(shí)采用從頭測(cè)序方法對(duì)初始預(yù)測(cè)模型進(jìn)行自我訓(xùn)練,通過(guò)多輪訓(xùn)練和優(yōu)化,獲得從頭預(yù)測(cè)的基因結(jié)構(gòu)模型;利用RNA-Seq數(shù)據(jù)通過(guò)Tophat比對(duì)得到基因組的內(nèi)含子結(jié)構(gòu)模型及基因側(cè)翼序列信息;最后對(duì)上述不同方法預(yù)測(cè)的結(jié)構(gòu)模型進(jìn)行整合和優(yōu)化獲得最終的基因結(jié)構(gòu)模型。 其中,從頭預(yù)測(cè)主要應(yīng)用軟件有Augustus、Genscan、Glimmer等;同源預(yù)測(cè)代表軟件包括Genewise(動(dòng)物);而基于轉(zhuǎn)錄組數(shù)據(jù)預(yù)測(cè)則是由常見(jiàn)的Tophat+cufflinks軟件完成。 ![]() 真核基因結(jié)構(gòu).jpg 圖1. 真核基因結(jié)構(gòu)示意圖 (2)基因功能注釋 全基因組測(cè)序?qū)a(chǎn)生大量數(shù)據(jù),此前普遍采用比對(duì)方法對(duì)對(duì)預(yù)測(cè)出來(lái)的編碼基因進(jìn)行功能注釋,通過(guò)與各種功能數(shù)據(jù)庫(kù)(NR、Swiss-Prot 、GO、KOG、KEGG)進(jìn)行蛋白質(zhì)比對(duì),獲取該基因的功能信息。其中GO和KEGG數(shù)據(jù)庫(kù)分別在基因功能和代謝通路研究中占據(jù)重要地位。 ![]() image 圖2. 基因功能注釋 (3)重復(fù)序列分析 重復(fù)序列廣泛存在于真核生物基因組中,這些重復(fù)序列或集中成簇,或分散在基因之間,根據(jù)分布把重復(fù)序列分為分散重復(fù)序列(Interpersed repeat)和串聯(lián)重復(fù)序列(Tendam repeat)。重復(fù)序列的注釋主要通過(guò)同源注釋和從頭注釋兩種方式進(jìn)行預(yù)測(cè)。同源注釋采用RepeatMasker通過(guò)與Repbase數(shù)據(jù)庫(kù)進(jìn)行比對(duì)尋找基因組中的重復(fù)區(qū)域,并對(duì)其進(jìn)行分類;從頭注釋采用RepeatModler鑒定重復(fù)元件,最后通過(guò)整合獲得全基因組的重復(fù)序列注釋,從頭注釋能夠發(fā)現(xiàn)未知的新的轉(zhuǎn)座子元件。 ![]() image 圖3.重復(fù)序列種類 (4)非編碼RNA注釋 非編碼RNA,指不翻譯成蛋白質(zhì)的RNA,如tRNA,rRNA等。利用tRNAscan-SE對(duì)全基因組進(jìn)行tRNA預(yù)測(cè);利用RNAmmer預(yù)測(cè)全基因的核糖體RNA;利用Rfam數(shù)據(jù)庫(kù)通過(guò)cmscan鑒定全基因組non-coding RNA(ncRNA)。 通過(guò)基因組注釋獲得的信息可進(jìn)一步用于后續(xù)比較基因組分析,例如系統(tǒng)發(fā)育分析、基因家族分析、歷史群體結(jié)構(gòu)分析等,重復(fù)序列的注釋則通常可用于全基因組加倍事件分析。但我們目前的大部分注釋工作主要建立在與已有數(shù)據(jù)庫(kù)的比對(duì)基礎(chǔ)上,因此,對(duì)某些研究較少的物種限制很大。另一方面,序列相似并不表示實(shí)際生物學(xué)功能相似,這對(duì)于基因功能注釋時(shí)會(huì)造成較大影響,仍需要進(jìn)一步完善基因功能注釋工作。 |
|
來(lái)自: 葉子Dr > 《基因測(cè)序》