長鏈非編碼RNA(lncRNAs)占了這些新注釋的非編碼轉(zhuǎn)錄本的大部分,他們參與多個功能不同的生物過程。超過18000轉(zhuǎn)變本目前已作為lncRNA標(biāo)注,覆蓋先前注釋非編碼轉(zhuǎn)錄本,包括大型基因間非編碼RNA,反義RNA和加工的假基因。但在提供穩(wěn)定的注釋,交叉引用和生物相關(guān)的信息資源方面有顯著的差距。由印度三哥CSIR基因組和整合生物學(xué)研究所研究人員開發(fā)的lncRNome,旨在填補這一空白,他們通過把生物顯著性的各種各樣的信息注釋整合到一個全面的知識庫。
基本介紹 LncRNome 該數(shù)據(jù)庫是針對人類構(gòu)建的,收入了18,000多條lncRNA轉(zhuǎn)錄本,主要提供lncRNA的分類、染色體定位、二級結(jié)構(gòu)、與其他數(shù)據(jù)庫相關(guān)聯(lián)信息、生物功能描述、疾病關(guān)聯(lián)的數(shù)據(jù),同時提供lncRNA與protein互作功能預(yù)測、SNP位點等信息。其鏈接:URL: http://genome.igib./lncRNome.
數(shù)據(jù)庫的設(shè)計與架構(gòu) lncRNome數(shù)據(jù)庫的設(shè)計始終牢記始終以服務(wù)以實驗為主和生物信息為基礎(chǔ)的生物學(xué)家為宗旨,以便根據(jù)用戶的需求隨時訪問生物相關(guān)數(shù)據(jù)。簡而言之,每個lncRNA基因都有一個單一的頁面,其中包含與其他相關(guān)數(shù)據(jù)庫,注釋集以及標(biāo)簽中鏈接的相關(guān)信息類別的基本鏈接。目前有五類信息與每個lncRNA相關(guān),包括(i)一般信息,(ii)序列和結(jié)構(gòu),(iii)相互作用和處理,(iv)變異和保存以及(v)表觀遺傳修飾。
數(shù)據(jù)庫的特點lncRNA注釋 lncRNA注釋源自Gencode版本12(http://www.),其由11 790個lncRNA基因和18 855個轉(zhuǎn)錄物組成。將lncRNA轉(zhuǎn)錄物分為10種不同的生物型,統(tǒng)計數(shù)據(jù)見上圖。
另外,lncRNAs及其HGNC ID數(shù)據(jù)來源于人類基因命名委員會網(wǎng)站,其中包括1073個lncRNAs。對lncRNAdb中的99個人lncRNAs和文獻(xiàn)通過手工處理獲得了額外的映射,并且基于基因組坐標(biāo)彼此重疊(如上圖)。還提供穩(wěn)定的內(nèi)部ID以便于訪問,并能夠在由不同序列數(shù)據(jù)庫定期使用的不同ID之間進(jìn)行交叉引用。共識ID是lncRNome中的主要參考關(guān)鍵,也被用于參考備選轉(zhuǎn)錄物同種型。在適當(dāng)?shù)牡胤剑械膌ncRNAs也被連接到相關(guān)的數(shù)據(jù)庫,如Ensembl,HGNC和NCBI,以便快速交叉參考。由人工從文獻(xiàn)調(diào)查和調(diào)查中收集的注釋提供了功能性表征,例如與疾病關(guān)聯(lián),表達(dá)和功能重要性的信息。
序列和結(jié)構(gòu) LncRNA的序列是從UCSC基因組瀏覽器中下載的,根據(jù)單個轉(zhuǎn)錄本的基因組位置。RNA的結(jié)構(gòu)是使用RNAfold這個工具包來計算的。為了使研究人員能夠進(jìn)一步進(jìn)行LncRNA相關(guān)的實驗,該數(shù)據(jù)庫已經(jīng)使用Quadfinder進(jìn)行了整個lncRNA轉(zhuǎn)錄本中潛在的G-四聯(lián)體形成基序的預(yù)測,并且使用了HairpinFetcher對lncRNA中潛在的發(fā)夾結(jié)構(gòu)進(jìn)行了鑒定。 LncRNA加工小RNA集群來源于DeepBase,這是一個綜合數(shù)據(jù)庫,來自于公共領(lǐng)域的小RNA測序?qū)嶒炛蝎@得的小RNA注釋的綜合數(shù)據(jù)庫,并覆蓋在lncRNA注釋上以獲得可能被加工成小RNA的潛在lncRNA的信息。 蛋白質(zhì)與RNA相互作用 蛋白質(zhì)-RNA相互作用的主要數(shù)據(jù)集之一來源于Argonaute(Ago)蛋白質(zhì)的PAR-CLIP實驗。通過將讀數(shù)映射到人類轉(zhuǎn)錄組,提供了lncRNA轉(zhuǎn)錄組中潛在的Ago結(jié)合位點的全面圖譜。實驗數(shù)據(jù)集也存在于其他蛋白質(zhì),包括IGF2BP2,IGF2BP3,IGF2P1,PTB,PUM2,QKI,TNRC6A,TNRC6B和TNRC6C,也被映射到lncRNA轉(zhuǎn)錄本。由于用于蛋白質(zhì) - RNA相互作用的實驗數(shù)據(jù)集數(shù)量很少,該數(shù)據(jù)還納入了一個計算預(yù)測方法。
基因組變異和保留為了便于進(jìn)一步深入分析和實驗驗證lncRNA變異的影響,該數(shù)據(jù)已經(jīng)包括了lncRNA基因座中基因組變異的全面映射。簡而言之,相應(yīng)于dbSNP 135的變異已經(jīng)下載并存儲,并映射到lncRNA的各自基因組位置。另外,疾病相關(guān)變異來源于已公布的全基因組關(guān)聯(lián)研究的NIH目錄,并映射到各自的rsID。 表觀遺傳修飾為了捕獲表觀遺傳標(biāo)記,就DNA甲基化和組蛋白標(biāo)記而言,該數(shù)據(jù)庫已經(jīng)提供了對lncRNA啟動子中的表觀遺傳標(biāo)記的全面訪問。 多肽的預(yù)測使用EMBOSS的Sixpack(http://www./Tools/st/emboss_sixpack/)工具預(yù)測所有l(wèi)ncRNA的ORF。該工具將給定的序列翻譯成六個框架和多肽,從甲硫氨酸開始,長度≥10個氨基酸 總結(jié)與未來的方向
LncRNome數(shù)據(jù)庫被設(shè)計為主要用作lncRNAs及其在人類中的功能的基于證據(jù)的資源。為此,該數(shù)據(jù)提供了lncRNA基因的穩(wěn)定參考ID和一個基因的交替轉(zhuǎn)錄異構(gòu)體,并與其他序列和注釋數(shù)據(jù)庫進(jìn)行交叉參考,以確保互操作性和穩(wěn)定的參考。生物學(xué)數(shù)據(jù)集和lncRNA資源以及手工注釋整合在一起,旨在為lncRNA的注釋信息提供一站式解決方案。 由于LncRNA的研究越來越火爆,更多的lncRNA正在被發(fā)現(xiàn)和注釋,由于大量的公共領(lǐng)域的轉(zhuǎn)錄組測序數(shù)據(jù)集已經(jīng)可用,lncRNome在目前的形式還是有缺陷。 主要缺陷是缺乏關(guān)于lncRNA在不同組織中表達(dá)的信息。 今后希望可以利用已發(fā)表領(lǐng)域中許多組織的全基因組轉(zhuǎn)錄組注釋,克服該缺陷。 References:整理翻譯于:https://www.ncbi.nlm./pmc/articles/PMC3708617/ 還有更多文章,請移步公眾號閱讀
|