【獻給初學(xué)者】高通量測序常見名詞匯總，分分鐘幫你解決困擾

生物_醫(yī)藥_科研 2019-07-19

展開全文

小師妹

高通量測序里怎么那么多五花八門的專業(yè)術(shù)語啊？真讓人抓狂……師姐快幫幫我！

大師姐

知識都是苦心鉆研、不斷積累來的。你才剛?cè)腴T，慢慢學(xué)就好啦！

這里有一份寶典《高通量測序常見名詞解釋》，不妨來看看？

高通量測序常見名詞解釋

測序前，當(dāng)你選擇測序方法時可能會遇到這些問題：

什么是高通量測序（NGS）？

高通量測序又稱“下一代測序”或“深度測序”，可以一次性對幾十萬至幾百萬條DNA分子進行序列測定。它是對傳統(tǒng)Sanger測序（一代測序技術(shù)）革命性的改變，在保持高精準度的同時，大大降低了測序成本并提高了測序速度。

高通量測序技術(shù)以焦磷酸技術(shù)Roche公司454技術(shù)、Illumina公司的Solexa技術(shù)以及ABI公司Solid的連接酶測序法技術(shù)為標(biāo)志，具體可見我們之前推出的一篇詳解，點擊下方了解。

《圖文簡解一代、二代及三代測序技術(shù)》

什么是de novo測序？

de novo測序也稱為從頭測序，不需要任何現(xiàn)有的序列資料就可以對某個物種進行測序，利用生物信息學(xué)分析手段對序列進行拼接、組裝，從而獲得該物種的基因組圖譜。

什么是全基因組重測序（WGS）？

全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序，并在此基礎(chǔ)上對個體或群體進行差異性分析。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測序相結(jié)合的策略進行高通量測序，實現(xiàn)在全基因組水平上檢測疾病或動植物性狀相關(guān)的常見、低頻、甚至是罕見的突變位點，以及結(jié)構(gòu)變異等，具有重大的科研和產(chǎn)業(yè)價值。

什么是外顯子測序（WES）？

外顯子組測序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法。外顯子測序相對于基因組重測序成本較低，對研究已知基因的SNP、Indel等具有較大的優(yōu)勢，但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。

什么是轉(zhuǎn)錄組測序（RNA-seq）？

轉(zhuǎn)錄組是某個物種或者特定細胞類型產(chǎn)生的所有轉(zhuǎn)錄本的集合，包括mRNA和非編碼RNA。

RNA-seq可供研究者轉(zhuǎn)錄本結(jié)構(gòu)研究（基因邊界鑒定、可變剪切研究等），轉(zhuǎn)錄本變異研究（如基因融合、編碼區(qū)SNP 研究），非編碼區(qū)域功能研究（Non-coding RNA 研究、microRNA 前體研究等），基因表達水平研究以及全新轉(zhuǎn)錄本發(fā)現(xiàn)。

什么是染色質(zhì)免疫共沉淀測序（ChIP-seq）？

ChIP-seq是指通過染色質(zhì)免疫共沉淀技術(shù)（ChIP）特異性地富集目的蛋白結(jié)合的DNA片段，并對其進行純化、文庫構(gòu)建、測序；再將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上，從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。

什么是Small RNA測序？

Small RNA（如miRNA、ncRNA、siRNA等）是一大類調(diào)控分子，幾乎存在于所有的生物體中，在基因表達調(diào)控、生物個體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。通過對Small RNA大規(guī)模測序分析，可以從中獲得物種全基因組水平的miRNA圖譜，實現(xiàn)包括新Small RNA分子的挖掘，其作用靶基因的預(yù)測和鑒定、樣品間差異表達分析、Small RNA聚類和表達譜分析等科學(xué)應(yīng)用。

什么是微生物多樣性測序？

微生物多樣性測序，通過擴增微生物的16S rDNA、18S rDNA以及ITS高變區(qū)域并進行高通量測序，可分析環(huán)境中細菌、古細菌以及真菌等的物種組成和相對豐度差異，獲得環(huán)境樣本中的微生物群落結(jié)構(gòu)、進化關(guān)系以及微生物與環(huán)境相關(guān)性等信息。

什么是宏基因組測序？

宏基因組測序（Metagenomics Sequencing）通過高通量測序研究特定環(huán)境下的微生物群體基因組，分析微生物多樣性、種群結(jié)構(gòu)、基因功能、代謝網(wǎng)絡(luò)和進化關(guān)系等，并可進一步探究微生物群體功能活性、相互協(xié)調(diào)作用關(guān)系及與環(huán)境之間的關(guān)系。宏基因組測序研究擺脫了微生物分離純培養(yǎng)的限制，擴展了微生物資源的利用空間，為環(huán)境微生物群落的研究提供了有效工具。

測序后，當(dāng)你拿到測序數(shù)據(jù)時，可能會遇到這些問題：

什么是Reads?

高通量測序平臺產(chǎn)生的短序列就稱為reads。PE125，就是讀長為125bp雙端測序。

什么是測序深度和覆蓋度？

測序深度（Sequencing Depth）：測序得到的堿基總量（bp）與基因組大小（Genome）的比值，它是評價測序量的指標(biāo)之一。假設(shè)一個基因大小為2M，測序深度為10X，那么獲得的總數(shù)據(jù)量為20M。也可以理解為被測基因組上單個堿基被測序的平均次數(shù)。

測序的覆蓋度（coverage）：是指測序獲得的序列占整個基因組的比例，也可理解為對目的基因的覆蓋程度。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在，測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域，這部分沒有獲得的區(qū)域就稱為Gap。例如一個細菌基因組測序，覆蓋度是98%，那么還有2%的序列區(qū)域是沒有通過測序獲得的。

什么是單端測序、雙端測序？

Roche 454，Solexa和ABI SOLID均有單端測序和雙端測序。以solexa為例，對單端測序(Single-end)和雙端測序(Paired-end和Mate-pair)進行介紹。

單端測序(Single-end/SE)：首先將DNA樣本進行片段化處理形成200-500p的片段，引物序列連接到DNA片段的一端，然后末端加上接頭，將片段固定在flowcell上生成DNA簇，上機測序單端讀取序列。

Paired-end（PE）：指在構(gòu)建待測DNA文庫時在兩端的接頭上都加上測序引物結(jié)合位點，在第一輪測序完成后，去除第一輪測序的模板鏈，用對讀測序模塊引導(dǎo)互補鏈在原位置再生和擴增，以達到第二輪測序所用的模板量，進行第二輪互補鏈的合成測序。

Mate-pair（MP）：文庫制備旨在生成一些短的DNA片段，這些片段包含基因組中較大跨度(2-10k)片段兩端的序列，更具體地說：首先將基因組DNA隨機打斷到特定大小（2-10k范圍可選）；然后經(jīng)末端修復(fù)，生物素標(biāo)記和環(huán)化等實驗步驟后，再把環(huán)化后的DNA分子打斷成400-600p的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫，然后上機測序。

當(dāng)你在進行基因組重測序時，可能會遇到這些問題：

什么是SNP、SNV？

SNP：即單核苷酸多態(tài)性（single nucleotide polymorphism），個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態(tài)性，是研究人類家族和動植物品系遺傳變異的重要依據(jù)。人基因組上平均每1000個核苷酸即可能出現(xiàn)1個單核苷酸多態(tài)性的變化，其中有些單核苷酸多態(tài)性可能與疾病有關(guān)，但大多數(shù)與疾病無關(guān)。

SNV: 即單核苷酸位點變異（single nucleotide variants），相對于正常組織，癌癥中特異的單核苷酸變異是一種體細胞突變（somatic mutation），稱做SNV。

什么是INDEL？

基因組上小片段（>50bp）的插入或缺失，形同SNP/SNV。

什么是CNV、SV？

CNV：即基因拷貝數(shù)變異（copy number variation），是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。

SV：即基因組結(jié)構(gòu)變異（structure variation ），主要包括染色體大片段的插入和缺失（引起CNV的變化），染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換，兩條染色體之間發(fā)生重組（inter-chromosome trans-location）等。

什么是SD區(qū)域？

SD區(qū)域：指串聯(lián)重復(fù)（Segment duplication），由序列相近的一些DNA片段串聯(lián)組成。在人類染色體Y和22號染色體上，有很大的SD序列。

當(dāng)你在進行轉(zhuǎn)錄組數(shù)據(jù)分析時，可能會遇到這些問題：

什么是轉(zhuǎn)錄本？為什么一個基因可以有多個轉(zhuǎn)錄本？

轉(zhuǎn)錄本其實就是基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。但我們平常通過數(shù)據(jù)庫查找某個基因的相關(guān)信息時，會發(fā)現(xiàn)該基因有多個轉(zhuǎn)錄本。為什么一個基因可以有多個轉(zhuǎn)錄本呢？

這是因為剪接方式不同造成的。基因轉(zhuǎn)錄之后，先形成前體mRNA，通過剪切內(nèi)含子連接外顯子，5’端加帽及3’端加尾之后形成成熟的mRNA。但在剪切的過程中可能會剪切掉外顯子，也有可能保留部分內(nèi)含子，這樣就形成了多種mRNA即多個轉(zhuǎn)錄本。

什么是RPKM、FPKM？

RPKM和FPKM都用來表示基因的表達量。

RPKM: Reads Per Kilobases per Millionreads，代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)，用于表示基因的表達量。

FPKM：Fragments per Kilobase Million，F(xiàn)PKM意義與RPKM很相近，二者區(qū)別在于Fragments 與 Reads。

RPKM的誕生是針對早期的SE測序，F(xiàn)PKM則是在PE測序上對RPKM的校正。只要明確Reads 和 Fragments的區(qū)別，RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機后fastq數(shù)據(jù)中的每一條Reads，F(xiàn)ragments則是指每一段用于測序的核酸片段，在SE中，一個Fragments只測一條Reads，所以，Reads數(shù)與Fragments數(shù)目相等；在PE中，一個Fragments測兩端，會得到2條Reads，但由于后期質(zhì)量或比對的過濾，有可能一個Fragments的2條Reads最后只有一條進入最后的表達量分析。總之，對某一對Reads而言，這2條Reads只能算一個Fragments，所以Fragments的最終數(shù)目是Reads的1到2倍之間。

當(dāng)你想進行基因組/轉(zhuǎn)錄本組裝時，可能會遇到這些問題：

什么是Contig?

拼接軟件基于reads之間的重疊（overlap）區(qū)，拼接獲得的序列稱為Contig（重疊群）。

什么是Contig N50？

Reads拼接后會獲得一些不同長度的Contigs，將所有的Contig長度相加，能獲得一個Contig總長度。將所有的Contigs按照從長到短進行排序，如Contig 1，Contig 2，Contig 3...………Contig 25。然后按照這個順序依次相加，當(dāng)相加的長度達到Contigs總長度的一半時，最后一個加上的Contig長度即為Contig N50。

如：Contig 1+Contig 2+ Contig 3+Contig4=Contig總長度*1/2時，Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個判斷標(biāo)準。

什么是Scaffold?

基因組de novo測序，通過reads拼接獲得Contigs后，往往還需要構(gòu)建454 Paired-end庫或Illumina Matepair庫，以獲得一定大小片段（如3Kb、6Kb、10Kb、20Kb）兩端的序列。基于這些序列，可以確定一些Contigs之間的順序關(guān)系，這些先后順序已知的Contigs組成Scaffold。

什么是Scaffold N50？

Scaffold N50 與Contig N50 的定義類似。Contigs 拼接組裝獲得一些不同長度的Scaffolds 。將所有的 Scaffolds長度相加，能獲得一個Scaffolds總長度。然后將所有的Scaffolds按照從長到短進行排序，再按照這個順序依次相加，當(dāng)相加的長度達到Scaffolds 總長度的一半時，最后一個加上的Scaffold長度即為Scaffold N50 。Scaffold N50也是基因組拼接的結(jié)果好壞的一個判斷標(biāo)準。

什么是基因組注釋？

基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具，對基因組所有基因的生物學(xué)功能進行高通量注釋，是當(dāng)前功能基因組學(xué)研究的一個熱點。基因組注釋的研究內(nèi)容包括基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。

基因組注釋分析主要包括以下方面

（1）重復(fù)序列的預(yù)測。通過比對已知的重復(fù)序列數(shù)據(jù)庫，找出序列中包含的重復(fù)序列，識別類型并轉(zhuǎn)化為N或者X，統(tǒng)計各種類型重復(fù)序列的分布。

（2）編碼基因的預(yù)測。通過將轉(zhuǎn)錄組或EST數(shù)據(jù)比對到拼接后的基因組序列上，找出編碼基因位置，預(yù)測編碼基因結(jié)構(gòu)。或者通過專業(yè)的外顯子預(yù)測軟件，預(yù)測編碼基因的外顯子結(jié)構(gòu)。

（3）小RNA基因的預(yù)測。通過比對已知的小RNA的數(shù)據(jù)庫，或者通過生物信息學(xué)軟件預(yù)測，找出這些小RNA基因，并進行分類。

（4）調(diào)控序列和假基因的預(yù)測。

基因功能的注釋，使用的數(shù)據(jù)庫包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等，使用比對的方法找出同源相近的基因，并注釋功能。

基因注釋用到的那些數(shù)據(jù)庫都是啥？

（1）NR/NT數(shù)據(jù)庫

NR/NT數(shù)據(jù)庫是NCBI上比較常用的數(shù)據(jù)庫。NR：非冗余蛋白序列數(shù)據(jù)庫，包括所有的GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。它以核酸序列為基礎(chǔ)進行交叉索引，將核酸與蛋白質(zhì)聯(lián)系起來。對于已知的或可能的編碼序列，NR記錄中都給出了相應(yīng)的氨基酸序列（由讀碼框推斷）。NT：非冗余核酸序列數(shù)據(jù)庫，是NR庫的子集。

NR和NT庫都可以通過NCBI進行在線BLAST，也可以在ftp://ftp.ncbi./blast/db地址中將數(shù)據(jù)直接下載下來。

（2）Swiss-Prot：是檢查過的、手工注釋的蛋白數(shù)據(jù)庫，它的所有序列都經(jīng)過科學(xué)家查閱文獻的核實。Swiss-Prot能提供詳細的蛋白質(zhì)序列、功能信息，如蛋白質(zhì)功能描述、結(jié)構(gòu)域結(jié)構(gòu)、轉(zhuǎn)錄后修飾、修飾位點、變異度、二級結(jié)構(gòu)等，同時提供其他數(shù)據(jù)庫，包括序列數(shù)據(jù)庫、三維結(jié)構(gòu)數(shù)據(jù)庫、2-D凝聚電泳數(shù)據(jù)庫、蛋白質(zhì)家族數(shù)據(jù)庫的相應(yīng)鏈接。

Swiss-Prot目前已合并到UniProt數(shù)據(jù)庫中，同TrEMBL 、PIR-PSD構(gòu)成UniProt數(shù)據(jù)庫的三大主庫。鏈接：http://www./