久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    RNA-seq這十年(3萬字長文綜述)

     祥強6csdm0n3vs 2019-08-06
    相信生信技能樹的粉絲對我在2019上半年舉行的十余場《我的生信五周年》演講應該是不陌生了,我入場生物信息學領域時轉錄組約人民幣2萬一個樣本, 目前均價不到1000。我差不多算是見證了時代的變遷,還僅僅是5年的跨度。相信你一定會感興趣RNA-seq這10年的變化
    寫在前面

    我們在生信菜鳥團公眾號舉辦的每周文獻精選活動,菜鳥團一周文獻推薦(No.20)廣受好評的是大神級的RNA-Seq綜述,題目:RNA sequencing: the teenage years ,所以在我們生信技能樹VIP交流群也得到了關注。

    當時就號召過群友翻譯,五天過去了,讀研筆記公眾號率先完成全部翻譯文稿,特發布給所有粉絲,如果是生信技能樹鐵粉應該是對讀研筆記不陌生,他在我們2018的statquest學習交流群脫穎而出。

    1. 另外強推他的StatQuest系列筆記,匯總目錄:https://mp.weixin.qq.com/s/cvA40tLtpIzb_z2xtLD3ig

    文獻信息

    本文是2019年7月份發表在《Nature Reviews Genetics》上的有關RNA-seq的綜述文章。
    文獻信息如下所示:
    Stark, R., et al. (2019). 'RNA sequencing: the teenage years.' Nature Reviews Genetics.

    摘要

    在過去的十年中,RNA測序(RNA-seq)已經成為在全轉錄組范圍內分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發展,RNA-seq技術也在不斷發展。現在,RNA-seq用于研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構組,structurome)。RNA-seq的其它應用也在開發中,例如空間轉錄學(spatialomics)。加上新的長讀長 (long-read,注:在本文中,RNA-seq測序生成的read統一譯為“讀長“)和直接RNA-seq(direct RNA-seq)技術以及用于數據分析的更好的計算工具的整合,RNA-seq技術的創新有助于人們更全面地理解RNA生物學,例如從何時何地轉錄發生到控制RNA功能的折疊和分子間相互作用等問題。

    前言

    RNA-seq技術出現于十年之前,自其誕生之日起,RNA-seq就成了研究分子生物學的普遍工具,這項技術幾乎構成了我們對基因組功能的認知基礎 。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)。從最早的出版期刊開始,DGE分析的基本階段就未發生實質性的改變

    在實驗室中,其標準流程就分為三步:

    第一步是構建測序文庫,這一步驟包括提取RNA,富集mRNA或清除核糖體RNA,合成 cDNA,加上接頭。

    第二步,在高通量平臺(通常是Illumina平臺)上對文庫進行測序,每個樣本的測序深度為10-30M讀長數(讀長這里就是前面說的reads)。

    第三步是數據分析,具體的工作是:對測序得到的讀長進行比對(aligning)和/或組裝到轉錄組上,對這些覆蓋了轉錄組的讀長進行過濾,歸一化(Normalization),根據統計模型找出那些在不同樣本之間有差異的轉錄本。早期的RNA-seq從大量的實驗樣本中產生了DGE數據,這充分說明了RNA-seq在廣泛的生物體以及系統中的使用,這些生物體包括玉米(Zea mays), 擬南芥(Arabiodopsis thaliana), 釀酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人類。雖然RNA-seq這個術語經常被用于那些完全不同的方法學方法和/或生物學,但是DGE分析仍然是RNA-seq(補充材料中的表1)的主要應用,并被視為常規研究工具。

    RNA-seq的更廣泛應用已經促進了我們對生物學多方面的理解 ,例如通過提示mRNA剪接和非編碼RNAs和增強子RNAs對基因表達的調控。RNA-seq的應用和進步是由技術發展(濕實驗室和計算生物學)驅動的,相對于以前的基因芯片,RNA-seq這種方法對RNA生物學和轉錄組產生更豐富并且偏見更小的信息。到目前為止,從標準的RNA-seq方法衍生而來的各種RNA-seq方法幾乎有100種。Illumina的短讀長(short-read)測序平臺能對這些由大部分不同方法的RNA-seq構建的文庫進行測序,但是最近長讀長(long-read)RNA-seq的與直接RNA-seq測序(direct RNA sequencing, dRNA-seq)的進步已經能夠解決以前研究人員使用短序列手段無法解決的一些問題。

    在這篇綜述中,我們首先會介紹一些最基本的短讀長RNA-seq中的DGE方法,再將這種基礎方法與最近新興的長讀長RNA-seq和dRNA-seq進行比較。我們會介紹短讀長測序方法在文庫制備方面的進展,以及實驗設計和DGE的數據分析方法。隨后我們會拓展這些常規的RNA-seq方法,介紹一些單細胞測序和空間轉錄組學的分析。我們會提供一些案例,介紹RNA-seq在RNA生物學方面的關鍵應用,包括轉錄組分析,翻譯動力學,RNA結構,RNA-RNA之間相互作用和RNA-蛋白質的相互作用。最后,我們會簡單描述一下RNA-seq的未來,以及單細胞和空間RNA-seq方法是否會像DGE分析一樣成為常規工具,長讀長測序方法是否會取代短讀長測序方法。由于篇幅限制,我們無法介紹所有的RNA-seq方法,在這些方法中,值得注意的是非編碼轉錄組學,原核轉錄組學(prokaryotic transcriptomes)和表觀轉錄組學(epitranscriptome)。

    RNA-seq技術的發展歷史

    Illumina的短序列讀長測序技術生成了SRA(Short Read Archive)中95%已表達的數據(附件表2)。由于cDNA的短序列讀長測序方法幾乎是一種常規的方法,因此 我們認為這是一種最基礎的 RNA-seq技術,我們先來討論這種測序主要流程與局限。不過,長讀長cDNA測序與dRNA-seq已經興起,隨著研究人員對能提供更豐富轉錄本水平方面(isoform-level)數據需求增大,這兩種新的測序方法有望對常規的短讀長測序方法提出挑戰(FIG1, TABLE1)。

    Table1-短讀長與長讀長RNA-seq平臺

    Figure 1-短讀長,長讀長和直接RNA-seq技術與工作流程

    Figure 1-短讀長,長讀長和直接RNA-seq技術與工作流程。
    (a)不同RNA-se方法的文庫制備,這些方法可以分為3種,分別是短讀長測序(黑色),長讀長測序(綠色),或長讀長直接RNA-seq(藍色)。根據使用的文庫制備方法不同,文庫制備會表現出相應的復雜性和偏倚。短讀長與長讀長cDNA文庫在制備時有一些步驟是相同的,不過所有的方法都需要一個接頭連接步驟,并且它們都受到樣本質量和文庫上下游計算問題的影響。
    (b)三種主流的RNA-seq測序方法。
    Illumina的工作流程(左邊):文庫制備好后,每個cDNA就會在一個泳道(flowcell)上通過合成來聚集成簇,其中合成的過程使用3'阻斷的熒光標記的核苷酸。在每一輪測序的過程中,新合成的DNA鏈就會被成像,從而檢測出參與合成的是哪種核苷酸,這種測序方法產生的讀長是50-500bp。
    Pacific Biosciences工作流程(中間):文庫制備好后,每個分子被加載到一個測序芯片上,在芯片上這些分子與固定到納米孔(nanowell)底部的聚合酶進行結合。隨著每一個熒光標記的核苷酸被整合到新合成的鏈上,這些核苷酸發出的熒光就會被檢測到,這種方法產生的讀長為50kb。
    Oxford納米孔工作流程(右邊):文庫制備好后,每個分子被加載到流動室(flowccell)中,流式室中含有馬達蛋白,馬達蛋白固定在流動室中,它可以與文庫的接頭結合。馬達蛋白控制RNA鏈通過納米孔,從而造成納米孔中電流的改變,這種技術產生的讀長為1-10kb。
    (c) 短讀長、長讀長與直接RNA-seq分析的比較。超過90%的人類基因(gene n)存在可變剪接,它們會形成兩個或更多的可表達異構體(轉錄本x與y)。短讀長cDNA測序中就增加了捕獲信息的復雜性,短讀長對異構體的檢測會受到其讀長的限制,在這種技術里,短讀長無法精確地回貼(注:測序分析方法中的術語“map“在本文中都譯為”回貼“)到轉錄組上,而長讀長測序方法則能直接鑒定異構體。在短讀長cDNA測序中,有很大比例的讀長會不明確地回貼到不同異構相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構體的分析效果,但是當不同的異構體都含有這個連接處時,這種操作意義不大。這些問題都加劇了數據分析的復雜性,以及無法對結果進行明確地解釋。長讀長cDNA方法能夠產生全長的異構體讀長,從而去除或大幅度降低這些不精確的結果,并改進差異異構表達的分析結果。然而這些方法依賴于cDNA的轉換,它去除了RNA堿基的修飾信息,并且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度。直接RNA-seq可以進行全長導構體分析,堿基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計。

    短讀長cDNA測序

    短讀長已經成了在整個轉錄組范圍內對基因進行檢測和定量的事實方法(de facto method),部分原因是這種方法比芯片成本更低,操作更方便,但是其主要原因還是因為這種方法能生成更全面,更高質量的數據,這種方法能夠 對整個轉錄組中的基因表達水平進行定量。使用Illumina短讀長測序平臺進行DGE分析的核心步驟包括:RNA提取、cDNA合成、接頭連接、PCR擴增、測序和數據分析(FIG1)。在這個過程中,存在打斷片段,片段長度選擇和基于磁珠的文庫純化這些操作,因此這種方法產生的cDNA片段通常都是在200bp以下。RNA-seq文庫的測序讀長分配到每個樣本上的話,每個樣本會測到平均20-30 million條讀長(reads)(也就是常說的20-30M條讀長),數據經過處理后,使用這些讀長對每個基因或轉錄本進行定量,最后再用統計學方法來統計基因的差異。短讀長RNA-seq方法很穩健,并且通過對短讀長測序技術的大范圍比較發現,這種技術在平臺內和平臺間的相關性很好。但是,在樣本制備和數據分析這兩個階段會引入一些干擾和偏倚。這種局限可能會影響通過實驗來解決特定生物學問題的能力,例如準確識別和量化多個異構體中的哪個來源于一個基因。對于研究那些非常長,高度可變的轉錄本異構的人來說,這種局限表現得尤為明顯,例如在人類轉錄組研究中;人類轉錄本的長度范圍是109bp到186kb,其中50%轉錄本長度大于2500bp。盡管短讀長RNA-seq可以對最長的轉錄本進行詳細的分析,但是涉及的實驗方法不能擴展到全轉錄組分析。其他的偏倚與局限來源于那些大量的計算方法,這些方法包括例如如何處理模糊或多個回貼的讀長(multi-mapped reads)。現在出現了一種合成長讀長(synthetic long reads)的新方法,這種方法可以實現全長的mRNA測序,并試圖解決其中的一些局限。這種方法使用了唯一分子標識符(unique molecular identifiers,UMI)來標記全長的cDNA,在制備短讀長RNA文庫之前,加入的UMI會隨著單個cDNA分子而進行復制。轉錄本異構體可以在高達4kd的contigs中重建,用于發現異構體和表達分析。但是,對于從根本上解決短讀長cDNA測序固有局限的最可能解決方案則是長讀長cDNA測序和dRNA-seq測序 。

    長讀長cDNA測序

    雖然Illumina測序目前是占主導地位的RNA-seq平臺,但PacBio和Oxford Nanopore(ONT)公司都提供了可供選擇的長讀長技術,能夠對完整的單個RNA分子進行單分子水平級的測序。通過消除短RNA-seq測序數據的組裝這一步,這些新方法克服了短讀長測序方法相關的一些問題。例如,減少了測序讀長回貼過程中的歧義,并且可以識別更長的轉錄本,這樣就能獲取更完整的異構體多樣性信息。這些方法還能降低許多短讀長RNA-seq計算工具中關于剪接連接的假陽性。

    PacBio的Iso-Seq技術可以讀取最高可達15kb的轉錄本的全長cDNA,這就有利于發現大量以前未注釋的轉錄本,并通過檢測物種的全長同源序列證實了早期的基因預測。在標準的Iso-Seq操作流程中,高質量的RNA被一個模板切換凝聚力轉錄酶(a template-switching reverse transcriptase)反轉錄為全長的cDNA。生成的cDNAs再經過PCR擴增,加入到PacBio的單分子實時(single-molecule, real-time)文庫制備系統中。制備好的短轉錄本序列可以很快地擴散到測序芯片的活性表面,但由于短轉錄本的測序存在偏倚,因此在對轉錄本進行測序時,建議選擇片段的長度是1到4kb,這樣就能在此范圍對長轉錄本和短轉錄本進行更加均勻地采樣。由于PacBio測序方法需要大量的模板,因此需要進行多輪PCR,不過這一操作還需要進行優化,從而降低擴增導致的偏倚。經過PCR的末端修復和PacBio SMRT接頭連接后,就可以進行長讀長測序了;通過修改測序芯片的上樣條件,就可以在這一步驟進一步控制測序片段長度。

    ONT cDNA測序方法也能產生全長的轉錄本讀長,甚至還能在單細胞水平上產生該讀長。模板轉錄逆轉錄酶也在這種方法中用于制備全長cDNA,制備好的cDNA可以選擇使用PCR來進行擴增,隨后在產物上加上接頭,形成測序文庫。直接cDNA測序會消除PCR偏倚,從而形成高質量的測序結果;但是,如果使用PCR來制備測序文庫的話,需要的RNA數量更少。ONT cDNA測序法尚未報道過在PacBio測序儀上觀察到的片段長度偏倚。

    這兩種長讀長cDNA方法都受到標準模板切換逆轉錄酶使用的限制,這種逆轉錄酶能用全長RNA以及截短的RNA來生成cDNA。逆轉錄酶可以將那些只含5?帽子結構的mRNA置換為cDNA,這樣的話,那些由于RNA降解,RNA剪接或不完全cDNA合成而生成的短轉錄本就不會被反轉錄為cDNA,從而提高數據質量。但是,有報道指出,逆轉錄酶會對ONT平臺的讀長產生不良影響。

    長讀長直接RNA測序

    前面我們提到了長讀長測序方法,這種測序方法與短讀長測序平臺一樣,它們都依賴于將mRNA轉換為cDNA。而最近Oxford Nanopore指出,他們的納米孔測序技術可以直接對RNA進行測序,也就是說,這種測序手段不需要常規測建庫過程中的的cDNA的合成和/或PCR擴增操作。這種方法稱為dRNA-seq,這種方法就消除了常規建庫過程中的偏倚,并且能夠保留表觀遺傳學信息。這種方法可以從RNA直接進行兩個接頭的連接來制備文庫。首先,帶有一個oligo(dT)懸臂的雙鏈核酸接頭退火并連接到RNA的多聚腺苷酸(PolyA)尾部,隨后就是可選(但不推薦的)的逆轉錄操作,這一步用于提高測序的通量。第二個連接操作就是添加測序接頭,這個測序接頭上已經提前安裝有驅動測序的馬達蛋白。文庫隨后進行MinION測序,其中RNA直接從3?poly(A)尾部向5?cap端進行測序。最初的研究表明,dRNA-seq的測序長度過超過1000bp,最大測序長度過超過10kb。與短讀長測序相比,這種長讀長測序的幾個優勢在于:長讀長測序可以提高對異構體的檢測,并且它們還可以用于下方代碼poly(A)尾巴的長度,這對于可變poly(A)分析( alternative poly(A) analysis)來說非常重要。Nanopolish-polya這個工具可以對那些用納米孔測序得到的數據進行分析,計算出poly(A)尾的長度,這就包括基因之間的長度,也包括轉錄亞型之間的長度。這種分析證實了,保留內含子的轉錄本比完全剪接的轉錄本具有略長的poly(A)尾巴。雖然dRNA-seq還處于起步階段,但是它具有檢測RNA堿基修飾的潛力,因此它的應用潛力巨大,尤其是能夠對表觀遺傳學轉錄進行新的分析。

    長讀長與短讀長技術的比較

    雖然長讀長技術在評估轉錄本方面比短讀長技術有一些明顯的優勢,但是長讀長技術也有一些明顯的局限。尤其是與短讀長技術相比,長讀長技術的測序通量更低,錯誤率更多。但長讀長技術的主要優勢在于,它們能夠捕獲更多的單個轉錄本,不過這依賴于高質量的RNA文庫。總體來說,這些局限影響了那些完全依賴于長讀長測序實驗的靈敏性(sensitivity)與特異性(specificity)。

    長讀長測序方法的主要局限就是當前的通量。在Illumina平臺上,運行單次的RNA-seq可以生成10E9-10E10條短讀長,但是在PacBio和ONT平臺上,一次RNA-seq則只能產生10E6-10E7條讀長。這種低通量限制了應用長讀長測序技術進行實驗的規模,并降低了對差異基因表達檢測的靈敏性。然而,并非所有的實驗都需要高深度測序。對于那些主要研究異構體的發現以及其特征的研究者們來說,測序長度比測序深度更重要。例如1百萬個PacBio環形一致性測序(circular consensus-sequencing, CCS)的讀長幾乎就可以保證產生那些大于1kb的高表達基因的檢測,ONT測序技術也是如此。因此,對于那些低到中等水平表達的基因來說,測序深度確實是一個主要問題。當進行同期功能基因組學分析(contemporary functional genomics analysis)大規模的DGE實驗時,這種低通量測序技術的局限就會表現得明顯。在這些研究中,必須對多個樣本組進行分析,每組就是由多個生物學重復構成的,這樣就能夠實現充分的統計功效來有確認那些在整個轉錄組水平上發生的精確變化。對于這種需求,長讀長技術不太可能取代短讀長技術,除非長讀長的測序讀長的生成量能提高2個數量級。隨著全長RNA-seq讀長數目的增加,轉錄本檢測的靈敏度將會增加到類似于Illumina平臺上的這種水平,并同時具有更高的特異性。與此同時,通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結合(并且可能還與ONT方法結合),可以增加全長RefSeq注釋的異構體檢測的數量、靈敏性和特異性,同時保留轉錄本量化的質量。雖然長讀長RNA-seq方法目前的實驗成本較高,但它們可以檢測到短讀長方法遺漏的異構體,尤其是那些難以測序但與臨床相關的區域,例如高度多態的人類MHC或雄激素受體。

    長讀長測序平臺的第二個主要局限就是其更高的錯誤率,它比成熟的Illumina測序儀要高出一到兩個數量級。長讀長測序平臺上生成的數據還包含更多的插入-刪除錯誤。雖然這些錯誤與識別變化(variant calling)有關,但在RNA-seq中,每個堿基都被正確識別并非那么重要而長讀長測序的目標是要闡明轉錄本和異構體(While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms)。這種錯誤率對于其應用來說確實是一個值得觀注的問題,現在正在解決這一問題。PacBio SMRT測序平臺上出現的隨機錯誤通常可以通過使用CCS增加測序深度來進行解決,在這種技術里,cDNA經過長度選擇和接頭進行環化后,每個分子就可以被多次測序,從而產生長度范圍是10-60kb的連續長讀長,并且包含許多原始cDNA的拷貝。這些長讀長經過數據分析后就被處理為單個cDNA子子讀長(subreads),這些子讀長被組合后就可以產生一致的序列。分子測序的次數越多,產生的錯誤率就越低;CCS已經被證明可以將錯誤率降低到與短讀長相當的水平,甚至更低。但是,將更多的這個平臺的測序能力用于重新讀取相同的分子,就又加劇了其測序通量的問題,因為可以讀取的唯一轉錄本變得更少了。

    長讀長RNA-seq方法的靈敏度還受到其他幾個因素的限制。首先,它們依賴于長RNA分子以全長轉錄本的形式進行測序,但是要達到這種情況并非總能實現,因為在樣品處理和RNA提取過程中RNA會發生降解或剪接。這種情況在短讀長RNA-seq中也存在(3?端的偏倚),但這種問題在短讀長中是可控的,對于全長轉錄組分析進行研究的研究者們來說,即使是低水平的RNA降解,也能限制長讀長的RNA-seq效果。因此,對于那些即將使用長讀長進行測序的研究者來說,需要仔細地對提取的RNA進行質控。其次,中位數的讀長長度會進一步受到文庫制備中的技術問題與偏倚的限制,例如有些cDNA合成的截斷或某些cDNA是由降解的mRNA合成的,最近開發的高效逆轉錄酶對此有所改進,這些酶有著更高的鏈特異性,甚至能夠產生更多的3?-5?轉錄本的覆蓋。雖然這些酶還未被廣泛使用,但是這些高效逆轉錄酶也提高了結構穩定的RNAs,例如tRNAs的覆蓋率,在oligo-dT和全轉錄組分析(WTA)方法中使用的逆轉錄酶很難處理這些結構穩定的RNAs。第三,長讀長測序平臺固有的偏倚(例如長文庫分子在測序芯片表面上的低擴散)會降低更長轉錄本的覆蓋率。

    長讀長方法(使用cDNA或dRNA-seq)解決了用于異構體分析的短讀長測序方法中的一個基本問題,即它們的讀長長度。長讀長方法可以生成從Poly(A)尾部到5?cap的跨異構體的全長轉錄本讀長。因此,這些方法使得分析轉錄本及其異構體成為可能,從而無需從短的讀長中重構它們或推斷它們的存在;每個測序的讀長僅僅代表了它的起始RNA分子。全長cDNA測序或dRNA-seq用于分析DGE的未來應用將依賴于PacBio和ONT技術的更高通量。長讀長RNA-seq分析正被研究者們迅速采用,并與深度短讀長RNA-seq數據結合起來,用于更全面的分析,這非常類似于基因組組裝所采取的混合方法。隨著時間的推移,長讀長和dRNA-seq方法可能會用于證明已經鑒定的基因和轉錄本的列表,即使在研究很透的生物中,對于基因和轉錄本的研究也還遠遠不夠。隨著方法的成熟,以及測序通量的增加,差異轉錄本分析將會成為常規方法。合成長讀長RNA-seq或其它技術的發展將對這個領域產生什么樣的影響,還有待觀察。然而從目前來看,Illumina短讀長RNA-seq依然占據了主導地位,在這篇綜述的剩下部分中我們將會集中討論短讀長測序。

    改良RNA-seq建庫方法

    RNA-seq最初用于分析多聚腺苷酸化的轉錄本,使用的方法源于早期的表達序列標簽(expressed-sequence tag)和芯片研究。然而,下一代測序的使用指出了這些方法的局限性,而這些局限性在芯片數據中并不明顯。因此,在RNA-seq首次報道后不久,就有研究報道了文庫制備方法的一些重大進展。例如,在cDNA合成之前,對RNA進行片段化可以產生3?:5?偏倚,鏈特異性文庫制備方法能夠更好的區分正義鏈與反義鏈,這些改進都能夠對轉錄本豐度進行更準確的估計。RNA片段化和鏈特異性文的制備很快就成了RNA-seq文庫制備試劑盒中的標準方法。這里我們簡要描述了其它RNA-seq方法的改良,使用這些改進方法的可以讓研究者們根據他們的生物學問題以及特定樣本進行選擇。這些改進的方法包括在選擇RNA進行測序時,取代dligo-dT富集的替代方法,或者是那些專門選擇轉錄本的3?或5?末端的方法,或者是使用UMIs進行區分技術重復和生物重復的方法,以及針對RNA易降解特性改良的文庫制備方法。這些方法的組合可以使研究者們闡明由可變poly(A)(alternative poly(A),APA),或替代啟動子(alternative promoter)使用和可變剪接(alternative splicing)生成的復雜轉錄本。

    Poly(A)富集的替代方法

    大多數發表的RNA-seq數據都是基于oligo-dT富集的mRNA方法,這種方法會選擇包含poly(A)尾的轉錄本,并將集中測序測序那些在轉錄組的蛋白質編碼區上。不過這種方法除了產生3?偏倚外,RNA中還有許多非編碼RNA,例如miRNA和增強子RNA,這些RNA不含有poly(A),因此不能使用這種方法進行研究。如果不進行poly(A)富集也無法達到目的,因為這會導致高達95%的讀長來源于rRNA。因此,研究者們可以選擇使用oligo-dT用于mRNA-seq,或者是剔除rRNA后進行WTA。短的非編碼RNAs無法被oligo-dT方法捕獲,使用WTA也很難對其進行研究,因此在研究非編碼短RNA時需要特定的小RNA方法,這些方法主要是通過順序RNA連接(sequential RNA ligation)實現的(通常小RNA建庫試劑盒中就有相應的說明)。

    WTA生成的RNA-seq數據來源于編碼和一些非編碼RNA。RNA的部分降解也能使用這種方法進行測序,RNA的降解會導致一些poly(A)從轉錄的末端分離。rRNA的去除有兩種方法,一種是將rRNAs從其它RNA中剔除掉(所謂的pull-out法),另一種就是使用RNAse H酶來對rRNA進行降解。這兩種方法都是使用序列特異性和物種特異性寡核苷酸探索來實現的,這些探針能與細胞質rRNA(5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和線粒體rRNA(12S rRNA和16S rRNA)互補。為了簡化人類,大鼠,小鼠或細菌(16S和23S rRNA)樣本的處理,通常將預先混合的寡核苷酸添加到RNA中,然后讓它們與rRNA進行雜交,以便進行下一步的清除。其它高豐度的轉錄本,例如珠蛋白(globin)或線粒體RNA也可以按照類似的方法去除。pull-out方法結合了生物素化的探針和鏈霉素包裹的磁珠,它們可以用于除去寡聚的rRNA復合物,留下剩余的RNA用于建庫例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher,USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA復合物,例如,NEBNext RNA depletion(NEB,USA)和RiboErase(Kapa Biossystems,USA)。最近對這些方法的比較說明,在高質量的RNA中,這兩種方法都可以將rRNA降低至后續RNA-seq讀長的20%以下。但是,作者說明了,RNase H方法比pull-out法的穩定性要強,并且比較不同試劑盒時,最后得到的DGE長度的偏倚比較明顯。作者還描述了另外一種類似于RNase H的方法,這種方法表現不錯,并且以前沒有報道過。ZapR方法是Takara Bio的一項專有技術,它使用一種酶來降解RNA-seq文中的rRNA片段。rRNA剔除方法的一個局限是,相比對oligo-dT RNA測序方法,rRNA剔除方法需要更高的測序深度,主要是因為里面還會存有一定的rRNA。

    Oligo-dT和rRNA剔除法都可以用于后續實驗的DGE分析,研究者們可能會默認使用以前在他們的實驗室中使用的方法或最容易使用的方法。然而,對于這些方法的使用應該考慮一些因素,尤其是那些易降解的樣本,另外,WTA方法會檢測到更多的轉錄本,但是其實驗成本要高于oligo-dT方法。

    富集的RNA 3?末端用于Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis.)

    標準的短讀長Illumina方法需要對每個樣本生成1000萬到3000萬條(10M到30M條)讀長用于高質量的DGE分析。對于那些專注于基因水平表達,并從事大型或高度重復實驗的研究者們,或資源受限的研究者來說,可以選擇使用3?tag計數。由于測序集中在轉錄本的3?末端,因此需要的讀長(reads)更少,這就降低了成本,并且一次測序的樣本數目也可以更多。富集的3?末端也可以用于確定單個轉錄本的poly(A)位點,而由于mRNA前體上存在的APA,其3‘末端可能會發生變化。(群主批注:目前單細胞轉錄組商業王者10X就是采用這種方法,僅僅是對3?末端測序)

    3? mRNA-seq方法會產生每個轉錄本的單個標簽讀長(tag read),這些讀長來源于3?末端,這個標簽(tag)豐度與轉錄本的豐度是成正比的。標簽測序法(tag-sequencing protocols),例如QuantSeq(Lexogen, Austria)通常比標準RNA-seq法流程更為簡單。標簽測序法已經進行了優化,這種方法使隨機引物或錨定的oligo-dT-primed來進行cDNA合成,從而并不需要poly(A)富集這一步驟,并在cDNA合成后立即進行PCR,從而取代了接頭連接步驟。這種方法可以在低測序深度上實現與標準RNA-seq類似的靈敏度水平,因此,這種方法可以使用多路復用的形式實現多個文庫的同步測序。這種建庫方法的數據分析也進行了簡化,因為不需要外顯子連接檢測和基因長度測序讀長的歸一化。但是,3? mRNA-seq方法可能會被受到轉錄本同聚區(homopolymeric regions0的影響,這會導致錯誤標簽;這種方法只能提供非常有限的異構體分析,這就會抵消它們較低測序深度帶來的任何成本收益,尤其是對于那些僅夠一次使用的樣本來說。

    mRNAs的APA化會產生3? UTR長度不等的異構體。對于一個特定的基因來說,它不僅產生了這個基因的多個亞型,而且由于3?UTR中存在著順式調控元件,這也會影響該轉錄本的調控。這種方法可以使用那些研究APA的研究者們更詳細地研究miRNA的調控作用,mRNA的穩定和定位,以及mRNA的翻譯。APA法指在富集轉錄本的3?末端,從而提升信號與靈敏度,而前面提到的標簽測序法非常適合此目的。其它方法多聚腺苷酸位點測序(polyadenylation site sequencing,PAS-seq),這種方法可以將mRNA打斷為150bp左右的片段,并且使用oligo-dT標記的模板轉換來生成cDNA用于測序,其中的80%讀長就來源于3?UTR。TAIL-seq方法能不使用oligo-dT,在對RNA進行打斷之前,這種方法會剔除rRNA,并將3?-RNA接頭連到的poly(A)的尾部。當片段化后,再加上5?-RNA接頭就完成了RNA-seq文庫的制備。在RNA-蛋白分析方法中也能評估APA,例如紫外交聯免疫沉淀(cross- linking immunoprecipitation, CLIP)測序。

    富集的RNA 5?末端用于起始位點回貼(Enriching RNA 5?ends for transcription start- site mapping)

    使用富集7-甲基鳥苷5?加帽RNA(7-methylguanosine 5?-capped RNA)也可以進行DGE分析,這種方法可以用來鑒定啟動子和轉錄起始位點(TSSs)。現存有幾種方法都可以實現這個目的,但是這些方法很少作為常規手段來進行使用。在對基因表達的加帽分析(CAGE, cap analysis of gene expression),以及用于基因表達分析的啟動子的RNA注釋和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中,當使用隨機引物生成第一鏈cDNA后,mRNA 5?的帽子結構就被生物素化,這就可以將5? cDNA通過鏈霉親和素進行富集。CAGE使用II型限制性內切酶來生成短的cDNA標簽,這種酶會從5?端的接頭下游切割21-27p的核核苷酸。相比之下,RAMPAGE操作則使用模板轉換(template switching)來生成較長的cDNA,這個cDNAs隨后被富集起來,用于測序。單細胞標簽逆轉錄測序技術(single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細胞水平上實現TSS的回貼(mapping)。STRT-seq技術使用生物素化的模板轉換oligos來生成cDNA,被磁珠捕獲后,就在5?末端進行片段化,產生短的cDNA標簽。作為CAGE基礎的5?末端的加帽技術是由日本理化所(Riken)開發的,這種技術用于早期功能基因組學實驗中,使全長cDNA克隆數量最大化。日本理化所主導的小鼠功能注釋(FANTOM, Functional Annotation of the Mouse)協會通過闡明了1300多個人類和小鼠原代細胞,組織和細胞系的TSS,這充分顯示了CAGE的強大。在最近一些方法比較中,CAGE也表示不俗。但是作者卻報道說,僅使用5?末端測序產生的假陽性TSS峰也是最多的,他們建議使用正交方法進一步來確認陽性,例如DNase I的回貼或H3K4me3染色質免疫沉淀測序(ChIP-seq)。

    使用唯一分子標識符來檢測PCR重復

    RNA-seq數據通常具有較高的重復率(duplication rates),也就是說許多測序讀長會回貼到轉錄組的相同位置。與全基因組測序不同的是,在全基因組測序中,重復的讀長被以認為是PCR這一步中出現的技術偏倚導致的,它會被移除,而在RNA-seq中,這些重復的讀長則被認為是真正的生物學信號并被保留。在一個樣本中,數百萬個起始RNA分子也許代表了高表達的轉錄本,當對cDNA進行測序時,就會發現很多片段是相同的。因此,在比對(alignment)過程中,并不建議通過計算去除那些不必要的重復,因為這些重復中很多是真正的生物信號。當使用單端測序(single-end sequencing)時更是如此,因為一對片段中只要一端相同,就可以被認為是一個重復(duplicate),至于雙端測序(paired-end sequencing),兩端必須在同一位置時才能被認為是一個重復,但這種情況很少。但是,由于PCR偏倚,在制備cDNA文庫時,還會存在著某種程度上技術重復,并且PCR復制偏倚是一種質控問題,它有可能對RNA-seq實驗結果造成影響時,很難區分出這些技術重復與生物重復的程度。

    現在已經提到將UMIs作為一種解釋擴增偏倚的方法。在擴增前將隨機UMIs添加到cDNA分子中,使得能夠確認PCR重復,并且可以在后續的數據分析中將其除去,同時保護真正的生物學重復,從而改善基因表達的量化和等位基因頻率估計的效果。當一對測序讀長被確認為一個技術重復時,它們應該包括相同的UMI,并且被回貼到轉錄組中相同的位置(一端或兩端,這取決于使用的是單端測序還是雙端測序)。

    UMIs已經被證明能夠降低變異和錯誤發現率來提升RNA-seq中的DGE數據分析,并且這種方法在單細胞數據分析方面也有著重要作用,單細胞數據中的擴增偏倚可能更為嚴重。當試圖在RNA-seq數據中進行變異檢測(variant calling)時,UMIs也非常有用。雖然高表達的轉錄本可以產生適合這種變異檢測的高覆蓋率,尤其是包含了了這種重復時,但UMIs可以用于去他可能導致第二位基因頻率錯誤計算的擴增假象。UMIs正在成為單細胞RNA-seq(scRNA-seq)的文庫制備試劑盒中的標準,同時它也日益頻繁地用于常規RNA-seq。

    提高降解RNA的分析

    RNA-seq文庫制備方法的發展也改進了低質量或降解RNA的分析,例如從臨床相關獲得的那些用福爾馬林固定石蠟包埋(FFPE)塊存儲的樣本中的RNA。低質量的RNA會導致不均勻的基因覆蓋率,更高的DGE假陽性率和更高的重復率,它們與文庫的復雜性呈負相關。但是,文庫的制備方法已經被改良,改良后的方法能降低RNA降解的影響。這些方法可能在基于RNA-seq的診斷技術的發展中顯得尤為重要,例如將來有可能出現的類似于OncotypeDX(目前并不是測序分析)的診斷,這種試劑盒基于21個基因RNA的標簽來預測乳腺癌的復發。雖然現在有幾種方法可以使用,但是比較后發現兩種方法表現最好,即RNase H與RNA exome。我們前面提到,RNase H法使用核酸本科來降低RNA:DNA復合物中的rRNA,但是它卻能阻止mRNA的降解。RNA exome方法使用類似于外顯子測序(exome sequencing)那樣的方法,使用寡核苷酸探針來捕獲RNA-seq文庫分子。這兩種方法都能通過減少rRNA,同時不影響mRNA的手段來產生高質量和高度一致的基因表達數據。3?末端標記測序技術與擴增子測序(在PCR擴增中能產生超過2萬個外顯子擴增子)方法也可以用于分析降低的RNA,但是這兩種方法并沒有RNase H方法使用廣泛。

    設計更好的RNA-seq實驗

    仔細設計DGE RNA-seq實驗對于獲取高質量和生物意義數據有著非常重要的意義。尤其是要考慮到復制的層次,測序深度以及單端還是雙端測序。

    重復與實驗功效(replication and experimental power)

    在一個實驗中,足夠的生物學重復(biological replicates)能夠捕獲不同樣本之間的生物學變異;在定量分析中的置信度依賴于測序深度與讀長長度。雖然RNA-seq比芯片表現了更低的技術偏倚,但是生物系統中固有的隨機變化都要求任何RNA-seq實驗要做生物學重復。使用額外的重復能夠確定異常樣本,在必要情況下,在進行生物學分析之前,移除這些異常樣本或降低這些異常樣本的權重。確定生物學重復需要考慮幾個因素,包括效應大小(effect size),組內變異,可接受的假陽性和假陰性閾值,以及最大樣本數目,有的時候還需要RNA-seq實驗設計工具或功效(power)計算工具的輔助。

    在一個實驗中要想確定一個合適的生物學重復并非是一件簡單的事情。一項48個重復的酵母研究表明,當使用3個生物學重復時,計算樣本用于DGE分析的工具只能檢測出20-40%的差異表達基因。研究表明,至少應該使用6個生物學重復,這個數量要超過文獻中常用的3到4個生物重復的數量。最近的一項研究表明,4個生物學重復可能足夠的,但是研究指出,在確定合適的重復數目之前,需要做一個預實驗來確定生物樣本的方差。對于高度多樣化的樣本,例如來自癌癥患者腫瘤的臨床組織,可能需要更多的重復,以便能以更高的置信度來確定基因的變化。

    確定合適的讀取深度(Determining the optimal read depth)

    一旦文制備好,就需要決定對它們進行多深的測序。讀取深度指的是,每個樣本獲得的測序讀長的目標數目。對于真核基因組中的常規RNA-seq DGE分析來說,一般認為每個樣本需要100萬-300萬條讀長(也就是我們常說的10M到30M數量)。但是,在多個物種中的實驗結果顯示當每個樣本的測序讀長數量為1M時,那么這個數量級的測序讀長提供的轉錄本豐度信息與轉錄組中表達最高表達量的一半的轉錄本30M測序提供的豐度信息類似。如果實驗的重點是關注那些最高表達相對較大變化的基因,并且如果有足夠的生物學重復,那么就可以使用較低深度的測序就能解決驅動實驗的假設。測序完成后,通過檢查讀長在樣本之間的分布以及檢查飽和曲線就能評估進一步的測序能夠增加實驗的靈敏度。隨著測序通量的增加,為了控制技術偏倚,可以將一個實驗的所有樣本都添加一個“混合”文庫中進行測序,這已經成了標準做法。一次測序所需要讀長總數則是樣本數乘以讀取深度;然后根據生成所需的讀長總數來對這個混合文庫進行多次測序。這種合并需要嚴格檢測每個樣本RNA-seq文庫的濃度,并假設每個文庫中的cDNA量相對均值(低方差),因此總的讀長數目就會平均地分布在每個樣本上。在進行一次昂貴的,多泳道(lane)測序之前,運行單個泳道以驗證樣本之間的低方差通常是值得的。

    選擇參數:測序長度,單端測序或雙端測序

    最終的測序參數包括測序長度,單端測序還是雙端測序。在許多測序應用中,測序讀長的長度對于數據的利用有著重要的影響,因此更長的讀長可以使測序的DNA覆蓋率更高。當使用RNA-seq來進行DGE分析時這種方法并不適用,其中重要的原因則是,確定每個讀長來源于轉錄組的哪個位置的能力有限。一旦一個讀長能夠明確其回貼位置,那么較長的讀長在基于量化的分析中就不會再提供太多的價值。對于那些更定性的RNA-seq分析來說,例如特定異構體的鑒定,更長的讀長可能更有用。

    單端測序與雙端測面臨的問題是類似的。在單端測序中,每個cDNA片段只有一個末端(3?端或5?端)用于產生測序讀長,但雙端測序則是一個片段產生2條讀長(一個是3?端,一個是5?端)。在那些需要盡可能高的核苷酸覆蓋率的分析實驗中,長讀長雙端測序可能更好。然后,DGE分析不需要對轉錄本片段的每個堿基都進行測序,在DGE分析中,研究者只需要比對后,統計出那些回貼到轉錄本上的讀長數目即可。例如,通過比較測序讀長發現,“短”的50bp單端測序與“長”的100bp雙端測序所產生的DGE結果沒有區別。這是因為單端測序足以鑒定出大多數測序片段來源的基因。同樣的研究表明,使用短的單端測序降低了檢測出異構體的能力,因為跨越剪接連接的讀長較少。雙端測序還有助于消除讀長回貼的歧義,并對可變外顯子量化(alternative-exon quantification),融合轉錄本檢測和從頭開始(de novo)的轉錄本發現,尤其是處理那些沒有很好注釋的轉錄本來說,雙端測序更是首選。

    在實際應用中,單端測序或雙端測序之間的選擇通常基于成本或研究者們可用的測序技術。在Illumina NovaSeq發布之前,在多數情況下,每M讀長的單端測序的成本要低于雙端測序,因此,在相同實驗成本的前提下,單端測序能夠實現更高的復制或讀長深度。

    在Illumina NovaSeq發布之前,在大多數情況下,單端測序的每百萬次讀取的成本低于成對末端測序,因此允許以相同的實驗成本進行更高的復制或讀取深度。當選擇了更多的短單端測序讀長和產生更長的雙端測序讀長后,那么增加讀取深度將對提高DGE實驗的靈敏度產生更大的影響。

    RNA-seq數據分析

    用于分析測序讀長以確定差異表達的計算方法的數量在過去10年里大量增加,并且即使對于最簡單的DGE分析來說,在分析實踐中,每個步驟也存在著大量的差異。然而,每個步驟都可以使用不同方法,這些方法的不同組合會對從數據中得到的生物學結論產生重要的影響。這些工具的最佳組織取決于正在研究的特定生物學問題,以及可用的計算機資源。雖然有著盡可能多的排列組合,但是我們的重點在于研究,每個世界大在樣本之間的差異表達的可能性的工具和技術。針對這個目標,我們可以將分析過程劃分為4個階段(FIG 2;TABLE 2)。

    第1階段是將一個測序平臺產生的原始測序讀長導入工具,并將這些讀長回貼到轉錄組上。

    第2階段,是對每個基因或轉錄本相關的讀長數目進行定量(表達矩陣)。這一過程涉及一個或多個不同的比對(alignment),組裝(assembly)與定量(quantification)亞過程,或者是可以在單個步驟中從讀長計數中,整體地生成表達矩陣。

    第3階段是通過過濾低表達特征來改變表達矩陣,這一步的關鍵步驟是對原始讀長計數進行歸一化,用于解釋樣本之間的技術差異。

    第4階段是樣本組之間的統計建模與協變量(covariates),以及計算與差異表達相關的置信統計量。

    Figure2-差異基因表達的RNA-seq數據分析流程

    Figure 2-差異基因表達的RNA-seq數據分析流程。差異基因表達(DGE)分析的第一步是原始RNA測序讀長的FASTQ格式的數據,DGE的分析有多種方式。主流的分析流程有三種(用實線劃的三個方框,分別用A,B和C表示),并且圖上還列出了許多替代工具(用虛線表示)。

    在A分析流程中,比對工具例如TopHat,STAR或HISAT2使用一個參考基因組來將讀長回貼到基因組的位置上,然后使用一些定量工具,例如HTSeq和featureCounts,來將讀長比對于基因的特征上。在歸一化后(通常歸一化的方式都內嵌到了一些分析工具,例如TMM),基因表達就通過一些計建模工具,例如edgeR,DESeq2和limma+voom進行計算,計算結果是一些差異表達基因或轉錄本的列表,這數據用于下一步的可視化和生物學解釋。

    在B分析流程中,使用一些較新的免比對工具,例如Kallisto與Salmon,這些工具會在一步操作中組裝轉錄組并對相應的轉錄本進行定量。這些工具的輸出結果通常是轉錄本定量的一些估計值(例如tximport,TXI),然后通過與A分析流程中相同的歸一化和統計建模,產生出差異基因或轉錄本列表。

    在C分析流程中,第一步是比對讀長(這一步的工具通常是TopHat,雖然有些分析方法也會用STAR與HISAT),接頭使用CuffLinks來處理原始讀長,再然后是使用CuffDiff2包來輸出轉錄本豐度的估計值,以及一個差異表達基因或轉錄本的列表。

    其它常用的工具還包括StringTie,這個工具使用TopHat(或類似工具)的輸出結果來組裝一個轉錄本模型,然后將結果輸出到RSEM或MMSEQ中,用于估計轉錄本的豐度值,最后將轉錄本的豐度值輸出給Ballgown來計算差異表達基因或轉錄本。而SOAPdenovo-trans這個工具則能同時對讀長進行比和組裝,其結果用于輸入給RSEM或MMSEQ。

    TABLE2-RNA-seq數據分析工具

    第1階段-測序讀長的比對(alignment)與組裝(assembly)

    測序完成后,分析的起點就是數據文件,這個數據文件包含了測序計數的堿基,這些數據文件通常是以FASTQ文件的格式存在。處理這些FASTQ文件最常見的第一步操作就是將測序讀長回貼到已知的轉錄組上(或已經注釋的基因組上),將每個測序讀長轉換為一個或多個基因組坐標。這一過程可以使用多個不同的比對工具,例如TopHat,STAR或HISAT,它們都依賴于一個參考基因組。由于測序的cDNA都源于RNA,而RNA有可能跨外顯子邊界,因此當與參考基因組(含有內含子與外顯子)進行比對時,這些工具進行一個剪接比對后,測序讀長之間會出現一些間隙。

    如果測序的物種沒有一個可用的高質量基因組注釋(含有已經知的外顯子邊界),或者說如果希望將測序讀長與轉錄本(而不是基因)關聯起來,那么可以使用比對的讀長進行轉錄組的組裝。一些組裝工具,例如StringTie,SOAPdenovo-Trans使用利用那些已經比對好的結果中的空隙來推測其外顯子邊界,以及可能的剪接位點。當參考基因組注釋沒有或者是不完整時,或者是你感興趣的組織(例如在腫瘤組織)中轉錄本異常的情況下,這些從頭組裝轉錄本的工具尤其好用。當使用的是雙端測序和/或更長的測序技術時,這種轉錄組組裝方法效果更好,因為這些測序技術有更大的可能性跨越了剪接位點。但是,從RNA-seq數據中進行轉錄本的完整組裝對于計算DGE來說,并不是一個必需的步驟。

    最近,已經開發出了計算高效的“免比對”(alignment-free)工具,例如Sailfish,Kallisto與Salmon,這些工具可以直接將測序讀長與轉錄本進行關聯,從而無需單獨的定量步驟(參考后面的第2階段部分)。這些工具在那些表征更高豐度(以及更長的)轉錄本方面表現得非常良好;然后它們在那些定量低豐度或短轉錄本方面表現不佳。

    用于將測序讀長回貼到轉錄本的不同的工具在它們如何對測序的子集進行分配方面有著顯著的差異,這會影響最終的表達估計值。當有來自一個不同基因,偽基因或轉錄本的多個讀長時,這種效果尤為明顯。一項比對12個基因表達估計方法的比較顯示,一些比對方法低估了許多與臨床相關的基因的表達,這主要是由于其并不精確的回貼讀長所導致的。在RNA-seq數據的計算分析中,如何將多個回貼的讀長合理進行分析仍然是一個值得研究的方向。通常的做法是將這些讀長排除在下一步的分析之外,但這可能會使結果產生偏(參考階段2-轉錄本豐度的量化)。其它的估計包括生成“合并“表達特征,這些特征包含了那些共同回貼后的讀長的重疊區域,以及要在隨后的置信度計算中,對每個估計的基因的回貼的不確定性進行估計。

    第2階段-轉錄本豐度的量化

    一旦讀長被回貼到基因組的位置或轉錄組的位置,接下來的步驟就是將這些讀長分配到基因或轉錄本上,以確定它們的豐度。不同的比較研究表明,在量化步驟中采用的不同的方法對最終的結果影響最大,這種影響甚至超過了第1步中比對工具的選擇。對每個基因(即該基因所有轉錄本的亞型)測序讀長豐度的量化依賴于轉錄組注釋來對那些重疊到已知基因上的測序讀長進行量化。但是,使用短讀長對測序讀長進行特定異構體分配來說還需要一個估計步驟,因為許多讀長并不能跨越剪接位點,因此它們無法精確地分配給特定的異構體。當一個基因的主要表達形式是在不同長度的轉錄本之間進行轉換時,那么即使在僅研究基因層面的差異表達分析的前提下,對這些轉錄本進行定量則會產生一個更加精確的結果。例如,在一個樣本中,一個主要的轉錄本也許只有另外一個樣本中同樣轉錄本的一半長度,但是前者的表達量是后者的2倍,那么單純地基因基因定量的工具無法區分這個轉錄本的差異表達。

    常用的量化工具包括RSEM,CuffLinks,MMSeq與HTSeq以及前面提到的那些免比對工具。一些基于讀長計算的工具,例如HTSeq(或者是R equivalent,featureCounts)通常會丟棄許多比對好的讀長,包括那些回貼到多個位置的讀長,或者是重疊多個表達特征的讀長。其結果就是,在隨后的分析中清除了那些同源和重疊的轉錄本。RSEM會使用期望最大化的方法來分配那些比對不明的讀長,Kallisto這個無參比對工具會將比對不明的讀長包括在它們相應的轉錄本計數中,從而導致結果偏倚。使用tximport包可以將轉錄本豐度估計轉化為讀長計數值(read count equivalents)。量化步驟中產生的結果通常會合并為一個表達矩陣,在這個矩陣中,每一行是表達特征(基因或轉錄本),每一列是樣本名,表達矩陣中的值要和是實際的讀長值,要么是一種估計豐度。

    第3階段-過濾和歸一化

    通常來說,定量后的基因或轉錄本計數結果還需要過濾和歸一化,從而用于解釋讀長深度,表達模式以及技術偏倚。過濾用于去除那些不均一的低讀長豐度特征的值,從而提高對那些真正差異表達值的檢測能力。而對表達矩陣進行歸一化則更加復雜。直接轉換可以調整豐度值,以便能更加說明GC含量的差異以及讀長深度。早期用于歸一化的方法就是RPKM,但這種方法現在已經淘汰,它已經被那些能夠校正樣本之間更細微差異的方法所取代,例如四分位數法或中位數歸一法。

    廣泛的研究表明,歸一化方法的選擇會對最終的結果以及生物學結論產生重要的影響。大多數進行歸一化的算法依賴于兩個重要的假設:第一,大多數基因的表達水平在重復的樣本組之間保持不變;第二,不同的樣本組在總體的mRNA水平上不表現出顯著差異。當這些基礎假設不成立時,那么就需要慎重考慮是否進行歸一化,以及如何進行歸一化。例如,如果一些基因在一個樣本中高表達,同時相同的基因,以及另外的一些基因在同一組中的另外一個樣本里正常表達,如果對讀長深度進行簡單的歸一化則明顯不夠,因為相同數目的測序讀長會分配到第二個樣本里更多的基因上面。歸一化過程,例如截斷均值化M值(The Trimmed Mean of M-values,TMM)方法(它已經整合到的edgeR包中)就能解決這個問題。選擇一個合適的歸一化方法或許很困難;一種做法就是深度使用多種方法進行分析,然后比較它們結果的一致性。如果結果對于歸一化方法高度敏度,則應該對數據進行進一步的探索,以確定差異來源。但是,比較不同的歸一化方法時,要謹慎確保這種歸一化方法的比較不是為了選擇與原始假設最兼容的歸一化方法。

    處理這些問題的一種方法的spike-in control RNAs,這種方法會引入一些外源已知的RNA序列,這些外源已知的RNA序列已知,濃度已知,在建庫的過程中,將它們添加到樣本中。RNA-seq中的Spike-ins方法包括外部RNA控制協會混合物(External RNA Controls Consortium  mix, ERCCs),spike-in RNA突變物(spike-in RNA variants, SIRVs)與測序spike-ins(sequencing spike-ins, Sequins)。由于預先知道spike-in的濃度,這些濃度直接與生成的讀長數相關,因為就可以對這些來自樣本轉錄的表達水平進行校正。也有人指出,如果不進行spike-in控制時,那么就不能對那些有強烈倍數變化基因的實驗進行分析。然后在實踐中,很難在預設水平上一致地整合spike-ins,并且它們在基因水平上對測序讀長數目進行歸一化比轉錄本更加可靠,因為在一個樣本中,每個異構體的表達水平不同。目前,spike-in控制法并沒有在發表RNA-seq DGE實驗中得到廣泛使用,如果這種方法被進一步改進,提高其一致性的話,則這種方法會得到廣泛使用,但現在很多研究者們在他們的單細胞實驗(這種實驗里會更加廣泛地使用spike-in)使用了這種方法。

    第4階段-差異表達的統計建模

    一旦測序讀長被處理為表達矩陣,那么就可以對實驗進行統計建模,從而確定哪些轉錄本發生了改變。一些工具可以達到這些目的;其中一些工具會對基因水平的讀長數目進行統計建模,而一些則依賴于轉錄本水平的估計。基因水平的工具通常依賴于比對好的讀長數目,使用廣義線性模型(Generalized Linear Models)處理這些數據,從而能夠評估復雜的實驗設計。這些工具包括edgeR,DESeq2以及limma+voom,這些工具能夠進行有效地計算,并提供比較結果。對差異異構體表達進行統計建模的工具包括CuffDiff,MMSEQ與Ballgown,這些工具通常需要更多的算力(computational power),并且不同工具的結果中的信息量更大。但是,在進行選擇差異表達工具之前做的那些工作,例如比對,定量或過濾以及歸一化這些操作對最終結果的總體方差會產生更大的影響。

    常規的RNA-seq分析流程,相信關注我們生信技能樹的粉絲早就跟著一遍又一遍的學習了,這里就不再贅述,直接上視頻,需要掌握下面3個視頻課程的知識點,見:https://space.bilibili.com/338686099/#/

    常規RNA-seq進階

    源于整塊組織和/或大量細胞的RNA-seq數據已經徹底改變了我們對生物學的理解,但是這種常規的RNA-seq無法輕易地分辨出特定的細胞類型,也無法保存空間信息,而這兩個信息都是理解生物系統復雜性的關鍵因素。促進研究者們從常規的RNA-seq走出去的情形與常規RNA-seq當初出現的理由類似,但這種進階能夠能夠解決很多不同的問題。單細胞測序讓人們發現了,即使在被認為研究透徹的疾病背后,還存在著一些未知細胞類型,例如發現了離子細胞(ionocyte cell),這類細胞可能與囊性纖維化疾病有關。空間分辨RNA-seq則提示了在實體組織中細胞與細胞之間的相互作用,例如發現了成年心臟組織中一小群胎兒標記基因表達的細胞。雖然在可預見的未來,常規RNA-seq仍然是一個占據主導地位的工具。但是,單細胞測序與分析方法正在快速地被研究者利用,并且隨著空間RNA-seq方法的成熟,它們有可能成為常規RNA-seq分析中的一部分。這兩種方法都將提高我們對多細胞生物體復雜性的理解,它們都有可能與常規RNA-seq方法結合使用。在這里我們簡單描述一下主要的單細胞測序以及空間RNA-seq方法,以及它們與常規RNA-seq的不同之處,以及新的研究者們如何著手。

    單細胞分析

    scRNA-seq于2009年首次報道,當時的研究者在含有裂解緩沖液的EP管中分離了單個卵母細胞。單細胞測序對生物學新問題的解釋,以及現有的實驗室和計算方法以極快的速度發展,甚至最近幾年綜述都已經過時了。每種scRNA-seq方法都需要將實體組織進行分離,分離出單個細胞(使用不同的方法),以及標記上每個細胞的RNA,對RAN擴增后進行測序,所有的這些方法都來源于早期常規RNA-seq的方法。

    機械裂解和膠原酶加DNAase的酶解會生成單細胞懸液,從而產生大量可用的細胞,但是這種產生是高度組織特異性的,比較依賴于經驗,其過程也需要非常小心。一旦制備好了單細胞懸液,就可以通過各種方法分離單細胞(FIG 3a);大多數的實驗都是使用流式細胞儀來進行單細胞分選,這種方法是最容易,它可以將單個細胞直接分選到含有裂解液的微孔板中。對于更高通量的實驗,現存有大量分離單細胞的專門儀器,這些儀器需要自己構建或購買。單個細胞可以通過物理手段被捕獲到微流控芯片中,或者是通過Poisson分布的原理被分配到加載到含有納米孔(nanowell)的芯片中,隨后這些單細胞被分離后就被液滴微流分離技術合并到含有試劑的液滴中(例如Drop-Seq與InDrop),或者是單細胞被原位標記上標簽(例如單細胞混合索引RNA測序技術, single-cell combinatorial indexing RNA sequencing, sci-RNA-seq以及分離-混合-連接轉錄組測序技術,split- pool ligation- based transcriptome sequencing,SPLiT-seq)。單細胞分離后,它們就被裂解,將RNA釋放到溶解中用于cDNA合成,并將cDNA用于RNA-seq文庫制備。在文庫制備過程中,來源于每個細胞的RNA會通過PCR進行擴增。這種擴增就引入了PCR偏倚,但是UMIs可以用于校正這種偏倚。由于Poisson采樣,一個細胞中只有10-20%的轉錄本會被逆轉錄,這就限制了轉錄本檢測的靈敏度,以及各種方法產生的可用數據。在濕實驗之外,計算方法也在迅速發展,最近已經出現了關于scRNA-seq的實驗設計指南。方法學的快速發展意味著scRNA-seq方法的技術已經快速過時了。然而Ziegenhain等人提供了scRNA-seq方法的詳細概述,他著重強調了UMIs的在數據分析方面 的重要性,并報道了提到了的6種方法中哪一種最為靈敏。然而他們的研究范圍并不包括現在被廣泛使用的10X Geneomics方法。

    Figure3-單細胞RNA-seq與空間RNA-seq的概念

    Figure 3-單細胞RNA-seq與空間RNA-seq的概念。(a)單細胞RNA-seq(scRNA-seq)工作流程概述。scRNA-seq的第一步就是從樣本中分離單個細胞(例如從解離的皮膚組織),分離單細胞的方式有多種,其中包括微移液管將細胞轉移到單獨的微管中,或者是使用流式細胞儀將單細胞分選到含有裂解液的96孔板或384孔板中,或者是將細胞捕獲到微流控芯片中,或者是將細胞分布到納米孔(nanowells)中,或者是使用含有試劑的液滴分離系統,或者是使用原位條形碼技術。細胞進行逆轉錄以產生cDNA(通常使用UMIs來對這些cDNA進行標記),用于制備RNA-seq文庫和測序。質控(QC),差異基因表達(DGE)與2D可視化(t-distributed stochastic neighbour embedding, tSNE)以及無監督聚類在和網絡分析來對scRNA-seq的數據進行分析,用于區分不同的細胞種群。這些技術通常會標明細胞數據,以及與RNA-seq的策略一樣,還會標明測序技術是3'末端還是5'末端還是全長cDNA。(b)空間轉錄組學工作流程概述。空間編碼需要將冷凍組織切片加到含有寡聚核苷酸微陣列的載玻片上,或者是加載到密集包裝的被寡核苷酸包被的pucks上。mRNA擴散到載玻片表面,然后與oligo-dT合成引物雜交,這些引物中含有UMIs與空間編碼序列。隨后mRNA逆轉錄成cDNA,cDNA匯集起來用于文庫制備和測序。空間轉錄本組學的計算方法以能夠將測序讀長回貼到它們的空間坐標上,隨后是DGE分析與差異空間表達分析的可視化。scRNA-seq與空間RNA-seq數據通常是用短讀長測序儀進行測序的。上述圖片(a)源于Springer Nature Limited。

    當研究者們在選擇scRNA-seq方法,需要考慮的主要因素包括:他們是否需要全長轉錄本的讀長,在分析更多細胞表達譜(寬度, breadth)或每個細胞更多轉錄本(深度,depth)之間進行權衡,以及總體實驗成本。

    希望下面3個小時的單細胞轉錄組課程能幫助你理解

    https://www.bilibili.com/video/av38741055

    全長scRNA-seq系統的通量比較低,因此每個細胞需要單獨地處理,直到最終生成scRNA-seq文庫。但是,此系統可以讓研究者們研究可變剪接與等位基因特異性表達。非全長系統則會從轉錄本的3’或5’末端生成序列,但這就限制了異構體表達的分析,但是當細胞cDNA合成被混合后,細胞所加工的數量會比前一種高出2到3個數量級。單細胞測序寬度與細胞,組織或樣本的數量有關,而深度則是與測序讀長數目固定下,要分析的轉錄組有關。雖然實驗中測序的細胞數量是由選擇的方法決定的,但是這也允許一些靈活性,不過隨著分析的細胞數目的增多,測序成本的增加,往往限制了轉錄組分析的深度。因此,可以使用寬度和深度兩個維度來評估不同的scRNA-seq系統。單細胞測序典型的做法是基于孔板或微流控方法來捕獲盡量少的細胞,但同時對每個細胞檢測出更多的基因,而基于液滴的系統可以用于分析最大數目的細胞,它已經能從超過一百萬個細胞中產生單獨的數據集。

    scRNA-seq的力量正在推動著大規模的細胞圖譜項目,這些項目指在確定生物體或組織中完整的細胞類型。人類細胞地圖集(Human Cell Atlas)與NIH大腦計劃(NIH Brain Initiative)項目分別是為了對人體以及大腦中的所有細胞類型進行測序。人類細胞地圖集的第1階段目標是對3000萬到1億個細胞進行測序,并將隨著技術的發展在廣度和深度上進行增加。這個項目的最新成本包括發現了離子細胞,以及發現腎癌是在兒童和成年人中是由不同的細胞類型發展而來的。不過,scRNA-seq的研究者們應該意識到,這些技術可以用于幾乎所有的生物。最近,對A. thaliana根細胞原生質的分析表明,即使是植物的堅韌細胞壁這種障礙也能被解決,能產生用于測序的單細胞。scRNA-seq正在迅速成為生物學家們工具包的標準配置,并有可能在10年后被廣泛使用,就像今天的常規RNA-seq一樣。

    空間分辨RNA-seq法

    當前的常規RNA-seq和scRNA-seq方法為研究者們提供了關于組織或細胞群體的高度詳細的數據,但是沒有捕獲空間信息,就是會降低細胞環境與基因表達之間關系的分析能力。空間轉錄組學(spatialomics)的兩種方法是空間編碼(spatial encoding)與原位轉錄組學(in situ transcriptomics)。在RNA-seq文庫制備過重中,空間編碼方法能夠記錄其空間信息,或者是通過分離空間受限的細胞(例如,通過激光捕獲顯微解剖, laser-capture micro-dissection, LCM), 或者是通過分離前的位置對RNA加上條形碼(通過從組織切片中直接捕獲mRNA)(FIG. 3b)。原位轉錄組學能夠在組織切片中,通過對細胞中的RNA進行測序或成像來生成數據。我們建議感興趣的讀者是閱讀最近的深度評論,從而對這一領域進行更全面的理解。

    LCM已經成功地用于從組織切片中的特定區域分離和分析單個細胞用于RNA-seq。雖然LCM需要專門的設備,但是許多機構已經廣泛使用了這種技術。但是,雖然這種技術可能實現高度空間分辨率,但是它消耗人力,并且難以批量使用。使用空間轉錄學 (Spatial Transcriptomics,10X Genomics)與Slide-seq方法可以直接從冰凍組織切片中直接捕獲mRNAs,然后將這些mRNAs直接加載到寡核苷酸微陣列玻片(oligo- arrayed microarray slides)或嚴密包裝寡核苷酸的pucks上。寡核苷酸包括空間條形碼、UMI和oligo-dT引物,它們能唯一地識別每個轉錄本及其位置。測序讀長被回貼到玻片的坐標上,用于生成空間基因表達信息。空間轉錄學方法已經被證明能夠在一系列物種的組織中能發揮作用,其中就包括小鼠大腦和人類乳腺癌組織,人類心臟組織和擬南芥(A. thaliana)花序組織。Slide-seq是最近開發的一種技術,它已經被證明能夠對小鼠大腦的冰凍切片進行測序。這些直接 mRNA捕獲方法并不需要特殊的設備,且有相對簡單的分析方法,并有可能大規模地應用于許多組織。然而,還有兩個局限需要解決。首先,該技術只能應用于新鮮的冷凍組織。其次,分辨率受到到陣列大小和捕獲寡核苷酸點和珠子的間距的限制;目前的分析只能使用6.5x7 mm和3x3mm這兩種規格,這就限制了組織切片的尺寸。空間轉錄組學斑點的直徑為100μm,間距為100μm,這意味著它們不夠小或不夠密集,無法實現單細胞級分辨率。Slide- seq珠子則要小的多,直徑只有10μm,而且非常密集,比相對前者具有十倍的空間分辨率,并且測序中的大約一半的珠子似乎是從單個細胞層面產生的數據。從分解的組織和空間編碼的數據與scRNA-seq混合起來的計算方法可以改善分辨率,但是需要基礎技術的進一步發展,以使其成為更常規的RNA-seq工具。

    上述空間分辨RNA-seq方法的替代方案包括原位測序和使用單分子熒光原位雜交的基于成像的方法。這些方法能夠產生比RNA-seq方法更窄的轉錄組信息,但它們能直接檢測RNA,并且能夠對低豐度的轉錄本進行分析。同時,它們還能提供組組織結構和微環境的信息,并能產生亞細胞數據。這種方法目前正取得了巨大進步,但是成像方法的一個主要局限就是需要高分辨率或超分辨率顯微鏡與自動流體技術結合,并且這種技術的成像時間可能要花上數小時,甚至是幾天。測序成本的下降比摩爾定律預測的速度更快,與測序成本相比,高通量成規模的成像系統的機會似乎更有限。

    上述提到的空間轉錄組學都受到無法產生深度轉錄組學數據的限制,以及受到細胞分辨率和/或高成本(時間和/或資金)的限制,但是這些方法正在迅速改進,并且已經應用于臨床樣本。空間轉錄組學的具體計算方法開始出現。此外,原位RNA測序和成像方法的進步已經使得10E3到10E5個細胞生成的轉錄組數據成為可能,這與基于液滴的單細胞方法獲得的數據量相近。未來的發展有可能使得空間轉錄組學讓更普通的研究者們使用。然而,大多數的研究們者并不太可能需要真正的單細胞或亞細胞級分辨率。因此,轉錄組表達譜的寬度和對廣泛的組織或樣本的應用性可能會推動這些技術在特定小眾領域被采用。如果空間轉錄組學的這些技術限制能夠被解決,那么它才有可能被廣泛使用。

    動態RNA-seq分析(Beyond steady-state RNA analysis)

    DGE分析是使用RNA-seq來檢測穩態下的mRNA表達水平,這一表達水平是通過mRNA的轉錄,加工和降解速度來決定的。但是,RNA-seq也可以用于研究涉及轉錄,翻譯所涉及的過程與動力學特征,這些研究為基因表達提供了新的思路。

    使用新生RNA(nascent RNA)方法來研究活性轉錄

    基因表達是一個內在的動態過程,但是在檢測復雜轉錄應答的細微以及快速變化或確定不穩定的非編碼RNAs,例如增強子RNAs方面,常規的DGE分析方法就比較受限。RNA-seq可以用于繪制TSSs以及定量新合成的新生RNA,這就可以用來研究RNA動力學。但是,與DGE分析相比,nascent RNA的分析則比較難,因為它們半衰期短,豐度低。因此,為了研究這些動態的重要性,研究者們就開發了多種方法來分析nascent RNA;這些方法揭示了在啟動子處的差異轉錄程度,表明RNA聚合酶II(Pol II)在啟動子附近的暫停是基因表達的關鍵調節步驟,證明了nascent RNA有直接調節轉錄的作用,并表明其序列和結構影響轉錄的延伸,暫停和停頓,以及發揮染色體修飾結合和增強了子的作用。nascent RNA- seq方法旨在區分新近轉錄的RNA和其它RNAs,這些方法可以分為3類:run-on方法,Pol II免疫沉淀法,代謝標記法(FIG. 4)。

    Figure4-nascent RNA與翻譯組分析的關鍵概念

    Figure 4- nascent RNA與翻譯組分析的關鍵概念。nascent RNA分析方法是將那些在一個細胞中新轉錄的RNAs從其它的RNAs中富集出來,并將它們與未富集的RNA(成熟的RNA)進行比較,富集nascent RNAs的方法主要有三種。(a)Run-on方法是利用一個限時脈沖的方法將修飾過的核糖核酸添加到細胞培養基中,對細胞的RNA進行標記;這一過程可以用使用各種修飾的核苷酸,但是,圖中的GRO-seq使用的是Bru修飾的核苷酸。當修飾過的核苷酸整合到RNA后,利用抗BrU的抗體,通過IP的手段將nascent-RNA鏈富集起來,并用于文庫制備以及測序分析。(b)RNA聚合酶II(Pol II)的IP方法則是利用了微球菌核酸酶(micrococcal nuclease)消化了染色質后,使用相應的抗體拉下了與Pol II結合的RNA。在染色質消化過程中,nascent RNA通過其Pol II足跡保護而不受核酸酶活性的影響,并不會被降解。(c)代謝標記方法標記RNA的方法類似于Run-on方法,但前者使用的是核苷酸類似物4 sU。提取RNA后,烷基化4 sU,在逆轉錄過重中,就會產生G核苷酸的錯配,從而通過在堿基對級分辨率的突變分析中直接確定4 sU的整合位點。制備3'末端RNA文庫會通過降低未標記的RNA數量來增加測序過程中的信號強度。圖片參考文獻為214。

    Run-on法是將核酸類似物添加到樣品中,從而使nascent RNA能夠從總的RNA混合物中進行富集,并能夠檢測瞬時RNA的轉錄(FIG. 4a)。全局run-on測序(Global run-on sequencing, GRO-seq)與精確核酸run-on測序(Precision nuclear run-on sequencing, PRO-seq)是分別將Bru或生物素修飾的核酸在RNA的轉錄期整合到nascent RNA中來實現的。其過程大致為,分離細胞核,并通過洗滌除去內源性核苷酸,再添加外源生物素標記的核苷酸,隨后恢復轉錄。通過免疫沉淀或親和純化的方法,對富集的新轉錄RNA進行測序,從而檢測參與轉錄的RNA聚合酶的位置和活性。由于run-on過程中標記的核苷酸的數據,GRO-seq只能測到10-50bp的長度,這就降低的TSS檢測的精度。PRO-seq能夠實現單個堿基級的分辨率,因為生物素標記的核苷酸摻入后轉錄就停止,可以識別出轉錄位點。Run-on方法理解起來很簡單,就是RNA分子整合了修飾的核苷酸,并對其進行富集,用于測序,但是在實踐中,背景中存在有non-nascent RNA,這就需要增加讀長深度。利用這些方法,提示了啟動子處,啟動子處差異或雙向轉錄本起始的程度,確定了增強子RNA在調節基因表達方面的作用。通過特定富集5’加帽的RNAs,GRO-cap,PRO-cap或small 5’capped RNA測序(small 5?-capped RNA sequencing, START-seq)增加了檢測轉錄起始和捕獲RNAs的靈敏度和特異性,這種處理還會降低源于轉錄后加帽的RNAs的背景信號。

    Pol II的免疫共沉淀方法包括,天然延長轉錄測序(native elongating transcription sequencing, NET-seq)和哺乳動物染色質天然轉錄測序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq),使用抗FLAG(用FLAG標記的Pol II)抗體進行沉淀的方法,或各種針對Pol II C末端結構域(CTD)的沉淀方法(FIG. 4b)。與這些染色質復合物結合的nascent RNA的RNA-seq方法用于檢測TSSs,雖然non-nascent Pol II結合的RNA與背景mRNA會對讀長濃度產生負面影響,影響分析。NET-seq缺乏特異性,因為任何與Pol II強烈結合的RNA都會污染nascent RNA的富集效果,例如在NET-seq數據中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多個CTD抗體提示了VTD修飾是如何影響轉錄的,檢測到了RNA加工的中間體,并能能夠將特定的Pol II nascent RNAs定位于TSSs。然而,這些檢測能力是以更復雜的實驗,更多的細胞數量和更高的測序成本為代價的。

    使用核苷酸類似物硫代吡啶(4-thiouridine, 4 sU)進行代謝脈沖標記(Metabolic pulse- labelling)的方法可以識別nascent RNA(FIG. 4c)。但是,在那些需要長標記時間的方法中,大多數的轉錄本都會被標記,這就限制了這種方法的靈敏度。通過專門針對RNAs的3’末端(僅最近拉RNA聚合酶的新轉錄的RNA)的方法,瞬時轉錄組測序(transient transcriptome sequence, TT-seq)與硫醇(SH, thiol)連接的烷基化RNA代謝測序(thiol(SH)-linked alkylation for metabolic sequencing of RNA, SLAM-seq)能夠降低來源于5’RNA的信號。TT-seq將標記時間限制在5分鐘,因此只標記新轉錄本的3’末端,它在進行生物素親和純化前,有一個RNA片段化操作,用于富集標記的RNA。SLAM-seq整合了3’mRNA-seq文庫制備方法(雖然它也用于其它的文庫制備,例如miRNA), 它僅針對標記的新轉錄的RNA進行測序,而非整個轉錄本進行測序。此外,在SLAM-seq中,提取RNA后,還要加入碘乙酰胺(iodoacetamide),用于烷基化已經插入到新生成的nascent RNA鏈中的4 sU殘基。這種修飾會誘導反轉錄式依賴的胞腺嘧啶到胞嘧啶的轉換(T > C),這在測序分析中會被檢測為“突變”,從而直接識別為4 su整合位點。然而,低摻入率意味著只有少量的4 sU位點可以被轉換為胞嘧啶,這就限制了靈敏性。有兩種方法,即TUC-seq與TimeLapse-seq也使用T>C這種突變分析方法,但是它們并不富集3’末端。這兩種方法用于研究細胞干擾后的轉錄應答和RNA的半衰期。

    Nascent RNA分析方法還未進行過直接比較。Nascent RNA方法都受到非特異性背景和/或降解的RNA的負面影響,這會影響讀取深度。通過僅測序3’末端,那么non-nascent RNA的效應就會在PRO-seq,TT-seq和SLAM-seq中降低,但是幾乎沒有證據表明是否有其他方法更優。親和純化方法費時費力,與代謝標記法相比,前者需要更多的起始材料,但是,確定脈沖標記的時間比較復雜,并且短脈沖產生用于分析的RNA很少,這限制了靈敏度。最近開發的,組織特異性RNA標記方法以及親折突變分析計算方法或許能夠促進研究者轉向使用生化(基于生物素)富集的手段來研究富含生物學意義的nascent RNA和其它RNA。Nascent RNA方法以及它們與其它方法的隧和,例如空間轉錄組學或RNA-RNA與RNA-蛋白質相互作用的方法,將會提高我們對轉錄過程的理解。

    使用核糖體分析方法檢測活躍的翻譯

    RNA-seq的主要用途在于研究樣本中的mRNA的種類與數量,但是mRNAs的存在與否并不直接關系到蛋白質的合成。現在有兩種方法可以研究轉錄以外的翻譯情況,可以讓研究者們更好的理解翻譯組(translatome):一種是多核糖體表達譜(polysomal profiling),一個是核糖體足跡RNA-seq(Ribo-seq)。核糖體對mRNAs的翻譯具有高度的調節作用,蛋白質水平主要由翻譯活性決定。多核糖體表達譜與Ribo-seq可以讓研究者探索一個轉錄本占用多少個核糖體以及核糖體在轉錄本上的分布(FIG. 5)。這種方法可以讓研究者推斷在特定時間或細胞狀態下哪些轉錄本正在被活躍地翻譯。這兩種方法都假設mRNA 核糖體的密度與蛋白質合成的水平相關。在不同樣本之間進行比較,就能提示治療條件下,時間推移以及疾病發展過程中,核糖體的動力學特征,上述的這些情況都與翻譯的異常調控有關,例如纖維化,朊病毒或癌癥。

    Figure 5-翻譯組的關鍵概念。翻譯組方法是從那些與核糖體結合的RNA中生成RNA-seq數據,這種方法假設mRNA上的核糖體的密度與蛋白質的合成水平相關。(a)多核糖體表達譜的方法是通過離心將RNA分子分成多核糖組分,然后通過RNA-seq的方法進行比較。在多核糖體組分中表達較高的RNA被認為是更活躍的轉錄。(b)核糖體足跡(Ribo-seq)法使用RNase來降解暴露的RNA,同時保留那些被核糖體保護的未被降解的RNA。通過對這些保護的RNA進行測序,就可以揭示出核糖體的密度與位置。通過修改變標準Ribo-seq方法,定量翻譯起始測序(QTI-seq)或翻譯復雜表達譜測序(TCP-seq)可以專門富集起始核糖體或其亞基,同時剔除延長的核糖體,因此可以對翻譯的動態過程進行更詳細的分析。對翻譯組RNA-seq數據的過計算 分析可能確定每個mRAN的相對翻譯程度,可以研究翻譯的起始,延長與終止的動力學過程。

    在多核糖體表達譜實驗中,使用蔗糖梯度超離心將與多個核糖體(多核糖體組分)結合的mRNA和與單個核糖體結合的mRNA(單核糖體組分)分離開來,前者用于RNA seq文庫制備(FIG. 5a)。與單核糖體組分中檢測到的mRNA相比,在多核糖體組織中檢測到的高豐度mRNAs可以被認為翻譯得更頻繁。這種方法也可以用于推測單個mRNAs的翻譯狀態,也可以用于生成高分辨率的核糖體占有信息與密度(盡管它無法確定核糖體的位置)。這類方法的原始方法已經進行了幾項改進。例如,使用非線性蔗糖梯度改善了多核糖體收集,使多核糖體在不同濃度蔗糖溶液界面的收集過程更為簡單,使用Smart-seq文庫構建技術可以讓研究者們分析僅10ng級的多核糖體mRNA,使用更高分辨率的蔗糖梯度和深度測序可以檢測了轉錄本異構體的特異性翻譯。然而,多核糖體表達譜實驗生成的翻譯組信息分辨率相對低,這一過程還比較費力,需要特殊的儀器,這就限制了其應用范圍。

    Ribo-seq是基于RNA足跡的方法,它最初用于酵母研究。這種方法用環己胺(cyclohexamide)來抑制翻譯延伸,并誘導核糖體在mRNAs上停滯。用RNase I消化mRNA會留下20-30個核苷酸,這20-30個核苷酸就是受核糖體保護的足跡,這些足跡被處理后用于制備RNA-seq文庫(FIG. 5b)。Ribo-seq能生成高分辨率的翻譯譜,描繪核糖體豐度和單個轉錄本的位置。而多核糖體分析中無法提供核糖體的位置信息時,這說明有可能檢測到了翻譯的暫停,這些檢查可以調節蛋白質的表達。當方法修改了緩沖液和對酶進行了優化后,就能更清楚地揭示Ribo-seq數據中3-bp的周期性,以及條形碼和UMIs(檢測單個分子的事件)。標準的RNA-seq工具可以用于Ribo-seq的計算分析,但最近已經出現了特定的工具用于尋找開放閱讀框,用于差異或異構體水平的翻譯分析,以及用于研究密碼子偏倚。Ribo-seq的主要限制就是超速離心,以及由于核酸酶不同批次間的變化,以需要經驗來確定RNase I的消化條件。

    這些方法檢測的是來自翻譯起始、延伸和終止的信號的平均強度,但是對Ribo-seq的修改可使得其能夠研究翻譯動力學。定量翻譯起始測序(Quantitative translation initiation sequencing, QTI-seq)通過化學“冷凍”和富集起始核糖體,同時從結合的mRNA中去除延長的核糖體來定位轉錄起始位點。翻譯復雜譜測序(Translation complex profile sequencing, TCP-seq)也通過在組裝成熟核糖體之前富集與40S核糖體小亞基結合的RNA來檢測起始位點。然而,由于這種方法中保留了核糖體的完整性,也可以分析和比較80S核糖體組分,從而更全面檢測翻譯動力學(FIG. 5b)。

    所有的翻譯組方法在概念上都是相似的;它們假設mRNA核糖體的密度與蛋白質的合成水平相關。雖然它們的樣本制備方案不同,但都需要大量的起始細胞數。最終,翻譯組與RNA-seq結合起來研究基因的表達水平,并與蛋白質組學一道來研究蛋白水平,這可能就需要對mRNA的翻譯進行一個廣泛地理解。如果想要了解翻譯組的更詳細信息,可以閱讀最近的綜述。(比如我們生信技能樹前面的推文)

    Ribo-seq分析必看文獻知識(四):核糖體與蛋白質合成相關生物知識

    RNA結構與相互作用分析(Beyond analysis of gene expression)

    RNAs在調節其它生物分子和生物過程(例如剪接和翻譯)中發揮著重要作用,它們涉及RNA與各種蛋白質和/或其它RNA分子的相互作用。RNA-seq可以用于研究分子內和分子間RNA-RNA的相互作用(RNA-RNA interactions, RRIs),這可能讓研究者更好地理解結構組(structurome),或者是研究RNA與蛋白質之間的相互作用,這樣就可以深入理解轉錄與翻譯(FIG. 6)。針對相互作用組(interactome)分析而開發的各種方法都有一個共同的主題:在RNA中富集出那些與其它RNA有相互作用的RNA。一些方法利用的是天然生物學相互作用,而其它的方法則是在目標分子之間計算瞬時作用力或共價鍵;大多數方法使用的是抗體pull-dwon、親和純化或探針雜交的手段來富集RNA進行測序。在這里我們簡要描述一下主要的基于RNA-seq的方法來研究結構組和相互作用體的內容。

    Figure6--RNA結構和RNA-蛋白質相互作用分析的關鍵概念

    Figure 6-RNA結構和RNA-蛋白質相互作用分析的關鍵概念。(a)結構組分析使用核酸酶或化學標記試劑在全轉錄組范圍內來研究結構化RNA(例如雙鏈RNA,dsRNA)或非結構化RNA(單鏈RNA,ssRNA)。在大多數實驗中,在單獨的反應中對ssRNA和dsRNA進行檢測,其結果聯合反應性分析法來確定其結構特征。核酸酶消化方法使用針對dsRNA和/或ssRNA的一個或多個核酸酶來研究RNA的結構。例如,在對RNA結構要的并行分析(PARS)中,在體外使用RNase V1(一種dsRNA特異性核酸酶)或S1核酸酶(一種ssRNA特異性核酸酶)來酶切并行樣本。酶解后剩余的RNA被轉化為cDNA,然后進行測序,測序的讀長深度與比對區域的反應性成正比。RNA-seq數據的覆蓋和比較結果就能推斷RNA的結構。化學分析法(Chemical-mapping methods),例如使用引物延伸的選擇性2?-羥基酰化分析法(SHAPE-seq)或突變表達譜分析法(SHAPE-Map),這些方法通過結構依賴形式在體外或體內對雙鏈或單鏈區域的核糖核苷酸進行修飾。標記物可以阻斷逆轉錄,導致cDNAs的截短,或者是導致修飾位置錯誤地摻入突變。RNA被轉化為cDNA后進行測序,讀長深度或突變率與比對區域的反應性成正比,從而推斷RNA的結構。(b)RNA-RNA的相互作用分析方法,例如SPLASH,這種方法的第一步是將有相互作用的RNA分子通過生物素化的補骨脂進行交聯,然后以通過鏈霉親和素對其進行富集,第二步是在鄰近位置加入相互作用RNA的自由端加入鄰近連接與及片段化。第三步是進行RNA接頭的連接以及環化,制備RNA-seq文庫用于測序,從而揭示出分子內(也就是結構)的RNA相互作用以及分子間的相互作用位點。(c)RNA-蛋白質相互作用方法,例如RNA交聯免疫沉淀后測序(CLIP-seq),這種方法使用UV輻射在相互作用的RNA和蛋白質之間產生共價交聯。目的蛋白被抗體富集后,與此蛋白結合的RNA也就被富集了下來,這些RNA加上3'接頭后,提取出來用于cDNA的合成。從結合了接頭的RNA生成的cDNA用于文庫制備,測序。

    通過研究RNA分子內的相互作用來研究RNA的結構

    核糖體RNA和tRNA構成細胞的大部分RNA。它們與其他結構非編碼RNA一起在細胞中發揮各種作用,例如從基因調節到翻譯。現存主要有兩種研究RNA結構的方法:基于核酸酶的方法和化學探針方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的結構。在接下來的40年中發展了化學方法,例如,通過引物延伸的選擇性2?-羥基酰化法(selective 2?-hydroxyl acylation analysed by primer extension, SHAPE),此種方法用于在單堿基分率水平上檢測tRNA(Asp)的結構。但是,只有將各種核酸酶法和化學方法與RNA-seq相結合,才能使方法從單一RNA轉移到全轉錄分析,這正在改變我們對結構復雜性和重要性的理解。在這里,我們集中討論核酸酶和化學分析方法之間的主要區別(圖·6a),如果想對這方面有進一步的理解,可以看Strobel在這方面的綜述。

    核酸酶方法,例如RNA結構的平行分析法(Parallel Analysis of RNA Structure,PARS)和片段測序法(fragmentation sequencing, FRAG-seq),這兩種方法使用能消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文庫構建。隨后通過對產生的RNA序列數據進行計算分析來識別結構化(雙鏈)和非結構化(單鏈)區域。核酸酶易于使用,可以用于研究ssRNA和dsRNA,但是由于核酸酶消化法的隨機特性,它們與化學分析法相比,分辨率比較低。此外,由于核酸酶尺寸比較大,這就限制了這些核酸酶進入細胞,這就使得它們不適合體內研究。

    化學分析法使用與RNA分子反應的化學探針,來標記結構化或非結構化核苷酸。這些標記要么阻斷逆轉錄,要么導致cDNA的錯配,從而可以定位并分析RNA-seq讀長,用于揭示結構組。SHAPE之后進行測序,這種技術方法能夠RNA骨架上的核糖2’-羥基反應來標記未配對的ssRNA,雖然發夾環中的堿基折疊會降低其效率。Structure-seq與硫酸二甲酯測序(dimethyl sulfate sequencing, DMS-seq)能使用DMS來標記腺嘌呤和胞嘧啶殘基,阻斷逆轉錄,最終從生成的截短cDNAs分析中推斷出RNA結構。SHAPE和突變表達譜(SHAPE and utational profiling, SHAPE-Map)和DMS突變表達譜測序(DMS-MaPseq)都修改了實驗條件,從而提高了逆轉錄酶的加工能力,并防止cDNA截短。相反,化學標記會導致錯配事件,在RNA-seq數據的分析中,能夠檢測出這些“突變”,從而揭示RNA結構。化學探針是小分子化合物,盡管由于細胞內的環境處于動態變化中,數據有可能更加多變,但是化學探針還是能夠用于研究活體內的有生物學意義的結構。化學探針還可以用于nascent RNAs的結構分析,并揭示共轉錄RAN折疊的順序。

    核酸酶和反轉錄阻斷方法通常產生短RNA片段,并且只報告單個酶切位點或化學標記,而錯誤結合和突變檢測方法可以報告每個讀長的多個化學標記。沒有方法不存在偏倚;逆轉錄阻斷永遠不會100%有效,本應誘導突變的化學標記可以阻斷cDNA合成,這兩個因素都可以影響數據的解讀。Spike-in控制有可能改善結構組分析的質量,但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內實驗中才會出現效率差異,因此這就突顯出比較類似復雜方法時所需要謹慎。

    這些方法正在產生關于RNA結構如何在基因和蛋白質調控中發揮作用的新理解。例如,DMS分析說明了,RNA結構有可能調控APA,或許會減慢催化活性區域的翻譯,使得更多的時間用于蛋白質的折疊,從而減少錯誤折疊事件。結構RNA-seq方法的結合有可能產生所有的完整結構組信息。隨著該領域的擴展,我們可能會發現,RNA的結構與疾病的進展和或疾病的狀態有關;最近的結果表明,異常RNA結構在重復擴張性疾病方面可能發揮作用。最終,結構組分析也許會促進那些靶向作用于研究透徹的RNA結構的小分子的開發,從而開辟治療開發的新領域。

    研究分子間RNA-RNA相互作用

    分子間的RRIs在轉錄后調控中發揮著重要作用,例如miRNA與靶基因的3’UTR結合。現在已經開發了用于研究分子間RRI的工具,它們用于靶向分析和轉錄組分析。這些分析方法含有一個共同的工作流程,即RNA在打斷與鄰位連接之前,通過交聯來保護其相互作用(FIG. 6b)。大多數并非全部,由不同方法嵌合生成的嵌合cDNA來源于穩定堿基配對(即相互作用)RRNA分子的連接。靶向方法,例如交聯,連接和雜交物測序(Crosslinking, ligation and sequencing  of hybrids, CLASH), RNA相互作用組分析和測序(RNA interactome analysis and sequencing, RIA-seq)和RNA反義純化方法測序(RNA antisense purification followed by RNA sequencing, RAP-RNA)能產生一個RNA或RNA家族的高深度相互作用圖譜。CLASH豐富了使用IP來進行特定蛋白復合物介導的RRI分析方法,而RIA-seq使用反應寡核苷酸來回收那些與靶基因有相互作用的RNAs;這兩種方法都無法區分直接和間接的RRIs,這就導致其生物學解釋變得復雜。為了提高RRI分析的分辨率,RAP-RNA使用補骨脂素(psoralen)和其他交聯劑,然后用反義寡核苷酸捕獲RNA,以及使用高通量RNA-seq來檢測直接和間接RRI。雖然該方法可以進行更具體的分析,它需要制備多個文庫(每個交聯劑一個文庫)。

    轉錄組方法從根本上類似于靶向方法:相互作用的RNA在體外被交聯后并被富集。通過減少進入連接反應的非相互作用RNA的量來提高富集的特異性,并且可以通過2D凝膠純化(如在RNA相互作用和結構的補骨脂素分析(psoralen analysis of RNA interactions and structures, PARIS)或交聯RNA的生物素親和純化(如在補骨脂素交聯,連接和選擇的雜交測序, sequencing of psoralen crosslinked, ligated and selected hybrids,SPLASH)來實現,或者通過RNase R酶的消化來清除非交聯RNA(如在相互作用的RNA連接之后的RNA-seq, ligation of interacting RNA followed by RNA- seq, LIGR-seq)。連接后,在進行RNA-seq文庫制備前,去除交聯,然后進行測序。PARIS能夠生成所有方法中最高數目的相互作用次數,但是每個樣本需要75M的讀長,這些任何其他的RRI方法都多,并且所需要的DGE實驗平均讀長深度是其他實驗的2倍。

    對整理好的RNA相互作用數據的分析可以對多個相互作用進行可視化,并些這種分析方法已經提示了RNA各類的RRI分布的變化。總之,90%的RRIs涉及mRNAs。近一半涉及miRNA或長鏈非編碼RNA,對于這些RNA,大多數相互作用都與mRNA靶基因相關。對這些整理數據的比較揭示了不同方法對特定RNA物種的偏倚,這導致這些方法之間幾乎沒有重疊。因此,繪制RRI的完整圖譜可能需要使用不止一種方法。然而,RRI方法有幾個局限性。也許最具挑戰性的就是RRI是動態的,并受結構構象和其他分子間相互作用的影響,這使得在沒有重復的情況下,很難對其進行解釋。分子內的相互作用為分子間的RRI分析增加了干擾,這就需要過濾并除去那些高度結構化的RNAs,例如rRNAs。其它的問題還包括RNA提取過程中相互相互作用的打斷,這就需要穩定的交聯方法,但最常用的RRI交聯劑是補骨脂素和4’-氨基-甲基三氧沙林(4?-amino- methyltrioxsalen, AMT),這些交聯劑只交聯嘧啶,其效率比較低,會降低靈敏度。此外,鄰近連接步驟低效,并且這會連接相互作用和非相互作用RNA,進一步降低靈敏度。

    研究RNA-蛋白質相互作用

    ChIP-seq已經成了繪制和研究DNA-蛋白質相互作用不可或缺的工具;類似的IP方法也用于研究RNA-蛋白質的相互作用。RNA-蛋白質相互作用方法依賴于IP,利用針對感興趣的RNA結合蛋白的抗體來捕獲其結合的RNA進行分析(第一次報道時是用芯片進行分析的)(FIG. 6c)。各種RNA-蛋白質相互作用方法之間最明顯的區別在于相互作用的RNA和蛋白質是否交聯以及如何交聯:一些方法避免交聯(天然IP, native IP),其他方法使用甲醛進行交聯,一些方法使用紫外線(UV)光進行交聯。最簡單的方法就是RNA免疫沉淀測序(RNA immunoprecipitation and sequencing, RIP-seq),時常,但并非所有情況下都使用天然IP法,以及并非總進行RNA打斷。這種簡便性使用該方法易于被采用。這種方法能產生有用的生物學信息,但是它有兩個重要的缺陷。第一,用于保存RNA-蛋白質相互作用的前提是需要進行溫和地洗滌,這就意味著富集的片段中有相對高的非特異性結合片段。第二,沒有進行RNA打斷就降低了結合位點的分析。因此,RIP-seq具有高度靈活性,并依賴于RNA-蛋白質結合的自然穩定性。使用甲醛交聯在RNA與其相互作用的蛋白質之間產生可逆的共價鍵提高了穩定性,并減少了非特異性RNA的回收,但甲醛也會導致蛋白質-蛋白質的交聯。這種影響可以通過使用0.1%的甲醛(比ChIP-seq研究使用的甲醛低10倍)進行溫和的交聯來降低,這能在多個蛋白質靶點上產生高質量的結果。

    在CLIP中使用254nm的UV來進行聯系是一項關鍵的技術,它提高了RNA-蛋白質相互作用分析方法的特異性和位置分辨率。UV交聯在蛋白質和RNA的相互作用位點產生共價鍵,但最重要的是,它不對蛋白質-蛋白質相互交聯。這就穩定了RNA-蛋白質的結合,允許嚴格的富集,破壞了天然RNA-蛋白質的相互作用,減少了背景信號。CLIP的實驗方法隨后就構成了許多方法發展的基礎。單個核苷酸分辨率的CLIP(iCLIP)將UMIs整合到文庫中,用于移除PCR復制。它還利用了cDNA合成在交聯核苷酸處常見的過早截短,通過對截短的cDNA進行擴增來獲得交聯位點的定量,核苷酸級分辨率圖譜。光激活核糖核苷增強片段(Photoactivatable- ribonucleotide-enhanced CLIP,PAR-CLIP)通過使用4 sU和356nM的UV來進行交聯。在細胞培養過程中,4 sU被整合到內源RNAs中,356nm的UV輻射會在4 sU整合位點處產生交聯(產生高度的特異性)。在產生的測序數據中檢測反轉錄誘導的T>C替換就會能夠實現堿基對級的分辨率,并且能夠區分交聯片段和非交聯片段,進一步降低背景信號。最近對CLIP的改進提高了它的效應和靈敏度。紅外CLIP(infrared CLIP, irCLIP)用紅外凝膠成像技術來代替放射性同位素檢驗,它是基于珠子的純化技術。與常規的iCLIP使用的1百萬到2百萬細胞相比,這些技術的改進可分析只有2萬個細胞的RNA-蛋白質相互作用。增強型CLIP(enhanced CLIP, eCLIP)拋棄了RNA-蛋白質復合物的質控和可視化操作,而是在RNA接頭中添加了條形碼,這種改進可能讓所有的樣本混合到一起,并用珠子來代替了凝膠。這些改進旨在簡化實驗操作,eCLIP實驗已經研究了近200個蛋白,它已經成了ENCODE項目的一部分。但是,irCLIP與eCLIP目前都沒有被廣泛采用,部分原因是eCLIP和irCLIP的靈敏性增加的原因是由于其特異性降低導致的,比如利用兩個方法所鑒定的PTBP1結合位點上結合或有序和調節外顯子的富集減少。隨著公共數據庫中可用的大量數據為計算分析提供了新的機會,因此謹慎考慮CLIP數據的質控,過濾,以及峰值調用(peak calling)和歸一化方法就變得非常重要,這些會影響數據的生物學解釋。為了更全面地討論 RNA-蛋白質的相互作用的CLIP實驗方法,我們建議讀者可以閱讀最近關于這個主題的綜述。

    一些RRI以及所有的RNA-蛋白質結合方法對IP的依賴限制了其對有良好特征抗體蛋白質的研究,而非特異抗體的結合仍然是一個問題(雖然這一問題并非局限于這個領域)。RNA結構也會影響RNA-蛋白質之間的相互作用;一些蛋白質能識別特異的RNA二級結構或與這些結構競爭結合RNA,這使得體外的發現轉向體內就變得復雜了。此外,結構和RNA-蛋白質相互作用方法通常報告一個特定轉錄本或位置的平均值。在實驗室方法中,在計算方法和單分子測序方面的未來發展或許有助于破譯一些這些生物變異。

    結論

    Wang,Gerstein和Snyder關于RNA-seq將“革命性地[如何]分析真核轉錄體”的預測肯定是正確的。但是,即使是他們,也有可能對這種轉型的規模感到驚訝。現在我們可以分析RNA生物學的許多方面,這對于基因組功能、研究開發和確定導致癌癥和其他疾病的分子調控異常方面來說是必不可少的。雖然生物學發現階段還遠未結束,但是已經在臨床中使用了RNA-seq方法。單細胞測序正在成為許多實驗的標準配置,空間轉錄組學的分析可能會遵循類似的路徑,使其能夠在與開發當前方法的實驗室范圍之外使用。長讀長測序方法也有可能取代當前相當大比例的研究者們默認選擇的Illumina的短讀長RNA-seq。對于這種情況的出現,長讀長測序技術還需要在增加通量和降低錯誤率方面做出極大的改進。然而,長讀長mRNA異構體測序的優點是,如果它變得像現在短讀長測序一樣便宜和可靠,那么對于那些除了易降解材料外,長讀長測序就可能是首選。考慮到這些因素,那么任何關于RNA-seq在未來十年可能如何發展的預測都有可能過于保守。

    后記

    如果你看到這里,應該是真的對學習有追求,那么發郵件(jmzeng1314@163.com)給我,需要你簡單的自我介紹,誠心一點哦,就可以拿到本綜述的markdown翻譯文件,該綜述的PDF,以及一套精心編輯好的 轉錄組流程視頻演練,希望你能像看綜述這樣的認真學習本流程,等你哦 !

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 亚洲国产成人无码电影| 四虎影视一区二区精品| 亚洲理论在线A中文字幕| 亚洲日本VA午夜在线电影| 国产一区二区三区不卡AV| 少妇又爽又刺激视频| 亚洲VA中文字幕无码久久| 欧洲中文字幕一区二区| 综合图区亚洲欧美另类图片| 少妇被黑人到高潮喷出白浆| 少妇愉情理伦片BD| 中文字幕结果国产精品| 少妇太爽了在线观看免费视频| 成人无码小视频在线观看| 久久亚洲AV成人网站玖玖| 欧美人成精品网站播放| 99久久无色码中文字幕| 中文字幕亚洲国产精品| 午夜三级A三级三点在线观看| 中文字幕国产在线精品| 亚洲熟妇自偷自拍另欧美| 在线看无码的免费网站| 男女无遮挡XX00动态图120秒| 四川丰满少妇A级毛片| 精品国产AV无码一道| 亚洲色大成网站WWW国产| 亚州中文字幕一区二区| 宝贝扒开下面自慰给我看| 性欧美VIDEOFREE高清大喷水| 少妇内射高潮福利炮| 噜噜久久噜噜久久鬼88| 国产精品中文字幕观看| 欧美精品亚洲精品日韩专区| 亚洲精品无码久久一线| 亚洲成在人线在线播放无码| 久久久这里只有精品10| 久久天天躁狠狠躁夜夜婷| 福利一区二区视频在线| 久久久久无码精品国产| 人妻丝袜中文无码AV影音先锋专区| 国产久免费热视频在线观看|