賽福基因公開課第十四期《RNA-Seq在臨床醫(yī)學中的應(yīng)用——關(guān)于結(jié)直腸癌的案例研究》

teszsz 2017-12-28

展開全文

Part-1

嘉賓介紹

張鶯博士，畢業(yè)于中國科學技術(shù)大學，后在賓州州立大學獲得遺傳學博士學位。現(xiàn)就職于明尼蘇達大學的超級計算中心，進行生物信息學研究。目前為止，研究的課題大致分為臨床相關(guān)的疾病研究和基礎(chǔ)的生物化學研究。

Part-2

公開課環(huán)節(jié)

大家好，我叫張鶯，今天我和大家分享的主題是關(guān)于RNA-Seq在臨床醫(yī)學中的應(yīng)用，包含CRC的案例分析。因為要交流的內(nèi)容涉及還未發(fā)表的數(shù)據(jù)，所以我會更側(cè)重于研究的方式方法，而把結(jié)論部分粗略帶過。

首先我要強調(diào)一下本次報告的核心信息有三點：第一，臨床分析和基礎(chǔ)科研是相輔相成的。良性的醫(yī)學發(fā)展應(yīng)該建立在臨床應(yīng)用和基礎(chǔ)科研的正向反饋回路上。其次，臨床研究最重要的步驟是對于病人樣本的采集，需要符合科學的統(tǒng)計原理。最后，臨床分析的技術(shù)手段是多樣的，要具體案例具體分析。

下面我要介紹的是幾個本次報告會用到的術(shù)語。RNA-Seq：對樣本的轉(zhuǎn)錄組進行高通量測序；與之對應(yīng)的是DNA-Seq，對樣本的基因組進行測序。Transcriptome profiling：對樣本的轉(zhuǎn)錄組進行量化分析。Reads：測序所得的序列片段。FFPE：是福爾馬林固定和石蠟包埋的組織切片。

這張幻燈片列出了本次報告的大綱。大致分3個部分：背景介紹，研究中的重點難點，以及CRC-案例的分析。我的講述重點在第二塊。如果大家在聽講中有任何疑問，歡迎隨時提問。

先給大家介紹一點背景情況。大約11年前，NIH設(shè)立了一個項目來支持轉(zhuǎn)化醫(yī)學（translational research）的科研（這就是CTSA）。這里轉(zhuǎn)化醫(yī)學是將基礎(chǔ)科研和臨床治療聯(lián)系在一起的研究思路。然后在大約6年前，2011年的圣誕節(jié)附近，NIH啟動了一個國家級的研究中心去加強轉(zhuǎn)化醫(yī)學方面的科研。這就是CTSI的簡短歷史。CTSI在全美大約有50-60個合作伙伴，我所在的明尼蘇達大學也是成員之一，所以，學校從11年起，就進行了很多轉(zhuǎn)化醫(yī)學的研究，我們的項目就是其中之一。我們選擇CRC-大腸癌，就是因為它是美國位列第三的高發(fā)癌癥，也是位列第三的致病癌癥。所以學術(shù)界一直在持續(xù)不斷的篩選CRC的癌基因，目的就是為了將來的臨床基因治療能有堅實的理論基礎(chǔ)。

在這個項目里，RNA-Seq是我們的主要研究手段。如圖所示，RNA-Seq的主要步驟包含采集病人樣本，提取樣本里的mRNA分子，按照標準流程來進行測序，對于測序結(jié)果進行定量分析以及差異性分析，從而篩選出癌基因（driver oncogene）。這是RNA-Seq技術(shù)目前最主要的應(yīng)用。除此以外，RNA-Seq還有很多別的應(yīng)用，比如RIP（RNA分子的免疫沉淀），transcriptome assembly（轉(zhuǎn)錄組重建），novel isoform detection（發(fā)現(xiàn)新的轉(zhuǎn)錄同形物），RNAvariant calling（RNA分子變異位點發(fā)掘）等。

但是剛才幻燈片顯示的圖片里，其實缺少了臨床實驗的一個關(guān)鍵步驟，那就是實驗設(shè)計。一個成功的科研實驗必須在設(shè)計的時候就考慮到方方面面，比如我隨后要提到的幾個方面。

第一個就是實驗的性質(zhì)。這是定量分析呢還是定性分析？一般來說，定性分析需要的樣本量要比定量的少一些，因為定性需要的精度不高。

其次就是樣本采集。這是控制“garbage in garbage out”的最關(guān)鍵一步。換句話說，有效的實驗結(jié)論只可能來源于可靠的樣本數(shù)據(jù)。在采樣過程中，尤其是臨床醫(yī)學研究中，采樣非常關(guān)鍵。舉個例子，我曾經(jīng)做過一個項目，采集了一共100個左右正常人的樣本，來確定正常肝臟功能的各項特性。結(jié)果，我們發(fā)現(xiàn)各項特性都是和性別年齡密切相關(guān)的。換句話說，在年輕女性中得出的結(jié)論，是一定不適用于年長男性的。所以，采集樣本的時候要充分考慮到樣本中可能存在的各種“非病征”性差異，也就是樣本要匹配，要在非病征的表象上匹配。

接下來的問題就是要采集多少樣本？這在統(tǒng)計學上，是一個statistic power的問題。一般來說，樣本越多，結(jié)論就越精確。但是對于背景類似的組織細胞，樣本數(shù)目可以適當減少。實際應(yīng)用中的原則就是，對于實驗室的傳代細胞，3個樣本就足夠了，但是對于特定的人類種群（比如美國的高加索種群，Caucasian），就至少需要20個個體樣本來保證統(tǒng)計模型的有效性。

RNA-Seq的第二個實驗重點在于測序手段的選擇，是用illumina進行短片段測序還是PacBio進行長片段測序？是雙向測序（pairedend）還是單向測序（singleend）？測序深度是1千萬個序列片段（reads）還是6千萬個reads？這些都是需要具體情況具體分析的。從經(jīng)驗上來說，對于人的轉(zhuǎn)錄組測序，常用方法是illumina短片段進行雙向測序（pairedend），測序深度至少1千5百萬到2千萬個reads （15-20 million）。最近還出現(xiàn)了一種新的RNA-Seq測序方式，即采用UMI來標記每個獨立的mRNA分子。UMI就是uniquemolecule identifier。這種方法可以有效控制傳統(tǒng)測序中因為PCR擴增而導致的偏差（bias），所以UMI的量化準度比較高。不過，UMI測序目前最廣泛的應(yīng)用還是在單細胞（single cell）測序上，因為這種方法可以快速的標識大量的單獨細胞中的獨立mRNA分子，這對于著眼于分析個體差異性的精準醫(yī)學非常有用。

RNA-Seq還有一個重點就是要選擇合適的軟件或者應(yīng)用程序來分析數(shù)據(jù)。我這里舉兩個例子。一個例子是序列比對（alignment）。轉(zhuǎn)錄組比對和基因組比對的最大差異在哪？在于轉(zhuǎn)錄組其實是基因組中的不連續(xù)片段。就像幻燈片圖片所示。在基因組中，一個轉(zhuǎn)錄物的構(gòu)成即包括外顯子exon，又包括內(nèi)含子intron。exon和intron是交互排列的。但是轉(zhuǎn)錄成mRNA分子后，就只剩exon的部分了。所以選擇的程序就應(yīng)該把這點考慮進去。幻燈片中的圖表是兩種不同比對程序的分析結(jié)果。上面是BWA，我們可以看到在exon和intron分界的地方，比對序列呈現(xiàn)一種斜坡形態(tài)。下面是GSNAP，這個程序在exon和intron分界處，穩(wěn)定了比對序列的數(shù)量。所以GSNAP比BWA更好。其實目前有很多論文在比較各種計算模型做序列對比的優(yōu)缺，這里我就不一一舉例了，只說一下大概結(jié)論。普遍看法是各個軟件對于human，mouse的分析都精度較高。但是對于非模型生物（non-modelorganisms），就需要調(diào)試各項參數(shù)來達到最優(yōu)結(jié)果了。

第二個例子就是定量分析。怎么樣去定量是一個還存在爭議的問題。早先的一些程序，比如EdgeR，都是基于“直接計數(shù)”的，畢竟直接數(shù)數(shù)是最快，最直接的方式。而且，從統(tǒng)計學上來說，做差異性分析，并不需要100%精確的定量數(shù)據(jù)，因為統(tǒng)計學看重的是變化趨勢，而不是變化量。但是直接計數(shù)有很多不便的地方，比如說，直接計數(shù)沒辦法做轉(zhuǎn)錄同形物(isoform)的分析，而且它不能用到ambiguous的短序列，如幻燈片中的圖表所示。所以在2012年，Nature Protocols上發(fā)表了經(jīng)典論文-運用Tuxedo Suite來做RNA-Seq分析。Tuxedo Suite是馬里蘭大學的一個研究組開發(fā)的一系列軟件，標準化了RNA-Seq的定量差異性分析。這個軟件的核心部分是splice-aware的序列比對程序tophat，和FPKM這個基因表達的定量公式。FPKM考慮了樣本測序深度和轉(zhuǎn)錄物的長度，彌補了直接計算的缺陷。但是，隨著越來越多的論文發(fā)表，大家認識到了fpkm的不足，因為這個公式?jīng)]有考慮轉(zhuǎn)錄同形物的相對分布量。所以，Tuxedo Suite的資深作者開發(fā)了kallisto模型，提出了TPM的定量公式。不過kallisto并不是真正的去比對測序片段和基因組序列，而是直接通過“pseudo-alignment”來定量。即便如此，很多研究表明，TPM的精度比FPKM高，而且kallisto的運行速度更快。

我從2017年的一篇論文中截取了本頁幻燈片的圖表，就是為了讓大家對剛才提到的幾種定量分析有一個比較。總結(jié)一下，就是直接計數(shù)和實驗方式直接相關(guān)，所以穩(wěn)定性差，而FPKM的波動最大，TPM表現(xiàn)最好。

我想到目前為止，大家應(yīng)該對RNA-Seq有了一個大致的印象。接下來，就是CRC的案例分析了。關(guān)于這個項目，我們是和所在地的診所合作，收集了20個病人和5個正常人的樣本。這并不是最好的實驗方案，因為病人和對照組的數(shù)據(jù)不匹配，而且病人樣本遠超對照組樣本。除此以外，我們還制作了兩個病人的FFPE樣本，試圖通過FFPE和fresh frozen樣本的比較分析，來確認一個有效的FFPE分析方式。因為有FFPE樣本，我們對每個樣本都進行了雙向的深度測序，最終每個樣本得到6-8千萬個序列片段。

我們的分析流程列舉在這一頁了。這應(yīng)該是比較標準化的步驟了，一步步從質(zhì)量控制開始，到序列比對，到基因表達量化，最后就是差異性分析，和經(jīng)驗驗證。接下來，我會一步步的分解說明各個分析步驟的結(jié)果要如何看待。

最后，我再重申一下本次報告的幾個重點。臨床研究和基礎(chǔ)科研是相輔相成的，但是目前的主流看法是臨床實踐要落后基礎(chǔ)科研10年，所以這里我們大有可為。其次，因為臨床研究針對的是病人個性，在設(shè)計實驗的時候要考慮到生物個體間的差異性。當然了，目前最流行的精準醫(yī)學就是在研究生物個體間的差異性。第三，分析臨床實驗結(jié)果要謹慎，不僅要盡量采取標準程序，還要具體問題具體分析。最后，對于FFPE樣本的分析還是難點，這是由于樣本特性所決定的。謝謝大家能參與這次報告，歡迎提問。

Part-3

問答互動環(huán)節(jié)

聽眾A：

作為臨床研究者，當然是希望能夠科學合理的采集盡可能多的病人樣本。但是在實際操作中，總會有不如意的樣本。那么碰到壞的樣本要怎么處理呢？

張老師：

事實上，在任何情況之下，我們都會碰到有一些不太好的，或者是不能用的樣本。碰到這種情況，第一個要知道這是很正常的，第二個如果碰到壞的樣本，要知道做質(zhì)量控制。如果我們能夠越早發(fā)現(xiàn)有壞的樣本，那么事實上就可以盡量減少這個壞的樣本對于整個分析流程的影響。其次，因為上面介紹的主要是一個比較標準化的tuxedo suite分析方式，現(xiàn)在還有一些其它的統(tǒng)計模型，它們能夠處理一些有大偏差的數(shù)據(jù)，所以即使有壞的樣本，也不要特別擔心，要么我們就剔除樣本，要么就采取更強的分析手段。最后還要補充的是，碰到壞的樣本的時候，我們?nèi)タ唇Y(jié)果，因為結(jié)果出來會有很多候選基因，就像實驗里面一樣。那么如果碰到有樣本不盡如人意的話，我們一般會挑選最強的信號，所謂最強的信號就是表達量差異最大，差異最穩(wěn)定的這個基因，來作為我們下一步實驗的候選基因。

聽眾B：

對于數(shù)據(jù)的清洗，假如有接頭污染是對該reads對直接去掉還是只去除接頭部分加A堿基？

張老師：

是這樣的，對于數(shù)據(jù)的清洗，如果有接頭污染的部分，如果數(shù)據(jù)量比較大，可以直接去掉reads，但是一般來說，我們只會去除掉頭部分不好的堿基。

觀眾C：

講座中提到臨床醫(yī)學相對基礎(chǔ)科研來說有個滯后性，那么我們有沒有可能去填補這個差距呢？

張老師：

其實關(guān)于臨床醫(yī)學相對基礎(chǔ)科研的滯后性，就是現(xiàn)在大家都在做Translational Research的一個原因，因為我們想加快臨床醫(yī)學對于基礎(chǔ)科研的應(yīng)用，但是滯后性在一定程度上來說不是做科研的人能夠控制的，因為有很多條條框框的控制條款。我舉個例子，在美國想把基礎(chǔ)科研應(yīng)用到臨床醫(yī)學上，要進行一些認證，其中最重要的是Clinical Laboratory Improvement Amendments，認證是一個很長期的過程，我們自己當時還做了另外一個研究，用比較流行的云計算去進行基因分析，當時是和一個醫(yī)院合作的，這個certification至少做了一到兩年才拿到。當然政府對于科研或者說醫(yī)療方面進行調(diào)控，是可以理解的，但是有很多時候還是讓人覺得很失意，比如說美國現(xiàn)在對于基因測序，是否要對每個人都進行基因測序，大家還處于討論、設(shè)定行業(yè)規(guī)則的階段。所以我覺得這個是一個比較長期的過程，不過如果大家能夠早一點開始考慮這個問題，是有可能縮短從基礎(chǔ)科研到臨床醫(yī)學轉(zhuǎn)化的時間。

觀眾D：

感謝張老師的演講，請問張老師如果二代測序分析得到某基因表達量與qpcr驗證結(jié)果不一致應(yīng)該怎么辦？

張老師：

目前大家一般認為表達量精度qpcr是高于RNA-Seq的，如果結(jié)果不一樣，我建議采取qpcr的驗證結(jié)果。

觀眾E：

我想問一下，做轉(zhuǎn)錄組測序的時候，老師在選取實驗入組樣本方面有什么好的建議？

張老師：

是這樣的，因為我不知道你的實驗組織是什么，是選擇病人還是選擇其它的一些模型生物。如果選擇病人的話。最好能夠找到匹配的，比如說病人里面都是年輕人的話，那么對照組也盡量都選擇年輕人；如果有百分之五十是女性的話，對照組最好也百分之五十是女性；如果做其它的組織或者個體，比如說老鼠，這個實驗就相對來說簡單一點，只要選同樣遺傳學背景的老鼠，比如C57BL/6J就可以了。

觀眾F：

張老師您好，在分析差異表達時，重復數(shù)是獲得統(tǒng)計顯著性，去除噪音很重要的因素，但是因樣本來源、成本、實驗設(shè)計等原因，有時并沒有設(shè)置重復（replicates），這個時候采用什么分析方法更有效呢？

張老師：

如果你是在做臨床醫(yī)學分析沒有重復樣本的話，我建議就不要做這個分析了，因為沒有多個樣本的話，數(shù)據(jù)基本上是不可信的。當然如果做另外的研究，比如就像我前面提到做精準醫(yī)學的時候，只需要有一個病人的樣本，就可以做精準醫(yī)學。但是要做Translational Research 還是有問題的。如果做其它組織或者個體（比如老鼠），如果沒有設(shè)置重復，只是想做一個trial,pilot project，目前來說我知道的分析方法就是Tuxedo Suite，fpkm這個模型里面可以處理只有一個樣本的狀況。，不過我是非常不建議只有一個樣本，只有一個樣本沒有變化量的話，結(jié)果很可能是不準確的。

觀眾G：

張老師您好，我想咨詢一下RNA-Seq結(jié)果的后續(xù)生物學意義分析中，除了在講課中提到的通過heatmap看樣本間表達量差異外，還有哪些分析可以做？尤其目前比較流行的？當然GO, Pathway等通常的分析都會做吧？

觀眾H：

我覺得和張博士的研究目的有關(guān)。在本次的研究中，張博士的最終研究目的是篩選癌基因。那么做了Go，通路的富集分析，我覺得作用不大，而且思路有可能被帶偏。因為上述的分析，是把思路往機制、網(wǎng)絡(luò)、系統(tǒng)生物學的方向去引導。而張博士本次的研究目的是找到點。

觀眾G：

所以我想看后續(xù)張博士還會用什么方法進行生物學意義的分析。GO,Pathway分析對發(fā)現(xiàn)一些基因也是有幫助的。

觀眾H：

嗯，有可能有幫助，但目前我覺得還有它的局限。因為Go,Pathway 提供的是結(jié)構(gòu)化的圖表信息，并不是用來解釋生物學效應(yīng)是在什么條件下為什么成立的，它的作用是給出了如果成立，分子相互作用的路線框架圖。比如：JAK，STAT是很大的蛋白家族，JAK家族中的蛋白，和STAT家族中的蛋白，存在著怎樣的對應(yīng)關(guān)系？作為信號分子的細胞因子和JAK之間又存在怎樣的對應(yīng)關(guān)系？除此以外，什么樣的胞外信號可以激活STAT的哪一類蛋白？這樣的效應(yīng)，是在什么器官或者組織中完成的？在什么樣的疾病中，通路會發(fā)生異常？我個人覺得，就當前的GO,Pathway(包括商軟）的注釋發(fā)展速度，跟不上當前人們?nèi)找嬖鲩L的分析需求。

觀眾G：

是呀。所以很想看看最近大家都在做什么？好久沒follow up了。

觀眾H：

有的時候，我也在想一個問題：一旦涉及到后續(xù)生物學意義的分析，怎么樣保證不讓它變成大馬路上的東西不讓它看起來像發(fā)文利器而是實實在在的做東西

觀眾I：

RBA-Seq目前三大方向都是很適合的：差異表達，融合基因發(fā)現(xiàn)，repertoire。

觀眾H:

我們有的時候會引入雙聚類,或者是通過計算自己的轉(zhuǎn)錄組，看誰家實驗結(jié)果和我家趨勢一樣，或者完全相反,通過分析結(jié)果，來尋找結(jié)果成立的各種條件.

張老師：

你好觀眾G，就像觀眾H說的，對于CRC的分析，我就只是做了transcriptome profiling和fusion gene detection。我能做后者還是因為我們的測序深度足夠。這里我就提了differential expression是因為我覺得這是一個更常見分析，所以和大家討論的話，共鳴會更多。至于你說的其他分析，在我做的別的項目里面，我還用RNA-seq做過一些system biology的分析。相比較觀眾H說的go和pathway，system biology主要是搭建coexpression network。如果數(shù)據(jù)足夠的話，是可以給每個網(wǎng)絡(luò)點，也就是基因來建立模型的。然后，可以in silico的引入一些小擾動，看下游的基因表達變化。這也是現(xiàn)在比較熱門的一種分析吧。

觀眾G：

一些in silico 小擾動，喜歡這個。這個應(yīng)該也是建立在明確pathway的基礎(chǔ)上，是吧？因為可以知道disturb后關(guān)注哪些基因。

張老師：

就像觀眾H說的，“或者是通過計算自己的轉(zhuǎn)錄組，看誰家實驗結(jié)果和我家趨勢一樣，或者完全相反”，我如果有時間，也想做這個。因為我現(xiàn)在做single cell sequencing的過程中，發(fā)現(xiàn)可用的cell marker genes太少。唯一一組141個免疫基因的數(shù)據(jù)，還是別人2013年的一篇論文，綜合了幾千個differential expression的實驗，提煉出141個免疫基因和141個stroma cell特定基因。

觀眾H：

我們用Genevestigator 處理趨勢相似相反感覺在國外打開更流暢。

張老師：

在single cell里面看這些基因list的表達實在是太有意義了。因為目前single cell的分析程式都差不多停留在告訴你有多少個cell subtypes了。根本做不到明確確定這個cell subtype就是stem或者cancer cell的目的。

觀眾H：

對，需要在single cell里面，更有意義。

張老師：

我做的是用system biology的一些原理，自己建一個coexpression 網(wǎng)絡(luò)。建模型的過程沒有用到已知的pathway。但是最后在網(wǎng)絡(luò)中肯定是可以發(fā)現(xiàn)一些已知pathway的。我看到過genevesigator這個程序，但是沒用過。

觀眾H：
不同庫，通路基因不一樣。如果一定要涉及通路，我會用pathcards 處理，找到通路綜合，盡量不漏。這個功能就在共表達模塊里面，有時間可以使用一下，數(shù)據(jù)驅(qū)動應(yīng)該是能發(fā)現(xiàn)更多有價值的信息。

Part-4

第十五期公開課預告