Part-1 嘉賓介紹 張鶯博士,畢業(yè)于中國科學技術(shù)大學,后在賓州州立大學獲得遺傳學博士學位。現(xiàn)就職于明尼蘇達大學的超級計算中心,進行生物信息學研究。目前為止,研究的課題大致分為臨床相關(guān)的疾病研究和基礎(chǔ)的生物化學研究。 Part-2 公開課環(huán)節(jié)
首先我要強調(diào)一下本次報告的核心信息有三點:第一,臨床分析和基礎(chǔ)科研是相輔相成的。良性的醫(yī)學發(fā)展應(yīng)該建立在臨床應(yīng)用和基礎(chǔ)科研的正向反饋回路上。其次,臨床研究最重要的步驟是對于病人樣本的采集,需要符合科學的統(tǒng)計原理。最后,臨床分析的技術(shù)手段是多樣的,要具體案例具體分析。 下面我要介紹的是幾個本次報告會用到的術(shù)語。RNA-Seq:對樣本的轉(zhuǎn)錄組進行高通量測序;與之對應(yīng)的是DNA-Seq,對樣本的基因組進行測序。Transcriptome profiling:對樣本的轉(zhuǎn)錄組進行量化分析。Reads:測序所得的序列片段。FFPE:是福爾馬林固定和石蠟包埋的組織切片。
先給大家介紹一點背景情況。大約11年前,NIH設(shè)立了一個項目來支持轉(zhuǎn)化醫(yī)學(translational research)的科研(這就是CTSA)。這里轉(zhuǎn)化醫(yī)學是將基礎(chǔ)科研和臨床治療聯(lián)系在一起的研究思路。然后在大約6年前,2011年的圣誕節(jié)附近,NIH啟動了一個國家級的研究中心去加強轉(zhuǎn)化醫(yī)學方面的科研。這就是CTSI的簡短歷史。CTSI在全美大約有50-60個合作伙伴,我所在的明尼蘇達大學也是成員之一,所以,學校從11年起,就進行了很多轉(zhuǎn)化醫(yī)學的研究,我們的項目就是其中之一。我們選擇CRC-大腸癌,就是因為它是美國位列第三的高發(fā)癌癥,也是位列第三的致病癌癥。所以學術(shù)界一直在持續(xù)不斷的篩選CRC的癌基因,目的就是為了將來的臨床基因治療能有堅實的理論基礎(chǔ)。 在這個項目里,RNA-Seq是我們的主要研究手段。如圖所示,RNA-Seq的主要步驟包含采集病人樣本,提取樣本里的mRNA分子,按照標準流程來進行測序,對于測序結(jié)果進行定量分析以及差異性分析,從而篩選出癌基因(driver oncogene)。這是RNA-Seq技術(shù)目前最主要的應(yīng)用。除此以外,RNA-Seq還有很多別的應(yīng)用,比如RIP(RNA分子的免疫沉淀),transcriptome assembly(轉(zhuǎn)錄組重建),novel isoform detection(發(fā)現(xiàn)新的轉(zhuǎn)錄同形物),RNAvariant calling(RNA分子變異位點發(fā)掘)等。 但是剛才幻燈片顯示的圖片里,其實缺少了臨床實驗的一個關(guān)鍵步驟,那就是實驗設(shè)計。一個成功的科研實驗必須在設(shè)計的時候就考慮到方方面面,比如我隨后要提到的幾個方面。 第一個就是實驗的性質(zhì)。這是定量分析呢還是定性分析?一般來說,定性分析需要的樣本量要比定量的少一些,因為定性需要的精度不高。 其次就是樣本采集。這是控制“garbage in garbage out”的最關(guān)鍵一步。換句話說,有效的實驗結(jié)論只可能來源于可靠的樣本數(shù)據(jù)。在采樣過程中,尤其是臨床醫(yī)學研究中,采樣非常關(guān)鍵。舉個例子,我曾經(jīng)做過一個項目,采集了一共100個左右正常人的樣本,來確定正常肝臟功能的各項特性。結(jié)果,我們發(fā)現(xiàn)各項特性都是和性別年齡密切相關(guān)的。換句話說,在年輕女性中得出的結(jié)論,是一定不適用于年長男性的。所以,采集樣本的時候要充分考慮到樣本中可能存在的各種“非病征”性差異,也就是樣本要匹配,要在非病征的表象上匹配。 接下來的問題就是要采集多少樣本?這在統(tǒng)計學上,是一個statistic power的問題。一般來說,樣本越多,結(jié)論就越精確。但是對于背景類似的組織細胞,樣本數(shù)目可以適當減少。實際應(yīng)用中的原則就是,對于實驗室的傳代細胞,3個樣本就足夠了,但是對于特定的人類種群(比如美國的高加索種群,Caucasian),就至少需要20個個體樣本來保證統(tǒng)計模型的有效性。 RNA-Seq的第二個實驗重點在于測序手段的選擇,是用illumina進行短片段測序還是PacBio進行長片段測序?是雙向測序(pairedend)還是單向測序(singleend)?測序深度是1千萬個序列片段(reads)還是6千萬個reads?這些都是需要具體情況具體分析的。從經(jīng)驗上來說,對于人的轉(zhuǎn)錄組測序,常用方法是illumina短片段進行雙向測序(pairedend),測序深度至少1千5百萬到2千萬個reads (15-20 million)。最近還出現(xiàn)了一種新的RNA-Seq測序方式,即采用UMI來標記每個獨立的mRNA分子。UMI就是uniquemolecule identifier。這種方法可以有效控制傳統(tǒng)測序中因為PCR擴增而導致的偏差(bias),所以UMI的量化準度比較高。不過,UMI測序目前最廣泛的應(yīng)用還是在單細胞(single cell)測序上,因為這種方法可以快速的標識大量的單獨細胞中的獨立mRNA分子,這對于著眼于分析個體差異性的精準醫(yī)學非常有用。 RNA-Seq還有一個重點就是要選擇合適的軟件或者應(yīng)用程序來分析數(shù)據(jù)。我這里舉兩個例子。一個例子是序列比對(alignment)。轉(zhuǎn)錄組比對和基因組比對的最大差異在哪?在于轉(zhuǎn)錄組其實是基因組中的不連續(xù)片段。就像幻燈片圖片所示。在基因組中,一個轉(zhuǎn)錄物的構(gòu)成即包括外顯子exon,又包括內(nèi)含子intron。exon和intron是交互排列的。但是轉(zhuǎn)錄成mRNA分子后,就只剩exon的部分了。所以選擇的程序就應(yīng)該把這點考慮進去。 幻燈片中的圖表是兩種不同比對程序的分析結(jié)果。上面是BWA,我們可以看到在exon和intron分界的地方,比對序列呈現(xiàn)一種斜坡形態(tài)。下面是GSNAP,這個程序在exon和intron分界處,穩(wěn)定了比對序列的數(shù)量。所以GSNAP比BWA更好。其實目前有很多論文在比較各種計算模型做序列對比的優(yōu)缺,這里我就不一一舉例了,只說一下大概結(jié)論。普遍看法是各個軟件對于human,mouse的分析都精度較高。但是對于非模型生物(non-modelorganisms),就需要調(diào)試各項參數(shù)來達到最優(yōu)結(jié)果了。 第二個例子就是定量分析。怎么樣去定量是一個還存在爭議的問題。早先的一些程序,比如EdgeR,都是基于“直接計數(shù)”的,畢竟直接數(shù)數(shù)是最快,最直接的方式。而且,從統(tǒng)計學上來說,做差異性分析,并不需要100%精確的定量數(shù)據(jù),因為統(tǒng)計學看重的是變化趨勢,而不是變化量。但是直接計數(shù)有很多不便的地方,比如說,直接計數(shù)沒辦法做轉(zhuǎn)錄同形物(isoform)的分析,而且它不能用到ambiguous的短序列,如幻燈片中的圖表所示。所以在2012年,Nature Protocols上發(fā)表了經(jīng)典論文-運用Tuxedo Suite來做RNA-Seq分析。Tuxedo Suite是馬里蘭大學的一個研究組開發(fā)的一系列軟件,標準化了RNA-Seq的定量差異性分析。這個軟件的核心部分是splice-aware的序列比對程序tophat,和FPKM這個基因表達的定量公式。FPKM考慮了樣本測序深度和轉(zhuǎn)錄物的長度,彌補了直接計算的缺陷。但是,隨著越來越多的論文發(fā)表,大家認識到了fpkm的不足,因為這個公式?jīng)]有考慮轉(zhuǎn)錄同形物的相對分布量。所以,Tuxedo Suite的資深作者開發(fā)了kallisto模型,提出了TPM的定量公式。不過kallisto并不是真正的去比對測序片段和基因組序列,而是直接通過“pseudo-alignment”來定量。即便如此,很多研究表明,TPM的精度比FPKM高,而且kallisto的運行速度更快。 我從2017年的一篇論文中截取了本頁幻燈片的圖表,就是為了讓大家對剛才提到的幾種定量分析有一個比較。總結(jié)一下,就是直接計數(shù)和實驗方式直接相關(guān),所以穩(wěn)定性差,而FPKM的波動最大,TPM表現(xiàn)最好。 我想到目前為止,大家應(yīng)該對RNA-Seq有了一個大致的印象。接下來,就是CRC的案例分析了。關(guān)于這個項目,我們是和所在地的診所合作,收集了20個病人和5個正常人的樣本。這并不是最好的實驗方案,因為病人和對照組的數(shù)據(jù)不匹配,而且病人樣本遠超對照組樣本。除此以外,我們還制作了兩個病人的FFPE樣本,試圖通過FFPE和fresh frozen樣本的比較分析,來確認一個有效的FFPE分析方式。因為有FFPE樣本,我們對每個樣本都進行了雙向的深度測序,最終每個樣本得到6-8千萬個序列片段。 我們的分析流程列舉在這一頁了。這應(yīng)該是比較標準化的步驟了,一步步從質(zhì)量控制開始,到序列比對,到基因表達量化,最后就是差異性分析,和經(jīng)驗驗證。接下來,我會一步步的分解說明各個分析步驟的結(jié)果要如何看待。 最后,我再重申一下本次報告的幾個重點。臨床研究和基礎(chǔ)科研是相輔相成的,但是目前的主流看法是臨床實踐要落后基礎(chǔ)科研10年,所以這里我們大有可為。其次,因為臨床研究針對的是病人個性,在設(shè)計實驗的時候要考慮到生物個體間的差異性。當然了,目前最流行的精準醫(yī)學就是在研究生物個體間的差異性。第三,分析臨床實驗結(jié)果要謹慎,不僅要盡量采取標準程序,還要具體問題具體分析。最后,對于FFPE樣本的分析還是難點,這是由于樣本特性所決定的。謝謝大家能參與這次報告,歡迎提問。 Part-3 問答互動環(huán)節(jié) 聽眾A: 作為臨床研究者,當然是希望能夠科學合理的采集盡可能多的病人樣本。但是在實際操作中,總會有不如意的樣本。那么碰到壞的樣本要怎么處理呢? 張老師: 事實上,在任何情況之下,我們都會碰到有一些不太好的,或者是不能用的樣本。碰到這種情況,第一個要知道這是很正常的,第二個如果碰到壞的樣本,要知道做質(zhì)量控制。如果我們能夠越早發(fā)現(xiàn)有壞的樣本,那么事實上就可以盡量減少這個壞的樣本對于整個分析流程的影響。其次,因為上面介紹的主要是一個比較標準化的tuxedo suite分析方式,現(xiàn)在還有一些其它的統(tǒng)計模型,它們能夠處理一些有大偏差的數(shù)據(jù),所以即使有壞的樣本,也不要特別擔心,要么我們就剔除樣本,要么就采取更強的分析手段。最后還要補充的是,碰到壞的樣本的時候,我們?nèi)タ唇Y(jié)果,因為結(jié)果出來會有很多候選基因,就像實驗里面一樣。那么如果碰到有樣本不盡如人意的話,我們一般會挑選最強的信號,所謂最強的信號就是表達量差異最大,差異最穩(wěn)定的這個基因,來作為我們下一步實驗的候選基因。 聽眾B: 對于數(shù)據(jù)的清洗,假如有接頭污染是對該reads對直接去掉還是只去除接頭部分加A堿基? 張老師: 是這樣的,對于數(shù)據(jù)的清洗,如果有接頭污染的部分,如果數(shù)據(jù)量比較大,可以直接去掉reads,但是一般來說,我們只會去除掉頭部分不好的堿基。 觀眾C: 講座中提到臨床醫(yī)學相對基礎(chǔ)科研來說有個滯后性,那么我們有沒有可能去填補這個差距呢? 張老師: 其實關(guān)于臨床醫(yī)學相對基礎(chǔ)科研的滯后性,就是現(xiàn)在大家都在做Translational Research的一個原因,因為我們想加快臨床醫(yī)學對于基礎(chǔ)科研的應(yīng)用,但是滯后性在一定程度上來說不是做科研的人能夠控制的,因為有很多條條框框的控制條款。我舉個例子,在美國想把基礎(chǔ)科研應(yīng)用到臨床醫(yī)學上,要進行一些認證,其中最重要的是Clinical Laboratory Improvement Amendments,認證是一個很長期的過程,我們自己當時還做了另外一個研究,用比較流行的云計算去進行基因分析,當時是和一個醫(yī)院合作的,這個certification至少做了一到兩年才拿到。當然政府對于科研或者說醫(yī)療方面進行調(diào)控,是可以理解的,但是有很多時候還是讓人覺得很失意,比如說美國現(xiàn)在對于基因測序,是否要對每個人都進行基因測序,大家還處于討論、設(shè)定行業(yè)規(guī)則的階段。所以我覺得這個是一個比較長期的過程,不過如果大家能夠早一點開始考慮這個問題,是有可能縮短從基礎(chǔ)科研到臨床醫(yī)學轉(zhuǎn)化的時間。 觀眾D: 感謝張老師的演講,請問張老師如果二代測序分析得到某基因表達量與qpcr驗證結(jié)果不一致應(yīng)該怎么辦? 張老師: 目前大家一般認為表達量精度qpcr是高于RNA-Seq的,如果結(jié)果不一樣,我建議采取qpcr的驗證結(jié)果。 觀眾E: 我想問一下,做轉(zhuǎn)錄組測序的時候,老師在選取實驗入組樣本方面有什么好的建議? 張老師: 是這樣的,因為我不知道你的實驗組織是什么,是選擇病人還是選擇其它的一些模型生物。如果選擇病人的話。最好能夠找到匹配的,比如說病人里面都是年輕人的話,那么對照組也盡量都選擇年輕人;如果有百分之五十是女性的話,對照組最好也百分之五十是女性;如果做其它的組織或者個體,比如說老鼠,這個實驗就相對來說簡單一點,只要選同樣遺傳學背景的老鼠,比如C57BL/6J就可以了。 觀眾F: 張老師您好,在分析差異表達時,重復數(shù)是獲得統(tǒng)計顯著性,去除噪音很重要的因素,但是因樣本來源、成本、實驗設(shè)計等原因,有時并沒有設(shè)置重復(replicates),這個時候采用什么分析方法更有效呢? 張老師: 如果你是在做臨床醫(yī)學分析沒有重復樣本的話,我建議就不要做這個分析了,因為沒有多個樣本的話,數(shù)據(jù)基本上是不可信的。當然如果做另外的研究,比如就像我前面提到做精準醫(yī)學的時候,只需要有一個病人的樣本,就可以做精準醫(yī)學。但是要做Translational Research 還是有問題的。如果做其它組織或者個體(比如老鼠),如果沒有設(shè)置重復,只是想做一個trial,pilot project,目前來說我知道的分析方法就是Tuxedo Suite,fpkm這個模型里面可以處理只有一個樣本的狀況。,不過我是非常不建議只有一個樣本,只有一個樣本沒有變化量的話,結(jié)果很可能是不準確的。 觀眾G: 張老師您好,我想咨詢一下RNA-Seq結(jié)果的后續(xù)生物學意義分析中,除了在講課中提到的通過heatmap看樣本間表達量差異外,還有哪些分析可以做?尤其目前比較流行的?當然GO, Pathway等通常的分析都會做吧? 觀眾H: 我覺得和張博士的研究目的有關(guān)。在本次的研究中,張博士的最終研究目的是篩選癌基因。那么做了Go,通路的富集分析,我覺得作用不大,而且思路有可能被帶偏。因為上述的分析,是把思路往機制、網(wǎng)絡(luò)、系統(tǒng)生物學的方向去引導。而張博士本次的研究目的是找到點。 觀眾G: 所以我想看后續(xù)張博士還會用什么方法進行生物學意義的分析。GO,Pathway分析對發(fā)現(xiàn)一些基因也是有幫助的。 觀眾H: 嗯,有可能有幫助,但目前我覺得還有它的局限。因為Go,Pathway 提供的是結(jié)構(gòu)化的圖表信息,并不是用來解釋生物學效應(yīng)是在什么條件下為什么成立的,它的作用是給出了如果成立,分子相互作用的路線框架圖。比如:JAK,STAT是很大的蛋白家族,JAK家族中的蛋白,和STAT家族中的蛋白,存在著怎樣的對應(yīng)關(guān)系?作為信號分子的細胞因子和JAK之間又存在怎樣的對應(yīng)關(guān)系?除此以外,什么樣的胞外信號可以激活STAT的哪一類蛋白?這樣的效應(yīng),是在什么器官或者組織中完成的?在什么樣的疾病中,通路會發(fā)生異常?我個人覺得,就當前的GO,Pathway(包括商軟)的注釋發(fā)展速度,跟不上當前人們?nèi)找嬖鲩L的分析需求。 觀眾G: 是呀。所以很想看看最近大家都在做什么?好久沒follow up了。 觀眾H: 有的時候,我也在想一個問題:一旦涉及到后續(xù)生物學意義的分析,怎么樣保證不讓它變成大馬路上的東西不讓它看起來像發(fā)文利器而是實實在在的做東西 觀眾I: RBA-Seq目前三大方向都是很適合的:差異表達,融合基因發(fā)現(xiàn),repertoire。 觀眾H: 我們有的時候會引入雙聚類,或者是通過計算自己的轉(zhuǎn)錄組,看誰家實驗結(jié)果和我家趨勢一樣,或者完全相反,通過分析結(jié)果,來尋找結(jié)果成立的各種條件. 張老師: 你好觀眾G,就像觀眾H說的,對于CRC的分析,我就只是做了transcriptome profiling和fusion gene detection。我能做后者還是因為我們的測序深度足夠。這里我就提了differential expression是因為我覺得這是一個更常見分析,所以和大家討論的話,共鳴會更多。至于你說的其他分析,在我做的別的項目里面,我還用RNA-seq做過一些system biology的分析。相比較觀眾H說的go和pathway,system biology主要是搭建coexpression network。如果數(shù)據(jù)足夠的話,是可以給每個網(wǎng)絡(luò)點,也就是基因來建立模型的。然后,可以in silico的引入一些小擾動,看下游的基因表達變化。這也是現(xiàn)在比較熱門的一種分析吧。 觀眾G: 一些in silico 小擾動,喜歡這個。這個應(yīng)該也是建立在明確pathway的基礎(chǔ)上,是吧?因為可以知道disturb后關(guān)注哪些基因。 張老師: 就像觀眾H說的,“或者是通過計算自己的轉(zhuǎn)錄組,看誰家實驗結(jié)果和我家趨勢一樣,或者完全相反”,我如果有時間,也想做這個。因為我現(xiàn)在做single cell sequencing的過程中,發(fā)現(xiàn)可用的cell marker genes太少。唯一一組141個免疫基因的數(shù)據(jù),還是別人2013年的一篇論文,綜合了幾千個differential expression的實驗,提煉出141個免疫基因和141個stroma cell特定基因。 觀眾H: 我們用Genevestigator 處理趨勢相似相反 感覺在國外打開更流暢。 張老師: 在single cell里面看這些基因list的表達實在是太有意義了。因為目前single cell的分析程式都差不多停留在告訴你有多少個cell subtypes了。根本做不到明確確定這個cell subtype就是stem或者cancer cell的目的。 觀眾H: 對,需要在single cell里面,更有意義。 張老師: 我做的是用system biology的一些原理,自己建一個coexpression 網(wǎng)絡(luò)。建模型的過程沒有用到已知的pathway。但是最后在網(wǎng)絡(luò)中肯定是可以發(fā)現(xiàn)一些已知pathway的。我看到過genevesigator這個程序,但是沒用過。 觀眾H: Part-4 第十五期公開課預告 |
|