久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    Nature子刊: 從大量宏基因組數據中對病毒進行基因組分箱

     醫學abeycd 2022-11-04 發布于湖北

    Genome binning of viral entities from bulk metagenomics data

    作者:Joachim Johansen, Damian R. Plichta, Jakob Nybo Nissen, Marie Louise Jespersen, Shiraz A. Shah, Ling Deng, Jakob Stokholm, Hans Bisgaard, Dennis Sandris Nielsen, S?ren J. S?rensen, Simon Rasmussen

    Nature Communications:2022/02/18

    Despite the accelerating number of uncultivated virus sequences discovered in metagenomics and their apparent importance for health and disease, the human gut virome and its interactions with bacteria in the gastrointestinal tract are not well understood. This is partly due to a paucity of whole-virome datasets and limitations in current approaches for identifying viral sequences in metagenomics data. Here, combining a deep-learning based metagenomics binning algorithm with paired metagenome and metavirome datasets, we develop Phages from Metagenomics Binning (PHAMB), an approach that allows the binning of thousands of viral genomes directly from bulk metagenomics data, while simultaneously enabling clustering of viral genomes into accurate taxonomic viral populations. When applied on the Human Microbiome Project 2 (HMP2) dataset, PHAMB recovered 6,077 high-quality genomes from 1,024 viral populations, and identified viral-microbial host interactions. PHAMB can be advantageously applied to existing and future metagenomes to illuminate viral ecological dynamics with other microbiome constituents.

    論文ID

    名:Genome binning of viral entities from bulk metagenomics data

    從大量宏基因組數據中對病毒進行基因組分箱

    期刊Nature Communications

    IF:17.694

    發表時間:2022.2

    通訊作者:Simon Rasmussen

    通訊作者單位:丹麥哥本哈根大學

    DOI號:10.1038/s41467-022-28581-5

    實驗設計



    結果

    1 從宏基因組學數據中進行病毒種群分箱和組裝的方法構架

    我們使用VAMB來產生宏基因組bins,它的優點在于既能對微生物基因組進行分類,又能將各樣本中的bins歸入亞種或同種群。已有研究證明這種方法對于研究細菌和古細菌微生物組很有用,但它在病毒學研究中更有潛力,因為病毒的保守性差得多,更多樣,由于沒有像在細菌中發現的通用遺傳標記,因此更難識別。同種特異性病毒基因組可用于直接識別和溯源同一樣本隊列中的病毒種群(圖1a)。為了開發方法構架,我們采用兩個基于Illumina鳥槍法測序的有成對的宏基因組和宏病毒組可用的數據集,其中2010年哥本哈根兒童哮喘前瞻性研究(COPSAC)數據集包括662個配對樣本,Diabimmune隊列數據集包含112個配對樣本。這兩個數據集都包含一個完成注釋的病毒種類列表,分別為10021和328種病毒,我們將其作為訓練和測試我們的方法的黃金標準。與COPSAC相比,Diabimmune宏病毒組的病毒富集程度較低(附圖1),因此,我們利用CheckV的平均氨基酸同源性(AAI)模型將宏病毒組中的基因組分為不同質量等級,即完整、高質量(HQ)、中等質量(MQ)、低質量(LQ)和未確定(ND),以建立一個可比較的病毒數據集。

    圖1 從宏基因組數據中進行病毒種群分箱和組裝的方法構架。a 從分箱的宏基因組中探索病毒的工作流程圖。首先,在分箱的宏基因組上訓練RF模型;使用參考數據庫確定細菌bins,使用配對的宏基因組組裝病毒序列確定病毒。將病毒和細菌標記的bins用作訓練和評估RF模型的輸入。來自任何宏基因組(如人類腸道、土壤或海洋)的bins都可以通過RF模型進行注釋,以提取病毒bins序列,并使用專用工具(如CheckV)進一步驗證HQ病毒。此外,可以在縱向數據集中探索宿主-病毒動態信息,以建立溫和噬菌體和病毒對宿主泛基因組的貢獻。b 對來自Diabimmune的病毒bins的預測結果計算AUC、F1分數和Matthews相關性。這些性能分數是根據訓練過的RF模型的概率分數和各種病毒預測工具的病毒bins分數匯總計算而來的。對于除RF模型外的所有工具,如果所有重疊群的病毒評分(以平均值、中位數或contig長度加權平均值計算)高于閾值,則基因組被標記為病毒。viralVerify、Seeker、Virsorter2、Virfinder和DeepVirfinder使用的閾值分別為7、0.5、0.9、0.9、0.9。c 在Diabimmune或COPSAC數據集中以三種不同的完整性水平計算的從大量宏基因組中恢復的病毒基因組數量,評估為宏基因組的單個重疊群或病毒bins。用CheckV評估基因組的完整性,MQ≥50%,HQ≥90%,完整基因組定義為基于直接末端重復(DTR)或倒置末端重復的閉環基因組。d 相對于單重疊群評估,使用我們的方法在Diabimmune或COPSAC隊列中發現的病毒基因組的百分比增加。e 與(b)類似,對訓練過的RF模型和各種病毒預測因子計算預測性能得分,但基于CAMI模擬病毒基因組(包括細菌、病毒和質粒)的預測結果。

    2 病毒分箱技術比單個重疊群層面的方法更有效果

    宏基因組樣本的分箱結果可能包含幾十萬個bins,因此我們首先開發了一個隨機森林(RF)模型來區分病毒類基因組bins和細菌類基因組bins。RF模型利用分箱結果的聚類信息,并在樣品特定的分箱結果中聚集信息,形成亞種聚類。在這一研究中,我們發現RF模型能夠非常有效地區分細菌和病毒種群,在驗證集上的曲線下面積(AUC)為0.99,Matthews相關系數(MCC)為0.91(圖1b和附表1)。與單重疊群評估方法相比,RF模型的優勢在于其他方法的AUC最高為0.86,MCC最高為0.16。這種性能上的差異可能是由RF模型在bin水平上的評估所解釋的,其中一個病毒得分較低的序列不會導致對整個bin的錯誤預測。例如,與根據CheckV的單重疊群評估相比,我們在Diabimmune和COPSAC數據集中恢復的HQ bins分別增加了200(190%)和771(95%)(圖1c,d)。基于CheckV的單重疊群評估,我們發現在COPSAC和Diabmmune數據集中,分別有97.7%和95.3%的HQ contigs被歸入HQ bins,這意味著有一小部分的HQ contigs(高達2.3和4.7%)在分箱過程中丟失,造成基因組恢復的凈增加降低,但這種影響可以通過單重疊群評估來恢復。最后,我們觀察到,當使用兩個數據集中的病毒bins時,每個病毒的病毒標志基因數量明顯增多(T檢驗,雙側,t = 16.85,P < 0.0005),而病毒基因組長度和病毒比例基本相當(附圖2)。

    3 病毒分箱技術在模擬病毒組數據中表現出色

    然后,我們使用模擬數據集(包括兩個純病毒數據集和一個包含細菌、質粒和病毒的混合數據集)研究了VAMB的病毒分箱(binning)性能和預測性能。兩個純病毒數據集由80個crAss樣病毒和50個從MGV數據庫中隨機抽取的小基因組(<6000 bp)病毒組成。為了建立混合數據集,我們將crAss樣病毒和小基因組病毒數據集與另外150個隨機病毒基因組、8個細菌基因組和20個質粒基因組相混合(見方法)。在混合數據集上,VAMB(144個bins)的表現(高召回率和>0.9的準確率)優于MetaBAT2(134個bins),對應于所有模擬病毒基因組的50%以上(144/280)(附圖3a)。此外,我們發現VAMB在較低的召回率(>0.5)和不斷提高的準確率水平下,復原bins的數量越來越多。對于質粒,這兩個工具效率相當,以>0.5的召回率和>0.95的準確率對10/20個質粒進行了分箱(附圖3b)。接下來,我們研究了病毒基因組大小和高度相似的病毒如何影響分箱性能。為此,我們對較小的病毒基因組(<6000 bp,n = 50)和同一家族的病毒(crAss-like,n = 80)進行取樣。對于小病毒和同一家族病毒集,分別共有48/50和70/80個基因組以>0.99的召回率和>0.99的準確率被分箱(附圖4ab)。在混合數據集中,VAMB以較高的召回率和準確率(F1>0.9)捕獲了大多數小基因組病毒,這證實了小病毒易于分箱的特點(附圖4c),表明基因組大小對分選性能的影響較小。最后,為了進一步驗證RF模型,我們比較了單個重疊群病毒預測工具在預測bin是病毒還是細菌方面的效果(圖1e)。使用混合模擬數據集,與RF模型相比,單重疊群方法鑒別性能明顯更低。例如,具有高AUC(高達0.98)的多個單株病毒預測工具顯示出較低的MCC得分,這意味著在給定的閾值下預測不是非常準確(圖1e和附圖5,6)。然后,我們嘗試優化每個單重疊群病毒預測工具的決策閾值(附圖5,6),這略微提高了MCC得分。例如,viralVerify在模擬數據上的AUC為0.98,表明它能有效地區分細菌和病毒基因組,但在細菌和病毒得分分布上存在重疊。因此,即使有一個優化的閾值,viralVerify顯示的MCC為0.39。相比之下,RF模型的AUC(0.93)和MCC(0.87)均較高。因此,我們發現RF模型,其次是viralVerify,是混合微生物組裝數據集中最適合的分箱方法。雖然RF模型將質粒錯誤地預測為病毒,但我們發現,在下游使用CheckV有助于做出最終的評估,因為質粒bin包含多個細菌起源的基因,通常被歸類為 "NA "或被不太精確的HMM模型挑出(附圖7)。

    4 宏基因組分箱可以識別宏病毒組無法鑒定出來的病毒基因組

    當用我們的VAMB和RF模型方法進行分箱時,我們在COPSAC和Diabimmune數據集中分別獲得了4480和916個MQ或HQ代表性分箱的病毒bins。然后,我們將所有VAMB簇視為"病毒種群",從而得到2428和534個至少具有1個MQ或更高的病毒bins的病毒群。在將從宏基因組數據集獲得的病毒群與相應的宏病毒組進行比較后,我們分別在物種(ANI>95)水平和菌株(ANI>97)水平(圖2a)上恢復了在宏病毒組中建立的17-36%和9-28%的HQ病毒(對應于527和2676個宏病毒組病毒群)。在宏基因組中恢復的病毒比例大大高于近期研究中的估計值(8.5-10%)。這很有意思,因為深度測序的宏基因組可能會捕獲宏基因組中通常沒有發現的多種低豐度病毒。此外,我們發現46-69%的HQ宏基因組病毒種群(對應于Diabimmune中的124個和COPSAC中的839個病毒種群)在宏基因組中沒有發現,這表明很大一部分病毒組可能在病毒富集過程中丟失或者在誘導形式中沒有體現,因為它們是整合的原噬菌體(圖2b)。然而,我們也發現,在宏病毒組中有65-83%的HQ病毒種群未在宏基因組數據中發現(Diabimmune中共有197個,COPSAC中共有2589個),這表明反過來也是如此。對于在COPSAC大量和宏病毒組中發現的病毒子集,我們估計病毒bins的平均完整性更高(T檢驗,雙側,T=34.02,CI=24.4;27.4,P=2.2e-16)(圖2c)。總體而言,我們發現很大一部分腸道病毒種群可以從宏基因組數據中恢復,并且與宏病毒組數據相比,檢索的完整性更高。

    圖2 宏基因組分箱可以識別宏病毒組無法鑒定出來的病毒基因組。a COPSAC和Diabimmune宏病毒組中的不同完整度病毒的比例,或全部用CheckV確定,這些病毒在同一隊列的大量宏基因組的VAMB bins中確定。如果對齊部分至少為75%,且ANI>90、>95或>97.5,則我們將宏病毒組病毒定義為基于FastANI的VAMB bins的復原病毒。b使用CheckV確定的不同完整性水平上的病毒種群百分比,在宏病毒組(MVX)和宏基因組(MGX)中均可識別,或僅為其中一個數據集所獨有。共享種群的最小序列覆蓋率為75%,ANI大于95%。(1) MVX中的MGX:在MGX中發現的病毒種群在MVX中也發現的百分比。(2) MGX不在MVX中:MGX特有的病毒種群的百分比,即在MVX中沒有發現。(3) MGX中的MVX:在MVX中發現的病毒種群也在MGX中發現的百分比。(4) MVX不在MGX中:MVX特有的病毒種群的百分比,即在MGX中沒有發現。c 病毒基因組的完整性是基于宏病毒組和宏基因組中發現的n = 2646種病毒而估計的,這些病毒在CheckV數據庫中具有相同的最接近的參考序列。d 來自大量宏基因組的病毒bins中與宏病毒組中最接近的病毒參考序列不一致的contig數。在大多數病毒bins中,所有contigs都與最接近的參考序列對齊。ANI,平均核苷酸同源性。

    5 病毒分箱污染低

    最后,我們想研究技術上的“分箱錯誤”和污染性重疊群的情況,因為這可能會夸大病毒基因組的大小,影響質量評估和下游分析。基于COPSAC數據集中與宏病毒組病毒高度相似的病毒bins(n = 1705)(見方法),我們發現在91.4%的情況下,每個bin都不包含不相關的重疊群(圖2d)。僅考慮多重疊群bins時(n=570),我們計算出堿基對的平均bin純度為97.4%,這意味著平均有2.55%的基因組沒有與相應的MVX病毒對齊,這表明存在污染,或者說,在大量宏基因組數據集中有更完整的病毒。我們根據模擬數據進一步分析了污染程度,其中87.6%的病毒bins的準確率為1(附圖8a)。對于多重疊群bins,我們計算出平均bin純度為94.5%(中位數100%),支持了真實數據的結果,即大多數bins的污染程度較低。總之,我們結合分箱和機器學習的方法提高了從宏基因組數據中識別和恢復病毒基因組的能力,并概述了直接從污染程度較低的人類腸道微生物組樣本中分箱片段和完整病毒的可能性。

    6 重組HMP2 IBD腸道宏基因組隊列的病毒組

    然后我們將本研究的方法應用于HMP2 IBD隊列(包括27名健康對照、65名CD和38名UC患者)。這些樣本是以縱向方式收集,每個患者有1-26個樣本。重要的是,該隊列中沒有已有的宏病毒組學數據,使用我們的方法,我們能夠鑒定隊列中的細菌和病毒種群,并僅使用宏基因組學數據探索它們在IBD中的動態變化。從該隊列中,我們恢復了577個完整、6077個HQ、9704個MQ(圖3a)和122,107個LQ病毒bins,對應于263個完整、1024個HQ、2238個MQ和44,017個LQ病毒種群。與單重疊群評估相比,我們還發現基因組大小>200 kbp的較大病毒/巨型病毒的基因組完整性有所增加(附圖9)。在所有的數據集中,我們觀察到54個分箱的假定巨型病毒(補充數據1)。此外,我們還觀察到,作為單個重疊群和病毒bins恢復的病毒具有相似的病毒長度分布模式,兩者都與CheckV質量等級相關(圖3b)。

    圖3 重組HMP2 IBD腸道宏基因組隊列的病毒組。a HMP2中三種不同完整程度的病毒基因組的數量,以單個重疊群或來自宏基因組的病毒bins進行評估。基因組完整性的評估是用CheckV確定的,這里顯示的是中等質量≥50%(MQ),高質量≥90%(HQ),完整=基于直接末端重復或倒置末端重復的封閉基因組。b HMP2中以來自宏基因組的單重疊群(n = 215009)或病毒bins(n = 138367)評估的四個不同完整程度的病毒基因組的序列長度分布(kbp)。c 基于同一VAMB簇內各bins之間的成對ANI基因組測定的ANI中值。ANI中值在0-25個bins的小型VAMB簇和300-400個bins的大型VAMB簇中均高于97.5。d 基于TerL的crAss樣bins的無根進化樹的Cladogram圖。五個不同的VAMB簇進行不同顏色著色,說明了高度的單系關系。ANI,平均核苷酸同源性%;DTR,直接末端重復;ITR,倒置末端重復;Kbp,千堿基對。

    7 病毒種群分類高度一致

    然后,我們分析并發現我們的病毒種群的分類一致性很高,從MQ到完整病毒種群的簇內平均核苷酸同源性(ANI)的中位數為97.3-99.3%(附圖11)。即使在有超過100個樣本特異性病毒bins的病毒簇中,簇內ANI中值也始終很高(中位數=97.1-98.5%)(圖3c)。但是,簇間ANI較低,在91.7-92.8%之間,更接近于屬水平。因此,我們的方法能夠在不同的樣本中識別和聚類接近菌株水平的病毒基因組。例如,在HMP2數據集中,我們確定了50個不同的病毒種群,總共有916個MQ或更好的crAss樣病毒bins。此時,病毒種群653對應于原型crAssphage噬菌體,占HMP2數據集中發現的916個crAss樣基因組中的253個。然后,我們用所有這916個bins來構建一個基于TerL的系統發育樹,發現根據其種群的病毒基因組的位置高度一致(圖3d和附圖12)。病毒種群653形成了一個單系分支,而所有其他crAss樣bins中除一個bin外均為單系。因此,將crAss樣基因組劃分為分箱簇很可能代表了實際的病毒多樣性。綜上所述,這表明我們的無參分箱產生了分類準確的病毒種群,從而聚集了各樣本之間高度相似的病毒基因組。

    8 健康受試者的宏基因組病毒組是個性化且高度穩定的

    一些宏病毒組研究報告了人類腸道中存在大量穩定的病毒。我們發現,在HMP2隊列中,非IBD受試者的腸道病毒群是高度個性化且穩定的,這體現在非IBD受試者的樣本與UC(T檢驗,雙側P = 0.017,t = -2.47,CI = -0.01;-0.13)和CD受試者(T檢驗,雙側,P = 0.023,t = -2.3,CI = -0.12;-0.01)相比,Bray-Curtis差異度更低(圖4a,b)。此外,Price等人所定義的菌群失調樣本可以用主成分分析(PCoA)明確分開,其中病毒組解釋了4.2和3.4%的變化(圖4c)。這一點通過對病毒(P < 10 - 3,R2 = 1.6%,F = 9.51,permutations = 999)和細菌豐度譜(P < 10-3,R2 = 3.0%,F = 11.97)的PERMANOVA分析得到證實,并表現出影響病毒組和細菌組的失調現象。α-多樣性指標支持這一點,因為與UC和CD受試者相比,非IBD受試者的Shannon-多樣性(SD)更高(T檢驗,雙側,P = 0.000155,t = -3.79和P = 7.9e-09,t = -5.81),而菌群失調影響了每個患者組,導致SD明顯降低。與此相應,病毒豐富度在UC(雙側T檢驗,P=1.44e-15,t=-8.09,CI=-12.40;-19.80)和CD(雙側T檢驗,P=<2e-16,t=-9.39,CI=-12.91;-19.50)患者中較低,而在菌群失調樣本中進一步升高(圖4d, e)。在細菌組中也觀察到了這些病毒的α-多樣性趨勢,這表明在菌群失調期間,病毒遵循其細菌宿主的增加或減少(附圖14)。事實上,在348種差異豐度病毒中,我們發現有250種可能是溫和病毒,它們隨著菌群失調的增加而增多(線性混合效應模型,FDR校正后P<0.005)。這一觀察結果證實了早期的結果,即UC和CD中溫和病毒增加。對病毒和預測的細菌宿主的縱向豐度曲線的進一步分析再次證實了同步擴展理論(附圖15)。

    圖4 健康受試者的宏基因組病毒組是個性化且高度穩定的。a 3個非IBD(綠)、3個UC(黃)和3個CD(紅)診斷對象的縱向病毒群組成。b 基于Bray-Curtis距離(BC)函數的不同受試者樣本之間(第一部分病人間距離)和同一受試者樣本之間(第二部分病人內距離)的箱線圖。BC距離展示的是來自非IBD(n = 326)、UC(n = 323)和CD(n = 573)診斷對象的樣本。此外,BC距離根據菌群失調(藍色,UC=39個樣本,CD=133個樣本,非IBD=38個樣本)或不失調(綠色,UC=284個樣本,CD=425個樣本,非IBD=286個樣本)進行著色。c HMP2病毒豐度矩陣計算的Bray-Curtis距離矩陣的主成分分析(PCoA)。d 宏基因組得出的病毒種群的香農多樣性估計值,并根據(b)中的圖例進行著色。非IBD-健康對照,UC-潰瘍性結腸炎,CD-克羅恩病。

    9 從病毒種群和MAGs探索病毒-宿主相互作用

    對宏基因組學數據進行分析的一個特點是細菌和病毒種群同時被分箱。因此,我們能夠估計微生物群落中病毒和細菌的豐度,并使用MAGs通過計算方法探索病毒宿主范圍。從HMP2數據集中,我們總共獲得了3130和3819個接近完整(NC)和中等質量(MQ)的MAGs。基于MAGs中的CRISPR間隔序列,我們發現間隔序列命中了464個(45.3%)具有至少一個HQ代表序列的病毒種群。為了進一步擴展我們的病毒-宿主預測,我們在MAGs和病毒種群之間進行了“all-vs-all”的比對搜索,以尋找原噬菌體特征。然后,通過結合CRISPR間隔序列和原噬菌體搜索,我們將來自擬桿菌門(Bacteroidetes)、厚壁菌門(Firmicutes)、放線菌門(Actinobacteria)和變形菌門(Proteobacteria)的93.6%、74.4%、82.5%和65.0%的MAGs分別與至少一種病毒關聯起來(附圖16)。我們估計CRISPR間隔序列和原噬菌體特征的宿主預測準確度在物種水平上為94.5%和75.6%(附圖17B)。因此,我們證實大多數腸道噬菌體宿主范圍通常比較狹窄。屬于糞桿菌屬(Faecalibacterium)和擬桿菌屬(Bacteroides)的MAGs似乎是病毒熱點,因為99.7%至98.7%可能與一個HQ病毒bin相關,分別對應123和230個不同的病毒種群(圖5a)。例如,在豐富的共生普通擬桿菌(Bacteroides vulgatus)中,我們觀察到多個樣品中的多種病毒隨時間變化而出現一致的原噬菌體特征(圖5b)。有趣的是,由于對crAss噬菌體的宿主范圍還不太清楚,我們在數據庫中分析了CRISPR間隔序列對MAGs的比對率。盡管我們可以將全部HQ病毒群的45.3%宿主注釋為MAGs,但使用CRISPR間隔序列,916個crAss樣bins中只有74個可以與我們數據集中的3306個擬桿菌bins中的任何一個相關聯。盡管我們已經為998/3306(約30%)的擬桿菌bins組裝了CRISPR陣列。當我們對包含580,383個細菌基因組的綜合CRISPR間隔序列數據庫進行類似的搜索時,我們可以將916個crAss樣bins中的512個注釋為擬桿菌。這些結果表明,在相同的環境中,從擬桿菌CRISPR-Cas系統中提取的CRISPR間隔序列并不經常以crAss樣噬菌體為靶點。

    圖5 從病毒種群和MAGs探索病毒-宿主相互作用。a 細菌MAGs和病毒的關系。每個MAGs通過病毒與MAGs的序列比對(綠色)、CRISPR間隔序列比對(橙色)或兩者(藍色)與病毒bins相連。與MAGs屬相關的不同病毒種群的數量,其基于以下任一情況:病毒與給定屬內MAGs的序列比對、CRISPR間隔序列比對或兩者都有。b 病毒與HMP2數據集中VAMB簇216(B. vulgatus)的所有MAGs相關。例如,在絕大多數存在B. vulgatus的樣本中,病毒種群502與B. vulgatus相關。

    10 分箱的病毒種群富含溫和噬菌體中發現的蛋白

    另一個有趣的話題是病毒-宿主的互補性,特別是噬菌體可以為宿主提供什么功能,以及病毒蛋白質組在不同宿主中有何不同。利用我們的病毒-宿主聯系圖,并通過對病毒蛋白序列的表征,我們將蛋白注釋按其預測的宿主屬分層排列。總體而言,與病毒結構相關蛋白如基底板、門戶蛋白、衣殼蛋白、頭部、尾部/尾部纖維以及病毒整合酶和Lambda-阻遏蛋白相關的注釋蛋白高度富集(補充數據2)。例如,高達60%的病毒中發現了Lambda-阻遏蛋白,這表明我們的數據集富含溫和噬菌體(圖6a)。有趣的是,我們還發現了病毒編碼的蛋白結構域,這些結構域具有介導病毒進入受體的功能,在感染擬桿菌和Alistipes的一組病毒種群中富集,如TonB plug和TonB依賴性受體結構域(PF07715和PF00593,Fisher精確檢驗,adj.P < 0.05,FDR校正)(補充數據3)。此外,TonB結構域還編碼一個免疫優勢表位,表明病毒種群在被其宿主表達時攜帶免疫原性進入受體。最后,逆轉錄酶(RT,PF00078)蛋白也大量存在,這與最近的結果一致,并且無論預測的宿主是什么,所有的病毒種群都存在(附圖18A)。這些蛋白是噬菌體多樣性產生區域中的已知模塊,可引起特定病毒基因的高變異性。

    圖6 病毒蛋白和未知的宏病毒組。a 與四個細菌宿主屬相關的HQ病毒的百分比;Alistipes、Bacteroides、Faecalibacterium和Roseburia。b 具有至少一個病毒標志基因的所有病毒bins的Virsorter2病毒預測得分。使用CheckV評估完整性,當完整性≥50%或高質量≥90%時,這些bins被分組為(1)HQ-MQ-ref(n = 45,983 bins),(2)完整性低于50%的bins被注釋為“未知”(n = 392,226 bins),以及(3)對細菌宿主具有可靠的CRISPR間隔序列的“未知”bins被注釋為病毒樣(n = 43,695 bins)。c 細菌MAGs、HQ-MQ-ref病毒種群、“未知”和(b)中定義的病毒樣種群的樣本RPM分布。d HMP2中具有HQ基因組的罕見和高度流行病毒的RPKM豐度。每個點代表一個病毒種群,根據病毒科分類進行著色。e 與(d)相同,但有類似病毒的種群,如1338集群,表明許多病毒的豐度低,但高度流行。

    11 探索未知(“dark-matter”)的宏病毒組

    最后,我們研究了RF預測bins中與任何已知基因組都不相似的部分,即宏基因組“暗物質”,被定義為至少沒有一個HQ或MQ病毒bins的種群。因此,這些種群是微生物組的一部分,而這些微生物沒有被歸類為細菌、古細菌和不相似的已知病毒基因組。由于“暗物質”數量眾多(占所有RF預測的VAMB簇的97.6%),我們懷疑其中許多是病毒片段或未知病毒。大于10 kbp?的“暗物質”種群與HQ-MQ病毒bin相比,至少有一個病毒標志基因的顯示出更低的病毒預測分數,而CRISPR間隔序列靶向的bins呈現出顯著更高的預測分數(T檢驗,雙側,CI?=?0.05:0.067,P?=?2.2e-16),因此我們將其注釋為“病毒樣”(圖6b和附圖19)。在對這些組(HQ-MQ、病毒樣、“未知”)的讀長豐度進行分層時,我們發現它們分別解釋了樣本中總讀長豐度的2.77%、2.04%和17.7%(圖6c)。此外,我們發現,在不同疾病狀態中,至少有40%的患者中檢測到5%的HQ和3.7%的病毒樣種群。例如,在41%的隊列中觀察到HQ病毒群簇653(圖6d)。同時,在98%的個體中觀察到1338的病毒樣種群,但與所有參考基因組的相似性都較低(圖6e)。然而,在將“未知”bins標記為病毒時應謹慎,因為這些“暗物質”bins可能不完整、受污染或含有其他類型的可移動遺傳元件,而這些元件編碼與病毒共享的蛋白質,如整合酶、聚合酶和毒素-抗毒素模塊。


    討論

    由于目前病毒組裝過程面臨的挑戰,導致病毒基因組恢復不完整,因而病毒種群一直都難以研究。宏基因組數據集對于識別廣泛的病毒,特別是毒力強大的病毒至關重要。然而,建立宏基因組數據集的不足和困難與大量宏基因組產生的事實相結合,提示我們需要更多的方法來有效提取其中的病毒組。本研究提出了一個改進的方法框架,直接從大量宏基因組數據集中探索宏病毒組。

    利用我們的病毒和細菌關聯圖,我們希望將人類的腸道病毒種群與高度豐富的腸道細菌聯系起來并進行研究。這些細菌不僅是高度豐富的腸道共生菌,而且也是病毒的感染宿主熱點,正如我們通過將230個和123個病毒種群分別與擬桿菌和糞桿菌聯系起來所顯示的那樣。病毒熱點可以用其絕對數量和基因組測序深度等因素部分解釋,這可能使CRISPR-cas系統的組裝更加完整。這些聯系中的很大一部分也是通過原噬菌體特征,即細菌和噬菌體之間共享的基因組元件建立起來的(圖5)。原噬菌體特征可能是溶菌和合并感染率增加的結果,因為較高的微生物密度和噬菌體吸附率為多個噬菌體“捎帶”高產宿主和交換遺傳物質提供了有利條件。與其他結果一致,我們發現F. prausnitzii基因組中含有豐富的原噬菌體,并且能夠為HMP2中99.7%的細菌bins注釋一個原噬菌體。在HMP2隊列中,我們確定了250種可能的溫和有尾噬菌體目病毒,在腸道菌群失調加劇后以與細菌宿主同步的方式進行擴張。然而,還需要做更多的工作來概述復雜的病毒-宿主動力學,以解釋在IBD中觀察到的與菌群失調有關的病毒對細菌擾動的影響程度,如“Piggyback-the-Winner”“Kill-the-Winner”的動態,并仔細計算相關關系。

    基于病毒蛋白質組,很明顯,在大量宏基因組中提取的大部分HQ病毒可能是溫和病毒,因為我們在46%的病毒種群中發現了整合酶蛋白,在感染糞桿菌的60%的病毒中發現了Lambda-阻遏蛋白。這讓人們預測,非富集的病毒群主要是感染樣本中占主導的宿主細胞的病毒。有趣的是,我們從感染擬桿菌和Alistipes等擬桿菌門細菌的病毒中提取了數百個病毒蛋白質組,發現病毒編碼具有免疫優勢表位的蛋白質的例子,如TonB plug結構域(PF07715)和TonB依賴性β-桶結構域(PF00593)。最近的一項研究表明,常見的結構性噬菌體蛋白,如TMP蛋白也含有免疫優勢表位,可通過交叉反應引起抗腫瘤免疫。因此,研究病毒生物通過免疫原性蛋白的水平轉移和表達影響人類宿主-微生物群免疫平衡的程度是很有意思的。
    迄今為止,宏病毒組研究一直是探索微生物組中病毒多樣性的主要來源。現在,大量宏基因組中的病毒種群越來越多地被發現,本研究表明,通過在三個不同的隊列中進行病毒分箱,可以識別出更完整的病毒基因組,最近一篇側重于對測序病毒顆粒進行分箱的論文中也有類似的結果。我們的方法允許在三個隊列中對病毒和細菌種群進行精確聚類,從而能夠直接分析病毒與宿主的相互作用并發現新的多樣性。我們相信,未來的研究可以極大地利用這種方法來進行病毒組分析,并研究病毒對控制人類健康的復雜微生物組生態系統的影響。

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 亚洲夂夂婷婷色拍WW47 | 性奴sm虐辱暴力视频网站| 亚洲一区二区三区无码久久| 最近2019中文字幕大全视频1| 久久国产成人午夜AV影院| 肉大捧一进一出免费视频| 午夜成人性爽爽免费视频| 欧美人成精品网站播放| 国产亚洲精品VA片在线播放| 成人爽A毛片免费视频| 黑巨茎大战俄罗斯美女| jizzjizz少妇亚洲水多| 99久久婷婷国产综合精品青草漫画| 日韩人妻系列无码专区| 国产真人无码作爱视频免费| 3D动漫精品啪啪一区二区免费| 亚洲精品韩国一区二区| 无码熟妇人妻AV影音先锋| 久久精品亚洲乱码伦伦中文| 亚洲精品香蕉一区二区| 丰满人妻AV无码一区二区三区| 一本精品99久久精品77| 狠狠色狠狠色综合久久蜜芽| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 深夜av免费在线观看| 久久久久久久久久久免费精品 | 亚洲一区二区三区无码中文字幕 | 思思久久96热在精品国产| 日日橹狠狠爱欧美视频| 亚洲av无码精品蜜桃| 精品一区二区三区在线播放视频| 中文有无人妻vs无码人妻激烈| 在线观看AV永久免费| 国产成人高清亚洲综合| 亚洲AV无码专区国产乱码电影| 亚洲色在线V中文字幕| 开心一区二区三区激情| 肉大捧一进一出免费视频 | 成人免费A级毛片无码网站入口| 亚洲男女内射在线播放| 成人看的污污超级黄网站免费|