翻譯:周之超@UW-Madison 來自人類腸道菌群的 189,680 種 DNA 病毒的宏基因組匯編Metagenomic compendium of 189,680 DNA viruses from the human gut microbiome viruses Nature Microbiology [IF: 17.745] DOI:https:///10.1038/s41564-021-00928-6 發表日期:2021-06-24 第一作者:Stephen Nayfach1,2 通訊作者:Stephen Nayfach 合作作者: David Páez-Espino,Lee Call,Soo Jen Low,Hila Sberro,Natalia N. Ivanova,Amy D. Proal,Michael A. Fischbach,Ami S. Bhatt,Philip Hugenholtz 主要單位: 1美國加州環境基因組學和系統生物學部勞倫斯-伯克利國家實驗室(Environmental Genomics and Systems Biology Division, Lawrence Berkeley National Laboratory, Berkeley, CA, USA) 2美國能源部聯合基因組研究所(U.S. Department of Energy Joint Genome Institute, Berkeley, CA, USA) 摘要噬菌體在人類腸道微生物組的生態學中具有重要作用,但在參考數據庫中的代表性不足。為了解決這個問題,我們組裝了宏基因組腸道病毒目錄,包括來自11,810個公開的人類糞便宏基因組的189,680個病毒基因組。超過75%的基因組代表雙鏈DNA噬菌體,它們感染了Bacteroidia和Clostridia的成員。基于序列聚類,我們確定了54,118個候選病毒物種,其中92%在現有數據庫中沒有發現。Metagenomic Gut Virus(MGV)目錄改善了糞便宏基因組中病毒的檢測,占人類腸道細菌和古細菌中發現的CRISPR間隔物的近40%。我們還制作了一個459,375個病毒蛋白簇的目錄,以探索腸道病毒組的功能潛力。這項研究揭示了數以萬計的產生多樣性的逆轉錄因子,這些逆轉錄因子利用容易出錯的逆轉錄來突變目標基因,并可能參與噬菌體和其細菌宿主之間的分子軍備競賽。 正文腸道微生物組是一個復雜的微生物生態系統,對人類健康和發展具有重要作用。雖然經常被忽視,但據估計,病毒在微生物組中含量豐富,并與人類疾病有關。特別是噬菌體(感染細菌的病毒)構成了大部分的病毒顆粒,并能通過噬菌體捕食、溶菌作用和水平基因轉移影響微生物生態系統過程。盡管它們無處不在,但我們對微生物組中病毒基因組多樣性的了解是有限的,大多數病毒序列未能與現有的基因組數據庫匹配。來自微生物組的病毒基因組綜合數據庫是對病毒進行免組裝量化、預測宿主與病毒的相互作用、比較基因組學和基因組挖掘(例如抗CRISPR基因)的先決條件。 傳統上,對微生物組中的病毒基因組進行測序有兩種主要方法:病毒宏基因組測序和大量宏基因組測序。病毒宏基因組學包括使用尺寸過濾來選擇病毒樣顆粒,然后進行病毒DNA提取、(通常)全基因組擴增、鳥槍測序和宏基因組組裝。雖然尺寸過濾是用來富集細胞外病毒的,但它不會去除所有的細胞生物體,并會排除一些大型病毒。由于樣品生物量低,通常需要進行全基因組擴增,但會使病毒豐度出現偏差,并過度擴增小型環狀單鏈DNA(ssDNA)病毒。 另一種方法是得到大宗宏基因組,不進行尺寸過濾或全基因組擴增,然后通過計算分離病毒和細胞序列。這種方法可以捕捉到細胞外和細胞內病毒的序列,包括整合的原病毒,并且不受全基因組擴增的影響。然而,在大宗的宏基因組測序中,由于大部分reads來自于細胞生物,所以組裝低豐度的病毒更具挑戰性。此外,DNA提取方法可能沒有針對病毒進行優化,一些病毒序列可能來自于細菌染色體中退化的原病毒。 迄今為止,許多研究已經利用病毒宏基因組測序技術從人類糞便樣本中識別出各種表型的噬菌體基因組。為了整合這些不同的數據集,Soto-Perez等人從1,831個公共樣本(包括皮膚、糞便、肺和血液)形成了人類病毒組數據庫(HuVirDB),Gregory等人從2,697個公共樣本形成了腸道病毒組數據庫(GVD)。與這些病毒宏基因組研究相比,Paez-Espino等人通過從大宗宏基因組(包括人類微生物組計劃中的490個糞便樣本)中識別病毒,形成了IMG/VR數據庫。自此以后,公開可用的大宗宏基因組的數量迅速增加,最近大規模的數據挖掘工作證明了這一點。 為了擴大這些現有的資源并提供腸道病毒組的補充觀點,我們對來自61個先前發表的研究的11,810個人類糞便樣本的宏基因組進行了大規模的病毒基因組鑒定。我們利用這些數據形成了宏基因組腸道病毒(MGV)目錄,其中包含189,680個病毒基因組草圖,估計完整度大于50%,代表54,118個候選病毒物種。這些基因組極大地擴展了已知的來自腸道微生物組的DNA病毒的多樣性,并提高了對宿主-病毒聯系的認識。我們希望MGV目錄將成為一個有用的群落資源,用于審視腸道病毒組在人類健康和疾病中的作用。 結果來自腸道微生物組的DNA病毒的基因組目錄A genomic catalogue of DNA viruses from the gut microbiome 我們為目前的研究開發了一個病毒檢測管道,使用了成熟的方法和特征,包括VirFinder、來自地球病毒組研究的病毒蛋白家族,以及病毒基因位于同一條鏈上的傾向和未被命名的功能(圖1a、b)。根據計算機模擬的基準,我們的管道能夠敏感地識別各種人類相關病毒和噬菌體的基因組片段,包括crAss-like噬菌體和巨噬菌體,具有很高的特異性,與現有的方法相比表現良好。對于1、10和100kb的基因組片段,我們的管道實現了41%、74%和96%的真陽性率(TPR),假陽性率(FPR)僅為0.43%、0.38%和0.18%。 圖 1 從人類腸道宏基因組中回收的數千個高質量病毒基因組thousands of high-quality viral genomes recovered from human gut metagenomes
然后,我們將我們的管道應用于來自11,810個不同的人類腸道樣本的大宗宏基因組,這些樣本是在以前的研究中組裝的,廣泛地抓捕到裂解和溶原DNA病毒(圖1a)。所分析的數據集橫跨24個國家的61項研究,包括具有廣泛的年齡、生活方式和疾病狀態的個體。這揭示了350萬個獨特的、長度超過1 kb的單片段病毒基因組。根據對所有三項研究中發現的宏基因組的分析,我們發現組裝器的選擇(即MEGAHIT與metaSPAdes)對恢復的病毒的質量或相似度沒有什么影響。病毒基因組主要來自歐洲(46%)、中國(23%)和美國(13%)的個體,反映了這些來源的宏基因組數據量(分別占總組裝長度的45%、24%和11%)。 宏基因組組裝的病毒的完整性可能差別很大,從短的片段到完整或接近完整的基因組。為了評估基因組的完整性,我們應用了CheckV,揭示了189,680個至少50%完整的基因組(圖1c),包括根據直接末端重復(n = 19,704)、宿主-病毒邊界(n = 5,123)和倒末端重復(n = 1,203)確定的26030個完整基因組。為了提高基因組質量,我們從這些序列中刪除了側翼的宿主區域(圖1a);確認病毒基因組沒有宿主污染,我們在所有189,680個病毒中只發現了一個全長的16S rRNA基因(側翼是一個整合的原病毒),而在用于發現病毒的全套宏基因組contigs中則有83,050個16S rRNA基因。我們將所有的后續分析集中在完整性大于50%的189,680個基因組上,以避免與小基因組片段有關的限制,并與應用于微生物基因組的質量標準相一致。 由于在測序前沒有對病毒樣顆粒進行分離,我們預計許多病毒來自細菌染色體。然而,只有24%的病毒基因組有宿主整合的證據(圖1d),只有10%的病毒基因組的側翼宿主區域大于5kb。此外,大多數非整合的病毒根據BACPHLIP(140,689中的65%)被歸類為毒性病毒,BACPHLIP是一個計算工具,根據保守的蛋白質結構域預測噬菌體的生活方式。同樣,BACPHLIP將26,030個完整的基因組中的58%歸類為毒力型,表明這一結果不是由于基因組組裝不完整造成的,因為整合酶基因經常出現在原病毒基因組的末端。這些結果共同表明,從未經過濾的糞便宏基因組中回收有裂解性病毒的基因組序列并不罕見。 宿主預測和分類學注釋Host prediction and taxonomic annotation 預測病毒的細胞宿主對于理解噬菌體捕食非常重要,也是利用宿主與病毒的相互作用來設計創新噬菌體療法的重要第一步。為了實現這一目標,我們利用了人類胃腸道統一基因組(UHGG)數據庫,其中包括來自腸道微生物組的286,997個細菌和古細菌的基因組,這代表了4,644個原核生物物種(圖2)。首先,我們從UHGG基因組中提取了1,846,441個CRISPR間隔物,并尋找與189,680個病毒基因組的近似匹配,結果是宿主與病毒的聯系覆蓋了81%的病毒(n = 153,892)。有趣的是,當使用從4,644個物種級代表中提取的間隔物時,只有21%的病毒與宿主連接,這表明細菌菌株和活躍的社區感染之間存在相當大的CRISPR多樣性。盡管大多數病毒都是由一個間隔物作為目標,但CRISPR陣列只在28%(n = 79,734)的UHGG基因組中發現,包括許多流行的物種Alistipes putredinis、Bacteroides cellulosilyticus和Bifidobacterium breve,證實這種抗病毒防御系統分布有限。為了擴大宿主-病毒網絡,我們在189,680個病毒和286,997個宿主之間進行了全基因組比對,并根據近乎精確的基因組匹配(≥96%的同一性超過≥1 kb)確定了連接,結果是覆蓋了96%的宿主基因組和90%的病毒基因組的連接。正如預期的那樣,大多數病毒與Firmicutes(主要是Clostridia)和Bacteroidia相連,這是腸道微生物組中兩個主要的細菌門類(圖1d)。這些結果表明,通過對同一環境中的病毒和微生物基因組的廣泛組裝,可以系統地闡明宿主與病毒的相互作用。 圖 2 病毒與人類腸道細菌和古細菌的聯系Viral connections to human gut Bacteria and Archaea
接下來,我們根據與NCBI GenBank的基因組和最近研究的crAss-like病毒的比對,將病毒分配到ICTV數據庫的家族中34,45,46(圖1d)。只有56.6%的病毒可以在科級進行注釋,這證實了人類腸道病毒分類學中存在巨大的知識缺口。為了提高敏感性,我們使用了來自VOG數據庫(http://)的具有分類學信息的隱馬爾可夫模型(HMMs),發現大多數未注釋的病毒都是Caudovirales目成員。在被注釋的序列中,有9,395個推定的crAss類病毒的基因組(占總數的5%)。總的來說,只有0.51%(n = 48)的推定crAss噬菌體顯示出明顯的溶原證據(即兩翼有宿主區域,并含有整合酶),這比數據集中的其他病毒低17倍以上。與此相一致的是,56%的高質量crAss噬菌體基因組(n = 5,439)可以被環化,而其他高質量基因組(n = 36,872)只有24%。crAss類基因組還包含其他一些不尋常的特征,包括低GC含量(平均=32%)、使用替代遺傳密碼和以hypothetical蛋白為主。例如,在27%的crAss-like噬菌體中,TAG或TGA終止密碼子被重新編碼為氨基酸,而其他病毒中只有0.5%。同樣,只有12%的crAss噬菌體蛋白質與Pfam、KEGG或TIGRFAM有明顯的聯系,而其他病毒的蛋白質有28%。這一大規模的分析支持了以前的研究結果,即一些crAss-like病毒有一種專性的裂解性的生活方式,并揭示了一些不尋常的特征,進一步確立了crAssphage在人類腸道病毒中的異類地位。 大幅擴展的病毒基因組多樣性Vastly expanded viral genomic diversity 為了量化MGV目錄中基因組的多樣性,我們首先使用MIUViG推薦的標準,即在較短序列的85%長度上有95%的平均核苷酸同一性(ANI),來確定種級病毒操作分類單位(vOTUs)。對這些參數的細微調整確實影響了所識別的vOTU的數量,這表明在物種水平的邊界之外還有一個病毒多樣性的連續體。總的來說,我們確定了54,118個vOTU,其中8,086個包括來自至少兩個樣本的成員(圖3a)。據預測,最大的vOTU會感染腸道微生物組中一些最普遍的物種,包括Bacteroides uniformis、Faecalibacterium prausnitzii和Agathobacter rectalis(以前的Eubacterium rectale)。為了確定更高等級的病毒支系,我們根據成對的平均氨基酸特性(AAI)和基因共享(方法)將基因組聚類為大約屬和科水平的群體,揭示了5800個屬水平的vOTU和1434個科水平的vOTU(圖3a)。vOTU的累積曲線在科和屬的級別上似乎正在接近一個漸近點,但對物種來說還沒有(圖3b)。 圖 3 基因組聚類和與現有數據庫的比較genome clustering and comparison with existing databases
最近的其他研究也匯編了來自腸道微生物組的DNA病毒數據庫。為了確定MGV目錄中獨有的vOTU,我們將我們研究中的189,680個基因組與其他三個基因組目錄中的中等和高質量病毒基因組聚在一起(圖3a):HuVirDB(9,626個基因組來自1,543個病毒宏基因組)、GVD v.1 .0(4494個基因組來自471個病毒宏基因組和98個完整的宏基因組)和IMG/VR v.2.0(6,895個基因組來自490個完整的基因組)。請注意,在審查本稿時,IMG/VR和GVD已經更新到新的版本,這里沒有進行分析。為了使所有研究之間具有可比性,在所有病毒數據集上運行CheckV,并排除完整性小于50%的基因組片段。 驚人的是,我們發現MGV目錄中的54118個物種級vOTU中的5048個(92%),包括189680個基因組中的100398個(53%),沒有與其他數據庫的任何基因組聚類(圖3a)。相比之下,三個參考數據庫合計代表了10391個物種水平的vOTU,其中近一半也在MGV中發現。MGV和IMG/VR數據庫都來自于整個宏基因組,它們共享的vOTU數量最多,并且包含了相對較高比例的來自Caudovirales目的溶原性噬菌體,而HuVirDB和GVD數據集主要來自于病毒宏基因組,富含來自Microviridae、Anelloviridae和CRESS家族的小型環狀ssDNA病毒。 接下來,我們根據這四個基因組目錄從地理上不同的一整套完整宏基因組和病毒宏基因組集中招募測序讀長的能力進行比較(圖3c)。為了防止自我匹配,我們丟棄了測序reads和來自同一原始研究的病毒基因組之間的比對。總的來說,MGV基因組招募了8.6%的完整宏基因組讀長,比其他數據庫高4.0倍,招募了40.1%的病毒組reads,這與HuVirDB的42.3%相當。我們還比較了CRISPR間隔體對每個病毒數據庫的招募情況,作為量化宿主與病毒聯系的一種方式(圖3c)。總的來說,來自UHGG基因組的1.8M spacers中有37.5%與MGV目錄中的基因組相匹配,這比其他數據庫高3.25倍。當使用只有物種級代表的病毒數據庫時,匹配的間隔物和宏基因組讀數的數量沒有很大的變化(圖3c)。這些結果共同表明,MGV目錄大大增加了已知的病毒多樣性,改善了整個宏基因組中病毒讀長的檢測,擴大了宿主-病毒連接的覆蓋范圍。 腸道Caudovirales的系統基因組學Phylogenomics of intestinal Caudovirales Caudovirales是包括在許多環境中發現的有尾雙鏈DNA(dsDNA)噬菌體的一個廣泛的目,并在我們分析的糞便宏基因組中得到高度代表。為了探索這個群體在腸道微生物組中的進化,我們根據77個蛋白編碼標記基因的連接排列構建了一個物種水平的系統樹(圖4a)。在去除數據不足的基因組(少于3個標記或在排列中<5%的代表性)后,最終的樹包含了25,528個物種水平的病毒基因組,這些基因組來自四個未培養的腸道病毒數據庫(MGV、IMG/VR、HuVirDB和GVD)。 圖 4 腸道Caudovirales的系統基因組學Phylogenomics of intestinal Caudovirales
根據累積分支長度,MGV目錄覆蓋了系統發育多樣性(PD)總量的95.7%,包含了代表整個樹上所有主要品系的基因組(圖4b)。與其他三個數據庫相比,MGV的基因組使PD增加了287%,平均分布在病毒和宿主分類群中。Clostridia噬菌體是迄今為止最多樣化的群體(占PD的41.8%),因為這些vOTU的數量大,系統發育分布廣。相比之下,Bacteroidota噬菌體僅占PD的11.1%,大多數vOTU分為四個主要群組(圖4a),包括一個以crAss-like噬菌體為主的群組(PD的2.17%)。總的來說,基于尾巴形態的經典病毒家族和基于基因組的系統發育之間的對應性很差(例如,幾乎所有的種系都含有Siphoviridae注釋的基因組),這進一步強調了對Caudovirales和其他病毒group進行系統發育驅動的分類的必要性,類似于為細菌和古細菌開發的GTDB分類法。 值得注意的是,有幾個種系含有基因組超過200kb的巨型噬菌體(245個物種級vOTU的518個基因組)。與其他分析一樣,我們仔細地刪除了側翼的宿主區域以及導致同一基因組重復多次的組裝假象。最大的基因組是一個553,716bp的近乎完整的線性基因組,與Prevotella phage Lak-A1密切相關(94.5%的AAI超過87.1%的基因)。與crAss-like噬菌體一樣,巨型噬菌體很少被整合到宿主中(n = 13),盡管它們有時包含整合酶(n = 121)。為了更詳細地描述這些病毒的多樣性,我們根據大型終止酶亞單位(TerL)構建了一個單獨的樹。與最近發表的來自不同環境的巨型噬菌體集合相比,MGVs導致系統發育多樣性的大幅擴展,并覆蓋了大多數系譜。 有趣的是,巨型噬菌體和其他Caudovirales似乎在生物地理分布上幾乎沒有偏好,因為大多數支系在所有大陸都有發現。我們假設,在較短的進化時間尺度上,特定區域的系統型可能是明顯的,正如對人類腸道細菌所觀察到的那樣。為了實現這一目標,我們使用單核苷酸變體(SNP)為146個有100多個成員的流行vOTU構建了菌株級的系統發育。驚人的是,我們觀察到許多vOTU的離散亞種在特定的地理區域高度富集。例如,一個被預測為感染Parabacteroides的crAss-like亞種在亞洲的樣本中很普遍,但在歐洲和北美卻很罕見或沒有。需要做更多的工作來了解這些系統發育模式背后的進化動力和基因組適應性。 腸道病毒群的功能Functional capacity of the gut virome 雖然人類腸道細菌和古細菌的功能潛力已被廣泛研究,但對腸道噬菌體的功能潛力卻不甚了解。為了探索這一點,我們在我們研究的189,680個病毒基因組中確定了11,837,198個至少有20個氨基酸的蛋白質編碼基因(98.4%有起始和終止密碼子),并將這些基因與HMM數據庫,包括KEGG、TIGRFAM、Pfam、VOGDB(http:///)和地球病毒組數據庫進行比較。總的來說,45%的病毒基因與任何數據庫都沒有明顯的匹配,75%的基因沒有被賦予任何生物功能(**圖5a,b**),表明人們對人類腸道病毒的功能潛力知之甚少。 圖 5 腸道噬菌體的功能圖Functional landscape of intestinal phages
為了確定腸道噬菌體中最常見的功能,我們用MMseqs2將30%AAI的1180萬個病毒基因聚類為459375個新的病毒蛋白聚類(圖5c),包括61%至少有兩個成員(圖5d)。累積曲線沒有顯示出高原,表明腸道噬菌體有一個很大的功能多樣性庫,而這一研究沒有完全捕捉到(圖5e)。Clostridia噬菌體包含了最多的功能多樣性,有173187個蛋白簇,反映了這些噬菌體的巨大系統發育多樣性。幾個最大的蛋白簇沒有預測的功能,包括第四大蛋白簇,有8,319個基因,因此是未來進行實驗表征的良好候選者(圖5f)。其他大的集群被注釋為典型的病毒功能,包括帽狀體的形成、包裝、裂解、溶菌、復制和轉錄調節(圖5f)。 盡管列舉所有的病毒功能和輔助代謝基因超出了本文的范圍,但我們探討了兩個特別不尋常的發現。基于對Pfam的HMM搜索,我們發現了11496個推測的病毒β-內酰胺酶(PF12706),包括一個有5832個成員的單一蛋白質簇中的大部分序列(圖5f)。β-內酰胺酶是能夠對β-內酰胺類抗生素(如青霉素類、頭孢類和頭孢類)產生耐藥性的酶,并構成一個主要的全球健康問題。為了驗證這一結果,我們利用Resfams、NCBI AMRFinder和Resistance Gene Identifier (RGI)對抗菌素耐藥基因的數據庫進行了同源搜索。這些工具顯示,總共只有88個抗性基因(63個使用Resfams,56個使用AMRFinder,30個使用RGI),表明11496個推測的病毒β-內酰胺酶和驗證的抗性基因之間的相似度很低。盡管功能性宏基因組檢測可能會發現腸道微生物組中真正的病毒β-內酰胺酶,但這些結果似乎支持噬菌體很少編碼抗生素抗性基因的結論。 另一個有趣的發現是大量的噬菌體逆轉錄酶(RTs)(圖5f)。總的來說,RT結構域(PF00078)是第三個最常見的功能注釋,僅次于螺旋-轉螺旋DNA結合結構域(PF01381)和噬菌體整合酶家族(PF00589)。已知RTs出現在逆轉錄病毒、RNA靶向CRISPR-Cas系統和多樣性產生的逆轉錄元素(DGRs)中。DGRs利用容易出錯的反轉錄在模板區(TR)的轉錄本中產生隨機突變,然后在可變區(VR)插入到基因組中,從而在一個特定的基因中產生種群級的超變異性。自從DGR系統首次在Bordetella噬菌體中被定性以來,它已經在人類微生物組和幾個人類腸道噬菌體中被發現。 為了確定病毒RT是否是DGR系統的一部分,我們使用工具DGRscan在79,250個高質量的病毒基因組(估計完整度大于90%)中識別TR-VR對。證實了我們的假設,絕大多數有RT的基因組也含有TR-VR(25620個中的85.7%),而沒有RT的基因組只占少數(53630個中的6.5%)(圖5g)。DGRs在某些Caudovirales家族(例如6,616個Myoviridae中的84%)和溶原病毒(18,187個中的50.1%)中非常常見,而在其他Caudovirales家族、ssDNA病毒和真核生物病毒中則罕見或完全沒有(圖5h)。盡管絕大多數DGR基因靶點沒有功能注釋,但我們觀察到在幾個Pfam結構域內有高度顯著的富集,包括一個免疫球蛋白樣結構域,該結構域在DGR靶點基因中是5.9倍,據信在噬菌體與細菌細胞表面的碳水化合物的相互作用中起作用。這些結果共同揭示了DGRs在腸道噬菌體中比以前認為的更常見,并可能指向參與分子噬菌體-宿主相互作用的病毒蛋白。 討論在這項研究中,我們對公開的宏基因組進行了大規模的數據挖掘,確定了189,680個草圖質量的病毒基因組,代表了大約54,118個物種、5,800個屬和1,434個科級的vOTU。這一大型資源包含了其他數據庫中沒有的廣泛的病毒基因組多樣性,改善了微生物組中病毒reads的檢測,并代表了許多不同的和以前未被描述的病毒群體。通過各種方法的結合,我們能夠預測宿主與病毒的聯系,這些聯系涵蓋了腸道微生物組中大部分的病毒和原核生物多樣性。這些宿主-病毒聯系在未來可能對理解疾病過程、設計噬菌體療法或理解宿主-病毒共同進化的動態很重要。盡管進行了大規模的注釋工作,我們只能對25%的病毒基因進行初步的生物功能分配,這表明需要更多的工作和新方法來預測病毒基因組中的蛋白質功能,如深度學習和功能性宏基因組檢測。雖然目前的研究只關注DNA病毒,但未來的研究可以使用宏基因組學數據來研究RNA病毒或基因表達模式。 在本稿件審查期間,Camarillo-Guerrero等人發表了腸道噬菌體數據庫(GPD),這是一個由28,060個人類腸道宏基因組和2,898個腸道細菌基因組鑒定的142,000個非冗余病毒基因組(>10kb)的集合。應用CheckV后,我們發現GPD代表了79,889個完整度大于50%的病毒contigs,形成了46,480個物種級的vOTU,比MGV的54,118個vOTU少14%。病毒目錄之間的差異是由幾個因素造成的,包括用于宏基因組挖掘的數據集、病毒鑒定的方法和序列納入的標準。例如,MGV極大地提高了對Microviridae的覆蓋率,而GPD由于其長度較短(平均=4.9kb)而被排除在外。MGV和GPD合計代表了75187個物種水平的vOTU,表明這兩個目錄包含互補的病毒多樣性。在未來,這些和其他大規模的病毒基因組目錄可以被整合,以創建一個統一的和標準化的社區資源,就像最近為人類腸道微生物基因組目錄所做的那樣。 材料和方法病毒檢測流程的開發Development of viral detection pipeline 我們使用四個病毒特征的組合來識別病毒宏基因組contigs。(1)存在病毒蛋白家族;(2)不存在微生物蛋白家族;(3)存在病毒核苷酸特征;(4)同一條鏈上有多個相鄰基因。對于病毒蛋白家族的存在,我們使用了IMG/VR數據庫(2019年6月1日下載)中的23,841個病毒蛋白家族的HMMs,此前排除了微生物基因組或質粒中常見的1,440個。對于不存在微生物蛋白家族的情況,我們使用了Pfam-A數據庫57(第31版)中的16260個蛋白家族的HMMs,在排除了452個常見于病毒中的蛋白家族后。使用HMMER軟件包v.3.1b2中的hmmsearch(選項:-Z 1,e-值:<1×10-10),對照IMG/VR和Pfam-A的HMMs搜索來自宏基因組的蛋白質,并根據含有top hits的數據庫將其分類為病毒或微生物。對于病毒核苷酸特征的存在,我們將工具VirFinder v.1.1應用于宏基因組片段,該工具使用K-mer頻率和機器學習的組合對序列進行評分。對于同一條鏈上的多個相鄰的基因,我們通過用鏈上切換的數量除以每條contig基因的數量來量化鏈上切換率。 病毒檢測流程的基準測試Benchmarking viral detection pipeline 我們在模擬數據集上評估了我們的病毒檢測管道,我們創建的模擬數據集包含人類相關病毒和細菌的基因組片段。每個模擬數據集包含來自六種不同類別的病毒的基因組片段。(1)來自人類腸道的crAss-like噬菌體,(2)來自人類和哺乳動物微生物組的Lak-噬菌體,(3)來自人類腸道病毒組的噬菌體,(4)與腸道分離的微生物基因組CRISPR-spacer匹配的噬菌體,(5)分離的dsDNA人類病毒和(6)分離的ssDNA人類病毒。非病毒基因組片段來自:(1)腸道分離的微生物基因組和(2)質粒基因組。我們從8個類別中的每個類別中隨機抽樣的基因組中產生了2000個基因組片段,每個片段的長度不同(1、2、5、10、20、50和100kb)。對四種病毒特征的超過77,000個cutoff的組合計算了TPR(歸類為病毒的百分比)和FPR(歸類為病毒的非病毒片段的百分比)。我們選擇了最多五個不同的截止值組合,使每個片段長度的分類得分最高,其中分類得分是基于TPR和FPR的加權組合(得分=TPR-50×FPR)。我們給FPR分配了一個非常高的負權重,以避免在宏基因組中出現許多假陽性,因為宏基因組預計主要包含非病毒序列。我們使用相同的基準數據集,將我們的方法與VirSorter v.1.0.5和VirFinder v.1.1的性能進行了比較。VirFinder使用默認選項運行,我們應用0.05、0.01和0.001的p值閾值將基因組片段分類為病毒性。VirSorter在運行時使用有、無”-virome “選項,我們使用VirSorter類別1和2將一個片段分類為病毒性的(不包括低置信度預測和整合的原病毒)。我們還評估了VirSorter在包括預測的原病毒(類別4和5)時的情況。 應用流程從整個宏基因組中識別人類腸道病毒Application of pipeline to identify human gut viruses from whole metagenomes 為了對人類腸道病毒進行全面搜索,我們從人類糞便樣本中下載了18271個公開可用的宏基因組組合,總計2.25×1012個堿基,對應于11810個獨特的生物樣本。Assemblies來自最近的兩項研究和MGnify數據庫(2019年4月16日訪問)。我們排除了來自人類腸道以外環境的組合,以及那些無法從NCBI SRA數據庫中分配到一個accession號的組合。元數據從以前的研究和NCBI BioSample數據庫獲得。我們應用我們的病毒檢測管道方法在18,271個宏基因組組合中識別出4,436,008個長度超過1 kb的contigs,這些contigs在100% ANI覆蓋100%的較短序列長度的標準下,去重得到3,481,684個序列。 基因calling和識別具有替代遺傳密碼的病毒Gene calling and identifying viruses with alternative genetic codes Prodigal v.2.6.3被用來識別3,481,684個病毒基因組中的蛋白質編碼基因,使用了為宏基因組優化的選項”-p meta”。此外,我們還運行了一個定制的管道來識別使用替代遺傳密碼的病毒。具體來說,Prodigal使用標準代碼和三種替代基因代碼運行。TGA重新編碼(代碼4或25),TAG重新編碼(代碼15)和TAA重新編碼(代碼90),如Ivanova等人以前所描述的。為了減少假陽性,該程序只在GC含量<50%的長于10kb的病毒contigs上運行。對于每個病毒contigs,Prodigal輸出一個GFF文件,其中包括每個預測基因的編碼潛力得分。為了評估遺傳密碼,我們采取了每個contig的編碼潛力得分的總和。如果一個替代的遺傳密碼的總編碼潛力得分最大,并且比標準遺傳密碼至少大10%,那么它就會被預測出來。 用于比較的病毒參考基因組Viral reference genomes used for comparison 來自MGV的病毒基因組與四個參考數據庫進行了比較。IMG/VR v.2.0,GVD v.1.0,HuVirDB v.1.0和NCBI GenBank。對于IMG/VR,我們提取了28,697個病毒contigs,這些contigs是使用Earth’s Virome Pipeline從人類糞便樣本的490個整體宏基因組中識別出來的。對于GVD,我們使用了所有的13,203個病毒contigs,這些病毒contigs是使用包括VirSorter和VirFinder在內的組合工具從471個病毒宏基因組和98個全宏基因組中鑒定出來的,并在之前被聚類為病毒種群。在論文審稿期間,GVD的更新版本已經發布,但在此沒有進行分析。對于HuVirDB,我們從人類糞便樣本的1,543個病毒宏基因組中提取了929,886個長于1 kb的等位基因。因為以前沒有應用過病毒預測,所以我們運行了為當前文章開發的病毒預測管道。對于NCBI GenBank(2019年6月1日下載),在去除那些被標記為不完整、受污染或嵌合的病毒基因組后,我們提取了28996個完整的病毒基因組。 病毒基因組的質量控制Quality control of viral genomes 我們將CheckV v.0.7.0(數據庫v.0.6)應用于所有的病毒序列,以識別封閉的基因組,估計基因組的完整性,并刪除組裝的原病毒上的側翼宿主區域。根據直接末端重復(最小20bp)、倒置末端重復(最小20bp)或原病毒整合位點(預測病毒contig兩端的宿主區域)來預測假定的完整基因組,此外還要求根據與CheckV參考基因組的比較顯示>90%的估計完整性。剔除了少量含有大面積重復的序列,其長度占contig的30%以上。我們選擇了所有估計完整性大于50%的基因組進行進一步分析,結果是MGV目錄中的189,680個病毒contigs,IMG/VR的6,895個contigs,GVD的4,494個,HuVirDB的9,626個,GenBank的28,996個。我們通過使用Barrnap v.0.9-dev(https://github.com/tseemann/barrnap)搜索16S和18S rRNA基因來估計MGV序列中來自細胞生物的非病毒DNA的數量,該模型適用于細菌、古細菌和真核生物。要求排列覆蓋≥70%的16S或18S rRNA基因,并顯示e值<1×10-5。這個程序同樣適用于用于病毒發現的18271個宏基因組組合,以估計16S和18S rRNA基因的背景水平。 分類學注釋Taxonomic annotation 病毒基因組的注釋是基于氨基酸與來自NCBI GenBank完整基因組和crAss-like基因組的蛋白質數據庫的比對。使用巴爾的摩分類法(DNA、dsDNA、ssDNA、ssDNA-RT、dsRNA、RNA、ssRNA-RT)以及ICTV分類法中的目、科和屬的等級進行注釋。DIAMOND v.0.9.32(選項:-query-cover 50-subject-cover 50-e-value 1e-5-max-target-seqs 1000)被用來將病毒蛋白與參考數據庫對齊。然后將數據庫中頂級命中蛋白質的分類轉移到每個分類等級(巴爾的摩、階、科、屬)的每個蛋白質上。在缺少頂級命中的分類的情況下,如果下一個命中的比特分數在頂級命中的25%以內,我們就使用下一個命中。對于每個病毒基因組,我們在按比特分數加權后匯總了各蛋白質的注釋。然后,每個病毒基因組被注釋在最低的分類等級,在被注釋的蛋白質中具有>70%的一致性。在科級,我們要求基因組至少有兩個被注釋的蛋白質,且與數據庫的AAI大于30%。在屬的級別上,我們要求基因組至少有三個被注釋的蛋白質,與數據庫的平均AAI>40%。作為驗證,我們將我們的管道應用于NCBI GenBank的分類學注釋的基因組,并從數據庫中刪除密切相關的基因。我們的管道在巴爾的摩、目、科和屬的分類等級中分別取得了90.0%、98.7%、92.2%和73.5%的平均TPR,精度值為95.6%、99.9%、99.3%和96.5%。 宿主預測Host prediction 我們使用CRISPR-spacer匹配和≥1 kb基因組序列匹配的組合,將病毒基因組與UHGG收集的細菌和古細菌基因組聯系起來。UHGG包含286,997個基因組,代表來自人類腸道的4,644種細菌和古細菌,這些細菌和古細菌使用GTDB-tk v.0.3.1(GTDB版本89)進行分類。許多UHGG基因組是宏基因組組裝的基因組,有時包含錯誤的分bin序列,包括那些來自病毒的序列。為了解決這個問題,我們保守地從UHGG基因組中確定并刪除了2,043,531個宿主區域占<50%的contig。然后我們將剩余的UHGG contig與病毒基因組進行比較,并使用blast+軟件包v.2.9.0中的blastn確定了≥1 kb的基因組序列匹配,其DNA一致性≥96%。接下來,我們使用CRT83和PILER-CR84的默認參數組合,從79,735個UHGG基因組的145,053個CRISPR陣列中確定了1,846,441個間隔體。兩個工具預測的冗余CRISPR陣列根據基因組坐標進行了合并。使用blast+軟件包v.2.9.0中的blastn(選項:-dust = no -word-size = 18)對病毒基因組進行間隔物搜索,允許在≥95%的間隔物長度上最多有一個錯配或缺口。對于每個病毒基因組,我們隨后匯總了與UHGG基因組的連接,并確定了最低的宿主分類等級,使各連接之間的一致性大于70%。 將病毒基因組聚類為vOTUsClustering viral genomes into vOTUs 根據Roux等人的建議,所有完整性大于50%的病毒基因組都被聚類為物種級的vOTU,其基礎是95%的ANI和85%的較短序列的排列分數(AF)。所有基因組對之間的ANI和AF是用CheckV資源庫中的一個自定義腳本估計的。該腳本使用blast+軟件包v.2.9.0中的blastn(選項:perc_identity = 90 max_target_seqs = 10000)進行all-versus-all的局部比對。ANI被計算為每個基因組對之間的局部排列的長度加權平均DNA 相似度。AF是通過合并每個基因組對之間的排列坐標并除以每個基因組的長度來計算的。與MUMMer4相比,這種方法給出了一致的結果,而運行的時間只占一小部分。聚類是用一種貪婪的、基于中心點的算法進行的,其中。(1)基因組按長度排序,(2)最長的基因組被指定為新聚類的中心點,(3)所有在95%ANI和85%AF范圍內的基因組被分配到該聚類中,并重復步驟2和3,直到所有基因組都被分配到一個聚類。 為了確定屬和科級的vOTU,我們使用基因共享和AAI的組合對病毒基因組進行聚類。為了提高計算效率,每個物種級vOTU只包括最長的基因組。使用DIAMOND軟件包v.0.9.25.126中的Blastp,選項為”-e-value 1 × 10-5-max-target-seqs 10,000”,對所有的病毒蛋白進行排列。對于每一對基因組,我們確定共享基因(e-值<1×10-5),計算其AAI,并計算共享基因的百分比。基因組之間的邊緣是根據它們的最小AAI和基因共享來過濾的。用MCL v.14-137進行聚類,使用不同的膨脹因子參數值。然后,我們選擇了過濾閾值和MCL膨脹因子,使其分別與NCBI RefSeq的屬和科級注釋的一致性最高。在科級,我們過濾了AAI小于20%或共享基因小于10%的基因組之間的連接,并使用1.2的膨脹因子。在屬的層面上,我們過濾了AAI<50%或共享基因<20%的基因組之間的聯系,并使用了2.0的膨脹因子。我們在NCBI的分類學注釋的基因組上對我們的方法進行了基準測試,顯示病毒集群顯示了高度的分類學同質性(即每個集群的基因組分配到同一分類群的百分比;屬排名=95.1%,科排名=93.7%),盡管有時將已知分類群分成多個集群(即每個分類群的基因組分配到同一集群的百分比:屬排名=92.6%,科排名=74.5%)。 宏基因組讀長招募Metagenomic read recruitment 對病毒基因組數據庫進行了讀長映射,以評估其對微生物組中病毒的覆蓋率。首先,我們下載了HuVirDB分析的人類腸道病毒組的reads,以及最近三項腸道病毒組研究的reads。我們下載了來自不同國家的1,257個糞便樣本(每個國家最多50個樣本)的整個宏基因組的短讀數。為了確保病毒組基本沒有細胞污染,我們運行了病毒組QC工具,并按照作者的建議,保留了富集分數>10的病毒組。為了提高計算效率,我們只分析了每個數據集的前1,000,000條測序讀數。為了控制質量,我們放棄了那些太短(<70 bp)、包含模糊的堿基calls、堿基質量分數低(平均質量分數<30)或map到人類基因組(build hg19)的讀長。 接下來,我們使用Bowtie v.2.3.2來構建基因組索引,用于read mapping。使用四個人類病毒數據庫(MGV、IMG/VR、HuVirDB、GVD)中的所有基因組,加上NCBI GenBank創建了五個索引。另外五個索引是在每個物種級別的vOTU上只使用一個基因組創建的。接下來,我們使用Bowtie 2(選項'–very-sensitive -k 20’)將測序reads與10個基因組索引中的每一個進行比對。測序reads和來自同一SRA研究的病毒基因組之間的比對被丟棄,以防止高估mapping率。此外,mapping identity <95%(例如,100bp讀數的編輯距離>5)的比對也被丟棄了。在這些過濾步驟之后,我們對映射到每個數據庫的高質量、非人類reads的百分比進行了量化。 系統發育分析Phylogenetic analyses 我們采用Low等人所描述的方法構建了Caudovirales基因組的系統發育。首先,我們在60,439個物種級vOTU的代表基因組中確定了77個Caudovirales marker的集合。用HMMER v.3.1b2對這77個marker的HMMs進行搜索,并將排名靠前的hits單獨與HMMs進行比對。然后用trimAl v.1.4對各個marker的排列進行修剪,以保留gap小于50%的位置,并進行連接,必要時填補缺失markers的空隙。只保留了包含至少三個標記和有大于5%的排列欄數據的基因組。這導致了28,780個基因組的多重序列排列,有22,711個排列列。然后,我們使用FastTree v.2.1.9,在WAG+G模型下,使用額外的標志”-mlacc 2 “和”-slownni”,從多序列排列中推斷出一個串聯的蛋白質系統發生樹。然后用iToL對該樹進行中點植根和可視化處理。 此外,我們構建了具有至少100個基因組的單個物種級vOTU的核心基因組單核苷酸多態性(SNP)系統發育樹。SNPs是通過使用MUMmer4軟件包v.4.0.0beta2中的nucmer將所有基因組與集群中最長的基因組進行比對,并使用默認選項來識別。SNPs在≥50%的基因組所覆蓋的基因組位置被鑒定,我們保留了所有在≥50%的位置有數據的基因組。FastTree v.2.1.9被用來構建系統發育樹,使用默認選項。 功能注釋和蛋白質聚類Functional annotation and protein clustering 使用Prodigal從189,680個MGVs中確定了大約11,837,198個蛋白質編碼基因,并根據蛋白質家族數據庫的HMM搜索對基因進行了注釋,HMM包括:KEGG、TIGRFAM、Pfam-A、VOGDB(http://)和地球病毒家族數據庫。所有的搜索都是使用HMMER軟件包v.3.1b2中的hmmsearch工具,使用默認參數進行的。每個數據庫對每個基因的注釋都是根據其最高得分的排列進行的,比特分數≥50,但Pfam和TIGRFAM除外,這兩個數據庫使用了可信任的cutoff。抗生素抗性基因是用三種工具鑒定的。(1)Resistance Gene Identifier v.5.1.0,使用選項“-low_qualit”和基因特定的比特分數cutoff;(2)NCBI AMRFinder工具v.3.8.4,使用默認選項;(3)Resfams數據庫,使用hmmsearch和HMM特定比特分數cutoff。DGRs是用DGRscan67工具用默認選項識別的。使用MMseqs2 v.10.6d92c58對所有的蛋白質進行聚類,AAI為30%,排列覆蓋率為70%。 作者簡介Nikos C. Kyrpides, Ph.D https://jgi./our-science/scientists-jgi/nikos-kyrpides/ 原核生物超級項目負責人 Kyrpides博士于2004年加入能源部聯合基因組研究所(DOE Joint Genome Institute),領導基因組生物學項目和微生物基因組和宏基因組的比較分析平臺的開發(IMG)。他在2010年成為宏基因組學項目負責人,并從2011年起負責微生物基因組和宏基因組的合并項目。在加入能源部聯合基因組研究所之前,Kyrpides博士在伊利諾伊州芝加哥的Integrated Genomics Inc.領導基因組分析和生物信息學核心部門的發展。他在伊利諾伊大學厄巴納-香檳分校和阿貢國家實驗室跟隨Carl Woese(古菌發現者)進行了博士后研究。Kyrpides博士的研究重點是微生物組研究,重點是微生物組數據科學。他的小組正在開發新的方法,以實現大規模的比較分析,以及大數據的挖掘和可視化。 編譯:周之超@UW-Madison 審核:劉永鑫 中科院遺傳發育所 ReferenceStephen Nayfach,David Páez-Espino,Lee Call,Soo Jen Low,Hila Sberro,Natalia N. Ivanova,Amy D. Proal,Michael A. Fischbach,Ami S. Bhatt,Philip Hugenholtz,Nikos C. Kyrpides.MAGs achieve lineage resolution. Nature Microbiology,6, 960–970,(2021). https:///10.1038/s41564-021-00928-6 |
|