微生物組多組學網絡分析的獨特挑戰 微生物組數據科學經常受到微生物組數據各種統計特性的挑戰,包括其組成性、異質性和稀疏性。這些屬性影響統計方法如何應用于微生物組數據。 組成性 微生物組數據樣本中某個分類單元的豐度計數僅反映該分類單元與所有其他分類單元相比的相對豐度,而不是該分類單元所屬群落中分子的絕對計數。這些數據存在于任意總和約束下,因此被稱為組合數據。圖1A中也顯示了此功能。微生物組數據組成性的一種策略是將豐度計數轉換為相對豐度,樣本總和為1??偤图s束的結果是,即使潛在的真實豐度是獨立的,特征也往往呈負相關。 圖1 可視化微生物組數據的獨特挑戰 邊際相關分析方法沒有考慮微生物組數據的組成性。一個分類單元與所有其他分類單元之間的相關性存在限制,這可能會產生虛假的相互作用推論。考慮數據組成性的新方法如SparCC對每對相關的類群采用對數比變換來消除組成性:兩個類群的豐度之比獨立于分析中包含的其他類群,這一屬性稱為子成分連貫性。SparCC還使用迭代算法,在每一步中識別相關性最強的類群對,并在獲得相對稀疏的網絡結構時終止迭代。CClasso和REBACCA使用全局優化程序來估計所有物種的相關網絡,同時對數據的組成性和稀疏性約束施加顯式約束。雖然這種方法可以有效控制數據組成性,但這些方法僅旨在重建分類單元-分類單元相互作用網絡。 基于圖形模型的方法也考慮了微生物組數據的組成性。鑒于圖形建模的主要目標是通過估計物種之間的逆協方差矩陣來推斷微生物相互作用,更難糾正數據的組成性。組合數據中的總和約束會引起特征之間的線性依賴性,從而產生簡并協方差矩陣,不存在逆協方差矩陣。為了克服這一挑戰,提出SPIEC-EASI方法,該方法首先將原始計數轉換為相對豐度,即樣本中每個分類單元豐度的比例,然后對相對豐度進行中心對數比變換。轉換后的相對豐度的協方差矩陣非常接近對數轉換后的原始計數的協方差矩陣。SPIEC-EASI使用鄰域選擇和圖形套索來推斷網絡的稀疏逆協方差矩陣。此外,一種mLDM方法在成分計數上使用分層貝葉斯模型(對數正態狄利克雷多項式),然后通過最大化L1懲罰后驗分布來估計物種之間的稀疏逆協方差矩陣。 基于回歸的方法也考慮組成性。在使用微生物組數據作為預測變量的情況下,存在兩個挑戰:數據的高維性以及數據的組成性質對預測變量施加的總和約束。線性對數對比模型的L1正則化方法可以應對這些挑戰,以研究微生物成分與響應變量之間的關聯。另一方面,如果微生物組數據用作響應,則必須在模型中納入適當的分布以反映組成性。mLDM方法還研究了對數正態狄利克雷多項模型中分類計數與環境因素之間的關聯。 很少有方法被應用于將多組學數據與微生物組測量相結合的網絡分析。此外,微生物組數據科學的技術發展,包括根據微生物組序列數據估計絕對細胞豐度可能有助于抵消重建微生物組網絡時校正數據組成性的需要。 標準化 微生物組數據從一個生物樣本到另一個生物樣本表現出很強的異質性。此外,微生物組數據的不同數據生成和處理程序也可能導致研究之間的異質性。此外,不同的研究可能會應用不同的數據處理程序,這可能會影響研究中分類群的分布。 微生物組數據樣本之間的一種獨特異質性是測序深度的變化,如圖1B所示。標準化微生物組數據的傳統方法是將基于計數的類群測量值轉換為類群的相對豐度,或者稀薄計數,即對每個樣本進行不放回的二次采樣,以使所有樣本具有相同的數量跨類群的總計數。微生物組研究還使用了其他替代標準化方法,包括上分位數標準化、CSS標準化、方差穩定變換,以及M-值修剪均值標準化。雖然一些研究在差異豐度測試時傾向于使用這些替代方法,但比例和稀疏性基礎的傳統標準化方法提供了更準確的群落水平比較。 研究還評估了測序深度對微生物組數據質量的影響。盡管無論測序深度如何分類學和功能注釋都相當穩定,但目前微生物組計數數據標準化的做法在統計意義上是低效的。稀疏的一個關鍵問題是,雖然它保持了分類比例的平均值,但它忽略了比例的變化。這種方差不等的問題稱為“異方差”。異方差性可能會影響下游分析,例如差異豐度分析和微生物網絡構建。 狄利克雷多項回歸、邏輯正態多項回歸和mLDM模型不僅考慮了微生物組數據的組成性,而且還考慮了異方差性,因為測序深度是在多項分布中明確建模的。然而,上述方法大多數用于識別分類組成與環境因素之間的關聯。雖然這些模型可能適用于整合微生物組和其他組學數據的網絡分析,但有必要考慮多組學數據的維度規模。 稀疏性 分類豐度數據本質上通常是稀疏的,很大一部分計數為零。一種策略是向所有計數度量添加一個小常數,稱為偽計數,或者用估計值替換零。然而,需要更多的研究來確定這些技術如何影響微生物組多組學數據的綜合網絡估計。 過多的零,加上每個分類單元的觀測數量非常少的高頻率,導致樣本中分類單元計數的分布嚴重傾斜,其中零值處有一個大的點團,而右尾較長。這也可以通過圖1C中的模擬數據集進行可視化。因此,適用于連續數據的網絡估計方法在直接應用于此類數據時可能無法很好地工作,因為模型擬合較差。非參數相關性度量(例如Spearman秩相關性和Kendall tau系數)可用于避免正態性假設并處理高度傾斜的數據。然而,當數據測量以零點質量分布時,此類方法的功效可能會下降,因為零質量會導致大量聯系,使基于等級的相關性測量變得復雜。此外,聚集將分類單元度量劃分為更高階的分類群可以減少稀疏性的影響并改善觀察到的數據分布和模型假設之間的一致性。然而,這種聚集程序可能會削弱特定分類單位的分辨率,而這些單位表現出與其他研究協變量的重要而微妙的關系。 近年來,針對微生物組計數數據開發了多種概率模型。泊松分布或負二項分布可用于分析其他類型測序研究的計數數據。然而,微生物組數據通常表現出比這些模型預期更多的零和更重的偏度。為此,提出了零膨脹模型和障礙模型。但這些方法大多數集中于一次對單個分類單元的邊緣分布進行建模,并不直接適用于多個分類單元的聯合建模,因此不能用于微生物網絡估計。 用于微生物組計數數據的另一種模型是狄利克雷多項模型及其零膨脹版本。但是狄利克雷多項分布在任何給定的類群對的豐度之間強加了負相關性。相關結構的這種不靈活性使得此類方法在用于推斷類群之間的相互作用時特別成問題。一個解決方法是考慮分層模型,其中觀察到的計數的條件分布由多元計數分布建模,其參數與多元連續分布相關聯分布,允許靈活且現實的相關結構。 上述模型的使用在很大程度上僅限于差異豐度分析,其中個體或類群群體的豐度與特定環境因素相關。需要進一步工作來探索它們在多組學數據和綜合網絡分析中的適用性。 異質性 與稀疏性問題相關的是調查微生物群落組成的研究中表現出的異質性。雖然整個數據集中觀察到的類群數量可能很大,但任何給定樣本中的微生物群往往僅以相對較少數量的高豐度類群為主,其余類群的計數為零或非常低。主導類群的集合因個體而異,即分類異質性,如圖1D所示。它導致所有樣本中存在的特征很罕見,而少數樣本中存在的特征占主導地位。這與其他類型組學數據形成對比,其中大多數基因預計在所有樣本中具有非零表達水平。 在測量兩個微生物類群之間或一個分類群與另一種生物特征之間的相互作用時,采用了不同的方法來解釋分類異質性。最常用的策略是包含所有生物樣本的數據,無論特定分類單元是否存在。另一種策略是排除不存在給定分類單元的樣本,并僅考慮該分類單元非零的豐度數據。第三種策略側重于個體樣本中是否存在分類單元的二分結果,而忽略實際豐度。第一種方法將不存在分類單元的樣本視為該分類單元的“零豐度”,這與分類單元豐度非常低的樣本僅在數量上不同,但在質量上沒有差異。這種方法的主要優點是不會從數據中丟棄任何信息,而后兩種方法則各自丟棄部分數據。大多數使用第一種方法假設,如果微生物分類單元T與另一個特征M之間存在生物學相互作用,則特征M與T的豐度的關聯方式和其與T在群落中的出現的關聯方式相同。然而,M參與T的引入或建立的生物過程在理論上可能與M影響其豐度的生物過程非常不同。對于這些類型的關系,后兩種策略可能有優點。 功能異質性是微生物組數據的另一個特征,對網絡推斷的統計方法構成挑戰。目前大多數微生物網絡估計方法,假設數據中的所有樣本都存在一個共同的微生物網絡。但是兩個微生物分類單元之間的相互作用可能因樣本而異。多個圖模型聯合估計方法假設樣本來自幾個已知的亞總體,并允許為每個子組推斷不同的網絡。此外一些新興方法允許所有樣本之間、生物條件之間或生物條件內的網絡異質性。例如一種非參數貝葉斯方法,通過借用跨生物條件的信息并同時允許樣本之間的異質性來估計動態轉錄因子網絡。以及mixGlasso,它是圖形lasso的潛在變量擴展,它使用混合模型允許樣本聚類成可以具有不同網絡的組。目前尚未建立方法來滿足微生物組數據分析的獨特需求以及整合微生物組多組學數據的目的。 討論 雖然我們的審查重點是數據分析,但研究設計和數據收集可能會影響基于數據集成的調查。在多組學研究中,很少能夠收集完整的數據集,這種不完整的樣本覆蓋可以極大地減少需要整合的樣本集。正如本研究中所例證的,為了導出描述某些特征類型對之間關系的網絡,可能需要依賴于兩種特征類型的單獨樣本集,該策略將影響所得網絡的準確性和解釋。除了上述問題,研究設計的考慮因素也會影響整合,例如樣本是縱向收集還是橫向收集。 綜合人類微生物組項目(iHMP)最近的工作例證了微生物組多組學數據集成的力量和前景。作為NIH人類微生物組項目的第二階段,iHMP旨在通過分析特定疾病隊列縱向研究中微生物組和宿主活動的數據集,將人類及其微生物組之間的相互作用與健康相關結果聯系起來(綜合HMP(iHMP)研究網絡聯盟2014年;綜合HMP(iHMP)研究網絡聯盟2019年)。對于研究界來說幸運的是,iHMP已將這些測量結果作為可下載的數據集公開提供,這些數據集可以作為測試和評估新模型、方法和分析的資源,包括本文中回顧的網絡方法。事實上,作為iHMP一部分進行的許多單獨研究已經應用和/或開發了基于網絡的方法來整合多組學數據。例如,Lloyd-Price等人應用綜合分析來識別在炎癥性腸病活動期間對腸道微生物組功能失調至關重要的微生物、生化和宿主因素。他們構建了10種特征類型的特征關聯網絡:宏基因組物種、物種水平轉錄比率、酶委員會水平的功能概況(宏基因組、宏轉錄組和蛋白質組)、代謝物、宿主轉錄、血清學、和糞便鈣衛蛋白。特別是,他們使用混合效應回歸模型(屬于“基于回歸的方法”一節中討論的基于回歸的方法)來消除每個特征類型中特定于主題的隨機效應和協變量效應,然后應用Spearman相關性(屬于“基于回歸的方法”一節中討論的基于回歸的方法)到“邊際相關分析”部分中討論的邊際相關分析方法)到所得殘差以構建跨特征類型交互。 我們以關于微生物組多組學網絡分析的一些最終想法來結束這篇綜述。綜合網絡分析在解決微生物之間以及微生物與環境之間如何相互作用方面具有巨大的潛力。然而,此類分析在微生物組數據中的應用仍處于萌芽階段,必要的分析工具才剛剛開始出現。幸運的是,在網絡估計和多組學數據分析領域已經開發了越來越多的統計方法,這些方法提供了一系列有前途的思想和方法論可供借鑒。然而,當將這些現有工具應用于微生物組多組學網絡推理時,重要的是要考慮基礎方法的局限性及其對微生物組研究的適用性。特別是,微生物組數據的獨特特征提出了緊迫的統計挑戰,并且通常需要定制的計算工具。徹底了解微生物組數據未滿足的統計需求和特定屬性對于創新適用于微生物組多組學網絡推理的高效、穩健和可擴展的網絡推理方法至關重要。與此同時,對與微生物組數據相關的分析挑戰的認識可以促進新研究設計和技術的開發,這些設計和技術有可能解決目前阻礙微生物組數據分析的一些主要限制。一個新出現的例子是將16S數據與樣本中微生物總豐度的測量相結合,這是規避微生物組數據中的組成性限制的一種可能方法。展望未來,聯合統計、科學和技術的努力將有助于推動多組學網絡分析的應用,以解決微生物組科學中的緊迫問題。
|
|