久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    量化單細胞數據中單個基因的批量效應

     健明 2025-09-03 發布于廣東

    文獻名稱:Quantifying batch effects for individual genes in single-cell data

    文獻來源:nature computational science

    摘要

    批次效應是多個單細胞實驗數據整合中長期存在的一個關鍵挑戰,嚴重限制了不同批次數據間的可比性?,F有的批次效應校正與量化方法大多著眼于細胞層面的對齊,往往忽略了基因層面上批次效應的異質性。為此,本研究提出“組技術效應”(Group Technical Effects, GTE)這一新型量化指標,用于精準評估單個基因所受到的批次效應強度。通過系統分析多個數據集,我們發現批次效應在基因間分布高度不均:一部分被稱為“高批次敏感性基因”(highly batch-sensitive genes, HBGs)的基因,在不同數據集間表現出顯著變異,并主導了整體的批次效應;而其他非HBGs則受影響較小。實驗證明,僅三個HBGs就足以引入明顯的批次偏差。此外,GTE在評估細胞水平的批次效應方面也表現出優異性能,優于當前常用方法。另一重要發現是,生物學特征相似的細胞類型往往受到相似的批次效應影響,這一規律為開發更高效的數據整合策略提供了新思路。GTE方法具有廣泛的適用性,可推廣至多種單細胞組學數據類型。

    批次效應自微陣列時代起便備受關注,其校正對保證跨批次分析結果的可靠性至關重要。隨著單細胞測序技術的發展,已有多種計算方法被提出以應對該問題,例如基于線性模型的ComBat和limma,以及專為單細胞數據設計的MNN和Seurat。近年來,深度學習技術進一步推動了scVI、scANVI和scPoli等整合方法的發展。這些方法通常致力于在表達空間或嵌入空間中對齊不同批次的細胞,以消除批次間差異。然而,盡管已有研究表明批次效應可能對分子特征(如基因或蛋白)產生不一致的影響,基因層面上的批次效應機制仍缺乏系統研究。本文提出的GTE方法填補了這一空白,為深入解析批次效應的分布特征并指導更精準的校正策略提供了有力工具。

    結果

    模型概述

    組技術效應(GTE)旨在量化數據集中單個基因受批次效應影響的程度(圖1a,方法部分)。該方法的核心思想清晰而直觀:對于一個已標注細胞類型的數據集,若某基因 Gm在特定細胞類型(如 C1)中不受批次效應干擾,則該基因在該類細胞中的總變異應可由批次內變異所解釋。GTE 通過計算總變異與批次內變異的差值,評估 Gm在細胞類型 C1 中的批次效應大小;該基因在整個數據集中的總體批次效應,則為它在所有細胞類型中相應差值的總和。

    將總 GTE 貢獻最為顯著的一批基因定義為“高批次敏感性基因”(HBGs),其余基因則歸類為“非高批次敏感性基因”(non-HBGs)。后者受批次效應的影響相對較小。分析表明,僅基于 non-HBGs 所構建的特征空間中,數據批次效應顯著低于使用全部基因的特征空間。值得注意的是,除細胞類型標簽之外,其他能夠指示批次間細胞分組關系的“組變量”同樣可適用于本模型,體現出該方法良好的擴展性。

    首先在小鼠初級運動皮層(MOp)數據集上驗證了 GTE 方法的有效性。該數據集包含 6 個批次共計 406,187 個細胞?;谄浒?4000 個高變基因(HVGs)進行分析時,可觀察到顯著的批次效應:相同細胞類型因批次差異而在嵌入空間中明顯分離。以真實的細胞類型注釋作為組變量計算 GTE 后發現,排名前 40% 的 HVGs 貢獻了總 GTE 的 97.9%。將這些高貢獻基因(即HBGs)去除后重新進行主成分分析(PCA),結果顯示批次效應顯著減弱,不同批次的細胞得以充分混合,同時細胞類型結構仍保持清晰分離。其余基因則被歸類為非高批次敏感性基因(non-HBGs)。作為對照,隨機去除同樣數量(40%)的 HVGs 后,數據中仍存在明顯的批次偏差。同時在另外 5 個單細胞數據集上進行了進一步驗證,結果一致表明,基于 non-HBGs 構建的特征空間能夠有效降低批次效應。

    為進一步驗證 GTE 方法的有效性,采用兩種廣泛使用的批次效應評估指標——k 近鄰批次效應檢驗(kBET)和局部逆辛普森指數(LISI),分別對包含全部基因及僅含 non-HBGs 的子數據集進行量化比較。結果顯示,在所有數據集中,去除 HBGs 后,kBET 和 LISI 均一致表明批次效應顯著降低。為更直觀對比 HBGs 與 non-HBGs 受批次影響的程度,在小鼠 MOp 數據集的 L5 IT 細胞類型中,分別可視化展示了 GTE 排名前三的 HBGs 與典型 non-HBGs 的表達分布。結果與理論預期一致:HBGs 在不同批次間表達差異顯著,而 non-HBGs 則表現出較強的穩定性。以上結果表明,批次效應主要由少數關鍵基因驅動,其余基因所受影響相對有限。

    值得注意的是,對小鼠 MOp 數據集中的 15,942 個非高變基因(non-HVGs)進行了 GTE 計算,發現其總 GTE 值是 HVGs 的 3 倍。本研究從量化角度為此現象提供了解釋:HVG 的篩選過程本身已隱式地去除了大量受批次影響較大的基因。然而,HBGs 仍較多分布于高變異區域,說明僅依靠 HVG 篩選并不能完全剔除批次敏感基因。進一步推測,批次效應本身甚至可能引起基因表達變異——例如部分具有高 GTE 的線粒體基因和核糖體基因,同時也表現出較高的變異程度。

    為探究不同數據集之間 HBGs 的共性與特性,對六個數據集中各自排名前200的 HBGs 進行了基因本體(GO)富集分析。結果顯示,這些基因顯著富集于與組織特異性功能相關的通路。同時發現多個線粒體基因和核糖體基因屬于高排名 HBGs。進一步地,評估線粒體基因和核糖體基因在不同數據集中的批次敏感性。在小鼠 MOp 的 19,942 個基因中,13 個線粒體基因和 107 個核糖體基因對總 GTE 的貢獻占比分別為 5.9% 和 5.6%,且所有線粒體基因和 89.7% 的核糖體基因被鑒定為 HBGs。說明這些基因對批次效應具有跨數據集的普遍敏感性。最后,通過分析基因表達模式與批次敏感性的關系,我們發現基因的批次效應更與其在特定數據集中的表達模式相關,而非整體表達水平。

    還進一步探究了是否存在在不同數據集中普遍表現出高批次敏感性的基因。通過計算來自 CELLxGENE 數據庫的 518 個人類數據集(包含健康供體約 5100 萬個細胞)的 GTE 值,鑒定出 3579 個“共有 HBGs”和 21,039 個“共有 non-HBGs”——這些基因分別在超過 95% 的數據集中被一致歸類為 HBGs 或 non-HBGs。在這些共有的 HBGs 中,包括 33 個線粒體基因和 78 個核糖體基因。盡管不同數據集間的 GTE 值呈現較強的相關性,但具體鑒定出的 HBGs 集合重疊度較低,說明 HBGs 的組成具有顯著的數據集特異性,反映了批次效應的復雜性和上下文依賴性。

    此外,系統評估批次效應在不同基因子集上的影響。結果表明,在實際分析流程中需謹慎權衡 HBGs 與 HVGs 的篩選順序,且建議在 HVG 篩選之后再進行 HBG 篩選。值得注意的是,僅需引入三個 HBGs 就足以在數據中產生明顯的批次偏差。同時,GTE 方法也適用于結合其他元數據(如供體性別或樣本來源)進行批次效應評估,表現出良好的擴展性。

    需要強調的是,雖然剔除 HBGs 有助于減弱批次效應,但可能會損失有價值的生物學信息。在六個數據集中,有相當一部分已知的標志基因(marker genes)同時也屬于 HBGs。事實上,在全部 518 個數據集中,沒有一個基因在所有數據集中均被一致認定為 non-HBG,說明任何基因在某些情況下都可能受批次影響。因此,在依賴于低維表征的下游任務(如降維、整合、可視化及聚類)中可使用 non-HBGs 以提升數據質量;而在依賴于原始基因表達量的分析(如標志基因識別)中,則應保留全部基因以維持生物學信號的完整性。

    目前已有多種指標可用于量化單細胞數據中的批次效應,但這些方法普遍側重于評估批次間的分離程度,未能充分捕捉細胞水平的異質性。為此,本研究提出一種新型量化指標“GTE-align”,通過對所有基因或主成分(PC)的 GTE 值進行加總,從整體上衡量細胞水平的批次效應。系統比較了兩種 GTE-align 指標(基于基因與基于PC)與現有多種常用方法——包括平均輪廓寬度(ASW)、kBET、批次LISI、混合指標(mixing metric)、香農熵(Shannon entropy)及三種細胞特異性混合分數(cell-specific mixing scores)——在性能上的差異。

    首先,測試各指標對不同強度批次效應的區分能力。利用 Splatter R 包生成六組批次效應強度依次遞增的模擬數據集(模擬1至模擬6)。結果顯示,隨著批次效應增強,僅 GTE-align 與 ASW 均呈現一致上升趨勢;其他指標在達到一定效應強度后趨于飽和,表明其識別強批次效應的能力有限。

    批次效應在不同細胞類型間往往表現不均衡,因此理想的指標應能辨別此類差異。以細胞系數據集為例:293T 細胞在不同批次中混合良好,而 Jurkat 細胞則呈現明顯的批次分離。在評估各指標對這一不均衡效應的識別能力時,僅 GTE-align 與混合指標能夠一致反映出 Jurkat 細胞中更顯著的批次效應,說明二者對細胞類型特異性的批次變異具有較高敏感性。

    此外,還比較了各指標的計算效率。結果表明,即使基于4000個基因進行計算,GTE-align 在運行時間和內存占用方面仍優于其他方法。綜上所述,GTE-align 在識別效力、對異質效應的敏感性以及計算效率方面均優于當前常用的批次分離指標。

    基于 GTE 指導批次效應去除

    本研究進一步驗證了 GTE 在指導批次效應校正方面的實用性。在小鼠 MOp 數據集中,以細胞類型作為組變量計算得到的總體 GTE,本質上是各細胞類型內 GTE 值的總和。通過分析不同細胞類型中基因的 GTE 分布,發現盡管各細胞類型的 GTE 模式存在差異,但生物學特征相似的細胞類型表現出相似的 GTE 模式。這一發現得到了進一步支持:不同細胞類型對之間的基因表達相似性與 GTE 相似性呈顯著正相關。在該數據集中,若針對每一細胞類型識別并剔除其 HVGs 中的 HBGs,不僅該細胞類型本身的批次效應顯著降低,其生物學相似細胞類型的批次效應也得到同步改善。

    與需要先驗知識的細胞類型標簽相比,“來源標簽”(如樣本或個體ID)更易獲取,為 GTE 的實際應用提供了便利。然而,在涉及不同生物學條件或批次間存在較強異質性的數據中,若直接基于來源標簽選擇 HBGs,可能將那些因實驗條件或批次特異性表達而 legitimately 差異的基因誤判為 HBGs。例如,在一個包含“對照組”和“干擾素β(IFN-β)刺激組”的人類外周血單個核細胞(PBMC)數據集中,從 HVGs 中去除鑒定出的 top 200 個 HBGs 后,批次效應明顯減弱;但這些被剔除的基因中多數與 IFN-β 激活通路相關(如 ISG15、ISG20 和 IFIT1),實則是條件刺激引發的真實生物學響應。若研究目標與 IFN-β 效應無關,混合不同條件下的同類細胞是可接受的;但在涉及多條件、多批次的大規模整合研究中,需審慎篩選 HBGs,以避免誤除條件特異性或批次特異性的細胞亞群標志基因,從而掩蓋真實的生物學異質性。

    最后,研究探究了基于來源標簽的 HBG 選擇在不同數據模態中的適用性,包括批量 RNA-seq 和其他組學數據集:

    批量 RNA-seq 數據:分析了癌癥基因組圖譜(TCGA)中的直腸腺癌(READ)數據集,包含 166 個樣本和 16,327 個基因。結果顯示,與使用全部基因或隨機去除60%基因相比,剔除 GTE 排名前60%的基因能更有效地降低批次效應,并同時清晰區分出不同的共識分子亞型。

    單細胞 ATAC-seq 數據:將 HBG 選擇策略應用于 Luecken 等人整理的 scATAC-seq 數據集(包含 84,813 個細胞和 96,924 個峰)。盡管該數據維度極高且極為稀疏,在去除 GTE 排名前60%的峰后,不僅批次效應得到有效控制,研究關注的特異性細胞類型(如顆粒細胞,GrCs)也得以清晰保留。對該數據的“基因活性版本”進行分析發現,無論使用全部基因還是去除 HBGs 后的基因,均呈現不同細胞類型的混合,表明基因活性計算本身會引入復雜的系統性差異,而此類差異無法通過 GTE 方法消除。

    單細胞蛋白質組學數據:進一步在蛋白質組學數據中驗證了 GTE 的效用,包括一個癌細胞系數據集(含兩個批次,分別基于 SCoPE2 和 plexDIA 技術檢測)和一個人類 PBMCs CITE-seq 數據集(兩個批次,共檢測 223 種蛋白質)。結果表明,即使在這些特征數量有限的數據中,去除高批次敏感性蛋白質仍能顯著減弱批次效應。值得注意的是,兩個數據集中鑒定出的 HBG 比例存在顯著差異:癌細胞系數據集中為70%,而 PBMCs 數據集中僅為20%。這一差異很可能源于不同檢測平臺帶來的技術偏差,表明平臺效應對癌細胞系中蛋白質表達的影響更為廣泛。

    總體而言,GTE從基因層面為批次效應提供了新的量化與解釋視角,揭示了批次效應對基因影響的異質性,并強調了在單細胞整合分析中區分高批次敏感性基因(HBGs)與非高批次敏感性基因(non-HBGs)的重要性。去除HBGs可顯著抑制批次效應,且效果優于僅依賴高變基因(HVGs)篩選;需明確的是,HBG篩選應被視為一種面向降維、可視化等低維嵌入任務的“特征選擇”步驟,而在需完整基因表達信息的任務(如細胞類型注釋)中則應保留原始數據。GTE能夠精準、高效地量化細胞水平批次效應,其敏感性與計算效率優于現有指標,并在多組學數據類型中展現出良好的通用性與擴展性。本研究還發現“生物學相似細胞類型受批次影響程度相似”的規律,為開發更精細的整合策略提供了新思路。然而,GTE仍存在一定局限性:它依賴可靠的分組信息,標注質量差時可能引發誤判;當批次效應廣泛存在時,僅剔除HBGs可能不足以實現充分整合,需結合其他校正方法;在異質或多條件數據中,真實條件響應基因或批次特異性細胞亞群標志易被誤判為HBGs。這些局限也引出了未來研究的關鍵問題,例如如何在整合中有效區分“技術批次偏差”與“真實生物學差異”。

    本文所用的代碼和源數據 GitHub:https://github.com/yzhou1999/GTEs Zenodo:https:///10.5281/zenodo.15412860

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 福利视频在线一区二区| 亚洲国产一线二线三线| 成年男女免费视频网站| 亚洲制服丝袜系列AV无码| 精品亚洲精品日韩精品| 天堂亚洲免费视频| 久久久这里只有精品10| 亚洲欧美日韩国产精品专区| 国产在线乱子伦一区二区| 亚洲AV无码一区二区三区性色| 亚洲欧美人成网站在线观看看| 高清无码一区二区在线观看吞精| av中文字幕一区二区| 色婷婷亚洲精品综合影院| 日韩有码av中文字幕| 亚洲人成伊人成综合网久久久| 欧洲亚洲精品免费二区| 丝袜美腿一区二区三区| 国产午夜A理论毛片| 久久精品无码免费不卡| 日韩AV无码精品一二三区| 肥臀浪妇太爽了快点再快点| 精品无码一区二区三区在线| 少妇又爽又刺激视频| 久久综合亚洲色一区二区三区| 久久亚洲色WWW成人男男| 国产一区二区日韩在线| 日韩内射美女人妻一区二区三区| 成人无码潮喷在线观看| 无码日韩av一区二区三区| 人妻少妇精品久久| 97久久超碰亚洲视觉盛宴| 国产成人a在线观看视频免费| 国内自拍视频一区二区三区| 亚洲精品日韩精品久久| 日本在线看片免费人成视频| 精品一区二区三区在线成人| 精品午夜久久福利大片| 少妇人妻偷人精品系列| 天天在线看无码AV片| 国产精品人人爽人人做我的可爱|