【原】單細胞數據科學的十一個重大挑戰

健明 2021-07-15

展開全文

男，

一個長大了才會遇到的帥哥，

穩健，瀟灑，大方，靠譜。

一段生信緣，一棵技能樹，

一枚大型測序工廠的螺絲釘，

一個隨機森林中提燈覓食的津門旅客。

隨著單細胞技術的成熟，人們得以在單細胞水平觀摩生命現象了，在這波技術浪潮中似乎要把自人類基因組積累的生命科學技術都在單細胞水平上應用一遍，其中最常見的就是測序技術。

獲得單個細胞
觀察以記錄數據
數據解讀

這是單細胞數據分析的大框架，要說難點都難，今天我們就來談談目前單細胞數據解讀（挖掘）的一些挑戰。主要參考文章：

Eleven grand challenges in single-cell
data science ,L?hnemann et al. Genome Biology (2020) 21:31

原文：https:///10.1186/s13059-020-1926-6

高通量技術是伴隨著人類信息化進程而來的，當我們把鏡頭聚集到單個細胞的水平，我們得到精度的同時也得到了大量的數據。在同時代背景下，人類社會的數據精度也在擴展，隨之而生的是大數據以及數據科學的概念，于是，我們不難聯想到：單細胞數據科學（single-cell data science ，SCDS）。

大數據的四大特點幾乎都在單細胞數據中體現了：

1、海量性
2、多樣性
3、高速性
4、易變性

單細胞的海量性不僅體現在單次捕獲的細胞數和基因數上，而是每天不同的實驗室產生對單細胞不同的刻畫，不同器官，不同物種，不同技術層面。。

多樣性翻譯到單細胞這就是不同的模態：

它的數據多樣性不僅有表征豐度的矩陣數據，還有空間數據（空間轉錄組等），結構數據。多樣性更體現在對細胞類型的刻畫上，到目前為止，我們知道的細胞類型遠小我們更夠測出來的細胞類型，導致我們從一個側面觀察到他了（通常是RNA），但是無法窺探全貌，所以往往不能再我們現有的細胞圖譜上找到它的位置。高速和易變就不多說了，目前有不少文章發出來就是一個數據庫，往往有一個新的技術頭號玩家完了，二號基本沒機會了。

目前大部分單細胞轉錄組技術是拿一個barcode來標記細胞，再拿一段小的序列標記mRNA（UMI）。如果只是測RNA這樣確實可以，但是如果想要同時測蛋白呢，就需要另一套序列來標記蛋白，不同的蛋白簇標記可能不一樣。這就有了這樣一套技術需求:

先說單細胞轉錄組的。

Challenge I: Handling sparsity in single-cell RNA sequencing

數據稀疏對大部分數據科學家來說都不是陌生的問題，只要測的對象（細胞）較多，而每個對象的屬性（轉錄本）又較多，這個現象總會存在。在單細胞中通常和dropout聯系在一起。這個單詞說的就是測不準。在表示豐度（轉錄本，基因，探針等）的矩陣中，對象和屬性都很多，每增加一個只有少量屬性值的對象，就會帶來大量的零值。而零值是不好解釋的：

可能是真的沒有，袋子里就沒有紅球，沒抓到
可能是袋子里是有的，人類的手氣不夠好

所以，零值該如何處理呢？這是挑戰之一。

第一反應應該是填補它：基因是相互調控的，所以我根據其他基因的表達情況來填補。這仍是在發展中的技術。

Challenge II: Defining flexible statistical frameworks for discovering complex differential patterns in gene expression

大部分的科學家都在找差異。最簡單的方法是兩個數據的時候大小比較就可以了，兩組數據假設檢驗，基于假設檢驗可以做三組的（方差分析）。當然，基于當代數據科學的發展找出數據之間的差異的方法是很多了，在Rna數據中最經典的差異基因計算方法要數 edger了。但是，單細胞的差異如何刻畫?樣本不同，組織不同，細胞類型不同，這些只看表達量可以衡量與否以及如何衡量。

其實找差異，換句話說是如何穩健地描述細胞間的異質性？在目前的大部分文章是給一張細胞圖譜（tsne/umap），言下之意分群即差異：

Challenge III: Mapping single cells to a reference atlas

我們測了一堆barcode，到底是什么細胞呢？我們需要鑒定它，這就像我們在動物園看到一朵花，很好奇這是什么花一樣。自然的想法就是看看花的字典中有沒有和這個一樣的，能查到我們就認識了。

目前常見的查字典的方法是這樣的：

說到底是根據細胞中基因向量的表達模式匹配到一起。這個問題應該分兩個方面來看：

數據集之間的mapping算法
reference 怎么樣

其中mapping算法是目前學術主要的工作內容，用各種算法來學習reference 的特征以把它映射到新的數據集中。這樣結果就分為兩個：

映射的上
映射不上

首先的是，我們希望盡可能的映射的上，因為人類懼怕未知（unkown）。但是，我提醒大家盡可能關注未知，那里也許有更大的世界。

為了和已知世界構建聯系，目前大部分還是用已知的細胞類型的marker來mapping：

在這里，我更愿意提醒在坐的各位，注意構建良好的reference，我們現在看到的格式有：

表達譜
特征基因表達譜
特征基因
數學模型
可視化的數據庫

這些reference忽略了一個關鍵的信息：細胞的分化過程。

這個圖很容易讓人想起，宏基因的生物層級結構：

我認為如果我們的細胞圖譜不能夠反應細胞分化層級關系，至少是不完整的。一張張umap圖，反應的只是數量關系，而且往往有沒有說明它的分辨率水平(resolution)。

Challenge IV: Generalizing trajectory inference

緊承上文，在單細胞轉錄是數據分析中有一個新穎的分析點：trajectory inference （TI）。這便是人類在單細胞水平上試圖刻畫細胞分化關系的努力。2019年出現了不少于60種TI的方法，數量之多也反映了人類在這方面的蒼白以及后浪們的巨大空間：

大部分的TI算法是基于概率模型以及圖空間的，說到底不過是一種排序過程。遺憾的是排序這個概念在單細胞數據分析中還很少提及。在上個世紀的生態學中，學者為了刻畫某一地方的物種分布情況，開發出來一套排序方法。單個細胞在人體的分布和演化，未嘗不可以類比回生態學中。生態學已經發展出一套表述物種

層級，進化與分化
多樣性，異質性

的方法。一塊森林單個物種的的檢測，物種間的演化關系，物種的多樣性，如此等等的概念，使得任何一個讀發育和腫瘤異質性的人都會產生聯想。

大部分的排序是基于豐度的，也有基于RNA速率和SNP變化的，可以得到如下的關系：

但是不同的TI方法得的結果之間還有很大的gap，令人沮喪的是，有時候甚至是相反的。

奇怪的是，現在的人們似乎沒有把inference的TI刻畫清楚，導致兩者往往是分開執行的，結果也會有出入。

結合以上兩個挑戰，我認為單細胞數據分析需要是一個包含層級結構的/穩定的inference數據庫。

Challenge V: Finding patterns in spatially resolved measurements

人類對空間并不陌生，大到以光年計的宇宙空間，小到電子圍繞質子運動的原子。醫學院的老師應該不會對空間單細胞技術感到陌生，特別是醫學影像已經快要獨立成新的一門學科的現在。但是，當我們給每個細胞一個空間坐標的時候，想要描繪它，除了看圖，也更加復雜了。

我們知道，對一個細胞來講最重要的就三條：

位置
位置
位置

在多細胞發育的早期，位置決定了它們將來成為那些組織器官，在后來的歲月中，位置決定它們的形狀與功能。不對啊，不應該是基因的差異化表達決定的嗎？那么，我問：基因為什么會差異化表達？是不是因為轉錄調控？而是什么導致的調控？是不是外界的響應？而又是說明決定了它對外界的感知？是不是它所在的位置？

明顯的例子，免疫細胞：

就像我們說一個人的位置，不是僅僅指它的經緯度一樣，當我們說細胞的空間信息的時候，也不僅僅指它的XY軸坐標。

空間會開發我們的想象力，而星辰和大海都是需要船票的，而這張船票就是數據科學。

接下來，我們說說單細胞基因組方面的挑戰吧。

對一個生物體來講，每個細胞都有全能性的啊，基因組不都是一樣的嗎？沒有了差異還分析什么？哪還有什么數據分析的挑戰呢？

但是，有機體的每一次細胞分裂，基因組都可以通過突變事件改變，從點突變，短插入和缺失，到大規模的拷貝數變異和復雜的結構變異。這些往往是要命的。

Challenge VI: Dealing with errors and missing data in the identification of variation from single-cell DNA sequencing data

與轉錄組定量不同，基因組的分析往往是結構方面，而這本身就是一種挑戰。

我們可以區分三種情況:

(i)等位基因比例不平衡，即。，包含雜合突變的基因座，其中兩個等位基因之一的優先放大導致讀數失真;
(ii)等位基因缺失，即，包含雜合突變的基因座，其中只有一個等位基因被擴增和測序;
(iii)位點丟失，位點丟失是指等位基因在一個位點的擴增完全失敗，導致對基因組的某個位置沒有任何觀察。

主要的挑戰是在單細胞水平上：

檢測
識別
描述
比較

拿CVN來說吧，如果有CNV事件，你不一定檢測到，檢測到了，不一定能夠識別出來，識別出來了，不一定能描述它的影響，知道了它的影響，在不同時間組織中同樣的CNV事件，不一定能夠很好地比較它們。

Challenge VII: Scaling phylogenetic models to many cells and many sites

即使有完美的數據，腫瘤進化的系統發育模型仍然面臨計算的挑戰，這主要是由：

在癌癥研究中被測序的細胞數量不斷增加
每個基因組可查詢的位點越來越多

Challenge VIII: Integrating multiple types of variation into phylogenetic models

下游的分析——如描述瘤內異質性和推斷其進化歷史——受到單細胞中不可靠的變異檢測的影響。然而，變異calling的質量越高，在腫瘤演化的數學模型中對所有類型的可用信號建模就越重要:從snv(相對于較小的插入和缺失)到大的結構變異和CNVs。反過來，這應該增加結果樹的分辨率和可靠性。

對于CNVs的系統發育推斷，主要的挑戰是:

(i)確定正確的突變譜
(ii)計算這些譜之間的現實轉移概率。

Challenge IX: Inferring population genetic parameters of tumor heterogeneity by model integration

腫瘤異質性是腫瘤細胞群體在時間和空間上進化的結果。微環境因素，如進入血管系統、免疫細胞浸潤等，在原發腫瘤的區域、主腫瘤與轉移灶之間以及不同的時間點都有很大差異。這對不同的腫瘤細胞施加了不同的選擇性壓力，推動了腫瘤亞克隆的形成，從而決定了疾病進展(包括轉移潛力)、患者預后和對治療的敏感性。然而，甚至關于結果動力的基本問題仍然沒有答案。

定量描述腫瘤相互演化過程和評估不同的可能模式(如轉移性播種方式)，需要估計個體變異和突變組合,以及變異,細胞出生,和細胞死亡在生命過程的積累。這些參數決定了個體細胞在其微環境中潛在的適應性景觀，進而決定了癌癥進展的進化動力學。

一個主要的挑戰將是將這與從其他測量中獲得的單細胞的空間位置相結合。這將有助于確定來自同一亞克隆的細胞是否位于同一位置，轉移是否經常由同一亞克隆發生，單個轉移是由單個亞克隆發生還是由多個亞克隆發生。利用來自同一腫瘤和遠處轉移的多個區域樣本的研究已經為研究這些問題鋪平了道路。然而，只有單細胞空間分辨率才能在特定位置識別特定的個體基因型，并得出精確的結論。

單細胞將有可能更詳細地確定特定于亞克隆的模型參數及其變異性。例如，增殖率、突變率和死亡率可以通過測量每個亞克隆的有絲分裂和凋亡細胞的數量，或者通過整合不同時間點的亞克隆豐度譜來獲得。對這些基本參數的良好估計將極大地有利于癌癥中陽性和陰性選擇的檢測，并提高亞克隆適應度估計對亞克隆耐藥性的預測(從而提高預期的治療成功)。

Challenge X: Integration of single-cell data across samples, experiments, and types of measurement

生物過程是復雜和動態的，在細胞和生物體之間各不相同。為了綜合分析這些過程，需要從多個實驗中獲得不同類型的測量值并進行整合。根據實際的研究問題，這些實驗可以是不同的時間點、組織或有機體。對于它們的集成，我們需要靈活但嚴格的統計和計算框架

（i)取決于研究問題的不同的分辨率水平
(ii)任何測量的不確定度，以及在分析期間如何量化它們
（iii)將單細胞方法擴展為同時測量更多的細胞和更多的特征

所有這些進一步加劇了單細胞數據集成中最重要的挑戰:以一種生物學上有意義并支持預期分析的方式連接來自不同來源的數據。描述不同來源的數據如何關聯的mapping將隨著樣本數量、時間點和測量類型的增加而增加復雜性。

無論哪種測量類型的組合可用，大多數測量所需要的物質的數量都將是微小的，這取決于單個細胞的數量以及特定細胞群中可用的有限數量的細胞。這意味著一個總體的主題將會持續存在:像訓練模型或相互映射數量這樣的分析將會因為缺少整個視圖(樣本、時間點或度量類型)而受到影響。因此，跨實驗和不同測量類型的數據集成將進一步加劇缺失數據的挑戰。

Challenge XI: Validating and benchmarking analysis tools for single-cell measurements

隨著sc-seq和其他單細胞技術的進步，越來越多的分析工具可供研究人員使用，更多的工具正在開發中，并將在不久的將來發布。因此，對數據集和方法的需求，支持系統的基準和評估這些工具變得越來越緊迫。

為了有用和可靠，算法和管道應該能夠通過以下質量控制測試:

(i)它們應該產生高質量的預期結果(例如，重建系統發育，DE ，或聚類數據)，并且超過現有方法(如果現有方法存在的話)
(ii)它們應該能夠穩健地應對高水平的測序噪音和技術偏差，包括PCR偏差、等位基因丟失和嵌合信號。
此外，應根據已建立的建議，有系統地進行工具評估。

評估工具的性能需要基準數據集與已知的真相。這些數據應該包括已知基因組組成和群體結構的細胞群，換句話說，克隆和等位基因的頻率是已知的。

(i)模擬數據集并驗證它們捕獲真實數據的重要特征
(ii)為真實數據集擬合基礎模型
(iii)商定綜合評價指標。

理想情況下，這樣的基準框架在最初的發布之后仍然是動態的——允許在提出新方法時對方法進行持續的比較，并且可以輕松地將其擴展到方法開發的全新領域。

贊賞

共11人贊賞