對SingleR進行基準測試

在下面的案例研究中，我們使用Seurat包來處理scRNA-seq數據并執行t-SNE分析。所有可視化都可通過SingleR Web工具輕松獲得- http://comphealth./SingleR。Web應用程序允許查看數據和交互式分析。

案例研究1：GSE74923 - Kimmerling等。自然通訊（2016）

獲取數據

為測試C1平臺而創建的數據集。使用C1：89 L1210細胞，小鼠淋巴細胞白血病細胞和105只小鼠CD8 + T細胞分析194個單細胞小鼠細胞系。省略了具有少于500個非零基因的5個細胞。

數據從GEO下載，并使用以下代碼讀取到R：

>counts.file = 'GSE74923_L1210_CD8_processed_data.txt' # 這是一個表達矩陣文本，行為基因名，列為樣品名；

>annot.file = 'GSE74923_L1210_CD8_processed_data.txt_types.txt'

# 這是一個含有兩列的文本，一列為樣品名，一列為所有樣品的總名。

>singler = CreateSinglerSeuratObject(counts.file, annot.file, 'GSE74923', variable.genes='de', regress.out='nUMI', technology='C1', species='Mouse',

                                    citation='Kimmerling et al.', reduce.file.size

                                    = F, normalize.gene.length = T)

>save(singler,file='GSE74923.RData'))

SingleR分析

首先，我們看一下原始身份所著色的t-SNE圖：

# singler$singler[[1]] is the annotations obtained by using ImmGen dataset as reference. 
# singler$singler[[2]] is based on the Mouse-RNAseq datasets.
>load (file.path(path,'GSE74923.RData'))
>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
      singler$meta.data$xy, do.label = FALSE, do.letters = F,
      labels=singler$meta.data$orig.ident,label.size = 6, 
      dot.size = 3)
>out$p

然后我們可以使用SingleR參考Immgen通過聚合得分的熱圖來觀察分類。這些分數在微調之前。我們可以通過主要細胞類型查看此熱圖：

>SingleR.DrawHeatmap(singler$singler[[1]]$SingleR.single.main, top.n = Inf,
                    clusters = singler$meta.data$orig.ident)

或者通過所有細胞類型（呈現前30種細胞類型）：

>SingleR.DrawHeatmap(singler$singler[[1]]$SingleR.single, top.n = 30,
                    clusters = singler$meta.data$orig.ident)

我們可以看到L1210細胞被強烈分類為（大多數）2種類型的B細胞祖細胞。我們可以看到CD8細胞主要與效應CD8 + T細胞的特異性激活相關。有趣的是，SingleR表明，一個L1210細胞現在與完全分化的B細胞更相似，而不是祖細胞。

該熱圖的另一個有趣應用是能夠聚類細胞，而不是通過它們的基因表達譜，而是通過它們與數據庫中所有細胞類型的相似性：

>K = SingleR.Cluster(singler$singler[[1]]$SingleR.single,num.clusts = 2)
>kable(table(K$cl,singler$meta.data$orig.ident),row.names = T)

	CD8	L1210
1	0	86
2	103	0

這里不是很有趣，但我們稍后會看到這種聚類功能可能很有用，特別是對于識別新的細胞類型。我們在手稿中使用它并找到一個中間的，未表征的巨噬細胞狀態。

最后，我們在t-SNE圖中給出了注釋：

>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
        singler$meta.data$xy,do.label=FALSE,
        do.letters = T,labels = singler$singler[[1]]$SingleR.single$labels,
        label.size = 4, dot.size = 3)
>out$p

我們可以看到SingleR正確地注釋了所有L1210作為B細胞的類型，幾乎完全作為B細胞祖細胞。另一方面，所有CD8細胞都正確注釋為CD8 + T細胞。重要的是要記住，SingleR可以從中選擇253種類型，但它正確地選擇了最相關的細胞類型。有趣的是，tSNE圖錯誤地將細胞定位在錯誤的簇中，但分揀不受此影響。

與原始身份相比，查看表中的注釋有很多次：

>kable(table(singler$singler[[1]]$SingleR.single$labels,singler$meta.data$orig.ident))

	CD8	L1210
乙細胞（B.T2）	0	1
乙細胞（B.T3）	0	1
乙細胞（preB.FrC）	0	68
乙細胞（proB.CLP）	0	1
乙細胞（proB.FrBC）	0	15
?細胞（T.8EFF.OT1.48HR.LISOVA）	101	0
?細胞（T.CD8.48H）	1	0
TGD（Tgd.mat.vg3）	1	0

辛格勒得分相當于非零基因的數量

上面給出的熱圖可能會產生誤導，因為每列標準化為0到1之間的分數。因此，單個單元格可能與多個單元格類型的相關性較低，而且它們都不是準確的單元格類型，但在熱圖中它們一切都會變紅。沒有規范化，數據看起來像這樣：

>SingleR.DrawHeatmap(singler$singler[[1]]$SingleR.single,top.n = 30,
        normalize = F,clusters = singler$meta.data$orig.ident)

我們可以看到有一組細胞在所有細胞類型中得分較低。是什么原因導致這些細胞的相關性較低？

>df = data.frame(Max.Score=apply(singler$singler[[1]]$SingleR.single$scores,1,max),
                >nGene=singler$seurat@meta.data$nGene,Orig.ident=singler$meta.data$orig.ident)
>ggplot(df,aes(x=nGene,y=Max.Score,color=Orig.ident))+geom_point()

該細胞中非零基因數（nGene）與最高分揀器評分的關系圖顯示分揀評分依賴于nGene。然而，正如我們已經看到的那樣，盡管nGene的數量較少，但分揀器能夠正確地注釋這些細胞。這與Seurat t-SNE圖相反，后者錯位了這些細胞，如下圖所示，它根據Max.Score為細胞著色：

>SingleR.PlotFeature(singler$singler[[1]]$SingleR.single,singler$seurat,'MaxScore',dot.size=3)

在下一個案例研究中，我們將檢查辛格勒使用獨立于nGene的相關性“離群值”標準正確注釋細胞的能力。

案例研究2：10X數據集 - 鄭等。自然通訊（2017）

獲取數據

在這里，我們分析了使用10X平臺分析的分類免疫細胞類型的獨特人類數據集。我們從https://support./single-cell-gene-expression/datasets電子雜志此數據，并使用辛格勒管道進行處理。為了減少計算時間并使分析更簡單，我們使用以下代碼從10個細胞群中隨機選擇1000個具有> 200個非零基因的細胞：

# path/10X/ contains a directory for each of the expriments, each with the three 10X files.
>dirs = dir(paste0(path,'/10X'),full.names=T)
>tenx = Combine.Multiple.10X.Datasets(dirs,random.sample=1000,min.genes=200)
>singler = CreateSinglerSeuratObject(tenx$sc.data, tenx$orig.ident, 'Zheng', 
                                    variable.genes='de',regress.out='nUMI', 
                                    technology='10X', species='Human', 
                                    citation='Zheng et al.', reduce.file.size = F, 
                                    normalize.gene.length = F)
>save(singler,file='10x (Zheng) - 10000cells.RData'))

辛格勒分析

首先，我們繪制原始身份：

注意：當存在多種細胞類型時，很難用顏色區分它們。形狀也很難以小尺寸區分。因此，我們對每種細胞類型/使用顏色不同的字母但是，由于單元格較小，因此需要大幅放大。另一種方法是使用我們的SingleR Web工具或運行代碼并使用ggplotly繪圖，這兩種方法都允許將鼠標懸停在單元格上并查看其標簽。

>load (file.path(path,'SingleR.Zheng.200g.RData'))
>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
                       singler$meta.data$xy,do.label = F,
                       do.letters = T,labels = singler$meta.data$orig.ident, 
                       dot.size = 1.3,alpha=0.5,label.size = 6)
>out$p

我們可以看到tSNE圖允許區分大多數細胞類型，但CD4 + T細胞亞群一起模糊。

接下來我們來看看瑟拉集群：

>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
                       singler$meta.data$xy,do.label = T,
                       do.letters = F,labels=singler$seurat@ident, 
                       dot.size = 1.3,label.size = 5,alpha=0.5)
>out$p

我們可以看到聚類表現相對較好; 然而，調節性?細胞完全溶解在記憶?細胞簇中。

使用Blueprint + ENCODE（BE）作為參考的SingleR在微調之前產生了以下注釋：

# Note the use of the second iterm in the the singler$singler list to use 
# the Blueprint+ENCODE reference. The first item is HPCA.
# use singler$singler[[i]]$about for meta-data on the reference.
>SingleR.DrawHeatmap(singler$singler[[2]]$SingleR.single,top.n=25,
                    clusters = singler$meta.data$orig.ident)

我們可以看到，在微調之前，T細胞狀態之間存在強烈的模糊，這是無法區分的。

但是，通過微調，我們獲得以下注釋：

>out = SingleR.PlotTsne(singler$singler[[2]]$SingleR.single,
                       singler$meta.data$xy,do.label=FALSE,                       do.letters=T,
          labels=singler$singler[[2]]$SingleR.single$labels, 
                       dot.size = 1.3, font.size = 6)
>out$p

通過觀察顏色，我們可以看到CD4 + T細胞群可以大致分為4種狀態，從底部的幼稚CD4 + T細胞（綠色）到中央記憶和中間的效應記憶CD4 + T細胞（紫色和橙色）和調節性T細胞在頂部（粉紅色），按照原始身份。雖然它并不完美，但它為我們提供了更細粒度的細胞狀態視圖，而無需查看可能根本不存在于數據中的許多標記，其解釋常常令人困惑; 例如：

>genes.use = c('CD3E','CD4','CD8A','CCR7','CXCR5','SELL','IL7R','GNLY','FOXP3')

>df = data.frame(x=singler$meta.data$xy[,1],
                y=singler$meta.data$xy[,2],
                t(as.matrix(singler$seurat@data[genes.use,])))
>df = melt(df,id.vars = c('x','y'))
>ggplot(df,aes(x=x,y=y,color=value)) + 
  geom_point(size=0.3)+scale_color_gradient(low="gray", high="blue") + 
  facet_wrap(~variable,ncol=3) +theme_classic()+xlab('')+ylab('')+
  theme(strip.background = element_blank())

微調的效果

為了比較微調之前和之后的結果，我們可以查看以下圖表（行 - 原始身份，列 - SingleR標簽）：

>singler$singler[[2]]$SingleR.single$labels1 =
  gsub('Class-switched','CS',singler$singler[[2]]$SingleR.single$labels1)
>singler$singler[[2]]$SingleR.single$labels =
  gsub('Class-switched','CS',singler$singler[[2]]$SingleR.single$labels)
>hsc = c('CLP','CMP','GMP','MEP','MPP')
>singler$singler[[2]]$SingleR.single$labels1[
  singler$singler[[2]]$SingleR.single$labels1 %in% hsc] = 'HSC'
>singler$singler[[2]]$SingleR.single$labels[
  singler$singler[[2]]$SingleR.single$labels %in% hsc] = 'HSC'

>order1 = c('CD4+ T-cells','CD4+ Tcm','CD4+ Tem','Tregs','CD8+ T-cells',
           'CD8+ Tem','CD8+ Tcm','NK cells','naive B-cells',
           'Memory B-cells','CS memory B-cells','Monocytes','HSC')
>order2 = c('CD4+ Tn','CD4+ Tm','CD4+ Th','Tregs','CD8+ Tn','CD8+ Tcyto',
           'NK cells','B-cells','Monocytes','HSC')
>a =table(singler$meta.data$orig.ident,singler$singler[[2]]$SingleR.single$labels1)
>a = a[order2,order1]
>corrplot(a/rowSums(a),is.corr=F,tl.col='black',title = 'Before fine-tuning',
         mar=c(0,0,2,0))

b = table(singler$meta.data$orig.ident,singler$singler[[2]]$SingleR.single$labels)
b = b[order2,order1]
corrplot(b/rowSums(b),is.corr=F,tl.col='black',title = 'After fine-tuning',
         mar=c(0,0,2,0))

我們可以看到，在微調之前，許多CD8 + T細胞被注釋為CD4 +（46.5％的CD8 + T細胞）。在最初的鄭等人中也報道了細胞與CD4 + T細胞具有最高相關性的這種現象。手稿。微調后，這個數字減少到19.25％。此外，幼稚的CD8 + T細胞在微調之前沒有注釋，但在微調后已正確注釋。

{#CorrectLabeling}總之，分揀器根據原始身份將84.3％的細胞注釋為主要細胞類型，距離預期的分選純度不遠：

ident = as.character(singler$meta.data$orig.ident)
ident[grepl('CD4',ident)]='CD4+ T-cells'
ident[ident=='Tregs']='CD4+ T-cells'
ident[grepl('CD8',ident)]='CD8+ T-cells'
kable(table(singler$singler[[2]]$SingleR.single.main$labels,ident))

	乙細胞	CD4 + T細胞	CD8 + T細胞	HSC	單核細胞	NK細胞
乙細胞	999	2	0	25	8	0
CD4 + T細胞	0	2743	127	1	1	0
CD8 + T細胞	1	1245	1868年年	4	3	15
DC	0	0	0	1	1	0
HSC	0	6	0	850	1	2
單核細胞	0	2	0	119	981	1
NK細胞	0	2	五	0	五	982

sum(ident==singler$singler[[2]]$SingleR.single.main$labels)/10000

## [1] 0.8423

乙細胞的粒度分析

有趣的是，SingleR提出了更細粒度的B細胞群視圖，將其分解為幼稚和記憶B細胞，這似乎與t-SNE圖結構一致：

bcells = SingleR.Subset(singler,grepl('B-cells',
                                      singler$singler[[2]]$SingleR.single$labels))
out = SingleR.PlotTsne(bcells$singler[[2]]$SingleR.single,
                       bcells$meta.data$xy,
                       dot.size = 3,alpha=0.5)
out$p

并通過CD27表達（記憶乙細胞的標記）：

df = data.frame(CD27=bcells$seurat@data['CD27',],
                Labels=bcells$singler[[2]]$SingleR.single$labels)
ggplot(df,aes(x=Labels,y=CD27,fill=Labels))+geom_violin(scale='width') + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+xlab('')

與其他參考分類方法的比較

Kang等人，Nature Biotechnology （2017）使用從scRNA-seq PBMC（來自鄭等人）中學習的一組標記來注釋單細胞：

out = SingleR.PlotTsne(singler$singler[[2]]$SingleR.single,
                       singler$meta.data$xy,do.label=FALSE,
                       do.letters =T,labels=singler$other[,'Kang'], 
                       dot.size = 1.3, font.size = 6)
out$p

我們可以看到這種方法的可用性有限，因為它不能區分CD4 +和CD8 + T細胞。請注意，使用10X生成的數據用于此方法中創建參考矩陣，并且它專門針對血液中的免疫子集進行了訓練。

李等人的基于批量參考的方法。人，Nature Genetics （2017）使用了基于參考的方法，但沒有微調：

library(RCA)
tpm_data = TPM(as.matrix(singler$seurat@data),human_lengths)
data_obj = dataConstruct(tpm_data);
data_obj = geneFilt(obj_in = data_obj);
data_obj = cellNormalize(data_obj);
data_obj = dataTransform(data_obj,"log10");
rownames(data_obj$fpkm_transformed) = toupper(rownames(data_obj$fpkm_transformed))
data_obj = featureConstruct(data_obj,method = "GlobalPanel");
scores = data_obj$fpkm_for_clust
RCA.annot = rownames(scores)[apply(scores,2,which.max)]
n = table(RCA.annot)
RCA.annot[RCA.annot %in% names(n)[n<5]] = 'Other (N<5)' 
names(RCA.annot) = colnames(tpm_data)

singler$other = cbind(singler$other,RCA.annot)
colnames(singler$other) = c('Kang','RCA')

out = SingleR.PlotTsne(singler$singler[[2]]$SingleR.single,
                       singler$meta.data$xy,do.label=FALSE,
                       do.letters =T,labels=singler$other[,'RCA'], 
                       dot.size = 1.3, font.size = 6)
out$p

同樣，我們可以看到參考不能在沒有微調的情況下區分CD4 +和CD8 + T細胞。

識別罕見事件

辛格勒還允許檢測罕見事件。例如，讓我們深入研究一下排序的單核細胞：

monocytes = SingleR.Subset(singler,singler$meta.data$orig.ident=='Monocytes')
out = SingleR.PlotTsne(monocytes$singler[[2]]$SingleR.single,
                       monocytes$meta.data$xy,do.label=F,
                       do.letters =T, dot.size = 2)
out$p

我們可以看到t-SNE圖已經表明有18個細胞不屬于主要簇（這意味著分選純度為~98％）。SingleR檢測到這些細胞是漿細胞（8個細胞），T細胞（2個細胞），3個NK細胞和1個DC。的英文分揀正確的嗎？

出于演示目的，我們僅繪制來自主群集的18個單元格和其他18個單元格：

cells.use = c(sample(which(monocytes$singler[[2]]$SingleR.single$labels=='Monocytes'),18),
              which(monocytes$singler[[2]]$SingleR.single$labels!='Monocytes'))
SingleR.DrawHeatmap(monocytes$singler[[2]]$SingleR.single,top.n = 20,cells.use=cells.use)

我們可以看到分揀器在其調用中非常有說服力，給予那些細胞低單核細胞評分。使用稀有細胞類型的標記物（至少在單核細胞分選的細胞中）是有問題的，因為基于標記物的分析集中在簇而不是單個細胞上。

辛格勒評分與非零基因的數量相關聯

在這里，我們使用了200個非零基因（nGenes）的閾值。與案例研究1一樣，nGenes與每個細胞的最大得分之間存在很強的相關性：

nGene=singler$seurat@meta.data$nGene
df = data.frame(Max.Score=apply(singler$singler[[1]]$SingleR.single$scores,1,max),
                nGene=nGene,Orig.ident=singler$meta.data$orig.ident)
ggplot(df,aes(x=nGene,y=Max.Score,color=Orig.ident))+geom_point(size=0.2,alpha=0.5)+
  guides(color = guide_legend(override.aes = list(size = 3)))

問題是具有低“最大得分”的細胞是否不太可靠。我們看到這在某種程度上是正確的 - 使用主要單元格類型的“正確”標記度量，我們可以看到，對于更多nGenes，注釋往往更準確：

Correct.Ident = unlist(lapply(seq(from=200,to=3000,by=50),
FUN=function(x) {
  A=nGene>=x
  sum(ident[A]==singler$singler[[2]]$SingleR.single.main$labels[A])/sum(A)}
))
df = data.frame(nGene=seq(from=200,to=3000,by=50),Correct.Ident)
ggplot(df,aes(x=nGene,y=Correct.Ident))+geom_smooth(method = 'loess')

在案例研究3中，我們繼續探索分揀正確注釋細胞的能力，作為非零基因數量的函數。

注釋的信心

我們能否確定注釋置信度的顯著性檢驗？

根據上圖，可能的方法是使用分數閾值。但是，我們可以看到即使是低分也很可靠。這是因為辛格勒得分與nGenes相關聯，但對于給定單細胞，注釋對于參考數據中的細胞類型是相對的。因此，我們引入了顯著性檢驗，檢驗頂部細胞類型的得分是否與大多數低得分細胞類型不同。我們使用卡方異常值檢驗得到最高分，其中零假設是它不是異常值。此測試不能為微調注釋提供信心，但可以建議單個單元格是否沒有足夠的信息進行注釋。我們可以用-log10（p值）看到叔SNE圖：

SingleR.PlotFeature(singler$singler[[2]]$SingleR.single,singler$seurat,
                    plot.feature = -log10(singler$singler[[2]]$SingleR.single.main$pval))

該圖表明，對于一個HSC群集，信心大于另一個，但對NK細胞和乙細胞注釋的信心：

df = data.frame(nGene=singler$seurat@meta.data$nGene,
                pval=-log10(singler$singler[[2]]$SingleR.single.main$pval),
                Identity=singler$meta.data$orig.ident)

ggplot(df,aes(x=Identity,y=pval,color=Identity))+geom_boxplot()+
  ylab('-log10(p-value)')+theme(axis.text.x = element_text(angle = 45, hjust = 1))

重要的是，我們可以看到此測試不依賴于nGenes：

ggplot(df,aes(x=nGene,y=pval,color=Identity))+geom_point(size=0.3)+
    guides(color = guide_legend(override.aes = list(size = 3)))+
  ylab('-log10(p-value)')

案例研究3：模擬非零基因的數量

細胞中輟學的數量變化很大，并且可能對正確注釋細胞的能力產生強烈影響。在這里，我們通過模擬具有已知身份的細胞中不同數量的非零基因（nGenes）來進一步探索這個問題。

根據案例研究2中提供的分類10X數據集（不包括CD4 +輔助T細胞，CD4 +記憶T細胞重新排列），我們隨機選擇10個細胞，其中至少1000個nGenes，由SingleR正確注釋（調整）。

從每個細胞中的非零基因，我們選擇千個基因為非零，其余基因切換為0; 。因此，所有細胞都有千非零個基因在微調之前狀語從句：之后，我們通過分揀器計算了正確的推論。然后，我們迭代地移除50個基因，運行SingleR，并再次計算正確注釋的數量。我們重復這個過程10次，隨機選擇不同的基因去除.Github 存儲庫中提供了此分析的代碼。

我們將正確注釋的百分比繪制為nGenes的函數（顯示標準誤差）：

source('simulations_functions.R')
files = dir('simulations/',full.names = T,pattern = 'RData')

res = list()
res$correct = matrix(NA,19,length(files))
res$correct.nft = matrix(NA,19,length(files))
for (i in 1:length(files)) {
  load(files[i])
  res$correct[,i] = correct
  res$correct.nft[,i] = correct.nft 
}

res$correct = 100*res$correct/90
res$correct.nft = 100*res$correct.nft/90
rownames(res$correct) = seq(1000,100,by=-50)
rownames(res$correct.nft) = seq(1000,100,by=-50)
correct = melt(rbind(res$correct,res$correct.nft))
correct$FineTune=rep(c(rep('TRUE',nrow(res$correct)),rep('FALSE',nrow(res$correct))),ncol(res$correct))
colnames(correct)[1]='nGenes'
correct <- summarySE(correct, measurevar="value", groupvars=c("nGenes",'FineTune'))


ggplot(correct, aes(x=nGenes, y=value,color=FineTune)) + 
  geom_errorbar(aes(ymin=value-se, ymax=value+se), width=.1) +
  geom_line() +
  geom_point()+theme_classic()+ylab('% correct')

我們可以看到分揀的精度逐漸下降是nGenes的函數。這在微調注釋（藍線）中更為明顯，它顯示了微調以區分密切相關的細胞類型的重要性，即使有更多的基因可用。在500個基因中，我們觀察到90％，并且隨著基因的減少，下降更明顯，支持我們選擇在我們的小鼠肺損傷分析中使用> 500nGenes。

每個細胞類型的細胞系顯示，正如預期的那樣，基因越少，難以區分密切相關的細胞類型（該數據中的?細胞亞群）：

B = c()
for (k in 1:length(files)) {
  
  load(files[k])
  ct=unique(names(unlist(lapply(tbl,FUN=function(x) x[,'B-cells']))))
  ident = colnames(tbl[[1]])
  b = matrix(0,length(ident),length(tbl))
  for (j in 1:length(ident)) {
    a=matrix(0,length(ct),length(tbl))
    rownames(a) = ct
    
    for (i in 1:length(tbl)) {
      x = tbl[[i]][,ident[j]]
      a[names(x),i] = x 
      
    }
    b[j,] = switch(ident[j], 
                   'B-cells' = colSums(a[grepl('B-cell',rownames(a)),]),
                   'CD4+ Tm' = colSums(a[rownames(a) %in% c('CD4+ Tcm','CD4+ Tem'),]),
                   'CD4+ Tn' = a[rownames(a)=='CD4+ T-cells',],
                   'CD8+ Tcyto' = colSums(a[rownames(a) %in% c('CD8+ Tcm','CD8+ Tem'),]),
                   'CD8+ Tn' = a[rownames(a)=='CD8+ T-cells',],
                   'HSC' = colSums(a[rownames(a) %in% c('CLP','MEP','GMP','MPP'),]),
                   'Monocytes' = a[rownames(a)=='Monocytes',],
                   'NK cells' = a[rownames(a)=='NK cells',],
                   'Tregs' = a[rownames(a)=='Tregs',]
    )
    
    
  }  
  rownames(b) = ident
  colnames(b) = seq(1000,100,by=-50) 
  
  if (length(B)==0) {
    B = b
  } else {
    B = rbind(B,b)
  }
}

df = melt(B)
colnames(df) = c('CellType','nGenes','value')
df <- summarySE(df, measurevar="value", groupvars=c("nGenes",'CellType'))

ggplot(df, aes(x=nGenes, y=value,color=CellType)) + 
  geom_errorbar(aes(ymin=value-se, ymax=value+se), width=.1) +
  geom_line() +
  geom_point()+theme_classic()+ylab('# correct')+scale_color_manual(values=singler.colors)

辛格勒網絡工具

該分選網絡工具包含> 50可公開獲得的scRNA-seq的數據集。所有數據都已使用上述工具進行了重新處理，并且Web工具允許用戶立即訪問以分析數據并對已發布的單細胞數據進行進一步調查。此外，我們邀請用戶上傳他們自己的scRNA-SEQ數據，這些數據將在我們的服務器上進行分析并發送回用戶。然后可以在網站上上載并進一步分析處理后的分揀器對象（私下，只有具有該對象的用戶才能查看它）。請訪問http://comphealth./SingleR了解更多信息。

參考

Kang，Hyun Min，Meena Subramaniam，Sasha Targ，Michelle Nguyen，Lenka Maliskova，Elizabeth McCarthy，Eunice Wan，et al。“使用天然遺傳變異的多重液滴單細胞RNA測序。” Nature Biotechnology 36（1）。自然出版集團：89-94.doi：10.1038 / nbt.4042。

Kimmerling，Robert J.，Gregory Lee Szeto，Jennifer W. Li，Alex S. Genshaft，Samuel W. Kazer，Kristofor R. Payer，Jacob de Riba Borrajo，et al。2016年。“一種微流體平臺，可實現多自譜系的單細胞RNA-seq。“ Nature Communications 7（1月）.Nature Publishing Group：10220.doi：10.1038 / ncomms10220。

Li，Huipeng，Elise T Courtois，Debarka Sengupta，Yuliana Tan，Kok Hao Chen，Jolene Jie Lin Goh，Say Li Kong，et al。2017年。“單細胞轉錄組的參考組分分析闡明了人結腸直腸腫瘤中的“細胞異質性。” Nature Genetics 49（5）：708-18.doi ：10.1038 / ng.3818。的細胞異質性。