
前面給大家介紹了MAF文件格式 ? MAF格式(mutation annotation format)
以及如何從TCGA數據庫下載MAF格式的突變數據。 ? 如何從TCGA數據庫下載體細胞突變數據(somatic mutation) 今天我們來講講,怎么用R的maftools包來分析MAF格式的突變數據,并用瀑布圖來展示結果。maftools這個包的主要分為兩部分功能,分析和可視化。下圖列出了,這個包中相應的函數的名字。
 我們先用maftools包自帶的數據,給大家講解這個包的使用方法。后面再來實戰,重現SCI文章中的瀑布圖。
#安裝maftools包 BiocManager::install("maftools") #加載maftools包 library(maftools) #指定maf文件的路徑和名字 laml.maf = system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools') #讀取maf文件 laml = read.maf(maf = laml.maf, clinicalData = laml.clin) #輸出對象 laml 我們可以看到laml里面存的是一個MAF的對象,以及各種突變的統計信息
 接下來我們可以對所有樣本里面突變的summary信息進行可視化
pdf(file="maf_summary.pdf",width =12,height=7) plotmafSummary(maf = laml,addStat = 'median') dev.off() 我們會得到下面的一張突變的匯總圖,包括各種突變分類統計圖,突變類型統計圖,堿基改變統計圖,每個樣本包含突變數統計圖,樣本中各種突變分類的箱型圖,突變最多的10個基因所包含的突變類型,以及樣本占比情況。
 接下來我們就可以來繪制瀑布圖了,我們可以通過top來控制展示多少個突變最多的基因,這里展示20個突變最多的基因。
pdf(file="oncoplot.pdf",width =12,height=7) oncoplot(maf = laml, top = 20) dev.off()
 這張圖最上面展示的是每個樣本的TMB(tumor mutation burden,腫瘤突變負荷),每兆堿基(每1百萬個堿基)中體細胞突變的數目。TMB可以作為一種新興腫瘤免疫治療生物標志物。中間類似瀑布的部分展示的是每個基因在每個樣本中的突變情況。每一行是一個基因,每一列是一個樣本。不同的顏色表示不同的不變類型。具體可以查看左下角的圖注。右邊的柱形圖表示包含該基因突變樣本的占比,以及突變類型的組成。 到這里我們瀑布圖的繪制就完成了,是不是很簡單。后面我們會找一篇SCI文章中的瀑布圖來復現。
為了方便大家交流學習,共同進步,我特地創建了微信交流群
|