![]() miRNA的上游分析流程跟mRNA的上游流程很相似:環境部署——數據下載——查看數據(非質控)——數據質控清洗——數據比對——數據定量https://www.bilibili.com/video/BV1zK411n7qr1.基于conda的環境部署/軟件安裝:嘗試使用ARM架構(M1/M2芯片) 去安裝fastqc trim-galore hisat2 subread multiqc samtools salmon fastp,發現這些軟件中有幾個是不兼容的。所以需要改回原來的x86_64架構(Intel芯片),如果非mac/M1/M2的不需要用這種方式。
2.下載相應數據庫數據miRbase是miRNA研究領域內最權威的數據庫之一,提供了miRNAs序列以及注釋,定位,發卡序列等信息,以及提供命名服務。
1. 前體 miRNA(hairpin.fa):
2. 成熟 miRNA(mature.fa):
在這里這兩個文件的作用主要是進行序列比對。 ![]() 3.Check 下載到本地的數據打開hairpin.fa文件可以看到數據的格式
![]()
接著觀察人類這個物種的miRNA的數量
接著觀察有多少序列,4行為一條序列
接著檢查一下前體和成熟體長度: 前體miRNA和成熟體miRNA:前體miRNA長度一般是70-120堿基,通常是莖環(發卡,hairpin)結構。成熟之后一般是22個堿基。(曾老師的perl的示例代碼)
4.構建索引構建 miRNA 序列的索引庫(例如使用 bowtie 構建 hairpin.fa 和 mature.fa 的索引)可以顯著提升后續比對過程的速度和準確性,比如:1. 加速比對過程;2. 減少計算資源需求;3. 提升比對準確性; U->T轉換為什么要進行U-> T轉換:在 RNA 序列中,堿基用“U”(尿嘧啶)表示,而 DNA 序列中對應的是“T”(胸腺嘧啶)。大多數比對工具,如 Bowtie,主要是針對 DNA 序列設計的,因此它們默認識別“ATCG”四種堿基。在這種情況下,如果不將 RNA 中的“U”轉換為“T”,比對工具會無法正確識別和比對 RNA 序列。
![]() Bowtie和Bowtie2的區別是什么:
![]() 5.下載數據勾選想要下載的數據,并點擊accession list,并把list放入mirna文件夾中 ![]()
使用prefetech下載數據,這里需要把SRRlist和SRA toolkit軟件安裝好。除了這種方式,我們也可以選擇aspera下載方式
把sra數據批量轉換為fastq數據
![]() 6.數據質控和清洗數據質控查看
![]() 正式數據清洗
![]() 7.數據比對根據miRBase數據庫下載的序列進行比對和定量。
![]() 對比結果中發現只有1507條reads對應上,也就是說幾乎所有都沒有比對上的情況,很費解。應該是我沒有學好: 然后嘗試更換一下參考基因組,文章中提到的是hg19 ![]() 筆者這里使用GRCh38進行對比,不過這個并不是重點哈。下載流GRCh38程可見轉錄組上游分析流程推文。 ![]()
![]() 這個對比結果情況就勉強能“讓人接受”啦~ 8.數據定量文章中用的是miRquant 2.0 ![]() 筆者使用featurecounts去定量, 需要先去miRBase上下載hsa.gff3 ![]()
![]() 因為比對有問題,定量也很難保證,所以拿到了矩陣也很難進行后續分析:后續的分析基本上等同于轉錄組測序表達量矩陣,就是差異分析等統計可視化:
后記我確實是看完了教學視頻,以及配套的筆記,但是不知道為什么結果就大相徑庭,一個人學習生信就是如此的枯燥和難受!
致謝:感謝曾老師以及生信技能樹團隊全體成員。 注:若對內容有疑惑或者有發現明確錯誤的朋友,請聯系后臺(歡迎交流)。 |
|