首先先讓我們從大的picture來回顧一下,基因組組裝的相關知識。 基因組組裝的目的與其成功的決定因素目的:
組裝成功的決定因素:
組裝中會遇到的“硬問題”一般來說生物體的基因組越簡單越好組裝,像細菌真菌都比較好組裝。那么影響組裝的硬問題有哪些呢? 多態性
重復序列
具體例子如下圖: 假如reads S和T 在橙色的片段都具有一長串A的堿基,那么組裝工具將會很難識別,糾結這兩個片段是擁有兩個相同copy的重復序列,還是他們本來就是overlap的可以連接起來。這樣會造成組裝的錯誤。 這里也順帶簡單介紹一下常見的重復序列:
一般長度為500bp左右,人類的基因組大概還有1.5Mbp的這種短的重復片段。
一般長度為1Kbp左右,人類的基因組大概還有1.5Mbp的這種短的重復片段。
可以長至40Kbp或者更多 測序的質量
水平的專業性 需要知道如何安裝組裝的工具,了解組裝工具的工具原理,并且調試組裝的相關參數讓你組裝結果得到最優化,還有選擇合適的組裝工具,都需要一定的專業水平。 主要的組裝算法重疊序列相連 簡單來說這種算法就是將所有的reads拿出來,相互比對,找到重疊的reads,然后構建長的連續的contigs,最后再將contigs組在一起形成scaffolds。這個過程可以基于下圖來進行總結: De Bruijn 圖 或者 k-mer 方法 主要的步驟包括:
大概的過程如下圖: 我該選用哪個組裝的工具? 目前已經開發了很多不同的組裝工具,根據你的物種或者測序技術,可以相應的選擇不同的工具,一般來說我們可以這樣選擇:
上面只是簡單通用的推薦,當然如果你是專家,你可能還會使用一些更加個性化的工具方法。 這期介紹就到這里了,希望大家有所收獲,組裝并沒有我們想像中那么難,后面會繼續給大家帶來組裝的實戰還有評估等等的教程,敬請大家關注點贊。 參考資料: 1.https://isugenomics./bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html2.https://environmentalmicrobiome./articles/10.1186/1944-3277-10-18 |
|