編輯/蘿卜 前不久,華盛頓大學 Davide Baker 團隊開發的 RoseTTAFold和DeepMind 團隊開發的 AlphaFold2 源代碼公布,并在同一天分別發表在《Science》《Nature》兩大期刊上,使得基于深度學習進行蛋白質結構預測再次成為 AI 社區熱議的話題。
說起用深度學習預測蛋白質結構,就不得不提到芝加哥豐田計算技術研究所的許錦波教授,他帶領的團隊開發的 RaptorX 將 ResNet 應用到蛋白質結構預測,大大地提高了預測精度,被認為是該領域第一個在實驗上可行的深度學習方法,激活了蛋白質結構預測這個曾經很長時間進展緩慢的領域。經過不斷迭代,最新一代版本已經不再需要共進化信息,并在預測人工設計的蛋白質結構時表現得更好。 隨著 GNN 的興起,再加上圖表示更適合蛋白質等生物結構,許教授團隊就有了探索基于 GNN 進行蛋白質結構預測的想法。研究發現,在某些情況下,GNN比 ResNet 的模型優化程度更高,可以將預測出的蛋白質三級結構優化成與實際蛋白質更為接近的 3D 模型,其效果跟基于分子動力學的傳統方法接近,但速度卻是傳統方法的幾百倍,只需一個 CPU 花上 10 分鐘左右就可以完成一個蛋白質模型的優化。 這項最新的研究成果于 7 月 15 日以「Fast and effective proteinmodel refinement using deep graph neural networks」為題發表在雜志《Nature Computational Science》上。 高精度的蛋白質結構預測有助于在分子水平上理解生物過程。在過去的幾年中,蛋白質結構預測有了巨大的進步。然而,一些預測的蛋白質結構模型仍然與它們的天然結構有很大的偏差,這限制了它們在下游應用中的價值。 蛋白質模型優化(Protein model refinement)作為提高蛋白質預測模型質量的最后一步,旨在改進初始模型,生成更高質量的新模型。目前已有一些成功的優化方法,例如:密歇根州立大學的Feig 團隊開發的基于分子動力學模擬的模型采樣(conformation sampling)方法,華盛頓大學的Baker團隊開發的 DeepAccNet,首爾國立大學的Seok 團隊開發的 GalaxyRefine2。盡管這些方法在某些蛋白質上表現良好,但它們都依賴于大量的模型采樣,因而需要大量計算資源來完善蛋白質模型,即使是單個蛋白質模型也需要數小時或數天的時間來改進。許錦波教授團隊提出了一種快速有效的模型優化方法——GNNRefine。該方法應用圖神經網絡(GNN),從初始模型中預測「優化的原子間距離概率分布」,然后根據預測的距離分布重建三維模型。經過嚴格的測試,許教授團隊的方法具有與 Feig團隊和 Baker 團隊的方法相當的準確性,但運行速度要快很多。該方法在一個 CPU 上優化一個蛋白質模型,平均耗時不超過 11 分鐘;而 Feig 團隊的方法在一個 GPU 上優化一個小的蛋白質模型大約需要 16 小時,Baker團隊的方法優化一個模型平均需要在 60 個 CPU 上耗時約 30 小時。研究還表明,如果只允許非常有限的模型采樣時,GNN 的性能明顯優于 ResNet (卷積殘差網絡)。GNNRefine主要包括三個步驟: 將初始模型表示為圖并從初始模型中提取原子、殘基和模型的幾何特征; 使用GNN預測圖中每條邊的優化距離; 將預測的距離概率轉換為距離勢能函數,并將其輸入 PyRosetta FastRelax中,通過側鏈組裝和能量最小化生成優化后的模型。 GNNRefine 主要由三個模塊組成:一個原子嵌入層、多個消息傳遞層和一個輸出層。圖示:GNNRefine示意圖。(來源:論文)
GNNRefine 在 CASP13、CASP14 測試模型上都取得了良好的效果,成功優化了多個模型,并且每個模型的優化全程不超過15分鐘。CASP13和CASP14優化目標數據來源:https:///CASP13:將 GNNRefine 方法與 CASP13 優化類別中人工組的兩種方法以及服務器組中的五種方法進行比較,研究表明,使用該方法來優化蛋白質預測模型是非常安全的(也就是說很少把初始模型優化壞了)。圖示:在CASP13優化目標上的性能。(來源:論文)
CASP14:在 37 個 CASP14 優化目標上對 GNNRefine 方法進行測試,并與人工組和服務器組中排名靠前的方法進行比較。研究表明,CASP14 模型比 CASP13 模型更難改進。但總體來說,該方法在 CASP14 優化目標上比 Feig 團隊和 Baker 團隊的方法表現稍差(可能因為Feig和Baker團隊都用了額外的信息),但比其他方法都要更好。圖示:對所有CASP14優化目標的性能。(來源:論文) 其中有5 個 CASP 測試模型(3 個 CASP13 模型和 2 個 CASP14 模型), GNNRefine把它們的質量提高了至少10分(ΔGDT-HA ≥10)。圖示:GNNRefine優化的成功示例。(來源:論文)
|