只需1臺CPU跑600多秒，GNN快速有效優化蛋白質模型

長沙7喜 2021-07-30

展開全文

編輯/蘿卜

前不久，華盛頓大學 Davide Baker 團隊開發的 RoseTTAFold和DeepMind 團隊開發的 AlphaFold2 源代碼公布，并在同一天分別發表在《Science》《Nature》兩大期刊上，使得基于深度學習進行蛋白質結構預測再次成為 AI 社區熱議的話題。

說起用深度學習預測蛋白質結構，就不得不提到芝加哥豐田計算技術研究所的許錦波教授，他帶領的團隊開發的 RaptorX 將 ResNet 應用到蛋白質結構預測，大大地提高了預測精度，被認為是該領域第一個在實驗上可行的深度學習方法，激活了蛋白質結構預測這個曾經很長時間進展緩慢的領域。經過不斷迭代，最新一代版本已經不再需要共進化信息，并在預測人工設計的蛋白質結構時表現得更好。

隨著 GNN 的興起，再加上圖表示更適合蛋白質等生物結構，許教授團隊就有了探索基于 GNN 進行蛋白質結構預測的想法。研究發現，在某些情況下，GNN比 ResNet 的模型優化程度更高，可以將預測出的蛋白質三級結構優化成與實際蛋白質更為接近的 3D 模型，其效果跟基于分子動力學的傳統方法接近，但速度卻是傳統方法的幾百倍，只需一個 CPU 花上 10 分鐘左右就可以完成一個蛋白質模型的優化。

這項最新的研究成果于 7 月 15 日以「Fast and effective proteinmodel refinement using deep graph neural networks」為題發表在雜志《Nature Computational Science》上。

高精度的蛋白質結構預測有助于在分子水平上理解生物過程。在過去的幾年中，蛋白質結構預測有了巨大的進步。然而，一些預測的蛋白質結構模型仍然與它們的天然結構有很大的偏差，這限制了它們在下游應用中的價值。

蛋白質模型優化（Protein model refinement）作為提高蛋白質預測模型質量的最后一步，旨在改進初始模型，生成更高質量的新模型。目前已有一些成功的優化方法，例如：密歇根州立大學的Feig 團隊開發的基于分子動力學模擬的模型采樣（conformation sampling）方法，華盛頓大學的Baker團隊開發的 DeepAccNet，首爾國立大學的Seok 團隊開發的 GalaxyRefine2。

盡管這些方法在某些蛋白質上表現良好，但它們都依賴于大量的模型采樣，因而需要大量計算資源來完善蛋白質模型，即使是單個蛋白質模型也需要數小時或數天的時間來改進。

許錦波教授團隊提出了一種快速有效的模型優化方法——GNNRefine。該方法應用圖神經網絡（GNN），從初始模型中預測「優化的原子間距離概率分布」，然后根據預測的距離分布重建三維模型。

經過嚴格的測試，許教授團隊的方法具有與 Feig團隊和 Baker 團隊的方法相當的準確性，但運行速度要快很多。該方法在一個 CPU 上優化一個蛋白質模型，平均耗時不超過 11 分鐘；而 Feig 團隊的方法在一個 GPU 上優化一個小的蛋白質模型大約需要 16 小時，Baker團隊的方法優化一個模型平均需要在 60 個 CPU 上耗時約 30 小時。

研究還表明，如果只允許非常有限的模型采樣時，GNN 的性能明顯優于 ResNet （卷積殘差網絡）。

GNNRefine方法

GNNRefine主要包括三個步驟：

將初始模型表示為圖并從初始模型中提取原子、殘基和模型的幾何特征；
使用GNN預測圖中每條邊的優化距離；
將預測的距離概率轉換為距離勢能函數，并將其輸入 PyRosetta FastRelax中，通過側鏈組裝和能量最小化生成優化后的模型。

GNNRefine 主要由三個模塊組成：一個原子嵌入層、多個消息傳遞層和一個輸出層。

圖示：GNNRefine示意圖。（來源：論文）

在CASP13、CASP14測試數據上的性能

GNNRefine 在 CASP13、CASP14 測試模型上都取得了良好的效果，成功優化了多個模型，并且每個模型的優化全程不超過15分鐘。

CASP13和CASP14優化目標數據來源：https:///

CASP13：將 GNNRefine 方法與 CASP13 優化類別中人工組的兩種方法以及服務器組中的五種方法進行比較，研究表明，使用該方法來優化蛋白質預測模型是非常安全的（也就是說很少把初始模型優化壞了）。

圖示：在CASP13優化目標上的性能。（來源：論文）

CASP14：在 37 個 CASP14 優化目標上對 GNNRefine 方法進行測試，并與人工組和服務器組中排名靠前的方法進行比較。研究表明，CASP14 模型比 CASP13 模型更難改進。但總體來說，該方法在 CASP14 優化目標上比 Feig 團隊和 Baker 團隊的方法表現稍差（可能因為Feig和Baker團隊都用了額外的信息），但比其他方法都要更好。