多層級的圖神經網絡推動蛋白質功能預測的發展

子孫滿堂康復師 2023-08-18 發布于黑龍江

展開全文

來源：網絡 2023-08-17 15:20

高通量測序的進展推動了蛋白質序列數量的快速增長。盡管如此，由于實驗研究需要較長的周期并且費用昂貴，大部分蛋白質序列缺乏功能注釋。因此，具備自動而準確推斷蛋白質功能的計算方法變得至關重要。

高通量測序的進展推動了蛋白質序列數量的快速增長。盡管如此，由于實驗研究需要較長的周期并且費用昂貴，大部分蛋白質序列缺乏功能注釋。因此，具備自動而準確推斷蛋白質功能的計算方法變得至關重要。

深度學習的進展推動了各種蛋白質功能預測模型的發展。蛋白質的三維結構與功能密切相關，然而，結構相似的蛋白質可能具有高度多樣的序列。僅仰賴基于序列的模型（如1D CNN或Transformer）可能難以捕捉到長程的功能位點規律。隨著蛋白質結構預測研究的突破性進展，獲取蛋白質接觸圖或三維結構的方法變得更加容易。這為圖神經網絡（GNN）提供了更多優勢，它可以編碼蛋白質的三維結構信息以預測其功能。然而，目前的GNN模型仍然面臨過度平滑的問題，而且簡單的池化方法難以準確突顯重要的殘基節點貢獻。

北京大學化學與分子工程學院、定量生物學中心、北京大學-清華大學生命科學聯合中心來魯華課題組與北京大學數學科學學院、定量生物學中心鄧明華課題組合作發展了一種新的蛋白質功能預測模型：HEAL（Hierarchical graph transformEr with contrAstive Learning）。HEAL利用Hierarchical Graph Transformer（HGT）來學習蛋白質的結構信息。該方法通過引入模仿功能motif的超節點，與蛋白質圖中的殘基節點進行交互，并通過池化操作生成蛋白質圖的嵌入表示。為了增強網絡的表達能力，HEAL還引入了圖對比學習，以最大化不同視圖之間的相似性。此外，HEAL模型還利用AlphaFold2預測蛋白質結構的功能信息，以提升在實際應用場景中的性能表現。

HEAL模型對蛋白質的建圖方式及網絡架構

HEAL模型在被廣泛使用的PDBch測試集上展現出了卓越的性能，不僅超越了傳統的基于序列比對的方法（Blast和FunFams），還超越了基于序列特征的1D CNN深度學習模型DeepGO和基于結構特征的GNN模型DeepFRI。為了測試模型在缺乏實驗解析結構與已標注同源序列的更真實場景下的應用，研究者構建了更具挑戰性的AFch測試集，并將HEAL模型與前述的DeepFRI、以及結合同源序列比對和1D CNN序列模型的DeepGOPlus進行了比較。研究結果表明，在這個更具挑戰性的應用場景下，HEAL模型顯示出了更大的潛力和優勢。

相關工作近日發表在Bioinformatics上，北京大學北大-清華生命科學聯合中心博士研究生顧仲暉與北京大學數學科學學院羅霄博士為共同第一作者。北京大學定量生物學中心的博士研究生陳佳曉對于該工作的完成做出了重要貢獻。文章的通訊作者為北京大學化學與分子工程學院、定量生物學中心、北京大學-清華大學生命科學聯合中心來魯華教授和北京大學數學科學學院、定量生物學中心鄧明華教授。該研究得到了國家重點研發計劃、國家自然科學基金、中國醫學科學院創新單元、北京分子科學國家研究中心和北大-清華生命科學聯合中心的資助。