【原】Nat Commun｜知識引導的分子表示學習預訓練框架

智藥邦 2023-12-25 發布于上海

展開全文

2023年11月21日，清華大學曾堅陽教授（西湖大學教授）、趙誕老師團隊，在Nature Communications上發表文章A knowledge-guided pre-training framework for improving molecular representation learning。

作者提出了知識引導的預訓練圖Transformer (Knowledge-guided Pre-training of Graph Transformer，KPGT)，這是一個自監督學習框架，可以學習可泛化和魯棒的分子表示。KPGT框架集成了專門為分子圖設計的圖Transformer和知識引導的預訓練策略，以充分捕獲分子的結構和語義知識。通過計算測試，KPGT在預測分子性質方面表現出卓越的性能，在藥物發現中具有實際適用性。總的來說，KPGT可以為推進人工智能輔助藥物發現過程提供強大而有用的工具。

背景

學習有效的分子特征表示，便于分子性質預測，對藥物發現具有重要意義。近年來，人們對通過自監督學習技術進行預訓練的圖神經網絡(GNN)產生了極大的興趣，以克服分子性質預測中數據稀缺的挑戰。

然而，目前基于自監督學習的方法存在兩個主要障礙，一是缺乏定義良好的自監督學習策略，二是GNN的容量有限。

方法

KPGT框架(圖1)包括兩個主要組成部分：一個稱為線形圖Transformer(Line Graph Transformer, LiGhT)的主干模型和一個知識引導的預訓練策略（圖1a）。LiGhT可以全面捕捉分子圖結構中的復雜圖案(圖1b)，將分子線形圖作為輸入，以充分利用化學鍵的固有特征，這些特征在先前定義的Transformer結構中通常被忽略。此外，為了精確建模分子的結構信息，在多頭注意模塊中引入了兩個位置編碼模塊，即距離編碼模塊和路徑編碼模塊。

LiGhT是建立在一個經典的Transformer編碼器上的，它由多個Transformer層組成，通過多層感知器層輸出，進行知識預測和掩膜節點預測。知識引導預訓練策略是基于掩膜圖模型的目標，該目標最初隨機屏蔽分子圖中的節點子集，隨后學習預測這些掩膜節點(圖1a)。KPGT納入了額外的知識作為分子標簽，為預測掩膜節點提供指導。這種機制使模型能夠有效地捕獲分子圖中的結構和語義信息。利用ChEMBL數據集中的大約200萬個分子使用知識引導的預訓練策略對LiGhT進行預訓練。然后將遷移學習應用于預訓練的LiGhT模型，以執行下游分子性質預測任務。在LiGhT模型之上集成了一個多層感知器作為預測器。根據預訓練的LiGhT模型參數是否可訓練，遷移學習方法可以分為兩種設置:微調(圖1c)和特征提取(圖1d)。

圖1 KPGT結構圖

如圖1a所示，給定分子的SMILES表示，首先將其抽象為分子圖，節點集合代表原子，邊的集合代表化學鍵，通過RDKit中的分子描述符和指紋初始化分子圖中節點和邊的特征。為了充分利用分子的結構信息，特別是在先前定義的Transformer結構中被忽略的化學鍵，對分子圖進行了掩膜節點變換，得到分子線形圖。作者提出了線形圖Transformer(LiGhT)來編碼分子線形圖的特征。LiGhT是建立在一個經典的Transformer編碼器上的，它由多個Transformer層組成，通過多層感知器層輸出，進行知識預測和掩膜節點預測。

如圖1b所示，由于直接應用經典的Transformer架構會導致分子結構信息的嚴重丟失，作者采用路徑編碼和距離編碼模塊將結構信息引入多頭自注意層。在分子線形圖中，路徑編碼模塊首先找到節點之間的最短路徑，然后將路徑特征編碼為一個注意力尺度。距離編碼模塊則利用節點對之間的距離來進一步編碼分子線形圖的空間特征。最終注意力矩陣為原始注意力編碼矩陣、路徑編碼矩陣與距離編碼矩陣的和。

如圖1c所示，在本研究中，知識定義為表征分子特征的任何可量化信息。這包括各種類型的信息，如分子描述符和指紋，很容易通過RDKit等化學信息學工具訪問。此外，知識可以包含分子的實驗測量特征，例如預處理ChEMBL數據集中的分子的生物活性的綜合信息。這些知識可作為分子標簽。LiGhT的預訓練策略基于生成式自監督學習方案，該方案首先在圖中隨機選擇一定比例的節點。然后，對于每一個被選中的節點，以8:1:1的比例替換為掩模令牌、隨機節點或未更改的節點。預訓練后，下游預測器模型通過交叉熵損失來學習預測原始節點的類型。在預訓練中，還隨機屏蔽K個節點的一定比例的初始特征，以在下游任務學習預測被屏蔽的分子描述符和指紋。其中，掩膜分子描述符的預測是一個回歸任務，而指紋的預測是一個帶有交叉熵損失的二值分類任務。

為了充分利用在預訓練階段捕獲的豐富知識，KPGT引入了四種微調策略，包括分層學習率衰減（LLRD）、重新初始化（ReInit）、FLAG和L2-SP。LLRD和ReInit的提出主要是基于模型的不同層捕獲不同類型的信息，其中底層傾向于編碼與下游任務更通用的信息，而頂層傾向于編碼與預訓練任務相關的信息。更具體地說，LLRD實現了模型不同層的判別學習率。這是通過設置頂層的初始學習率并使用乘法衰減率從上到下逐層降低初始學習率來實現的。在微調之前，ReInit重新初始化模型的頂層參數。FLAG是一種數據增強方法，它通過在微調過程中注入基于梯度的對抗擾動來迭代增強節點特征。L2-SP提出了一種正則化方案，在微調過程中顯式地提高了微調模型與初始模型的相似性。

如圖1d所示，另一種遷移學習策略是特征提取，預訓練結束后，固定LiGhT的權重，繼續訓練下游任務的預測器模型，進行輸出預測結果。

結果

作者將KPGT與一些具有代表性的方法進行了比較，如圖2所示。在采用特征提取（圖2a）和微調（圖2b）兩種策略時，采用三折交叉驗證（n=3），KPGT在分類任務上具有最高的AUROC，在回歸任務上具有最低的RMSE，超越了現有的方法。在ADMET預測任務上（圖2c），KPGT預測結果在所有任務上均排名前六，在大多數任務上排名第一。在30個分子（采用留一交叉驗證，n=30）的活性懸崖估計（molecule activity cliff estimation，MoleculeACE）問題上，KPGT在所有分子組成的數據集（圖2d）和由活性懸崖附近分子組成的數據集（圖2e）上均具有最低的RMSE。

圖2 與其他方法對比

作者設計了模型消融實驗。為驗證KPGT提出的預訓練分子表示策略的有效性，作者以KNN為基礎，將其與KPGT和其他的分子表示策略相組合，包括兩種經典的分子指紋RDKFP和ECFP，以及兩種基于GNN的分子表示GROVER和GraphCL，不同的分子表示策略在圖3中以不同顏色表示。采用三折交叉驗證（n=3），對于KNN中不同的K值，KPGT在分類任務上具有最高的AUROC和準確度（圖3a），在對MolLogP等多個指標的回歸預測中具有最高的斯皮爾曼相關系數（圖3b）。作者取200個分子構建一個單獨的測試集，驗證KPGT和GROVER以及GraphCL三種基于GNN的分子表示與RDKFP或ECFP的斯皮爾曼相關系數，直方圖如圖3c所示。KPGT在更多分子上與傳統指紋具有更高的相關性。

圖3 消融實驗

作者還進行了案例分析。本研究收集了4442個具有實驗確定的抗HPK1效價的分子，以最大半數抑制濃度(pIC50)的負對數進行測量。使用三種不同的數據集分割方法(包括按分子骨架進行分割、按時間進行分割，按領域遷移進行分割)全面評估了KPGT在該數據集上的預測性能（圖4b-d）。結果表明，KPGT在皮爾遜相關系數方面顯著優于基線方法。值得注意的是，即使在訓練集和測試集的分子結構顯著不同的時間分割和領域遷移場景中(圖4a)， KPGT也始終獲得較高的相關分數。這些觀察結果驗證了KPGT在預測HPK1抑制劑方面優越的通用性和可靠性。

接下來，作者利用KPGT通過藥物重新定位來鑒定潛在的HPK1抑制劑。首先獲得了從DrugBank76收集的2718種FDA批準的藥物(表示為FDA數據集)。然后在pIC50 HPK1抑制劑數據集上對KPGT進行了微調，并對來自FDA數據集的分子進行了預測。補充表11報告了以往研究對KPGT前20個預測的實驗證據。結果顯示，20種藥物中有12種被先前的實驗驗證為HPK1的潛在抑制劑。作者給出了其中排名前10的分子的TSNE降維分布和分子結構（圖4e）。

進一步，Autodock vina對KPGT的前20個預測進行了對接分析，參考蛋白配體結構(PDB ID: 7SIU80)指導了結合口袋的識別。如圖4f所示，所有分子的對接能量都低于-7kcal/mol，這是類藥物分子常用的閾值，這表明這些分子即使有一部分尚未被文獻報道，但也具有作為HPK1抑制劑的巨大潛力。

此外，作者使用一種蛋白質-配體相互作用分析工具PLIP，對分子的蛋白質-配體相互作用進行了深入分析。圖4g顯示了Gilteritnib配體與蛋白HPK1的蛋白質-配體相互作用譜。分析顯示配體和蛋白質之間形成了三個疏水相互作用和六個氫鍵。值得注意的是，參考蛋白配體結構(PDB ID: 7SIU80)中也報道了與殘基94A和97A形成的氫鍵。這些觀察結果表明，這些分子可以與HPK1緊密結合，驗證了對接結果的可靠性。

圖4 案例分析

總結

在本研究中，作者提出了KPGT，這是一個自監督學習框架，通過顯著增強的分子表示學習提供改進的、可推廣的和魯棒的分子性質預測。通過利用稱為LiGhT的高容量骨干模型，KPGT全面捕獲分子圖中的固有結構信息。更重要的是，KPGT引入了一種知識引導的預訓練策略，可以魯棒地解決以前定義不清的預訓練方法的局限性，使模型能夠提供語義豐富的分子表示。此外，KPGT結合了幾種微調策略，有效地整合了從預訓練模型中獲得的知識，從而提高了下游分子性質預測任務的性能。

盡管KPGT在有效預測分子性質方面具有優勢，但仍存在一些局限性。首先，附加知識的集成是KPGT最顯著的特征。除了在KPGT中使用的分子描述符外，還可以納入各種其他類型的其他附加信息知識。此外，進一步的研究可以將三維(3D)分子構象整合到預訓練過程中，從而使模型能夠捕獲有關分子的重要3D信息，并潛在地增強表征學習能力。此外，雖然KPGT目前使用了大約1億個參數的骨干模型，以及200萬個分子的預訓練，但探索更大規模的預訓練可以為分子表示學習提供更實質性的好處。總的來說，KPGT將為加速人工智能輔助藥物發現提供一個通用的自我監督學習框架。

參考文獻

[1] Li et al. A knowledge-guided pre-training framework for improving molecular representation learning. Nat Commun. 2023