【原】arXiv｜南京大學符天凡等：用于化學的3D多模態大語言模型Chem3DLLM

智藥邦 2025-09-02 發布于上海

展開全文

與一維的SMILES序列和二維的分子圖相比，三維分子提供了更豐富的模態信息。盡管自回歸語言模型取得了快速進展，但它們仍然無法處理三維分子構象的生成，原因在于以下挑戰：1)三維分子結構與大語言模型(LLMs)的離散符號空間不兼容；2)在統一模型中整合蛋白質、配體和文本等異構輸入依然困難；3)LLMs缺乏必要的科學先驗知識，難以在生成過程中施加物理和化學約束。

為解決上述問題，中國科學技術大學徐小華，上海AI Lab李玉強、周東展，南京大學符天凡等于2025年8月14日在arXiv上共同發表最新研究成果。文章提出以蛋白質為條件的統一多模態大語言模型Chem3DLLM，可以在蛋白質結構和分子SMILES雙重條件的指導下，實現三維分子構象的端到端建模與優化。在基于結構的藥物設計實驗中，該方法取得了最先進的性能，驗證了提出的統一多模態方法在實際藥物發現中的應用潛力。

背景

原始的LLM無法直接生成三維分子結構，主要面臨以下挑戰：(1)三維分子結構的數據格式與LLM不兼容。三維分子結構通常表示為坐標數組和原子間距離矩陣，這些都是數值型和連續型數據，而LLM設計之初是用于處理離散的符號序列。如果沒有適當的編碼或離散化，這類幾何數據無法直接輸入或由標準語言模型生成，從而限制了其對空間構象進行推理的能力。(2)在統一模型中對齊多種模態。在實際的化學應用中，任務往往需要對異構輸入進行聯合理解，例如文本描述、蛋白質結構和小分子配體。如何在共享的嵌入空間中有效對齊這些多模態數據，同時保持其結構和語義的完整性，仍然是多模態推理與生成中的一大挑戰。(3)引入科學先驗知識。準確的三維分子生成必須符合物理和化學約束，例如鍵長、鍵角和立體化學，而這些并不是基于文本語料訓練的LLM所天然具備的知識。如何在模型架構或訓練過程中整合這些特定領域的科學知識，以保證生成結果在化學上有效、在物理上合理，并且能夠規模化和泛化，是一個重要問題。

圖1 Chem3DLLM從不同輸入模態生成3D分子

為應對這三大挑戰，作者提出以蛋白質為條件的統一三維分子生成框架Chem3DLLM，主要貢獻及對應上述挑戰的解決方案如下：(1)提出可逆分子標記壓縮(RCMT)，可以將三維分子結構從SDF格式無損壓縮為緊湊的文本序列，在保留幾何坐標和化學鍵信息的同時，使數據與語言模型處理兼容。(2)引入輕量級的蛋白質結構投影模塊，將三維蛋白質結合口袋特征與語言模型的語義空間對齊，從而實現與小分子編碼的統一多模態表征學習。(3)提出帶科學反饋的強化學習(RLSF)訓練框架，利用基于物理和化學原理的獎勵信號引導LLM生成有效且合理的三維分子構象。通過科學獎勵對結構和能量可行性進行反饋，RLSF使模型能夠迭代優化分子結構，從而有效地將領域知識融入生成過程。Chem3DLLM建立了一條結構感知的生成路徑“表征→對齊→優化”，為三維空間中的高質量分子設計提供了全面支持。

方法

Chem3DLLM整體架構如圖2a所示，采用三階段流水線：首先將分子結構轉換為壓縮后的文本表示；然后輸入多模態 LLM(以蛋白質結合口袋嵌入為條件)；最后通過帶化學獎勵的強化學習進行優化。

圖2 Chem3DLLM架構

可逆分子標記壓縮(RCMT)

提出一種數學上嚴格的雙向編碼方案，將SDF分子文件轉換為壓縮文本序列，并保證可無損重建。編碼算法(圖2b)，給定圖G生成包含原子與鍵信息的緊湊的序列T。其中原子信息由原子對應的化學符號A以及分配的三維坐標C組合而成，δ控制量化精度。根據鍵類型構造鄰接矩陣B，并對稀疏的鍵矩陣應用游程編碼，最終獲得鍵信息。解碼算法(圖2c)，通過解析文本序列T重建分子圖G。該編碼方案確保完整的分子幾何與鍵信息重建。在QM9數據集上的實驗表明：平均壓縮率ρ>3.2(圖5給出實證結果)，分子有效性達98.56%，且RMSD=0，驗證了可逆表示的有效性。

多模態LLM架構

多模態LLM包含三個關鍵組件：蛋白質編碼器(基于ESM，預訓練的蛋白質語言模型)、語言模型(采用Qwen2-7B)、跨模態對齊模塊。為了將蛋白質結構信息融入分子生成，采用跨模態對齊框架。具體過程如下：給定一個包含n個殘基的蛋白質結合口袋，利用預訓練的ESM模型提取上下文嵌入。隨后，蛋白質嵌入通過一個多層感知機投影到語言模型的隱空間。對齊后的蛋白質表征與文本嵌入拼接，并輸入到語言模型中。給定文本提示和蛋白質上下文，模型自回歸地生成分子表示。

采用兩階段訓練方法優化多模態框架：(1)監督微調(SFT)：在指令跟隨數據上訓練模型以完成蛋白質條件下的分子生成任務。在該階段，凍結預訓練的ESM編碼器，僅優化投影模塊(MLP)和語言模型主體。(2)強化學習(RL)：進一步通過強化學習優化模型，以提升化學有效性和分子性質。SFT階段的目標函數是標準的下一詞預測損失。

帶科學反饋的強化學習(RLSF)

盡管多模態LLM在構象生成中提供了良好的先驗，但它并不能保證生成分子的化學穩定性或可合成性。為此，提出RLSF框架，通過化學約束獎勵信號對預訓練生成模型進行精化(圖2d)。設計了一個以穩定性為中心的獎勵函數，優先考慮分子穩定性與原子穩定性，并輔以分子多樣性和化學有效性指標。RLSF優化以預訓練模型作為初始策略，采用PPO策略來最大化穩定性驅動的期望獎勵。

實驗設置

任務1：分子構象生成(MCG)。給定一個SMILES 輸入，模型生成相應的三維構象。在QM9數據集上進行評估，該數據集包含13萬個小分子，提供三維結構和量子性質。采用100K/18K/13K的訓練/驗證/測試劃分，并生成10,000個分子用于評估。使用原子穩定性、分子穩定性、有效性、唯一性來評估化學有效性和結構準確性。

任務2：基于結構的藥物設計(SBDD)。給定一個蛋白質結合口袋，模型生成具有潛在結合親和力的三維分子。在CrossDocked數據集上進行評估，該數據集包含10萬個訓練的蛋白-配體對和100個測試蛋白，每個測試蛋白生成100個候選分子。主要使用Vina Score來評估目標蛋白與生成配體之間的結合親和力。

結果

單任務訓練

Chem3DLLM在構象生成任務上超過了所有現有基線模型，包括GeoLDM，甚至在所有指標上優于依賴于距離幾何和基于力場優化的RDKit。模型達到95.00%的分子穩定性，100.00%的化學有效性，100.00%的唯一性。

表1 構象生成任務結果

在基于結構的藥物設計任務中，Chem3DLLM達到最佳中位對接分數-7.15，平均-7.03，超過所有基線方法。與MolCRAFT(平均-6.59)相比，模型在平均值上提升了0.42，在最佳情況下提升超過5。這些性能提升主要來自能捕捉長程的蛋白-配體相互作用的蛋白質感知解碼器以及預訓練的分子嵌入空間，強制保證幾何合理性與生物學兼容性。

表2 SBDD任務結果

多任務監督下聯合優化

當與構象生成任務進行聯合訓練時，Chem3DLLM在SBDD上進一步提升，得到最佳對接分數-12.30，平均分數-7.21。這一多任務設置并未削弱SBDD表現，反而增強。將這一增益歸因于構象預測任務的輔助幾何監督，其注入了空間歸納偏置用于配體生成并強化了生成的化學有效性。性能從-7.03提升到-7.21，表明多任務學習帶來了協同效應。這一結果突出了Chem3DLLM能夠在統一架構下同時支持分子層面與結構層面的推理，而無需做任務特定的妥協。

表3 融入額外的幾何監督到SBDD任務結果

定性結果

SBDD任務定性結果如圖3所示，生成的分子與蛋白質結合口袋緊密結合，對接評分低于-10，并且具有良好的SA指標。這些結構在合成可行性與藥理學相關性之間達到了良好平衡，展示了Chem3DLLM在不同靶點上生成具有生物活性且化學上合理的配體的能力。

圖3 SBDD案例研究

構象生成任務中，將預測的分子構象與真實構象進行對比(圖4)。給定SMILES輸入，Chem3DLLM能夠生成化學有效且高度保真的三維結構，覆蓋多樣的化學結構基元(如：脂肪鏈、羰基、三鍵)。預測結構與真實結構在視覺上高度吻合，說明Chem3DLLM能夠捕捉精細的原子排列與立體化學特征，從而在定性上支持其結構精確性與普適性。

圖4 分子構象生成案例研究

消融實驗

可逆壓縮分析。如圖5所示，對比了原始SDF格式與RCMT所生成的緊湊表示在五個示例分子上的字符數。結果顯示，RCMT在大多數情況下實現了超過60%的壓縮率，顯著減少了分詞長度。在隨機選擇的100個分子樣本中，平均實現了35.20%的字符壓縮率。這一大幅度的壓縮效果凸顯了RCMT的優勢：在不犧牲分子保真度或三維結構精度的前提下，有效降低了下游生成建模中的存儲和計算開銷。

圖5 原始SDF以及提出的RCMT壓縮文本形式對五個代表分子字符計數

為了探究RCMT和訓練目標的作用，消融實驗結果如表4所示。去除RCMT會導致最差表現(Vina score: -1.82)，說明其缺乏結構感知能力。僅使用RCMT(無RLSF)時，分數提升至-7.03，表明RCMT對構象學習的顯著貢獻。完整的Chem3DLLM(同時結合RCMT和RLSF)取得-7.21的最佳結果。這些結果表明RLSF提供了任務特定的適應性，RCMT則發揮了主要作用，它通過緊湊且強大表達能力的編碼，為語言建模提供了兼容的分子表示。

表4 消融實驗結果

總結

本文提出了統一的、蛋白質條件驅動框架Chem3DLLM，用于彌合結構基礎藥物設計中三維分子結構保真度與化學有效性之間的長期鴻溝。Chem3DLLM通過將完整的原子級3D幾何信息壓縮為無損且可序列化表示，在分詞嵌入空間中對齊蛋白質-配體的異質模態，利用面向穩定性的強化學習獎勵引導生成，最終在CrossDocked基準上取得了-7.21的Vina score，超過了近期的擴散模型和自回歸模型基線，同時保持100%的語法有效性與>95%的合成可及性。這些結果表明在單一LLM架構中顯式處理三維約束并實現跨模態對齊，不僅是可行的，而且是有益的。未來工作將探索擴展到更大規模的化學空間，并且融合下游實驗反饋實現端到端的先導化合物優化。

參考鏈接：

https:///pdf/2508.10696