2022年3月5日,麻省理工學(xué)院化學(xué)工程系的Klavs F. Jensen等人在Wires Comput Mol Sci (影響因子25.113) 雜志發(fā)表文章,概述了分子發(fā)現(xiàn)生成模型的最新進(jìn)展和挑戰(zhàn)。主要內(nèi)容整理和編譯如下。 ![]() 摘要 傳統(tǒng)的分子設(shè)計(jì)包括利用人類的專業(yè)知識來提出、合成和測試新的分子,這個(gè)過程可能是成本和時(shí)間密集型的,限制了可以合理測試的分子的數(shù)量。生成模型通過將分子設(shè)計(jì)重新表述為一個(gè)逆向設(shè)計(jì)問題,為分子發(fā)現(xiàn)提供了另一種方法。在這里,我們回顧了生成性分子設(shè)計(jì)的最新進(jìn)展,并討論了將這些模型整合到實(shí)際的分子發(fā)現(xiàn)活動(dòng)中的注意事項(xiàng)。 我們首先回顧了開發(fā)和訓(xùn)練生成模型所需的模型設(shè)計(jì)選擇,包括分子的常見一維、二維和三維表征以及典型的生成式建模神經(jīng)網(wǎng)絡(luò)架構(gòu)。然后,我們描述了分子發(fā)現(xiàn)應(yīng)用的不同問題,并探討了用于評估基于這些問題陳述的模型的基準(zhǔn)。最后,我們討論了在將生成模型整合到實(shí)驗(yàn)工作流程中起作用的重要因素。 1 引言 傳統(tǒng)的藥物發(fā)現(xiàn)是成本和時(shí)間密集型的,限制了可以合理探索的分子的數(shù)量和多樣性。現(xiàn)在迫切需要開發(fā)能夠有效探索化學(xué)空間的方法,以確定能夠解決化學(xué)和工程領(lǐng)域重要問題的分子。 生成模型提供了一個(gè)有希望的解決方案。生成模型不是利用人類的專業(yè)知識來設(shè)計(jì)分子,而是利用深度學(xué)習(xí)的最新進(jìn)展來解決逆向分子設(shè)計(jì)問題:給定一組所需的特性,什么是能滿足這些特性的分子集?通過識別將一組性質(zhì)映射到一組結(jié)構(gòu)的函數(shù),生成模型可以快速識別出為特定應(yīng)用高度優(yōu)化的各種分子集。 自從它們最近被引入以來,應(yīng)用于分子設(shè)計(jì)的生成模型的數(shù)量和種類都在激增。這些模型在其分子表現(xiàn)形式、結(jié)構(gòu)和它們所解決的分子設(shè)計(jì)問題的類型上各不相同。此外,為了便于在越來越多的模型之間進(jìn)行比較,最近人們提出了一些基準(zhǔn),根據(jù)分布學(xué)習(xí)、化學(xué)多樣性和新穎性等因素對模型進(jìn)行評估。 盡管有了這些顯著的進(jìn)步,但應(yīng)用生成模型來發(fā)現(xiàn)具體應(yīng)用中的分子的例子相對較少。大多數(shù)研究集中在優(yōu)化分子的計(jì)算指標(biāo),如logP(分配系數(shù)的對數(shù))或QED11(藥物可能性的定量估計(jì)),很少有已發(fā)表的研究涉及實(shí)驗(yàn)測試所確定的先導(dǎo)分子。 在這篇綜述中,我們簡明扼要地總結(jié)了生成性分子設(shè)計(jì)技術(shù)的最新進(jìn)展,描述了將這些模型整合到實(shí)際分子發(fā)現(xiàn)活動(dòng)中的考慮因素,并討論了為充分實(shí)現(xiàn)其承諾而必須解決的其余挑戰(zhàn)。 2 背景 2.1 分子的表征 神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于它們能夠接受復(fù)雜的輸入表征,將其轉(zhuǎn)化為解決特定任務(wù)所需的潛在表征。這樣一來,輸入表征的選擇在管理模型如何學(xué)習(xí)分子信息方面起著關(guān)鍵作用。輸入表征通常分為三類:(1)一維(如基于字符串的表征),(2)二維(如分子圖),以及(3)三維表征(如基于坐標(biāo))。 一維表征法 最常見的一維表征法被稱為SMILES,這是一種簡單的基于字符串的表征法,根據(jù)預(yù)定的原子排序規(guī)則將分子轉(zhuǎn)化為一串字符。將分子表征為一個(gè)字符序列已被證明是有利的,因?yàn)樗梢灾匦聭?yīng)用以前為語言處理開發(fā)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。特別是,通過將分子表征為序列,先前的工作將遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練為生成模型,生成分子的SMILES字符串。 不幸的是,這些方法容易產(chǎn)生無效的SMILES,無法轉(zhuǎn)換為分子結(jié)構(gòu),因?yàn)樗鼈兒雎粤薙MILES符號的復(fù)雜語法。為了補(bǔ)救這個(gè)問題,Kusner等人和Dai等人用SMILES語法的語法約束增強(qiáng)了循環(huán)神經(jīng)網(wǎng)絡(luò)。然而,這些方法仍然不能捕捉到化學(xué)有效性,并且經(jīng)常產(chǎn)生無效的SMILES字符串。鑒于SMILES符號的復(fù)雜性,Krenn等人設(shè)計(jì)了一種改進(jìn)的字符串表征法,稱為SELFIES(Self-Referencing Embedded Strings)。基于SELFIES表征,可以訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)模型生成100%有效的分子。 二維表征法 分子也可以在神經(jīng)網(wǎng)絡(luò)中被表征為圖形,其節(jié)點(diǎn)和邊分別對應(yīng)于原子和鍵。圖形表征的強(qiáng)大之處在于它們直接捕捉原子之間的連接性,而在一維表征中,這一信息必須由模型來推斷。不幸的是,事實(shí)證明圖形比序列更難生成,因此,有許多努力旨在開發(fā)神經(jīng)網(wǎng)絡(luò)架構(gòu)以生成真實(shí)的分子圖。 一種策略是通過同時(shí)輸出原子和圖的鄰接矩陣來生成分子圖。相比之下,You、Li、Samanta和Liu等人開發(fā)了生成模型,按順序逐個(gè)原子解碼分子。Jin等人采取了一個(gè)相關(guān)的方法,將原子分組為子結(jié)構(gòu),并開發(fā)了一個(gè)模型,按子結(jié)構(gòu)(也是按順序)生成分子。這些子結(jié)構(gòu)包括由一個(gè)鍵連接的兩個(gè)原子或一個(gè)環(huán)中的所有原子(例如,一個(gè)苯環(huán))。他們的模型首先生成了一個(gè)以子結(jié)構(gòu)為節(jié)點(diǎn)的連接樹,然后預(yù)測子結(jié)構(gòu)應(yīng)該如何相互連接。Jin等人后來將這種方法擴(kuò)展到一個(gè)分層模型,允許使用更大的子結(jié)構(gòu)。他們的模型在多個(gè)分子生成任務(wù)中的表現(xiàn)優(yōu)于逐個(gè)原子的方法。 三維表征法 最后,分子可以用點(diǎn)云來表征--每個(gè)原子對應(yīng)空間中的一個(gè)點(diǎn)--以便不僅捕捉共價(jià)原子的連接性,而且捕捉分子的構(gòu)象偏好信息。例如,Gebauer等人通過將原子置于笛卡爾坐標(biāo)中,按順序生成分子。 將這些方法用于分子發(fā)現(xiàn)應(yīng)用的一個(gè)缺點(diǎn)是,為了準(zhǔn)確地捕捉物理特性,有必要考慮一個(gè)特定分子的一個(gè)以上的構(gòu)象體。這些方法的第二個(gè)缺點(diǎn)是,它們通常使用能量最小化的力場來生成訓(xùn)練集中的分子構(gòu)象,這可能很耗時(shí),特別是對于大的、靈活的分子。最近,研究人員探討了用三維生成模型取代/補(bǔ)充傳統(tǒng)的構(gòu)象生成方法,這些模型是在構(gòu)象組合的大數(shù)據(jù)集上訓(xùn)練的,可以用來減少獲得三維訓(xùn)練數(shù)據(jù)的計(jì)算費(fèi)用。 2.2 模型結(jié)構(gòu) 一個(gè)特定的深度神經(jīng)網(wǎng)絡(luò)的成功在很大程度上取決于它的結(jié)構(gòu)--構(gòu)成網(wǎng)絡(luò)的層的類型和這些層的排列方式。用于分子發(fā)現(xiàn)的深度生成模型可以分成三類神經(jīng)網(wǎng)絡(luò)架構(gòu):變分自編碼器(VAEs)、生成對抗網(wǎng)絡(luò)(GANs)和歸一化流模型,如圖1所示。 ![]() 圖1 生成式建模中使用的主要神經(jīng)網(wǎng)絡(luò)架構(gòu)的比較。變分自編碼器(VAEs,頂部)、生成對抗網(wǎng)絡(luò)(GANs,中間)和歸一化流模型(底部)。 每種架構(gòu)在學(xué)習(xí)分子的潛在表征時(shí)使用的策略不同。VAEs和歸一化流模型的目標(biāo)都是使訓(xùn)練數(shù)據(jù)的可能性最大化。VAEs使用變異推理技術(shù)近似地使可能性最大化,而歸一化流模型通過要求模型是可逆的而使可能性完全最大化。相比之下,基于GAN的方法將分子生成表述為一個(gè)最小化的游戲,其中一個(gè)鑒別器模型學(xué)習(xí)區(qū)分真實(shí)數(shù)據(jù)和由生成器模型產(chǎn)生的虛假樣本。這里我們將簡要介紹這些方法是如何工作的,以及它們被用于分子發(fā)現(xiàn)應(yīng)用的方式。 變分自編碼器 變分自編碼器(VAE)是一種生成模型,包括一個(gè)編碼器,它學(xué)習(xí)將分子映射到一個(gè)連續(xù)的嵌入中,然后是一個(gè)解碼器,它學(xué)習(xí)從學(xué)到的嵌入中重建一個(gè)分子。VAEs使用由兩個(gè)項(xiàng)組成的損失函數(shù)進(jìn)行訓(xùn)練:(1)一個(gè)重建損失,迫使解碼器從其嵌入中恢復(fù)正確的分子;(2)一個(gè)Kullback-Leibler(KL)發(fā)散項(xiàng),使所學(xué)分子嵌入的分布規(guī)律化,從而使生成的分子分布與訓(xùn)練分布非常相似。在分子生成方面,VAEs已經(jīng)被用來生成SMILES字符串和分子圖。 生成式對抗網(wǎng)絡(luò) 生成式對抗網(wǎng)絡(luò)是一種生成模型,由一個(gè)生成器和一個(gè)辨別器組成,生成器負(fù)責(zé)學(xué)習(xí)從高斯噪聲中生成分子,辨別器負(fù)責(zé)學(xué)習(xí)識別分子是真實(shí)的(屬于訓(xùn)練數(shù)據(jù)集)還是假的(由生成器構(gòu)建)。這兩個(gè)網(wǎng)絡(luò)被訓(xùn)練成相互競爭,生成器學(xué)習(xí)生成足夠真實(shí)的分子來欺騙辨別器,而辨別器則學(xué)習(xí)區(qū)分。GANs已經(jīng)成功地生成了高度逼真的圖像,部分原因是對抗性訓(xùn)練使模型能夠?qū)W習(xí)一個(gè)更細(xì)微的定義,即什么使一個(gè)例子變得逼真,而不是通過VAEs的損失函數(shù)來獲得。 然而,使用GANs生成序列和圖形仍然具有挑戰(zhàn)性,因?yàn)闃?gòu)建序列和圖形需要通過離散的選擇進(jìn)行梯度反向傳播。 歸一化流模型 歸一化流模型通過學(xué)習(xí)先驗(yàn)分布(如高斯分布)和現(xiàn)實(shí)世界的高維數(shù)據(jù)(如分子)之間的一系列可逆變換來生成分子。與VAE相比,基于流的模型的主要優(yōu)勢在于可逆映射允許計(jì)算精確的數(shù)據(jù)似然。這一優(yōu)勢促使Zang、Shi和Madhawa等人將基于流的模型應(yīng)用于分子生成。 其他 除了這三個(gè)主要的生成模型類別外,研究人員還探索了其他類型的模型,用于與分子設(shè)計(jì)密切相關(guān)的任務(wù)。例如,基于擴(kuò)散的模型已經(jīng)被應(yīng)用于分子構(gòu)象的生成、基于反應(yīng)的分子設(shè)計(jì)模型被用來生成易于合成的分子。 2.3 分子生成問題的分類 人們可能對發(fā)現(xiàn)新分子感興趣的原因有很多。將生成模型應(yīng)用于分子生成的第一步是將這些不同的應(yīng)用表述為具體的問題陳述,例如,我們對發(fā)現(xiàn)具有X性質(zhì)的分子感興趣,但要遵守Y的約束。大體上,分子生成的問題陳述分為三類:(1)無約束的分子生成,(2)性質(zhì)約束的分子生成,以及(3)結(jié)構(gòu)約束的分子生成。 無約束的分子生成 無約束分子生成的目標(biāo)是在沒有任何性質(zhì)約束(除了化學(xué)有效性)的情況下生成多樣化的新分子。這對探索性的分子生成活動(dòng)很有價(jià)值,因?yàn)檫@些活動(dòng)的重點(diǎn)是識別有趣和不尋常的化學(xué)成分。對于這類問題,生成模型的目的是學(xué)習(xí)分子在化學(xué)空間中的一般分布(例如,分子通常是什么樣子的?) 為了學(xué)習(xí)這種廣泛的分布,生成模型通常要在大型的化合物數(shù)據(jù)庫(如ChEMBL和ZINC)中進(jìn)行訓(xùn)練,無約束生成模型通常根據(jù)生成化合物的化學(xué)有效性、新穎性和獨(dú)特性進(jìn)行評估。 性質(zhì)約束的分子生成 性質(zhì)約束的分子生成通過增加對生成分子的約束來擴(kuò)展前面的表述。在這種情況下,一個(gè)模型所生成的化合物必須在化學(xué)上是有效的,并具有特定的、理想的性質(zhì),如良好的溶解性、低毒性或高效力。由于對每個(gè)生成的化合物進(jìn)行實(shí)驗(yàn)驗(yàn)證是不可行的,因此有必要訓(xùn)練一個(gè)特性預(yù)測器來評估化合物特性,也被稱為定量結(jié)構(gòu)-活性關(guān)系(QSAR)模型。性質(zhì)預(yù)測器是在一個(gè)單獨(dú)的分子數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集上標(biāo)有它們的性質(zhì)(例如,效力的IC50/EC50)。訓(xùn)練結(jié)束后,性質(zhì)預(yù)測器被用來估計(jì)生成的分子是否滿足給定的約束條件。 通過這種方式,生成模型學(xué)習(xí)生成通過性質(zhì)預(yù)測器預(yù)測為滿足約束條件的化合物。這項(xiàng)任務(wù)通常被認(rèn)為是一個(gè)離散的優(yōu)化問題,可以通過強(qiáng)化學(xué)習(xí)、貝葉斯優(yōu)化或遺傳算法來解決。在強(qiáng)化學(xué)習(xí)中,一個(gè)模型被訓(xùn)練來最大化基于性質(zhì)預(yù)測器輸出的預(yù)期獎(jiǎng)勵(lì)。 另外,貝葉斯優(yōu)化方法可以用來通過學(xué)習(xí)分子的連續(xù)嵌入將離散優(yōu)化問題變成連續(xù)優(yōu)化問題。這些方法包括首先訓(xùn)練一個(gè)變分自編碼器,將離散的分子映射到一個(gè)連續(xù)的嵌入空間,然后訓(xùn)練另一個(gè)神經(jīng)網(wǎng)絡(luò),從其連續(xù)嵌入向量中預(yù)測原始分子的化學(xué)性質(zhì)。然后,在連續(xù)嵌入空間中應(yīng)用貝葉斯優(yōu)化,以找到一個(gè)具有最佳相關(guān)性質(zhì)得分的嵌入。發(fā)現(xiàn)的嵌入被解碼器網(wǎng)絡(luò)解碼成一個(gè)離散的分子。 最后,遺傳算法通過分子的突變尋找有利的化合物來解決離散的優(yōu)化問題。 結(jié)構(gòu)約束的分子生成 結(jié)構(gòu)受限分子生成的目標(biāo)是修改候選分子的結(jié)構(gòu),以改善其特性。這種方法對分子生成活動(dòng)很有用,在這種活動(dòng)中,具有理想特性的候選分子已經(jīng)被確定,目標(biāo)是探索密切相關(guān)的分子。在制藥行業(yè),這個(gè)過程類似于lead優(yōu)化。結(jié)構(gòu)受限優(yōu)化的一個(gè)例子是Jin等人在2019年和2020年發(fā)表的工作,該工作將lead優(yōu)化制定為一個(gè)圖到圖的翻譯問題,其中模型學(xué)會(huì)將輸入分子翻譯成改進(jìn)分子。該模型是在一個(gè)分子對的數(shù)據(jù)集上訓(xùn)練的,每個(gè)分子對包含兩個(gè)類似的分子,其中一個(gè)比另一個(gè)不理想。在測試時(shí),翻譯模型學(xué)會(huì)生成具有更好特性的給定分子的類似物。 另一個(gè)結(jié)構(gòu)受限的分子生成策略是限制輸出分子包含一個(gè)特定的骨架或片段。Langevin等人和Li等人建立了生成模型,輸出具有特定骨架的藥物分子。這些骨架通常是從具有良好生物特性的現(xiàn)有藥物中提取的。Jin、Podda、Imrie和Green等人也開發(fā)了類似的模型,學(xué)習(xí)生成具有特定片段的分子。 2.4 用于分子設(shè)計(jì)的生成模型的基準(zhǔn) 大量的具有各種網(wǎng)絡(luò)結(jié)構(gòu)的生成模型已經(jīng)被公布,用于分子生成。為了嚴(yán)格確定一個(gè)模型是否比另一個(gè)好或差,有必要制定基準(zhǔn)指標(biāo),對在公開的數(shù)據(jù)集上訓(xùn)練的模型進(jìn)行評估。正如不同類型的分子生成問題聲明所證明的那樣,生成模型有各種不同的目標(biāo),因此,有必要使用能代表這些目標(biāo)的基準(zhǔn)衡量標(biāo)準(zhǔn)。 最近的兩個(gè)基準(zhǔn)集,MOSES和Guacamol,為無約束的分子生成和面向目標(biāo)的分子生成(包括性質(zhì)約束和結(jié)構(gòu)約束的分子生成,如表1所示)定義了這種指標(biāo)。值得注意的是,雖然這些基準(zhǔn)對比較生成性建模方法很有用,但它們并沒有涵蓋分子發(fā)現(xiàn)的所有必要方面。 表1 常見的生成性建模基準(zhǔn)和它們的定義 ![]() 無約束的分子生成基準(zhǔn) 無約束分子生成的目標(biāo)是生成(1)有效和獨(dú)特的分子,(2)基于與訓(xùn)練集相匹配的化學(xué)分布,以及(3)新穎和多樣化的分子。 分子的有效性通常是使用RDCit的分子結(jié)構(gòu)解析器在價(jià)位和鍵方面進(jìn)行測量。一個(gè)更嚴(yán)格的有效性指標(biāo)被定義為通過一組給定的基于規(guī)則的過濾器的分子的百分比,如Walters的rd_filters實(shí)現(xiàn),該過濾器集包括啟發(fā)式規(guī)則,如最大環(huán)大小。使用基于規(guī)則的過濾器的一個(gè)注意事項(xiàng)是,它們通常是根據(jù)現(xiàn)實(shí)的分子來定義的,可能會(huì)錯(cuò)過生成模型產(chǎn)生的不尋常的功能團(tuán)。一個(gè)模型產(chǎn)生的化學(xué)分布可以根據(jù)KL分歧來衡量。化學(xué)分布也可以通過比較訓(xùn)練集和測試集中常見的分子性質(zhì)如分子量或logP的分布來評估。生成的分子的多樣性可以通過新穎性指標(biāo)、片段和骨架相似性(分別使用BRICS片段和Bemis-Murckolead)或Frechet ChemNet Distance來衡量。 目標(biāo)導(dǎo)向的分子生成基準(zhǔn) 使用目標(biāo)導(dǎo)向的生成模型,目的是發(fā)現(xiàn)具有特定性質(zhì)的分子。為了測試模型以簡單和可重復(fù)的方式生成具有特定性質(zhì)的分子的能力,Guacamol提出了基于相似性、重新發(fā)現(xiàn)、異構(gòu)體識別和中位分子生成的基準(zhǔn)。 相似性基準(zhǔn)的目標(biāo)是生成與從訓(xùn)練集中刪除的目標(biāo)分子相似的分子。重新發(fā)現(xiàn)基準(zhǔn)與相似性有關(guān),目標(biāo)是重新發(fā)現(xiàn)被從訓(xùn)練集中刪除的分子。異構(gòu)體基準(zhǔn)涉及到生成遵循一個(gè)簡單模式的分子(這是一個(gè)先驗(yàn)的未知模式)。最后,中位數(shù)分子發(fā)現(xiàn)基準(zhǔn)的目標(biāo)是生成與多個(gè)分子相似度最高的分子。 3 為特定應(yīng)用產(chǎn)生分子的實(shí)際考慮 如上一節(jié)所述,各種生成模型已經(jīng)在理論上和計(jì)算上得到了發(fā)展和探索。盡管如此,在實(shí)際的分子發(fā)現(xiàn)活動(dòng)中使用生成模型的例子仍然比較少。這是因?yàn)檫@些活動(dòng)往往有一系列額外的障礙,使得直接部署生成模型的具體應(yīng)用變得困難。 在這一節(jié)中,我們將討論這些障礙,特別是關(guān)注(1)真實(shí)分子設(shè)計(jì)問題的多目標(biāo)性,(2)所發(fā)現(xiàn)的分子必須是可合成的,以及(3)與容易出錯(cuò)的預(yù)測模型有關(guān)的挑戰(zhàn)。 3.1 真實(shí)的分子設(shè)計(jì)問題通常具有多目標(biāo)的性質(zhì) 在應(yīng)用環(huán)境中,我們經(jīng)常有興趣發(fā)現(xiàn)在一種或多種特性方面比任何先前已知的分子更優(yōu)化的分子。除了這些特性之外,通常還有一些額外的目標(biāo)或約束條件,這些目標(biāo)或約束條件對于主要的設(shè)計(jì)目標(biāo)來說是次要的,但對于分子在特定的應(yīng)用中的作用來說同樣是必要的。 當(dāng)把生成性模型應(yīng)用于真實(shí)的分子發(fā)現(xiàn)情景時(shí),考慮如何捕捉相關(guān)的次要目標(biāo)是至關(guān)重要的。常見的次要目標(biāo)包括毒性、穩(wěn)定性(通常與溫度、光線和/或時(shí)間有關(guān))、相行為、可溶性或腐蝕性。 在生成性分子設(shè)計(jì)中,有兩類方法可以用來考慮多目標(biāo):顯式多目標(biāo)優(yōu)化和結(jié)構(gòu)引導(dǎo)的多目標(biāo)優(yōu)化,如圖2所示。 ![]() 圖2 單一目標(biāo)、顯式多目標(biāo)和結(jié)構(gòu)引導(dǎo)的多目標(biāo)優(yōu)化的比較。顯式多目標(biāo)優(yōu)化涉及結(jié)合多個(gè)目標(biāo)(彩色)以獲得一個(gè)目標(biāo)函數(shù),而結(jié)構(gòu)指導(dǎo)優(yōu)化涉及通過限制搜索空間來隱含考慮次要目標(biāo)(灰色)。 顯式多目標(biāo)優(yōu)化 明確的多目標(biāo)優(yōu)化包括明確地定義和優(yōu)化與應(yīng)用相關(guān)的每一個(gè)性質(zhì)。這通常是通過使用單獨(dú)的預(yù)測模型或評估器來考慮每個(gè)特性,并通過結(jié)合這些特性的目標(biāo)函數(shù)進(jìn)行優(yōu)化。另外,如果該特性可以歸因于分子中的特定骨架,則可以通過將相關(guān)骨架納入生成程序來優(yōu)化分子。通過明確定義每個(gè)目標(biāo),用戶可以直接控制每個(gè)目標(biāo)的相對重要性,使這種方法可以很容易地適應(yīng)不同的應(yīng)用。 然而,這種方法的一個(gè)挑戰(zhàn)是,它需要一種自動(dòng)的方式來預(yù)測或獲得每一個(gè)相關(guān)的性質(zhì),而不需要人工干預(yù)。這對于具有較小的公共數(shù)據(jù)集的性質(zhì)來說可能會(huì)成為問題,如毒性或相位行為,對于這些性質(zhì)來說,訓(xùn)練高精度的預(yù)測模型可能是不可行的。此外,對于難以定義的性質(zhì),也很難訓(xùn)練預(yù)測模型。 為了說明這一點(diǎn),請考慮這樣的情況:我們想以自動(dòng)的方式評估一個(gè)分子的合成是否可行。雖然使用計(jì)算機(jī)輔助合成計(jì)劃(CASP)簡單地確定是否可以為該分子找到合成途徑似乎是一個(gè)很好的方法,但這種策略并沒有考慮到可能會(huì)形成多少副產(chǎn)品,以及描述或分離這些副產(chǎn)品可能有多困難。這樣一來,全面評估合成的可行性需要考慮多種因素的復(fù)雜組合,因此很難以自動(dòng)化的方式進(jìn)行預(yù)測。 結(jié)構(gòu)引導(dǎo)的多目標(biāo)優(yōu)化 結(jié)構(gòu)引導(dǎo)的多目標(biāo)優(yōu)化利用結(jié)構(gòu)約束隱含地保持一些性質(zhì)不變。如前所述,這可以通過基于候選物或基于骨架的優(yōu)化來實(shí)現(xiàn),其中先前確定的具有理想特性的起始候選分子或骨架在一個(gè)或多個(gè)額外特性方面得到改進(jìn)。在前面描述的藥物設(shè)計(jì)問題中,我們可能從一個(gè)可溶的、容易合成的但只有中等療效的候選分子開始。在這種情況下,我們可以訓(xùn)練生成模型,以提高藥物的療效,同時(shí)保持其他每個(gè)理想的特性。 與明確的多目標(biāo)優(yōu)化不同,用戶不需要定義每個(gè)次要目標(biāo),這使得考慮難以定義的目標(biāo)變得很直接。這種隱式多目標(biāo)優(yōu)化也可以通過簡單地將化學(xué)空間的探索限制在與訓(xùn)練中使用的分子相似的分子上來完成,盡管這確實(shí)限制了生成分子的多樣性。 3.2 使用生成模型設(shè)計(jì)的分子必須是可合成的 在生成性模型問題中考慮可合成性的最直接的方法是將其明確地作為一個(gè)額外的目標(biāo)。如前所述,這需要一個(gè)自動(dòng)的方法來評估可合成性,而無需人工干預(yù)。雖然CASP工具(預(yù)測給定分子的合成途徑)可以用來近似地評估,但它們往往計(jì)算成本太高,不能直接用于明確的優(yōu)化。相反,人們提出了一些分?jǐn)?shù),以自動(dòng)方式快速評估合成能力。如Ertl和Schuffenhauer提出的合成可及性 (SA) 評分、Coley等人提出的合成復(fù)雜性 (SC) 得分、Thakkar等人最近提出了逆向合成可及性 (RA) 評分等。 這樣,目前開發(fā)的每一個(gè)分?jǐn)?shù)都能捕捉到合成可行性的一些(但不是全部)方面。它們對指導(dǎo)使用生成模型的分子發(fā)現(xiàn)很有用,但仍可能導(dǎo)致一些合成上不可行的分子。 將可合成性作為次要目標(biāo)的一個(gè)替代方法是使用生成模型,將CASP工具直接整合到生成過程中。例如,Bradshaw等人不是簡單地生成單個(gè)分子圖,而是生成合成途徑,然后使用爬坡算法優(yōu)化最終產(chǎn)品的特定特性。 這類模型的一個(gè)注意事項(xiàng)是,它們與CASP模型緊密結(jié)合,而CASP模型只能近似地預(yù)測逆向合成途徑,因此,CASP模型的任何限制也會(huì)出現(xiàn)在生成模型中。這樣一來,要求分子必須可以通過CASP模型發(fā)現(xiàn),可能會(huì)限制生成過程中可獲得的化學(xué)成分的多樣性。 3.3 生成模型的工作流程依賴于確定性有限的預(yù)測性模型 如前所述,生成模型依靠預(yù)測模型來優(yōu)化分子的特定性質(zhì)。這些預(yù)測模型的準(zhǔn)確性受到訓(xùn)練數(shù)據(jù)集的大小和準(zhǔn)確性的限制。對于訓(xùn)練數(shù)據(jù)來自模擬或?qū)嶒?yàn)的特性,訓(xùn)練數(shù)據(jù)可能包含噪音和/或偏見,使模型無法學(xué)習(xí)真正的結(jié)構(gòu)-特性關(guān)系。此外,對于訓(xùn)練數(shù)據(jù)有限的性質(zhì),可用的數(shù)據(jù)可能不足以將模型約束在目標(biāo)函數(shù)附近。這樣一來,考慮生成模型與易出錯(cuò)的預(yù)測模型配對時(shí)的行為是很重要的。 處理生成性分子發(fā)現(xiàn)中易出錯(cuò)的預(yù)測模型的最直接的方法是使用貝葉斯優(yōu)化方法。 與此相反,在有些情況下,故意探索預(yù)測模型難以理解的化學(xué)空間區(qū)域是很有用的。這對于發(fā)現(xiàn)新分子比發(fā)現(xiàn)具有目標(biāo)特性的分子更重要的應(yīng)用來說,可能很有價(jià)值。此外,這對主動(dòng)學(xué)習(xí)的應(yīng)用特別有價(jià)值。在主動(dòng)學(xué)習(xí)的環(huán)境中,開發(fā)一個(gè)生成模型是很有價(jià)值的,它故意提出預(yù)測不佳的分子,可以通過實(shí)驗(yàn)進(jìn)行測試,并作為訓(xùn)練數(shù)據(jù),在額外的訓(xùn)練迭代中改進(jìn)預(yù)測器。 3.4 生成性分子設(shè)計(jì)的常見應(yīng)用工作流程 如前所述,在實(shí)際的分子發(fā)現(xiàn)活動(dòng)中,有一些使用生成模型的例子。在實(shí)際應(yīng)用中,最直接的方法是在初始數(shù)據(jù)集上訓(xùn)練生成器和預(yù)測器模型,發(fā)現(xiàn)一個(gè)或一組分子,并選擇少量的分子進(jìn)行實(shí)驗(yàn)測試(圖3,頂部)。 ![]() 圖3 目前,在實(shí)驗(yàn)應(yīng)用中,生成模型已被用于人工過濾的單程工作流程中。在未來,我們可能會(huì)看到生成模型被整合到閉環(huán)的、自主的發(fā)現(xiàn)管道中。 除了使用生成模型來簡單地發(fā)現(xiàn)分子外,人們還可以使用從有希望的lead中產(chǎn)生的數(shù)據(jù)來重新訓(xùn)練預(yù)測器和生成器模型,從而”閉環(huán)”分子發(fā)現(xiàn)的循環(huán)(圖3,底部)。這種方法對于預(yù)測模型在有限的數(shù)據(jù)集上進(jìn)行訓(xùn)練的應(yīng)用很有價(jià)值。雖然沒有使用生成模型進(jìn)行分子實(shí)驗(yàn)閉環(huán)發(fā)現(xiàn)的例子,但Chen和Gu最近說明了這種方法對于計(jì)算設(shè)計(jì)具有理想機(jī)械性能的材料的價(jià)值。在這一應(yīng)用中,他們通過使用有限元方法(FEM)這種相對便宜的計(jì)算方法來測量材料的特性,從而規(guī)避了合成材料的需要。雖然這種計(jì)算方法往往不如實(shí)驗(yàn)方法準(zhǔn)確,但它們提供了在模型計(jì)算系統(tǒng)上開發(fā)閉環(huán)生成建模方法的機(jī)會(huì),這些方法隨后可以轉(zhuǎn)化為實(shí)驗(yàn)系統(tǒng)。 4 未來的方向 4.1 基準(zhǔn)的未來 與機(jī)器學(xué)習(xí)的許多領(lǐng)域一樣,生成式建模的發(fā)展軌跡歷來被該領(lǐng)域的關(guān)鍵基準(zhǔn)所左右。現(xiàn)有的一套基準(zhǔn)在引導(dǎo)一波日益強(qiáng)大的分子發(fā)現(xiàn)生成模型方面起到了關(guān)鍵作用,促進(jìn)了諸如生成分子的有效性、獨(dú)特性和多樣性等指標(biāo)的改進(jìn)。盡管如此,正如其他人所建議的那樣,許多最新的生成模型在這些基準(zhǔn)中表現(xiàn)非常好,這表明這些基準(zhǔn)不再足以評估哪些模型表現(xiàn)最好。因此,有必要開發(fā)更有意義的基準(zhǔn),以促進(jìn)生成性模型的發(fā)展,這些模型被設(shè)計(jì)成更理想地解決真實(shí)世界的問題。 與開發(fā)這樣一套基準(zhǔn)相關(guān)的挑戰(zhàn)之一是,生成性模型的標(biāo)準(zhǔn)很可能因不同的應(yīng)用而不同。一套理想的基準(zhǔn)是包含與各種應(yīng)用相關(guān)的指標(biāo),同時(shí)也包括與使用生成模型進(jìn)行分子發(fā)現(xiàn)相關(guān)的大多數(shù)障礙。我們希望這套基準(zhǔn)將包括諸如合成可行性、安全和處理、不確定性量化等因素,以及與在實(shí)際應(yīng)用中部署生成模型有關(guān)的其他考慮。 4.2 表征法的未來 在過去的幾年里,能夠從二維分子圖和三維點(diǎn)云中學(xué)習(xí)的生成模型有了許多發(fā)展。這些進(jìn)展很有價(jià)值,因?yàn)樗鼈兪股赡P湍軌蛟谛畔⒏S富的表征上進(jìn)行學(xué)習(xí),這些表征包含了更多關(guān)于分子基礎(chǔ)物理學(xué)的信息。大多數(shù)二維和三維生成模型是自動(dòng)回歸的,這意味著它們以一種有序的方式生成圖形或點(diǎn)云。由于分子在本質(zhì)上是無序的,在原子之間強(qiáng)加規(guī)范排序的模型會(huì)給生成模型帶來額外的偏見,可能會(huì)限制其性能。此外,大多數(shù)表征法都是為小分子開發(fā)的,不能輕易用于描述大分子或手性分子。最后,利用二維和三維表征的生成模型在訓(xùn)練時(shí)比簡單的模型計(jì)算成本更高,使它們更難擴(kuò)展到更大的分子和/或更大的數(shù)據(jù)集。 4.3 最后的想法 在過去的十年里,用于分子發(fā)現(xiàn)的深度生成模型已經(jīng)發(fā)展成為一個(gè)成熟的領(lǐng)域。生成式建模作為發(fā)現(xiàn)能夠解決許多全球危機(jī)的新型化學(xué)物質(zhì)的自動(dòng)化方法,具有很大的前景。雖然生成式建模要充分發(fā)揮其潛力還需要許多進(jìn)展,但我們預(yù)計(jì)目前的挑戰(zhàn)將在未來幾年得到解決。 參考資料 https://wires.onlinelibrary./doi/full/10.1002/wcms.1608 |
|