2022年3月23日,來自哥倫比亞大學(xué)的Artem Cherkasov和英偉達(dá)的Abraham C等人在Nature Machine Intelligence雜志發(fā)表文章,全面闡述了GPU計(jì)算和深度學(xué)習(xí)的歷史趨勢和最新進(jìn)展,并討論了它們對藥物發(fā)現(xiàn)的直接影響。 ![]() 摘要 深度學(xué)習(xí)幾乎顛覆了每一個(gè)研究領(lǐng)域,包括那些對藥物發(fā)現(xiàn)有直接重要性的領(lǐng)域,如藥物化學(xué)和藥理學(xué)。這場革命在很大程度上歸功于高度可并行的GPU的空前進(jìn)步和支持GPU的算法的發(fā)展。在這篇文章中,我們?nèi)娼榻B了GPU算法的歷史趨勢和最新進(jìn)展,并討論了它們對發(fā)現(xiàn)新藥和藥物靶點(diǎn)的直接影響。我們還介紹了最先進(jìn)的深度學(xué)習(xí)架構(gòu),這些架構(gòu)在早期藥物發(fā)現(xiàn)和隨后的hit-to-lead階段都有實(shí)際應(yīng)用,包括加速分子對接、評估脫靶效應(yīng)和預(yù)測藥理特性。最后,我們討論了GPU加速和深度學(xué)習(xí)模型對藥物發(fā)現(xiàn)領(lǐng)域的全球民主化的影響,這可能會推動對不斷擴(kuò)大的化學(xué)世界的有效探索,以加速發(fā)現(xiàn)新藥。 主要內(nèi)容 圖形處理單元 (graphics processing units, GPU) 最初是為加速三維圖形而開發(fā)的,它在強(qiáng)大的并行計(jì)算方面的優(yōu)勢很快就被科學(xué)界所稱贊。最早將GPU用于科學(xué)目的的嘗試采用了可編程著色器語言來運(yùn)行計(jì)算。2007年,英偉達(dá)公司發(fā)布了計(jì)算統(tǒng)一設(shè)備架構(gòu) (Compute Unified Device Architecture, CUDA) 作為C語言的擴(kuò)展,同時(shí)還發(fā)布了編譯器和調(diào)試器,為將計(jì)算密集型工作負(fù)載移植到GPU加速器中打開了閘門。進(jìn)一步的進(jìn)展來自于常見數(shù)學(xué)庫的發(fā)布,如快速傅里葉變換和基本線性代數(shù)子程序,這些都是科學(xué)計(jì)算的基礎(chǔ)。同年,第一批計(jì)算化學(xué)程序被移植到了GPU上,實(shí)現(xiàn)了分子力學(xué)和量子蒙特卡洛計(jì)算的高效并行化。 2014年9月,英偉達(dá)公司發(fā)布了cuDNN,這是一個(gè)由GPU加速的深度神經(jīng)網(wǎng)絡(luò) (DNN) 基元庫,實(shí)現(xiàn)了前向和后向卷積、池化、歸一化和激活層等標(biāo)準(zhǔn)程序。GPU對訓(xùn)練和測試子過程的架構(gòu)支持似乎對標(biāo)準(zhǔn)深度學(xué)習(xí) (DL) 程序特別有效。因此,出現(xiàn)了一個(gè)由GPU加速的深度學(xué)習(xí)的整個(gè)生態(tài)系統(tǒng)。雖然英偉達(dá)的CUDA是一個(gè)更成熟的GPU編程框架,但AMD的ROCm代表了一個(gè)通用的GPU加速計(jì)算平臺。ROCm引入了新的數(shù)值格式,以支持常見的開源機(jī)器學(xué)習(xí)庫 (如TensorFlow和PyTorch),它還提供了將英偉達(dá)CUDA代碼移植到AMD硬件的方法。值得注意的是,AMD不僅在GPU計(jì)算競賽中追趕ROCm平臺,而且最近還推出了新的旗艦GPU架構(gòu)AMD Instinct MI200系列,與最新的NVIDIA Ampere A100 GPU架構(gòu)競爭。 生物信息學(xué)、化學(xué)信息學(xué)和化學(xué)基因組學(xué)領(lǐng)域,包括計(jì)算機(jī)輔助藥物發(fā)現(xiàn) (CADD),已經(jīng)利用了在GPU上運(yùn)行的DL方法。CADD中的大多數(shù)挑戰(zhàn)通常都面臨著組合學(xué)和優(yōu)化問題,而機(jī)器學(xué)習(xí)已經(jīng)有效地提供了解決方案。因此,CADD應(yīng)用中的DL已經(jīng)取得了重大進(jìn)展,如虛擬篩選、新藥設(shè)計(jì)、吸收、分布、代謝、排泄和毒性 (ADMET) 特性預(yù)測等等 (圖1)。 ![]() 圖1:CADD工作流程 GPU加速器在藥物發(fā)現(xiàn)和開發(fā)過程的每個(gè)步驟中都能找到應(yīng)用。 在此,我們討論了GPU支持的并行化和DL模型開發(fā)和應(yīng)用對蛋白質(zhì)和蛋白質(zhì)-配體復(fù)合物模擬的時(shí)間尺度和準(zhǔn)確性的影響。我們還提供了用于低溫電子顯微鏡 (cryo-EM) 結(jié)構(gòu)測定和蛋白質(zhì)三維結(jié)構(gòu)預(yù)測中DL算法的例子。 用于分子模擬的GPU計(jì)算和深度學(xué)習(xí) GPU的加速來自于大規(guī)模的數(shù)據(jù)并行性,它產(chǎn)生于對數(shù)據(jù)的許多元素執(zhí)行的類似獨(dú)立操作。在圖形學(xué)中,一個(gè)常見的數(shù)據(jù)并行操作的例子是使用旋轉(zhuǎn)矩陣跨越坐標(biāo),描述視圖旋轉(zhuǎn)時(shí)物體的位置。在分子模擬中,數(shù)據(jù)并行可以應(yīng)用于原子勢能的獨(dú)立計(jì)算。同樣,DL模型訓(xùn)練涉及到前向和后向的傳遞,這些傳遞通常表示為矩陣轉(zhuǎn)換,是很容易并行化的 (圖2)。 ![]() 圖2:單GPU和多GPU環(huán)境下DL架構(gòu)的并行化 神經(jīng)網(wǎng)絡(luò)的算術(shù)運(yùn)算是基于矩陣乘法,由GPU使用塊乘法和聚合進(jìn)行并行化。 a,兩層多層感知器 (MLP) 的計(jì)算圖在一個(gè)GPU上的分布。W,可訓(xùn)練參數(shù);SGD,隨機(jī)梯度下降算法;η,隨機(jī)梯度下降算法的學(xué)習(xí)率。 b,數(shù)據(jù)并行化。每個(gè)GPU存儲一個(gè)網(wǎng)絡(luò)副本。數(shù)據(jù)并行化是最普遍采用的加速DL的GPU范式。網(wǎng)絡(luò)的副本駐留在每個(gè)GPU中,每個(gè)GPU都有自己專用的小批數(shù)據(jù)來進(jìn)行訓(xùn)練。然后將計(jì)算出的梯度和損失傳輸?shù)焦蚕碓O(shè)備 (通常是CPU) 進(jìn)行聚合,然后再轉(zhuǎn)播給GPU進(jìn)行參數(shù)更新。LayerNorm、Dropout、Fc、SoftMax和Bidirectional LSTM (長短時(shí)記憶) 是用于演示的任意神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的模塊。 c,梯度小批下降算法的正向和反向傳播。M,數(shù)據(jù)的總小批量。 加速GPU上的分子動力學(xué)模擬 在過去的十年中,以GPU為中心的分子動力學(xué)代碼的發(fā)展使得模擬的計(jì)算成本與基于中央處理器 (CPU) 的算法相比減少了數(shù)百倍。因此,大多數(shù)分子動力學(xué)引擎 (AMBER、GROMACS和NAMD) 現(xiàn)都提供GPU加速實(shí)現(xiàn)。GPU不僅非常適合加速分子動力學(xué)模擬,而且利用空間域分解,可以很好地?cái)U(kuò)展系統(tǒng)規(guī)模。因此,分子動力學(xué)模擬擴(kuò)展到更廣泛的生物分子現(xiàn)象,接近病毒和細(xì)胞水平,更接近于實(shí)驗(yàn)時(shí)間尺度。最近的方法和算法的進(jìn)步使得分子動力學(xué)模擬的分子組合高達(dá)2×109個(gè)原子 (圖3),總體模擬時(shí)間為微秒甚至毫秒。 ![]() 圖3:可以用分子動力學(xué)模擬的生物系統(tǒng)的復(fù)雜性的時(shí)間軸 多年來的持續(xù)開發(fā)努力,旨在用NAMD模擬復(fù)雜性不斷增加的真實(shí)生物對象,從1990年代初期的千原子大小的小型溶劑化蛋白質(zhì)到現(xiàn)在的十億原子大小的完整原始細(xì)胞。ATP,三磷酸腺苷;HIV,人類免疫缺陷病毒;STMV,衛(wèi)星煙草花葉病毒。 自由能模擬是另一個(gè)繼續(xù)受益于GPU開發(fā)進(jìn)展的領(lǐng)域。諸如相對結(jié)合自由能計(jì)算、熱力學(xué)積分和自由能擾動等方法現(xiàn)在可以計(jì)算出大量蛋白質(zhì)-配體復(fù)合物的可靠結(jié)合親和力。在這方面,最近開發(fā)的基于神經(jīng)網(wǎng)絡(luò)的力場,如ANI和AIMNet提供了自由能模擬的工業(yè)標(biāo)準(zhǔn)精度。薛定諤 (Schr?dinger) 基準(zhǔn)集中的酪氨酸-蛋白激酶抑制劑的基準(zhǔn)顯示,使用ANI機(jī)器學(xué)習(xí)潛力的模擬將絕對結(jié)合自由能誤差降低了50%。像ANI這樣的框架為生成原子勢提供了一個(gè)系統(tǒng)的方法,大大減少了擬合力場所需的人力,從而使力場開發(fā)自動化。最近,其他DL框架也被提出來,以進(jìn)一步推動藥物發(fā)現(xiàn)中的分子模擬的界限。作為這些方法的典范,加強(qiáng)采樣的重加權(quán)自動編碼器變異貝葉斯方法被成功地用于模擬配體-蛋白解離。它的處理速度明顯快于傳統(tǒng)的分子動力學(xué),但卻產(chǎn)生了準(zhǔn)確的結(jié)合自由能和環(huán)形構(gòu)象采樣的估計(jì)。同樣,Drew Bennett等人使用DNNs來預(yù)測來自分子動力學(xué)模擬的小分子的水-環(huán)己烷轉(zhuǎn)移能量。在開源框架的支持下,也有人提出使用混合DL和分子力學(xué)勢進(jìn)行配體-蛋白質(zhì)模擬。這些方法對配體采用基于量子力學(xué)的DL勢,對周圍環(huán)境采用分子力學(xué)勢,與傳統(tǒng)的勢相比,在重現(xiàn)結(jié)合姿勢方面顯示出卓越的性能。 量子力學(xué)和GPU CUDA和OpenCL應(yīng)用編程接口 (API) 的出現(xiàn)是GPU應(yīng)用成功的關(guān)鍵,盡管對GPU進(jìn)行編程以高效運(yùn)行化學(xué)代碼并非易事。為了實(shí)現(xiàn)高效率,需要同時(shí)執(zhí)行被分組為塊的計(jì)算線程。TeraChem是第一個(gè)專門為GPU編寫的量子化學(xué)代碼。混合精度的算術(shù)允許非常有效地計(jì)算庫侖和交換矩陣。TeraChem的最新算法發(fā)展允許用密度函數(shù)理論 (DFT) 模擬整個(gè)蛋白質(zhì)。量子力學(xué)和分子力學(xué)的混合模擬,使人們對光激活機(jī)制有了深入的了解,并在分子水平上了解了光能轉(zhuǎn)化為功的過程。DFT計(jì)算現(xiàn)在是研究蛋白質(zhì)-配體相互作用的常規(guī)方法。例如,最好的計(jì)算結(jié)果是蛋白質(zhì)-配體相互作用能量的平均絕對誤差約為2 kcal mol-1。對絲氨酸蛋白酶X和酪氨酸蛋白激酶2的DFT計(jì)算表明,所得到的幾何形狀接近于共晶體的蛋白-配體結(jié)構(gòu)。 未來的超大規(guī)模超級計(jì)算機(jī)將在異構(gòu)的CPU和GPU環(huán)境中提供高水平的并行性。這種擴(kuò)展需要開發(fā)新的混合算法,而且基本上是對科學(xué)代碼的完全重寫。這些新的發(fā)展現(xiàn)在正作為NWChemEx軟件包的一部分來實(shí)施。NWChemEx將提供對系統(tǒng)進(jìn)行量子力學(xué)和分子力學(xué)模擬的可能性,這些系統(tǒng)比理論方法的經(jīng)典公式所能解決的問題大幾個(gè)數(shù)量級。 蛋白質(zhì)結(jié)構(gòu)測定的GPU加速 冷凍電鏡的高通量和自動化已經(jīng)變得越來越重要,它是用于蛋白質(zhì)結(jié)構(gòu)測定的最先進(jìn)的實(shí)驗(yàn)技術(shù),可用于基于結(jié)構(gòu)的藥物設(shè)計(jì)。基于DL的方法,如DEFMap和DeepPicker,已經(jīng)被開發(fā)出來以加速低溫電鏡圖像的處理。DEFMap方法通過結(jié)合學(xué)習(xí)局部密度數(shù)據(jù)之間關(guān)系的DL和分子動力學(xué)模擬,直接提取與隱藏原子波動相關(guān)的結(jié)構(gòu)動力學(xué)。DeepPicker采用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和跨分子訓(xùn)練,從先前分析的顯微照片中捕捉粒子的共同特征,這為單粒子分析中自動挑選粒子提供了便利。這個(gè)工具可以說明,DL集成可以成功地解決目前在實(shí)現(xiàn)全自動低溫電鏡管道方面的差距,為蛋白質(zhì)科學(xué)的新的多學(xué)科方法鋪平道路。 除了通過低溫電鏡加速蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)表征外,最近DeepMind與AlphaFold-2方法在CASP挑戰(zhàn)中取得的突破性成功,暗示了DL算法在蛋白質(zhì)結(jié)構(gòu)表征和可藥用蛋白質(zhì)組擴(kuò)展中的未來影響。AlphaFold-2可以定期預(yù)測蛋白質(zhì)的幾何形狀,并具有原子級的準(zhǔn)確性,而無需之前接觸過類似的結(jié)構(gòu)。最近更新的基于神經(jīng)網(wǎng)絡(luò)的模型在大多數(shù)情況下表現(xiàn)出與實(shí)驗(yàn)相匹敵的準(zhǔn)確性,并在第14屆CASP競賽中大大超過了其他方法。AlphaFold-2背后的DL模型結(jié)合了關(guān)于蛋白質(zhì)結(jié)構(gòu)的物理和生物知識,利用多序列比對來破解生物學(xué)中最古老的問題之一。AlphaFold-2被用來預(yù)測幾乎所有已知的人類蛋白質(zhì)和其他對醫(yī)學(xué)研究很重要的生物體的結(jié)構(gòu),總共有35萬個(gè)蛋白質(zhì),這對生物醫(yī)學(xué)研究來說是一個(gè)了不起的成就。 CADD中DL的出現(xiàn) DL的進(jìn)展,特別是在計(jì)算機(jī)視覺和語言處理方面的進(jìn)展,恢復(fù)了CADD研究人員最近對神經(jīng)網(wǎng)絡(luò)的興趣。默克公司通過2012年的Kaggle分子活動挑戰(zhàn)賽普及了CADD的DL。Dahl等人的獲勝方案利用了多任務(wù)學(xué)習(xí)方法來訓(xùn)練DNN。此后,許多研究人員將這種模型用于藥物發(fā)現(xiàn)問題。這些問題包括評估治療藥物的藥代動力學(xué)行為及其不良反應(yīng)的預(yù)測因素,預(yù)測小分子與蛋白質(zhì)的結(jié)合,確定致癌細(xì)胞的化療反應(yīng),藥物敏感性的定量估計(jì)和定量結(jié)構(gòu)-活性關(guān)系 (QSAR) 建模等等。 支持GPU的DL架構(gòu)的出現(xiàn),以及化學(xué)基因組學(xué)數(shù)據(jù)的激增,推動了有意義的CADD賦能的臨床候選藥物的發(fā)現(xiàn)。此外,人工智能驅(qū)動的公司 (如BenevolentAI、Insilico Medicine和Exscientia等) 正在報(bào)告AI促進(jìn)藥物發(fā)現(xiàn)方面的成功。例如,Exscientia開發(fā)了一種用于治療強(qiáng)迫癥的候選藥物DSP-1181,從構(gòu)思到使用人工智能方法不到12個(gè)月就進(jìn)入了I期臨床試驗(yàn)。Insilico Medicine公司剛開始用其第一個(gè)人工智能開發(fā)的候選藥物進(jìn)行臨床試驗(yàn),用于治療特發(fā)性肺纖維化,BenevolentAI公司將baricitinib確定為COVID-19的潛在治療藥物。這些最近的成功案例表明,在GPU計(jì)算的支持下,進(jìn)一步推廣和應(yīng)用人工智能驅(qū)動的方法可以大大加快發(fā)現(xiàn)新型和改進(jìn)的藥物。 用于CADD的DL架構(gòu) 從應(yīng)用于現(xiàn)有的或合成上可行的化學(xué)庫的虛擬篩選的鑒別性神經(jīng)網(wǎng)絡(luò),到最近DL生成模型的成功案例,激發(fā)了DL在新藥設(shè)計(jì)中的應(yīng)用。圖4描述了常用的最先進(jìn)的DL架構(gòu)的一般方案。表1列舉了它們在CADD中的應(yīng)用。 ![]() 圖4:幾種流行的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) a, Sigmoid神經(jīng)元作為神經(jīng)網(wǎng)絡(luò)的構(gòu)建塊,是一個(gè)具有 sigmoid 非線性的感知器。 b, 一個(gè)全連接的前饋神經(jīng)網(wǎng)絡(luò)(MLP)由輸入層、隱藏層和輸出層組成,具有非線性激活功能 (如sigmoid)。X和Y分別代表模型的輸入和輸出。h,隱藏層;b,偏置項(xiàng)。 c, 一個(gè)簡化的RNN的展開表示。U和W是可訓(xùn)練的模型參數(shù);Si是RNN輸入的"ith"時(shí)間步的潛在狀態(tài)。 d,VAE。一個(gè)概率編碼器在高斯假設(shè)下將輸入映射到潛在空間。μ和∑是學(xué)習(xí)的多變量高斯分布的參數(shù)向量。從這個(gè)潛在空間中抽取樣本,解碼器試圖從這些樣本中重建原始輸入。 e,CNN。核子對輸入圖像進(jìn)行卷積,隨后對特征圖進(jìn)行卷積,以逐步生成高階特征圖。池化進(jìn)一步降低了特征圖的維度。 f, GAN。鑒別器和發(fā)生器是兩個(gè)任意的神經(jīng)網(wǎng)絡(luò),它們在零和游戲中競爭,以合成新的樣本。如果不使用硬件加速器 (如GPU),這些大容量的DL模型無法被合理地訓(xùn)練。這意味著 (除非另有說明) 這種模型被部署在GPU上。 表1 最先進(jìn)的DL類別和它們在藥物發(fā)現(xiàn)中的應(yīng)用 ![]() MLPs 多層感知器 (Multilayer perceptrons,MLPs) 是具有輸入、隱藏和輸出層以及非線性激活函數(shù) (sigmoid、tanh、ReLU等) 的全連接網(wǎng)絡(luò),是DNNs的基礎(chǔ)。其較大的學(xué)習(xí)能力和相對較少的參數(shù)使MLPs成為人工神經(jīng)網(wǎng)絡(luò)在藥物發(fā)現(xiàn)中最早的成功應(yīng)用,用于QSAR研究。現(xiàn)代GPU機(jī)器使MLPs成為廉價(jià)的模型,適合于大型化學(xué)信息學(xué)數(shù)據(jù)集,對CADD產(chǎn)生了新的影響。 CNNs CNNs可以說是使用最多的DNNs,它以分層原則為指導(dǎo),利用小的感受野 (receptive fields) 來處理輸入的局部子段。CNN一直是圖像和視頻處理的首選架構(gòu),同時(shí)它們也能在生物醫(yī)學(xué)文本分類中取得成功。一個(gè)典型的CNN在三維體積 (高度、寬度、通道) 上運(yùn)行,根據(jù)可學(xué)習(xí)的核子生成平移不變的特征圖,并將這些圖匯集起來以產(chǎn)生尺度和旋轉(zhuǎn)不變的輸出。 卷積操作的可并行性使CNN適合在GPU上實(shí)現(xiàn)。Toxic Color方法最初是利用Tox21基準(zhǔn)數(shù)據(jù)開發(fā)的,使用的是簡單的化合物二維圖,證明了GPU支持的CNN預(yù)測,沒有采用任何化學(xué)描述符,與最先進(jìn)的機(jī)器學(xué)習(xí)方法相當(dāng)。Goh等人隨后介紹了Chemception,這是一個(gè)根據(jù)分子圖訓(xùn)練的CNN,用于預(yù)測化學(xué)特性,如毒性、活性和溶解性,它顯示出與用擴(kuò)展連接性指紋訓(xùn)練的MLPs相當(dāng)?shù)男阅堋K麄兊哪P屯ㄟ^將原子和鍵的特定化學(xué)信息編碼到CNN中得到了進(jìn)一步的改進(jìn)。 RNNs 歷史上,計(jì)算化學(xué)家廣泛依賴拓?fù)鋵W(xué)指紋,如擴(kuò)展連接性指紋或其他描述符來描述分子特征。一種流行的線性Goh表示法是SMILES。固定長度的字符串表示很有用,因?yàn)樗鼈兛梢员灰暈樾蛄校⒃跁r(shí)間網(wǎng)絡(luò)中有效地建模,如循環(huán)神經(jīng)網(wǎng)絡(luò) (recurrent neural networks,RNNs)。RNNs可以被看作是有記憶的馬爾科夫鏈的延伸,能夠通過其內(nèi)部狀態(tài)學(xué)習(xí)長距離的依賴關(guān)系,從而為分子序列的自動回歸建模。 DL算法能夠?qū)W習(xí)輸入的分子的潛在內(nèi)部表征,而不需要手工制作的描述符,這使得數(shù)據(jù)集和手頭的問題在語法和語義上都有意義。SMILES2vec被訓(xùn)練從SMILES表征中學(xué)習(xí)連續(xù)嵌入,以對幾個(gè)數(shù)據(jù)集和任務(wù) (毒性、活性、溶解性和可溶性) 進(jìn)行預(yù)測。這些向量的低維度加速了訓(xùn)練并降低了內(nèi)存需求--這兩者都是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的關(guān)鍵方面。受流行的word-embedding算法word2vec的成功啟發(fā),Jaeger等人開發(fā)了mol2vec。基于在ZINC和ChEMBL數(shù)據(jù)集上對word2vec的無監(jiān)督預(yù)訓(xùn)練,學(xué)到的表征達(dá)到了最先進(jìn)的性能,并且比摩根指紋更適合于回歸任務(wù)。 VAEs 變分自動編碼器 (Variational autoencoders,VAEs) 是一種深度生成模型,由于其能夠從觀察到的數(shù)據(jù)中概率性地學(xué)習(xí)潛在空間,隨后可以通過采樣來生成具有微調(diào)功能特性的新分子,因此正在徹底改變化學(xué)信息學(xué)。VAEs支持直接采樣,從而從潛在空間的學(xué)習(xí)分布中生成分子,而不需要昂貴的蒙特卡洛取樣。Blaschke等人利用VAE模型生成了針對多巴胺受體2的新分子,這些分子被為活性預(yù)測而訓(xùn)練的支持向量機(jī)模型進(jìn)一步驗(yàn)證。Sattarov等人探索了Seq2Seq VAEs來選擇性地設(shè)計(jì)具有所需特性的化合物。一個(gè)生成的地形圖 (topographic mapping) 被用來從VAE學(xué)到的潛在表征中采樣。其他研究將VAE與分子圖結(jié)合起來研究,以生成新分子。 GANs 最近,生成對抗網(wǎng)絡(luò) (generative adversarial networks,GANs) 已經(jīng)確立了自己作為強(qiáng)大和多樣化的深度生成模型的地位。GANs是基于生成器和鑒別器模塊之間的對抗性游戲。鑒別器網(wǎng)絡(luò)的目標(biāo)是區(qū)分由生成器網(wǎng)絡(luò)生成的真實(shí)和虛假數(shù)據(jù)點(diǎn)。一個(gè)同時(shí)訓(xùn)練的生成器網(wǎng)絡(luò)試圖創(chuàng)建新的數(shù)據(jù)點(diǎn),從而使鑒別器被操縱,相信生成的結(jié)果是真實(shí)的。在GANs的經(jīng)驗(yàn)性成功之后,人們提出了一些改進(jìn)和修改意見。這些方法被藥物發(fā)現(xiàn)的研究人員迅速利用,以人為地合成跨越子問題的數(shù)據(jù)。Méndez-Lucio等人在系統(tǒng)生物學(xué)和分子藥物設(shè)計(jì)的交叉領(lǐng)域研究了一種基于GAN的生成模型方法。他們將生物學(xué)和化學(xué)結(jié)合起來的嘗試體現(xiàn)在根據(jù)靶點(diǎn)的基因表達(dá)特征生成類似活性的分子。為此,他們使用了條件GANs和帶有梯度懲罰的Wasserstein GAN的組合。GANs也已經(jīng)與遺傳算法結(jié)合起來進(jìn)行探索,以防止模式崩潰,從而逐步探索更大的化學(xué)空間。 Transformer networks 在自然語言處理中使用Transformer networks所取得的巨大成功的啟發(fā)下,藥物發(fā)現(xiàn)領(lǐng)域的DL研究人員被激勵(lì)著去探索它在訓(xùn)練序列的長期依賴性方面的能力。Shin等人利用自注意力機(jī)制(Self-Attention),進(jìn)行了端到端的神經(jīng)回歸,以預(yù)測藥物分子和靶點(diǎn)蛋白之間的親和力分?jǐn)?shù)。在此過程中,他們通過將分子標(biāo)記嵌入與位置嵌入聚集在一起,為藥物分子學(xué)習(xí)分子表征,并使用CNN為蛋白質(zhì)學(xué)習(xí)新的表征。同樣,Huang等人引入了MolTrans來預(yù)測藥物與靶點(diǎn)的相互作用。Grechishnikova將特定靶點(diǎn)的分子生成制定為氨基酸鏈和它們的SMILES表示之間的翻譯任務(wù),并使用一個(gè)轉(zhuǎn)換器編碼器和解碼器。 GNNs 最近在非歐幾里得數(shù)據(jù) (如圖、點(diǎn)云和流形) 上使用DL的創(chuàng)新,促進(jìn)了圖神經(jīng)網(wǎng)絡(luò) (graph neural networks,GNNs)。大多數(shù)GNN變體采取的核心形式是神經(jīng)信息解析,其中來自圖中每個(gè)節(jié)點(diǎn)的信息使用神經(jīng)網(wǎng)絡(luò)進(jìn)行交換和迭代更新,從而產(chǎn)生穩(wěn)健的表示。PyTorch Geometric通過利用稀疏的GPU加速為信息解析API提供CUDA內(nèi)核。Deep Graph Library-LifeSci統(tǒng)一了幾個(gè)開創(chuàng)性的工作,引入了一個(gè)平臺無關(guān)的API,以便在生命科學(xué)中輕松整合GNN,特別是在藥物發(fā)現(xiàn)方面。圖形的數(shù)學(xué)表示法簡潔地捕捉了分子的圖形結(jié)構(gòu),這意味著GNNs在CADD中具有潛在的巨大用途。 Duvenaud等人的研究表明,在一些基準(zhǔn)數(shù)據(jù)集上,藥物的學(xué)習(xí)圖表征優(yōu)于圓形指紋 (circular fingerprints)。受門控GNN的啟發(fā),PotentialNet在基于配體的多任務(wù) (電子特性、溶解度和毒性預(yù)測) 中表現(xiàn)出更好的性能。其他幾項(xiàng)研究表明,當(dāng)幾何特征 (如原子距離) 也被考慮在內(nèi)時(shí),預(yù)測性能有所提高。Torng等人使用圖自動編碼器從氨基酸殘基中學(xué)習(xí)蛋白質(zhì)表征,以及蛋白質(zhì)口袋的圖表征。然后將這些向量與藥物分子的圖形表示相連接,并將其輸入MLP,以預(yù)測藥物與蛋白質(zhì)的關(guān)系。Gao等人使用RNNs和GNNs分別對蛋白質(zhì)序列和藥物的原子圖學(xué)習(xí)蛋白質(zhì)和藥物嵌入。一種報(bào)道的流行的藥物再利用方法涉及知識圖譜,這些大型知識圖譜是由疾病、藥物和適應(yīng)癥之間的已知相似性建立的。Gaudelet等人對GNN的CADD應(yīng)用進(jìn)行了廣泛的回顧。 Reinforcement learning 強(qiáng)化學(xué)習(xí) (Reinforcement learning) 是人工智能的一個(gè)分支,通過優(yōu)化基于獎(jiǎng)勵(lì)和懲罰的策略來模擬決策。隨著DL的滲透,深度強(qiáng)化學(xué)習(xí)已經(jīng)在CADD中找到了應(yīng)用,特別是在新藥設(shè)計(jì)中,通過使分子具有理想的化學(xué)特性。在GNN上訓(xùn)練的深度強(qiáng)化學(xué)習(xí)被進(jìn)一步證明可以提高生成的分子結(jié)構(gòu)的有效性。強(qiáng)制執(zhí)行有化學(xué)意義的行動,同時(shí)圍繞化學(xué)性質(zhì)優(yōu)化獎(jiǎng)勵(lì),產(chǎn)生有用的線索,將化學(xué)領(lǐng)域的知識傳授給其他主要是黑箱的DL解決方案。 利用GPU和DL擴(kuò)大虛擬篩選的規(guī)模 基于結(jié)構(gòu)的虛擬篩選和基于配體的虛擬篩選旨在根據(jù)計(jì)算出的化合物與靶點(diǎn)的結(jié)合親和力對其進(jìn)行排序,并分別將小分子之間的結(jié)構(gòu)相似性推斷為功能等同性。隨著可購買的配體庫的指數(shù)式增長,已經(jīng)包括數(shù)百億的可合成分子,人們對擴(kuò)大傳統(tǒng)虛擬篩選的操作規(guī)模,對對接計(jì)算的并行化或基于DL的加速越來越感興趣。 最近開發(fā)了一些基于結(jié)構(gòu)的虛擬篩選方法,以有效地篩選數(shù)十億條的化學(xué)庫。VirtualFlow代表了這種平臺的第一個(gè)例子,它允許在幾個(gè)星期內(nèi)在大型CPU集群 (約10,000個(gè)核心) 上篩選10億個(gè)分子,同時(shí)顯示出線性擴(kuò)展行為。與VirtualFlow和其他基于CPU的方法不同,使用OpenCL和CUDA庫對對接算法進(jìn)行GPU加速,通過將整個(gè)蛋白質(zhì)表面劃分為任意獨(dú)立的區(qū)域 (或斑點(diǎn)) 或在異構(gòu)計(jì)算系統(tǒng)中結(jié)合多核CPU架構(gòu)和GPU加速器,部分解決了高通量瓶頸問題。這種策略的一個(gè)最新例子是Autodock-GPU,它通過并行化姿勢搜索過程,在大型GPU集群[如Summit超級計(jì)算機(jī) (約27,000個(gè)GPU) ]上一天內(nèi)可以篩選出10億個(gè)分子。因此,這些在高性能計(jì)算上利用GPU計(jì)算的方法將可能成為從大型、多樣的化學(xué)庫中識別新的先導(dǎo)化合物,或加速其他基于結(jié)構(gòu)的方法,如反向?qū)印H欢?jì)算成本仍然很高,對于無法訪問超級計(jì)算集群的藥物發(fā)現(xiàn)機(jī)構(gòu)來說,可能是難以承受的。 另一方面,最近出現(xiàn)了其他基于結(jié)構(gòu)的虛擬篩選平臺,利用DL預(yù)測和分子對接來促進(jìn)從計(jì)算資源有限的大型庫中選擇活性化合物。這些方法的共同策略是實(shí)施經(jīng)典計(jì)算篩選分?jǐn)?shù)的DL仿真器,其推斷速度比傳統(tǒng)對接高一個(gè)數(shù)量級。預(yù)測性DL模型是使用各種化學(xué)結(jié)構(gòu)表征建立的,從分子指紋到更復(fù)雜的嵌入,以過濾掉化學(xué)庫的大部分分子。最早開發(fā)的方法之一,深度對接,依賴于一個(gè)完全連接的MLP模型,該模型用化學(xué)指紋和庫中一小部分的分?jǐn)?shù)來訓(xùn)練,然后用來預(yù)測剩余分子的對接分?jǐn)?shù)等級,允許在不對接的情況下刪除低排名條目。深度對接最初由Ton等人部署,使用Glide對SARS-CoV-2主要蛋白酶從ZINC15中篩選出13億個(gè)分子。最近,Gentile等人還將其連續(xù)應(yīng)用于不同的對接程序,以篩選出400億個(gè)針對SARS-CoV-2主蛋白酶的市售分子,從而發(fā)現(xiàn)了新的經(jīng)實(shí)驗(yàn)證實(shí)的抑制劑骨架。其他類似的方法也被提出來,這些方法依賴于預(yù)測對接結(jié)果的DL模型,如MolPAL和AutoQSAR/DeepChem。Hofmarcher等人也在ZINC數(shù)據(jù)庫上進(jìn)行了基于配體的虛擬篩選,該數(shù)據(jù)庫有超過10億個(gè)化合物,使用RNN對潛在的SARS-CoV-2抑制劑進(jìn)行排序。與粗暴的方法相比,這些基于DL的方法可能在使學(xué)術(shù)研究小組和小型/中型企業(yè)都能獲得化學(xué)空間方面發(fā)揮重要作用。 支持GPU的DL促進(jìn)開放科學(xué)和藥物發(fā)現(xiàn)的民主化 這里介紹的CADD中DL的集成,極大地促進(jìn)了全球藥物發(fā)現(xiàn)的民主化和開放科學(xué)的努力。開源的DL軟件包DeepChem、ATOM、Deep Docking、MolPAL、OpenChem、GraphInvent和MOSES等,使用流行的機(jī)器學(xué)習(xí)庫,包括 (但不限于) scikit-learn、Tensorflow和Pytorch,簡化了DL策略與藥物發(fā)現(xiàn)管線的整合。對DL模型的大數(shù)據(jù)集的需求不斷增長,自然會鼓勵(lì)數(shù)據(jù)共享的做法,并呼吁更廣泛的開放數(shù)據(jù)政策。此外,云原生計(jì)算中的GPU加速和面向微服務(wù)的架構(gòu)可以使CADD方法免費(fèi)和廣泛使用,有助于實(shí)現(xiàn)計(jì)算模塊和工具,以及架構(gòu)、平臺和用戶界面的標(biāo)準(zhǔn)化。DL解決方案可以利用公共云服務(wù)的優(yōu)勢,如亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云平臺和微軟Azure,通過降低成本促進(jìn)藥物發(fā)現(xiàn)。 盡管這些新的DL支持的建模機(jī)會令人興奮,但CADD科學(xué)家需要對DL技術(shù)的預(yù)期影響持謹(jǐn)慎態(tài)度。現(xiàn)實(shí)的期望需要從20多年來數(shù)據(jù)驅(qū)動的分子建模的經(jīng)驗(yàn)教訓(xùn)和最佳實(shí)踐中得出。例如,數(shù)據(jù)的質(zhì)量、數(shù)量和多樣性不僅會妨礙CADD模型的準(zhǔn)確性,也會妨礙其整體的通用性。因此,數(shù)據(jù)清理和整理將繼續(xù)發(fā)揮重要作用,它可以直接決定這種DL應(yīng)用的成功或失敗。 另一方面,使用來自指導(dǎo)性實(shí)驗(yàn)或高水平計(jì)算機(jī)模擬的動態(tài)數(shù)據(jù)集可以促進(jìn)主動學(xué)習(xí)策略的使用。交互式訓(xùn)練和驗(yàn)證可以大大提高模型的質(zhì)量,正如AutoQSAR工具所實(shí)現(xiàn)的那樣。除了預(yù)測模型,DL解決方案在結(jié)合生成模型和基于RL的決策方法時(shí)特別有用。對基于獎(jiǎng)勵(lì)和懲罰的規(guī)則進(jìn)行優(yōu)化,可以使具有所需化學(xué)和功能特性的化學(xué)結(jié)構(gòu)得到前所未有的"點(diǎn)菜式"設(shè)計(jì)。這種在新藥設(shè)計(jì)中同時(shí)強(qiáng)制執(zhí)行化學(xué)和生物意義上的行動的方法,代表了與更傳統(tǒng)的黑箱DL解決方案的巨大差異。 開放科學(xué)的努力正受益于最近的端到端DL模型,這些模型可以在藥物發(fā)現(xiàn)的所有階段使用GPU來實(shí)現(xiàn)。最近開發(fā)的一個(gè)這樣的平臺是IMPECABLE,它集成了多種CADD方法。Al Saadi等人將分子動力學(xué)在預(yù)測結(jié)合自由能方面的優(yōu)勢與對接在姿勢預(yù)測方面的優(yōu)勢相結(jié)合。他們的解決方案不僅實(shí)現(xiàn)了虛擬篩選的自動化,而且還實(shí)現(xiàn)了lead的細(xì)化和優(yōu)化。 NVIDIA Clara Discovery是一個(gè)由GPU加速的框架、工具和應(yīng)用程序組成的集合,用于計(jì)算藥物發(fā)現(xiàn),涵蓋分子模擬、虛擬篩選、量子化學(xué)、基因組學(xué)、顯微鏡和自然語言處理。這些平臺旨在開放和交叉兼容,并有望加速整個(gè)生物制藥領(lǐng)域不同數(shù)據(jù)源的整合,從研究論文、病人記錄、癥狀和生物醫(yī)學(xué)圖像到基因、蛋白質(zhì)和候選藥物。 許多主要的硬件生產(chǎn)商現(xiàn)在利用他們的計(jì)算專長,通過采用多個(gè)GPU集群來訓(xùn)練大容量的DL模型,用于反應(yīng)預(yù)測、分子優(yōu)化和新分子生成,從而進(jìn)入超級計(jì)算的領(lǐng)域。CADD平臺對制藥終端的DL模擬的采用,可以使包含數(shù)百億化合物的藥庫上的藥物發(fā)現(xiàn)變得可行,即使是那些沒有獲得精英計(jì)算設(shè)施的小公司和學(xué)術(shù)實(shí)驗(yàn)室。 由于法律上的復(fù)雜性,機(jī)構(gòu)間共享專有數(shù)據(jù)仍然是簡化藥物發(fā)現(xiàn)研究的瓶頸。聯(lián)邦學(xué)習(xí)允許參與機(jī)構(gòu)在各自的非共享數(shù)據(jù)上進(jìn)行本地化訓(xùn)練。訓(xùn)練好的本地模型然后聚集在一個(gè)中央服務(wù)器上,以便更廣泛地訪問。因此,聯(lián)邦學(xué)習(xí)通過在一定程度上緩解數(shù)據(jù)交換的挑戰(zhàn)來支持民主化,盡管有效的模型聚合仍然是一個(gè)活躍的研究領(lǐng)域。 結(jié)論和展望 現(xiàn)代藥物發(fā)現(xiàn)已經(jīng)受益于最近DL模型和GPU并行計(jì)算的爆炸性增長。在硬件進(jìn)步的推動下,DL在藥物發(fā)現(xiàn)問題上表現(xiàn)得非常出色,從虛擬篩選和QSAR分析到生成性藥物設(shè)計(jì)。特別是新藥設(shè)計(jì)一直是GPU計(jì)算進(jìn)步的主要受益者之一,因?yàn)樗昧舜笕萘亢透邊?shù)化的模型 (如VAE和GANs),不使用GPU等硬件加速器是無法合理部署的。近年來,GPU硬件的性價(jià)比不斷提高,DL對GPU的依賴,以及DL在CADD中的廣泛采用,都體現(xiàn)在CAS中超過50%的"化學(xué)中的人工智能"文獻(xiàn)是在過去4年中發(fā)表的。此外,混合的人工智能方法已經(jīng)被采用,它將傳統(tǒng)的分子模擬與DL相結(jié)合,用于快速準(zhǔn)確地篩選接近數(shù)千億分子的超大型化學(xué)庫。我們預(yù)計(jì),越來越強(qiáng)大的GPU架構(gòu)的可用性,加上先進(jìn)的DL策略和GPU加速算法的發(fā)展,將有助于使全世界更廣泛的科學(xué)界能夠負(fù)擔(dān)得起和獲得藥物發(fā)現(xiàn)。 DL算法的另一個(gè)關(guān)鍵驅(qū)動力是"大數(shù)據(jù)"的可用性。隨著基因測序和高通量篩選的日益便捷,大量的原始數(shù)據(jù)現(xiàn)在很容易被數(shù)據(jù)驅(qū)動的計(jì)算化學(xué)的研究人員獲得。然而,對于監(jiān)督學(xué)習(xí)方法來說,高質(zhì)量的標(biāo)記數(shù)據(jù)仍然是昂貴的。因此,建立在從輔助數(shù)據(jù)集中學(xué)習(xí)的方法、使用遷移學(xué)習(xí)的知識轉(zhuǎn)移和零樣本學(xué)習(xí)等標(biāo)簽保守方法成為藥物發(fā)現(xiàn)的DL的核心部分。為藥物發(fā)現(xiàn)而開發(fā)的任何DL方法的可靠性和可推廣性,關(guān)鍵取決于來源數(shù)據(jù)的質(zhì)量。因此,數(shù)據(jù)清洗和整理發(fā)揮著重要作用,可以完全確定這種DL應(yīng)用的成敗,因此,深入探索集中的、經(jīng)過處理的和良好標(biāo)記的數(shù)據(jù)庫的所謂好處仍然是一個(gè)開放的研究領(lǐng)域。 總的來說,藥物發(fā)現(xiàn)和機(jī)器學(xué)習(xí)的研究人員已經(jīng)有效地合作,以確定CADD的子問題和相應(yīng)的DL工具。我們相信,在未來的幾年里,這些應(yīng)用將得到微調(diào)和成熟,這種合作將進(jìn)一步發(fā)展到生命科學(xué)的其他未探索的領(lǐng)域。因此,聯(lián)邦學(xué)習(xí)和協(xié)作式機(jī)器學(xué)習(xí)正在獲得牽引力,我們相信它們將成為民主化藥物發(fā)現(xiàn)革命的先聲。 參考資料 Pandey, M., Fernandez, M., Gentile, F. et al. The transformational role of GPU computing and deep learning in drug discovery. Nat Mach Intell 4, 211–221 (2022). https:///10.1038/s42256-022-00463-x |
|