基因組(Genome)是指人體所有遺傳信息的總和,即人體每個體細胞中的全套基因,包括DNA序列中的60億個A、T、C、G堿基[1, 2]。20世紀90年代初開始,多國科學家參加了全球范圍內(nèi)的全面研究人類基因組的重大科學項目。旨在闡明人類基因組的堿基配對,破譯人類全部遺傳信息,能夠使人類第一次在分子水平上全面地認識自我[1]。 Figure 1 人類基因序列簡圖 圖片來自: pic.people.com.cn 歷時十年的人類基因組草圖已經(jīng)繪制完成,這是人類科學史上的一個重大突破。然而,進行基因測序的成本問題,包括資金成本和實踐成本,一度被認為是基因測序無法克服的問題。隨著高通量技術(shù)的發(fā)展,基因測序的價格已經(jīng)降低到了原來的幾十萬分之一[3]。2000年左右,基因測序需要3000萬美元,到2015年,基因測序的成本已經(jīng)跌破1500美元,如今,基因測序只需不到100美元。這個價格幾乎是所有人都能承擔的起的,并且隨著技術(shù)的發(fā)展,價格可能會進一步下降,這也造就了基因組的大數(shù)據(jù)。 Figure 2基因數(shù)據(jù)量大 圖片來自 gouwu.mediav.com 人類的基因組包括60億個堿基對,這是什么樣的概念呢?如果要把一個人所有測得的數(shù)據(jù)全部打印出來裝訂成冊。以每頁300詞,每本100頁的話,可能要裝訂100萬冊。當然,這還只是一個人的基因序列,如果把全球60億人的數(shù)據(jù)收集起來那是相當可怕的。然而,擁有這些數(shù)據(jù)巨大的數(shù)據(jù)并不水我們的最終目的[4]。面對浩瀚如海的數(shù)據(jù),我們的了解的僅僅是冰山一角,這些計算也超過了人類計算的范疇[4]。據(jù)文獻報道,我們能了解只有3%,還有97%的DNA序列,雖然已經(jīng)被我們所檢測出來,但我們并不能知其所以然。那么多數(shù)據(jù),僅僅靠人力閱讀,工作量可以說是非常的巨大了。那么,有沒有什么辦法結(jié)局這樣的問題呢? 有,答案是人工智能。人工智能(ArtificialIntelligence,AI)也稱機器智能,是指由人工制造出來的系統(tǒng)所表現(xiàn)出來的智能[5],是研究、開發(fā)、模擬、延伸和拓展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的科學。簡單來說,人工智能是研究使計算機來模擬人的某些思維的過程的智能行為,包括學習、推理、思考、規(guī)劃等的學科,主要包括計算機實現(xiàn)智能的原理、制造與類似于人腦智能的計算機,使計算機能實現(xiàn)更高層次的應(yīng)用。 Figure 3人工智能用于基因序列解讀 圖片來自sike.news.cn 大數(shù)據(jù)目前面臨的挑戰(zhàn)有數(shù)據(jù)端的計算速度快,增速極快,幾乎是指數(shù)級的增長,而在樣本端也存在樣本量較小,樣本端的質(zhì)量問題。疾病相關(guān)的復(fù)雜化,包括動態(tài)的,有向的,雙色的,非線性的[4, 6, 7]。AI能夠完成人類所能完成的計算,同時能夠比人腦做的更快、更準確。因此,利用AI進行基因大數(shù)據(jù)的解讀和分析是解決剩下的一大部分內(nèi)容最佳的方案[2]。AI和基因相輔相成。某個疾病與疾病的相關(guān)性是根據(jù)統(tǒng)計學統(tǒng)計出來的。比如,研究癌癥和人體基因的關(guān)系時,首先,要統(tǒng)計大量的癌癥患者的基因數(shù)據(jù),然后進行比對。在篩選出相似的基因,即選定可能致癌的基因[5]。 但即使基因檢測獲得了大量數(shù)據(jù),對于疾病的指向性依據(jù)是有限的[7, 8]。而面對這樣的情況,我們加入AI能夠深度學習To C端數(shù)據(jù)庫的功能或許有所助益。然而如何進行To C端數(shù)據(jù)庫的功能呢?面對個體浩瀚的基因,如何計算一個人的精準醫(yī)學呢?[9]大數(shù)據(jù)就需要更加強大的計算能力,最終會復(fù)雜到需要運用目前最先進的超級計算機。當指數(shù)數(shù)目達到上百個時,即使最快的超級計算機也只能望洋興嘆[11, 12]。 那么,既然浩瀚的數(shù)據(jù)可以被計算,浩瀚的基因可不可以被計算呢? DNA計算是利用巨量的不同的核酸分子雜交,產(chǎn)生類似某些數(shù)學運算的一種組合結(jié)果并對其進行篩選來完成的[10]。“DNA計算機”模型首先是由Adleman博士于1994年提出來的[6]。其實驗結(jié)果公諸于世后,引起世界各國科學家極大關(guān)注。這個實驗的成功開創(chuàng)了在分子水平進行計算的先例,證明了DNA計算的強大能力,突破了硅工業(yè)領(lǐng)域中難以達到的材料尺寸限制。它證明了DNA作為一種數(shù)據(jù)存儲結(jié)構(gòu)的獨特應(yīng)用前景,而這些正是現(xiàn)在電子計算機所望塵莫及。阿德拉曼的發(fā)現(xiàn)告訴我們,生命細胞和計算是有聯(lián)系的;在生物學和計算機科學的交叉領(lǐng)域里,有很多秘密正等待著人們?nèi)ソ议_[13]。 DNA計算機是一種生物形式的計算機,利用DNA建立的一種完整的信息技術(shù)形式,以編碼的DNA序列為運算對象,通過分子生物學的運算操作以解決基因組的計算問題[16]。與傳統(tǒng)的計算機相比,它的體積更小,存儲量更大,運算速度較快,同時耗能較低,并且具有并行性。目前,DNA計算機的應(yīng)用的基本模式是數(shù)學模型、非線性問題、基因分析以及圖與優(yōu)化模型等的組合,如下圖所示[10, 17]。 Figure 4 DNA計算機的基本原理 [15] 2001年11月,以色列科學家成功研制成世界第一臺DNA計算機雛形,它的輸出、輸入和軟硬件全由在活性有機體中儲存和處理編碼信息的DNA分子組成[13]。它的最大優(yōu)點是充分利用了DNA分子具有海量存儲遺傳密碼以及生化反應(yīng)的海量并行性。因而,以DNA計算模型為背景而產(chǎn)生的DNA計算機必有海量的存儲以及驚人的運行速度。1 立方米的 DNA 溶液,可存儲 1 萬億億的二進制數(shù)據(jù)。十幾個小時的 DNA 計算,相當于所有電腦問世以來的總運算量[14]。2002年,日本OLYMPUS研制出全球第一臺真正能夠投入商業(yè)應(yīng)用的DNA計算機。他們開發(fā)的這種計算機有分子計算機組件和電子計算機組件兩部分組成。前者用來計算分子的DNA組成,以實現(xiàn)生化反應(yīng),搜索并篩選出正確的DNA結(jié)果,后者則可以根據(jù)這些結(jié)果進行分析[19, 20]。 Figure 5第一臺DNA計算機 圖片來自tech.sina.com.cn 美國加州斯克里普斯研究院和以色列理工學院科學家開發(fā)出一種生物計算機,目前可用于破譯存儲在DNA芯片中的加密圖像。這是首次通過實驗演示基于DNA計算的分子圖像密碼系統(tǒng)。由硬件、軟件、輸入和輸出4個部分構(gòu)成,輸入、輸出的是電子信號,硬件是各種金屬、塑料、導(dǎo)線、晶體管的復(fù)雜組合,軟件是一系列電子信號形式的機器指令[21]。并且可能具有較為輕便易攜帶的效果,很有可能具有較高的經(jīng)濟效益。美國加利福尼亞理工學院的科學家在顯微鏡下將DNA折疊成有趣的外型。同年夏季,這種“DNA折紙”技術(shù)獲得了新的突破,可以用于建造超小型計算機芯片[22, 23]。英國研究人員找到了一種新方法,可以用把計算機常用的文件格式編碼進DNA中。隨著DNA測序和合成的價格持續(xù)下降,研究人員估計,DNA這種生物存儲介質(zhì)將在未來幾十年內(nèi)變得具有競爭力[24]。2目前,DNA的應(yīng)用還只是集中在醫(yī)學領(lǐng)域方面,例如,2007年,美國用DNA計算機實現(xiàn)RNA干擾機制。這種DNA計算機可進行基本的邏輯工作,能夠用于人工培養(yǎng)腎細胞;2006年,美國用DNA計算機快速準確診斷禽流感病毒。能夠更快、更準確的檢測出西尼羅河病毒和禽流感病毒以及其他疾病。 DNA計算機出現(xiàn),使在人體內(nèi)、在細胞內(nèi)運行的計算機研制成為可能,它能夠充當監(jiān)控裝置,發(fā)現(xiàn)潛在的致病變化,還可以在人體內(nèi)合成所需的藥物,治療癌癥、心臟病、動脈硬化等各種疑難病癥,甚至在恢復(fù)盲人視覺方面,也將大顯身手。但DNA計算機的應(yīng)用不會局限在醫(yī)學研究的領(lǐng)域,在電子存儲、基因編程等方面都會有較為重要的優(yōu)勢。未來DNA在基因編程、疑難疾病診治等方面具有重要的優(yōu)勢。 雖然,很多問題還有待克服,但是AI和DNA計算機的時代遲早會到來。那么,你做好迎接AI和“DAN計算機”沖擊的準備了嗎? 【參考文獻】 1. 宗安民, 徐力, and 韓倩, 人類基因組計劃的現(xiàn)狀和展望.河南醫(yī)學研究, 2001(02): p. 175-177. 2. (美)埃里克·托普, 未來醫(yī)療 智能時代的個體醫(yī)療革命. 2016: 杭州:浙江人民出版社. 322. 3. 華大基因編著, 基于高通量技術(shù)的人類疾病組學研究. 華大基因. 50. 4. Braich, R.S., et al., Solution of a 20-variable 3-SAT problem on aDNA computer.Science, 2002. 296(5567):p. 499-502. 5. Winston著;崔良沂,趙永昌譯, 美.P.H., 人工智能 第3版. 2005: 北京:清華大學出版社. 525. 6. Adleman, L.M., Molecular computation of solutions tocombinatorial problems. Science, 1994. 266(5187):p. 1021-4. 7. Aubert, N., et al., Computer-assisted design for scaling upsystems based on DNA reaction networks. J R Soc Interface, 2014. 11(93): p. 20131167. 8. Taghipour, H., M.Rezaei, and H.A. Esmaili, Solving the 0/1knapsack problem by a biomolecular DNA computer. Adv Bioinformatics, 2013. 2013: p. 341419. 9. Su, X. and L.M. Smith,Demonstration of a universal surface DNAcomputer. Nucleic Acids Res, 2004. 32(10):p. 3115-23. 10. Grody, W.W., Molecular genetics. Introduction. ArchPathol Lab Med, 1993. 117(5): p.470-2. 11. Rogowski, L. and P.Sosik, The laws of natural deduction ininference by DNA computer.ScientificWorldJournal, 2014. 2014: p. 834237. 12. Sakowski, S., et al., A detailed experimental study of a DNAcomputer with two endonucleases. Z Naturforsch C, 2017. 72(7-8): p. 303-313. 13. 黃俊民,顧浩等編著, 計算機史話. 2009: 北京:機械工業(yè)出版社. 39 14. 鄭楊, 記., 我國在DNA計算機領(lǐng)域取得重要進展. 經(jīng)濟日報. p. 004 15. 許進 and 張雷, DNA計算機原理、進展及難點(Ⅰ):生物計算系統(tǒng)及其在圖論中的應(yīng)用.計算機學報, 2003(01): p. 1-11 16. Zhang, Z.Z., J. Zhao,and L. He, [Progress in molecular biologystudy of DNA computer].Yi Chuan Xue Bao, 2003. 30(9): p. 886-92. 17. Sarkar, M., P. Ghosal,and S.P. Mohanty, Exploring theFeasibility of a DNA Computer: Design of an ALU Using Sticker-Based DNA Model.IEEE Trans Nanobioscience, 2017. 16(6):p. 383-399. 18. Patricia,Reaney,宮宇峰, 全球首臺DNA計算機問世.英語文摘, 2002(第1期): p. 34-35. 19. DNA計算機告別科幻時代.發(fā)明與創(chuàng)新(綜合版), 2001(第1期): p. 40-40. 20. 顏世宗, DNA計算機告別科幻時代.電子科技雜志, 2000(第6期): p. 24-25. 21. 美科學家開發(fā)生物計算機 能破譯DNA芯片圖像.生物醫(yī)學工程研究, 2012(第3期): p. 156. 22. 美國DNA計算機解題能力創(chuàng)新高.世界科技研究與發(fā)展, 2002(第3期): p. 104. 23. 美國科學家發(fā)明“DNA折紙術(shù)”.生物技術(shù)世界, 2006(第2期). 24. 計算科學:用DNA取代硬盤.科技創(chuàng)業(yè), 2013(第1期): p. 124. 25. 硅谷, 科學家將DNA制成“活硬盤”.硅谷, 2012(第11期). |
|