【原】鎖死 AI 基礎研究的兩個「智子」是什么？

昵稱71360118 2021-08-25

展開全文

不像20世紀初飄在物理學上空的兩朵烏云，如今AI面對的兩個困境似乎更加縹緲無蹤。

”

作者 | 青暮維克多

編輯 | 王亞峰

在小說《三體》中，當物理學家楊冬得知地球基礎科學是被“人為”鎖死的真相之后，她陷入了絕望的深淵。

她畢生所堅信的“自然是客觀的、可理解的”理念，在頃刻間被完全推翻。

看著雜亂無章的數據，楊冬似乎感覺到她做的每一次實驗，在每一個基本粒子背后，都有一個比麥克斯韋妖還要頑皮的智子，在嘲笑著她困惑的表情。

智子，是三體人打造出來的人工智能，它能以基本粒子的形態存在，并可同時攻擊地球上的大量基本粒子實驗裝置，使得實驗數據出錯，或者隨機化，從而鎖死地球的基礎科學。

回到現實，當今人類創造出來的人工智能，仍舊十分幼稚，能處理的問題非常有限，尤其是在深度學習似乎觸達瓶頸后，不少人開始質疑，現階段的人工智能基礎理論研究，似乎已經進入了停滯期。

人工智能真的停滯了嗎？智子隱藏在什么地方？

第一個智子：官僚、抱團、急功近利

物理學家費米說過，科學永遠是理論和實驗兩條腿走路。理論和實驗兩者之間存在gap，在科學發展史上其實是常態。

當前限制人工智能領域發展的第一個智子，卻夾在現實世界的“人心”和“利益”中央。

這個智子，仿佛是小說里化身成人形的持刀少女一樣，以武力脅迫人們在狹窄的領域里拼搶和艱難生存。

但同時，很多人還是既得利益者，或者渾然不自知。

學術“抱團”與論文“放水”

抱團，是學術界常見的現象。有時候適當的拉幫結派，往往有利于學術界的團結和交流融合。

但如果摻雜的利益過多，便會劣幣驅逐良幣。

圖注：來源，2021年斯坦福AI指數報告

數據統計，2020 年， AI 期刊論文數量是 2000 年的 5.4 倍。arXiv上2020年發表的AI論文比2015年相比翻了6倍。

AI頂級會議投稿數量劇增，是好是壞，一直存在爭議。

有人說它是AI崛起的捷徑，也有人定性為AI技術“越來越水”的標志，有過AlphaGo在圍棋領域圍剿李世石的神來之筆，也有論文抄襲屢禁不止的悲哀。

但必須承認的是，人多就會造成魚龍混雜，學術不端事件也正在損害AI社區。

今年5月份，ACM Fellow、美國里普羅維登斯布朗大學計算機科學卓越教學的羅伊斯家族教授邁克爾·利特曼（Michael L. Littman）在ACM通訊上發文指出一個或許普遍存在，但卻沒人注意的學術道德現象：共謀。

幾位作者提前串通好，將他們的論文提交至頂會，并相互告知自己的論文標題，故意違反盲審規則，并造成重大未披露的利益沖突。

更有甚者，如果其他評審者有影響評審結果的可能，這些共謀者會向這些評審者發送威脅性電子郵件。

對于上述事件的發生，羅切斯特大學教授、ACM Fellow羅杰波在接受雷鋒網的采訪中表示，這背后只有一種原因：學者急功近利。“頂級會議、期刊中的署名論文數量和研究者的聲譽、晉升息息相關。”

"學術界要有學術界的規范，不能夠什么事情都沒有底線，不能跟熟人打招呼，不能抄襲，更不能看到別人正在進行好的工作就打壓，對學術要有敬畏之心。"

羅杰波一再強調，同行評審是評價學術成果的重要手段，凡是重大的理論突破，只有經過同行認可，才能發揮它最大的作用。但同行評審的基礎是建立在信譽基礎上，"通俗的講，就是不放水"。

而對于學術界“抱團”的另一個現象，電子科技大學教授、IEEE Fellow李純明表示，其帶來的影響可能比想象的要嚴重：最早一批在深度學習領域，通過調參、灌水成功發表論文的學者，他們已經形成了利益團體，事實上也已經掌握了一定的學術資源，他們在會議、論壇、期刊擁有審稿權，能夠決定一些沒有創新的論文（灌水）被接收。

“反復調參、只對原有網絡做修修補補、缺乏理論指導......只要有恰好調節合適的效果，就能寫出一篇頂會論文，里面大多都'只寫how不寫why’，這些都是灌水學者常用的手法。他們甚至以此為榮，經常在交流中互相攀比論文數量，”李純明說道。

這種風氣甚至被一些學者利用，來“忽悠”審稿人，“比如，為了體現論文的創新性，他們會在論文中寫一些創新點，而在他們的算法實現中并沒有都用到它們，或者起的實質作用并不大，實際上主要還是靠現有的深度學習方法或者加上一些小的implementation trick。另外，以圖像分割的論文為例，有人在論文中不僅采用了深度學習，也用了傳統方法對深度學習分割結果做了后處理，有時還能夠顯著改進深度學習直接得到的分割結果；但為了迎合做深度學習的審稿人，他們可能會輕描淡寫甚至不提傳統方法的作用，而是突出在深度學習框架里的創新點所起的作用。這幾種文章發表以后，作者通常也不愿意公開所有的源代碼。”

這批人有的已經博士畢業，走上學術舞臺，成為導師，他們的學術風格又影響了他們的學生，然后這些學生博士畢業，也走上了學術舞臺........目前來看，可能有第二代甚至第三代這種“灌水學者”都已經成為導師。

弦外之音、話里話外，深度學習甚至人工智能可能會敗于“傳承”。

“所以，為了鼓勵其他AI領域的發展，頂級學術會議能否規定某些方向論文接收比例？畢竟，通過人工智能道路上，不止深度學習這一條路徑，”李純明表示。

江湖不是打打殺殺，江湖是人情世故。這一著名影視經典名句是對社會人際關系的最好寫照。但在學術領域，卻恰恰相反，只有憑真本事，拿出過硬的工作成果，才有研究者follow，才能推動AI理論的突破。

工業界的“學術短視”

談完學術界，再看工業界。

"近年來國內在人工智能會議上屢創佳績，但其實這背后更多反映的，是國內人工智能的人力物力投入領先全球，而不代表學術層面上的領先。"在對話過程中，羅杰波突然向我們拋出了一個尖銳的觀點。

“科技企業，在人工智能頂會上頻頻刷足存在感，其實更多是工程能力的證明，而非基礎研究的成就。”一AI頂會的大會主席向雷鋒網評價到。

據斯坦福大學在《人工智能指數年度報告）中稱：更多的 AI 博士畢業生選擇在工業界工作，增長比例約為48%。

在2018年計算機視覺Top100的論文中，來自工業界的論文數更是一度超過學界，這意味著，不僅在量上，在質上，業界的學術能力正在“追趕”學術界。

業界搞學術，這可能是AI圈獨有的風景。

據李純明介紹：“當前的AI，深度學習是主流，深度學習需要算力和數據加持，業界在這方面資源豐富，發起論文來更加得心應手。”

例如，醫療AI的訓練數據，簡單的“拷貝”并不能滿足模型訓練的需要，只有讓醫生耗費精力標注、分割才能在在模型上使用，這會耗費很大的成本，學術界很難做到。

所以在拼錢和計算資源上，學術界甘拜下風。

但企業搞學術也存在問題。在生存壓力的迫使下，其研究往往短視。

例如在高校和公司的合作項目中，資助的一方往往會在合同中表明：實習生三個月出成果，教授一年完成任務。但是一般真正“有突破”的研究需要3~5年甚至更多年的時間。

大家常常說學者要坐10年冷板凳，但實際上，在業界用算力+數據和學術界的“腦力”合作的過程中，在時間維度上沒有足夠的耐心。

即使業界自己的AI Lab開始會打著“不做業務，只做基礎研究和技術積累”的旗號。但對自己的研究員也會設置論文數量KPI、限定研究方向，甚至制定營收考核指標。這可能也是最近AI大牛紛紛離職、網友在知乎上發出疑問“2021年各家大廠的AI lab現狀如何？”的原因之一。

另外，學術論文和工業應用落地存在巨大的差距。

例如當前的一些算法可能在數據集上表現非常好，大數據確實也對模型訓練有非常多的幫助，但是模型的泛化能力如何還有待考證。

再者，工業實際場景非常復雜，學術論文中的描述非常有限。例如基于人臉識別的駕駛員疲勞檢測系統，在學術層面的討論似乎非常簡單，但是在實際場景中，則需要考慮到是否有遮擋等因素。

最后，學術論文和工業落地在評估指標上也存在差異。學術論文主要關注一些非常技術性的指標，而在實際落地場景中，關心的是業務指標，闖紅燈檢測多大程度上能阻止事故的發生率？節省了多少成本？安全性能提高了多少？這些指標才是企業所關心的。

理想的豐滿與現實的骨感造成的落差導致人們開始對AI期望降低，投入減少，進而導致AI進展緩慢。

但羅杰波也認為，學術會議充斥著大量的工業界論文將只是短暫的現象：算力驅動終究存在瓶頸，而算法創新才能帶來顛覆，新算法idea的產生主要來自學術界，"雖然緩慢，但一直在進行。"

"這幾年先是一窩蜂涌上來鼓吹深度學習，現在又大潑冷水，這其實都是不成熟的表現。即使人工智能在理論上最近沒有什么進步，但這不代表人工智能沒有進步。"

中國的AI困在哪里？

著名的經濟學家林毅夫曾在2017年發表過題為“李約瑟之謎和中國的復興”的演講。在演講中，他從科學革命的角度嘗試回答了“為什么工業革命沒有發生在中國？”這一問題。

他說：

科學革命的精髓是通過運用數學模型來歸納宇宙與自然運行的規律，并且運用可控實驗來驗證數學模型中產生的假說。為什么中國沒有發現這種理解世界運行的新方式？發生科學革命首先必須有對自然現象充滿好奇心和很有悟性的人。對于自然現象充滿好奇心與悟性是一種與生俱來的能力，在人口眾多的中國，應該會有更多具有這種天賦的人。那為什么這些天之驕子沒有找到這種更好的研究自然現象的新方式？

我的解釋指向了中國的社會政治制度。中國有其獨特的科舉制度讓平民百姓可以通過科舉晉升為統治階級。在傳統社會中，成為官員是光宗耀祖且收益最高的工作。所以，考取功名、成為官員對大眾來說極具吸引力。宋朝以后科舉制度要求考生熟記儒家的四書五經，這就導致有才華的年輕人都投身于儒家經典的學習以準備科舉考試。他們沒有學習數學和可控試驗的動力。因此，中國缺乏擁有這兩樣人力資本同時又充滿好奇心的人才，科學革命也就未能應運而生。

知史以明鑒，查古以至今。中國五千年的傳統文化影響著當代中國的每一個人，也影響著各個領域。當年的科舉制度已經“變異”成帽子、職稱以及地位。拿到了一定的帽子就有相應的物質資源，用這些資源繼續換“帽子”........這導致有才華的年輕人都在想辦法提高論文數量，以應對職稱考核、學校評獎。

“不管是論文數目，還是引用數據，只要給學者設定了這種KPI，中國人一定有各種辦法找到方法去解這個目標函數。”在談到中國的學術環境的時候，羅杰波如是說道，“科學研究需要時間來檢驗的，現在正規的AI學術會議都會設置一個時間檢驗獎，目的是回到十年前，看看到底哪些論文是經得起檢驗的工作，因此學術要自由，不能拼數字也不能拼引用。”

他也轉而補充道，“其實，中國也在變好，前段時間有國家也發文，對破除論文“SCI至上”提出明確要求，大家已經注意到了當前科研評價中存在SCI論文相關指標片面、過度、扭曲使用等現象。”

中國改革開放才40多年，但也已經過去40多年了，這意味著還有些時間讓學術界學習大洋彼岸的自由、包容的學術氛圍，同時融匯貫通。但也必須警醒的是：中國僅靠后發優勢，僅靠“模仿”取得的重大突破，無法支撐中國的AI聲震寰宇。留給中國能夠“模仿”的時間不多了。

2000年~2020年間，中國的 AI 期刊論文發表數量超過美國和歐洲，某種程度上象征著影響力的論文引用數在2020年也超過美國。中國宏大的市場，廣闊的AI應用場景，海量的數據，甚至人海戰術，帶來了中國在AI應用端獨特優勢。

但當我們習慣于仰視和羨慕俊俏的山峰時，是否也應注意其腳下根基深厚的遼闊平原？隨著逐步逼近香農定理、摩爾定律的極限，應用落地必定被基礎理論所限制，而基礎理論的發現和創超，不僅靠人民大眾，更是要給那些“對自然現象充滿好奇心和很有悟性的人、團隊”更干凈的學術氛圍。

第二個智子，藏在神經網絡里

盡管近十年來，深度學習展現的威力令人驚奇。

但有一個令科學家困惑不已的地方是，即便不刻意引入隨機性，擁有龐大容量的深度學習模型（神經網絡）似乎在吞食數據的時候仍然不是囫圇吞棗，或者說單純記憶數據，而是細嚼慢咽，消化出了自己的領悟，也就是說，它有很好的泛化能力。它甚至能自發生成對事物的分層解析，類似于我們的大腦結構。

智能有一個簡單的理解就是信息壓縮，比如當我們把一斤蘋果加上兩斤蘋果等于三斤蘋果，抽象成1+2=3（斤），就經歷了一個智能過程，這其中把蘋果的信息過濾了。因為我們注意到，一斤XX加上兩斤XX等于三斤XX的現象，不止在蘋果上出現，還有梨、水等等。然后，我們會嘗試把這個規律應用到其他事物上，發現也是合適的，這樣就實現了泛化，也就是實現了智能的目的。

那么，如何理解上述深度學習的泛化能力奇異現象呢？如果開會的時候，我們手里只有一張紙，那么對于講者的話，我們只能做筆記。但如果有一只錄音筆，我們就會錄音。甚至有手機的話，我們會把整個過程拍下視頻。從紙到錄音筆到手機，它們的容量是逐漸增大的，同時記錄的信息壓縮程度就越小。對比深度學習，在如此大的容量之下，卻能自發形成有序的結構，而不是單純記憶數據，著實令人困惑。

科學家猜想，神經網絡的優化過程存在自發的隨機性，這會使得數據復雜性增大，從而使其容量相對減小。

但這種隨機性的本質是什么？至今沒有得到回答。它仿佛也像智子那樣，在給人類的理解力出難題。幸運的是，這沒有阻礙深度學習的應用。現在人臉識別、語音識別等應用已經走入了我們的日常生活，我們甚至習以為常。

然而一旦出了問題，它所展現出來的缺點，總是讓人跳腳和手足無措，無論是被看不見的東西誤導（對抗攻擊），還是說出“太陽有三只眼睛”（缺乏常識）等等。令人不禁懷疑，仍然是智子在作怪。

其實，深度學習這種表面上的隨機性，或許也來自于其巨大的復雜性。“雖然都會因為問題復雜度增加而使數學變得復雜，但神經網絡的表達式擁有的變量數目，不是物理學的公式可比的，同時前者的表達式里的變量，大多數都沒有對應現實意義，這也是其困難所在。”李純明表示。

智子計劃是基于大時間尺度的考慮，不會立馬顯現效果。類似地，如果理論研究一直原地踏步，AI很可能會在將來遇到瓶頸。

如何理解理論研究的停滯呢？近兩年AI領域在學術研究上似乎正在顯現頹勢，"基本上只有大規模預訓練模型。"羅杰波說道，但他緊接著補充，"本質上，大規模預訓練模型和2012年的AlexNet、2016年的AlphaGo相比，屬于實驗、工程方面的突破，雖然是有應用價值的突破"。

就連近期非常受關注的AlphaFold2，在底層算法原理上仍然基于Transformer架構。"實現這些突破的關鍵，自然還是大數據、大算力。"

羅杰波認為，深度學習在應用落地上還有很大的空間，但大多局限于感知層面，"我們下一步需要在認知、決策層面上努力"。要實現這一點，或許得在理論上取得突破。

感知結合認知是實現智能的關鍵，然而對于智能這個概念，其實還并沒有一個明確的數學定義，因此也尚未有理論去對此進行量化研究，深度學習理論主要集中在已有算法的改進和理解上。因此，AI的理論和實驗之間，似乎存在對話的隔閡。

尤其是在解釋的層面，AI的可解釋性研究大部分集中于復雜模型，而理論層面的解釋型研究則經常選擇在應用中非典型的模型。

接下來，我們將探討AI領域的幾個關鍵方面，涉及感知和認知、可解釋性、理論研究等等，試圖理解人工智能的理論和應用之間的鴻溝，并揭開隱藏于神經網絡的第二個智子的真面目。類似于《三體》中的初次登場形式，第二個智子看不見、摸不著，藏于黑盒子之中，不僅在理論研究中存在，在實驗研究中也存在。

首先，如何理解認知？其實，對于圖像識別這個問題，我們可能都還沒有問對問題。

AI解決“貓識別”問題了嗎？

“貓識別”問題是一個經典的AI問題，盡管吳恩達2011年在谷歌開發的“貓識別”系統，遠遠晚于Yann LeCun的手寫數字識別系統，但正是這個系統讓深度學習聲名遠播。如今吳恩達在《深度學習》課程中，也會經常以“貓識別”問題為例子介紹神經網絡的基本原理。

當時這個“貓識別”系統的訓練和現在無異，系統在輸入了數百萬張貓臉圖片后，就能識別一張圖片是不是貓。

后來很多新的圖像識別模型都沒有走出這個“暴力訓練”的框架，而只是在探索如何更加高效地進行識別。

那么反過來，人類也是以這種方式進行視覺識別的嗎？比如，在對于這只動物，你認為它是什么呢？

其實，這是一只長得像狗的貓。

不對，說錯了。這是一只長得像貓的狗。

正確答案倒不重要，問題是光看照片，是不是兩種說法似乎都能夠接受？

實際上，關于視覺識別這個問題，人工智能領域有一個長期的爭論：識別究竟是目標問題，還是場景問題？

目標問題也就是打標簽，就像上述的貓識別系統和手寫數字識別系統，對一張圖片，打上“是XX、不是XX”的標簽就行。

場景問題則不滿足于打標簽，而是要先回答：我們要識別的對象，和周圍環境是什么關系？對這個問題的回答，決定了該對象應該打上什么標簽。

比如對于上圖中的“貓狗”，我們最終要判斷它是貓還是狗，可以在現實中接觸它，用你的雙手捧起它的兩只前爪，看它是搖尾巴，還是撓你一臉。

也就是說，我們要通過獲得識別對象和其他對象（比如人）之間的交互信息，來判斷對象的類別。當然，如果照片中剛好有它跑去追飛盤或者趴在貓抓板上的信息，就不用冒這個險了。

如今的深度學習，在某種程度上，可以基于場景去進行視覺識別，比如它也可以基于狗的圖片中的草坪，幫助判斷圖片中的對象更可能是狗。

但它不能給出這種關系判斷的顯式依據。同時，這種語境判斷甚至會給模型帶來問題，比如如果模型看到的訓練數據中，狗總是在草坪里出現，那么深度學習就會把草坪的存在當成狗出現的依據。這也是深度學習一直被詬病的捷徑學習問題。

所以，場景不是簡單地通過增加輸入信息就能解決。歸根結底，識別不是簡單的感知問題，而是感知、常識和目的融合的結果，深度學習只學會了感知，上述的“貓狗”識別還需要結合常識。

那么，目的要如何理解呢？簡單來說就是，“拿著錘子，看啥都是釘子。”

如下圖所示，我敢打賭你是第一次見到這種“東西”，通過常識你可以大致判斷這可以作為椅子，因為你可以坐上去，并放松全身肌肉。但如果你不是想坐著看電視，而是在玩躲貓貓呢？這時它就是很好的防護罩了。還有，如果你要搬家，這是不錯的臨時容器。

一般情況下，當一個物體存在二義性的時候，就需要依靠場景識別，而不止是目標識別。

所以，深度學習并沒有解決AI最基本的識別問題。為什么我們還沒有放棄它？

無所不能的黑盒子

是深度學習的無限潛力，讓我們舍不得放棄。

通用近似定理表明，單一隱藏層、無限寬的前饋神經網絡，可以逼近任意的函數（完備的表達能力）。也就是說，如果任意的問題都可以轉化為一個函數問題，深度學習可以解決任何問題。

那么，只要有大數據、大模型和大算力，未來我們就能利用深度學習實現通用人工智能？

的確，支持這條路線的學者不少，比如獲得2018年圖靈獎的深度學習“三巨頭”，都對此堅信不疑。他們也認為，如今人們一直強調的常識，或者認知智能，也可以用深度學習來實現。

不考慮效率的話，這一說法沒有問題。但同樣，采用更加暴力的進化算法也能實現通用人工智能，DeepMind近期還專門發表一篇論文，講述其如何設想利用強化學習來實現通用人工智能。

奧地利-捷克實驗物理學家和哲學家恩斯特·馬赫曾經提出，“思維經濟是科學的主要任務”，思維經濟原則就是“事實的經濟陳述”。我們應該追求盡可能簡潔高效的科學方法，這種思想其實和上述智能的簡單定義（信息壓縮，而且是盡可能壓縮）也很相似，不夠高效的智能算法算不上智能。如果深度學習在某一任務上不如其他方法，就不應該采用它。

他們也許在沉醉“深度學習/進化算法/強化學習就是通用人工智能”這樣簡單的描述，而沒有考慮到暴力堆疊數據和算力帶來的復雜性。當然，只要能產出有影響力的論文，喊喊口號不是問題。

那么，我們還有其他的候選嗎？也就是擁有完備表達能力的其他架構體系？

實際上，在理論表達能力方面，SVM也可以實現任意的非線性變換，從而擁有和深度學習相同的表達能力，但它的優化非常困難（近似能力差），并且不適用于大數據訓練。

圖神經網絡近年來收到熱捧，但基于論文”How powerful are graph neural networks？“中的討論，已有理論證明它的表達能力有一個確定的上界。有很多人在努力尋求改進的方法，以提高它的表達能力，并卓有成效，但仍然未能與深度學習匹敵。

其實除了表達能力，深度學習會得到重用，還有優化簡單、認知門檻低、硬件支持、環境支持（數據）等等原因，可謂天時地利人和。

在這樣的背景下，深度學習必然不會被斷然放棄，人們也在嘗試“深度學習+”的妥協路線，比如深度學習+傳統機器學習、深度學習+人工編程等等。

在深度學習的框架內，感知和認知究竟有沒有絕對的邊界，不少學者試圖通過打開深度學習這個龐大無邊的黑盒子，去找尋線索。

語言和邏輯的源頭

打開黑盒子，其實就是研究深度學習的可解釋性。

如今人們已經開發出了非常豐富的解釋神經網絡的方法。比如可視化神經元，當初通過這項技術來可視化計算機視覺模型，發現其具有類似人腦視覺的層級表征。而如今，人們已經可視化在這一點上做到了極致，并發現了神經元的“祖母細胞”現象和概念組合效應，比如對“貓”和“黑色”敏感的神經元，可以生成一張“黑貓”的圖像。另外，在深度表征解耦上也有大量的相關工作，可以進行人臉生成中的五官控制等“神奇操作”。

可視化傾向于感性理解，表征解耦傾向于數學理解，但人們更加熟悉的解釋方式，還是邏輯和語言。在邏輯方面，決策規則、決策樹都是典型的方法。

決策樹的形式與決策規則很相似，在計算機視覺模型的可解釋性研究中經常用到，比如，通過解析可以發現圖像識別模型對鳥的圖像的識別依據包括了頭部、腳、羽毛等等，并且每個依據的判定比重不同。

基于這些解釋方法提取出來的模型，一般無法等價于原有模型。解釋模型永遠比原來的深度學習模型要更加簡單，同時也不夠完整。

一些研究表明，深度學習中或許存在永遠不能被理解的部分，對應于人類的無意識。所以深度學習也和人類一樣，分為有意識部分和無意識部分嗎？并且，無意識部分就永遠無法被我們所理解？這種表述倒是和精神分析中的經典冰山比喻很相似。

當然，這只是個比喻。由于意識不是一個具有明確定義的科學概念，這里僅作為討論方便而借用一下。

首先，有意識和無意識只是相對的，有意識可以從無意識中不斷挖掘出來。那么，有意識要怎么去挖掘呢？

一個長期獨居在遠離人類社會的地方的人，語言和邏輯能力會逐漸喪失，其也不能反思自己的行為，只能按照外界的刺激進行單調的反應，就像無意識狀態一樣。

也就是說，語言產生于溝通、解釋的需要。因此，人類認知的有意識部分，可以基于溝通的需求推動，提煉成邏輯和語言。

在深度學習領域，已經有了基于類似思想的工作。有一些研究就描述了一種基于人機交互來提取目標檢測CNN的模型解釋的方法。

在交互中，比如對一張馬的圖片輸入，計算機會不斷重復問人類，現在的檢測結果正確嗎？人類根據情況提供不同的回答。

基于這些信息，計算機就能構建起模型的“知識圖譜”。然后，計算機就能逐步構建起輸出結果和CNN神經元之間的關系。并且，計算機問的越多，圖譜包含的知識就越豐富。

這種提取方法偏向于邏輯，那么語言解釋要如何提取呢？在提煉語言解釋的過程中，其需要借用現實的隱喻來表達。

在著名語言學家喬治·萊考夫的經典著作《我們賴以生存的隱喻》中就提到，人類是沒有辦法直接表述抽象概念的，必須借用隱喻。比如“我們在危機的包圍中生存下來”這句話，就借用了“包圍”的現實本體，比如一個羊圈，作為隱喻來表達“我們”和“危機”之間的關系，即它們是一種“找不到突破口”的關系。人類在理解這句話的時候，腦海里隱含地存在類似羊圈的本體形象，如果不刻意去深究，平常不會意識到。

這如何對神經網絡的可解釋性以啟發呢？目前在多模態學習中，已經初有成效，但尚未有非常可靠的結果。還有另外一種方案就是，不解釋。

不解釋的意思就是，我們不去尋求對神經網絡的解釋，神經網絡既然是個黑盒子，那就乖乖當個黑盒子。

但在這個網絡中，我們可以隨意插入已知的、有現實對應物的概念，作為網絡的輸入、輸出（也就是隱喻的本體）。

如今很多AI模型都不是一步到位的，而是分成多個階段。通俗來講，現在的深度學習可以替代任何你想替代的程序模塊，但對于一個蛋白質結構預測程序而言，只取代3D結構預測部分，其它部分沿用已有技術，整個系統就會可靠得多。相對于將整個程序用深度學習取代，我們不知道的部分也會相對簡單得多。同時，我們知道黑盒子的邊界是從“肽鏈”到“蛋白質3D結構”。這其中，“肽鏈”和“蛋白質3D結構”就是我們需要的可理解的“隱喻”，以及用于語言表達的詞匯。

這提供了一個思路，就是解釋從輸入到輸出的推理過程，我們可以人為地定義中間可理解輸出。比如在一篇Nature論文中就提出了一個多階段輸出的堆疊深度學習模型，可以從DNA序列開始，預測多個中間階段過程（比如基于DNA序列制造蛋白質、細胞器反應等），一直到酵母細胞組成部分的形成，實現了對基因作用過程的結構化解析，并且能輕易觀察DNA改變時細胞機制的變化。

研究人員訓練了數百萬個基因型，并模擬出了一個真核細胞，模擬細胞的生長幾乎與實驗室觀察一樣準確。這個真核細胞包含了2,526 個子系統的層次結構。

黑盒子拆解的做法，可以對每個模型降低復雜度和解釋難度，并在整體層面提高可解釋性。

不可否認，即便人們提出了上述的解釋方法，深度學習模型依然存在不可解釋的部分，而被解釋的部分，不可能完全代表深度學習模型。這就好像一個人說過的話不能代表一個人的全部，所有書本中的知識也不能代表世界一樣，而且書本的知識如果不是由人類去解讀，也沒有意義。

人類終究能夠接受這種一直存在的不可解釋性嗎？新事物通常缺少理解的參考物，不可避免被過分排斥。人類質疑一位醫生的診斷的方式，除了自己成為醫生，另一個辦法就是找另外一位醫生求證。同樣，對深度學習的不可解釋性的過分焦慮，或許也會在未來該技術普及的某個階段，慢慢消失。

深度學習的可解釋性研究給了我們很多感性上的理解，或許有一天我們能夠在黑盒子中窺見感知轉變為認知的節點。而智子似乎仍在實驗層面以巨大的復雜性，阻礙我們去發現它。

接下來，我們將討論深度學習的理論研究。可以看到，這個領域完全不關心感知、認知之類的問題，它們甚至沒有被定義。可以說，這完全是兩個世界。

智子的真面目

有人曾指出，如今深度學習存在理論和實踐嚴重脫節的情況。最典型的現象就是，深度學習理論往往將無限寬神經網絡作為研究對象，但現實中用的最多的，往往是非常深的網絡，比如ResNet。

上文提到的神經網絡的優化過程存在自發的隨機性，其實是梯度下降中的隱式偏差現象。這種現象可以讓梯度下降達到更好的局部極小值。

許多科學家都曾提到，如今深度學習缺乏理解是因為數學工具的匱乏，我們不能只把視野局限于梯度下降和反向傳播。

實際上，反向傳播算法是龐特里亞金斯最小原理 (PMP) 的近似，這是一種可追溯到 1960 年代的著名理論，它描述了最優控制問題的必要條件，深度學習本就是一個優化問題。

另外，人們也注意到，或許可以借用統計物理的思想，來揭開隱式偏差（即智子）的真面目。

深度學習的優化過程，其實和統計物理中的動力學系統很相似。在統計物理中，其研究問題可以是一杯被搖動的水的最終狀態，最終這杯水會趨于平靜。水會到達這個狀態，一方面是基于能量最小原則，另一方面是基于熵最大原則。

在梯度下降中，基于神經網絡的初始參數的損失函數，也是一杯被搖動的水，最終會基于能量和熵的變化規律走向平靜狀態，也就是局部極小值。也就是說，智子就是梯度下降過程中的熵驅動的現象。基于這種相似性，人們將梯度下降和統計物理中的布朗運動現象聯系了起來。

其他類似的嘗試還包括，將物理學中的有效場論來理解神經網絡。在提出這個理論的新書《The Principles of Deep Learning Theory》中，作者Daniel A. Roberts甚至說道，基于他們的理論可以“對任何模型直接給出最佳超參數。”相信深度學習和物理學的交叉，可以帶來非常豐富的成果。

基于上述討論可以發現，深度學習的理論和實驗之間確實存在較大的鴻溝，它們甚至采用了兩種不同的語言體系來描述各自的研究對象。對比之下，在物理學領域，在理論和實驗層面都可以用能量、動量、時間、空間的語言來描述。

因此有人提出，目前人工智能主要還在機器學習的范疇里，要想有一個大統一的理論，首先要從數學上定義什么是智能，就像信息論里的熵一樣。

然而，由于人類對大腦的研究還很有限，對智能是什么尚未有定論。因此無論從AI的實驗還是理論的角度，定義智能或許還是非常困難的事情。感知和認知的劃分或許太粗糙，優化領域的視角或許太狹窄。換個角度來說，AI的研究其實也在逐步增進我們對人類智能的認知。

尾聲

無論是藏在神經網絡中的智子，還是現身人間蠱惑人心的智子，我們現在都還未能找到完全擊敗她們的辦法。一方面，要追尋正確的研究問題，不局限于單一的領域視角，另一方面，也要有扎實的基礎知識，嚴謹的治學態度。如此，我們才有可能在這場”三體人戰爭“中取得最終的勝利。

本文由雷鋒網原創，作者：青暮維克多。申請授權請回復“轉載”，未經授權不得轉載。聲明：感謝受訪專家的評論，本文其他觀點不代表專家個人觀點。

關于“鎖死 AI 基礎研究”的討論，雷鋒網學術頻道《AI科技評論》將帶來更詳細的技術解讀，敬請關注。

《AI冰與火之歌· 五問》第四篇預告

當人工智能面臨「基礎研究困局」與「商業模式崩塌」之際，那些從AI學院里不斷涌出的科學家和博士生們，該何去何從？下周二我們將發布深度報道《AI 人才越來越不值錢了嗎》，講述人工智能研究高管和應屆博士生們在企業經歷的捧殺歷史與反轉往事。

參考資料

[1]A Survey on Deep Learning: Algorithms, Techniques, and Applications

https://courses.cs.//spring20/compsci527/papers/Pouyanfar.pdf

[2]A State-of-the-Art Survey on Deep Learning Theory and Architectures
https://www./2079-9292/8/3/292
[3][Deep Learning Theory Review: An Optimal Control and Dynamical Systems Perspective
https:///pdf/1908.10920.pdf
[4]TRUTH OR BACKPROPAGANDA? AN EMPIRICAL INVESTIGATION OF DEEP LEARNING THEORY
https:///pdf?id=HyxyIgHFvr
[5]RANDOMNESS IN NEURAL NETWORK TRAINING: CHARACTERIZING THE IMPACT OF TOOLING
https:///pdf/2106.11872.pdf
[6]The Principles of Deep Learning Theory
https:///pdf/2106.10165.pdf
[7]A Survey on The Expressive Power of Graph Neural Networks
https:///pdf/2003.04078.pdf
[8]On the Expressive Power of Deep Neural Networks
https:///pdf/1606.05336.pdf
[9]A Survey on Neural Network Interpretability
https:///pdf/2012.14261.pdf
[10]Visual Interpretability for Deep Learning: a Survey

https:///pdf/1802.00614.pdf

[11]Mining Object Parts from CNNs via Active Question-Answering

https:///pdf/1704.03173.pdf

[12]How powerful are graph neural networks？

https:///pdf/1810.00826.pdf

[13]淺談人工智能：現狀、任務、構架與統一 | 正本清源

https://mp.weixin.qq.com/s/-wSYLu-XvOrsST8_KEUa-Q

[14]機器學習的可解釋性

https://mp.weixin.qq.com/s/CYN5ZJhkdpI0DSg_9EapEQ

[15]計算機與數學證明

https://www./articles/technology/misc/compMath.php

[16]人工智能是否存在「大統一理論」？