DeepMind大神Silver聯手Sutton論證無限猴子原理：用強化學習就能搞定通用人工智能！

長沙7喜 2021-06-12

展開全文

新智元報道

來源：sciencedirect

編輯：Emil 好困

【新智元導讀】DeepMind最近研究了一下大自然，于是決定把「達爾文主義」應用在AI上面。首先給AI設定一個獎勵，等AI學會如何把獎勵做到最大化，它就是個出色的人工智能代理了。

人工智能發展了這么久，終于產生了包括卷積，注意力，全連接等各種機制。

有趣的是，最近的研究反而搞起了「這些機制我們都不需要」的創新。

例如蘋果發表的一篇論文表示Transformer不需要注意力機制。

在這個方面，DeepMind也不甘落后，發表文章稱「Reward is Enough」，其他都不需要。

https://www./science/article/pii/S0004370221000862

人工智能現在已經能夠在有限的環境中有效地解決特定的問題，但它們還沒有發展出在人類和動物身上看到的那種普遍的「智能」。

DeepMind認為「智能」不是從制定和解決復雜問題中產生，而是通過堅持一個簡單但強大的原則：獎勵最大化。

值得注意的是，發表這篇文章的是DeepMind強化學習領域的兩位大神：David Silver（下圖右）以及Richard Sutton（下圖左）。

David Silver 是 DeepMind 首席科學家、倫敦大學學院計算機科學系教授，他是 AlphaGo 的設計研發主導人物。

而Richard Sutton 是阿爾伯塔大學計算機系教授、DeepMind 杰出科學家，他被認為是現代計算的強化學習創立者之一。

獎勵最大化就能實現AGI？

通常認為，組合多個人工智能模塊就可以產生更高的智能系統。例如，把獨立的計算機視覺、語音處理、NLP和運動控制模塊之間進行協調，從而去解決需要多種技能的復雜問題。

而DeepMind的研究表示，你們搞這些自上而下的都是歪門邪道，獎勵機制才是自然界中產生如此豐富的智能的原因：

不同形式的智能源于不同環境中不同獎勵信號的最大化。例如蝙蝠的回聲定位或黑猩猩的工具使用等。

這些能力的產生也都將服務于一個單一的目標，也就是在動物所處的環境中獲得最大化的回報。

例如，一只想要「活著」的松鼠，那么饑餓最小化這個獎勵機制就可以認為是「活著」的一個子目標。

于是，這只松鼠就產生了感知和運動的技能，從而幫助它在有食物的時候找到并收集堅果。

但只能找到食物的松鼠在食物變少時就會餓死。因此又產生了計劃和記憶的能力，這樣松鼠就可以把堅果藏起來，等到冬天的時候再去找到這些堅果。同時，松鼠還需要產生關于社會的知識，從而避免其他動物去偷藏起來的堅果。

論文表示，獎勵最大化是足以驅動自然界的生物和強化學習代理產生「智能」的，包括知識、學習、感知、社會智能、語言、概括和模仿。

因此，人工智能通過獎勵最大化的強化學習之后，就可以成為今后在人工智能方面通用的解決方案。

然而，這個例子依然沒有解釋為什么同樣是最大化獎勵，人類就能寫出「人工智能」，而這只松鼠就不行？

獎勵最大化的強化學習方法

強化學習是AI算法的一個特殊分支，這套方法由三個關鍵要素組成：環境、代理以及獎勵機制。

在執行操作的過程中，代理會依據操作過程對于目標的影響程度來決定獎勵或者懲罰，同時改變自己和環境狀態。

許多的強化學習產生的問題在于代理對于環境缺乏初始的認知，從而導致開始時的隨機操作。根據反饋，代理學會調整其行為，并制定最大化獎勵的策略。

在論文中，DeepMind 的研究人員建議將強化學習作為主要算法，它可以通過學習在自然界中的獎勵最大化方法，并最終帶來通用人工智能。

作者在論文中說，「如果一個代理能夠連續調整它的行為來提升獎勵，那么任何在這種環境下的重復性能力都可以通過代理這樣的行為產生出來。」

一個好的強化學習代理可以通過這樣的方法學習感知、語言、社交能力等等。

在論文中，研究人員提供了幾個例子，展示了強化學習代理如何能夠在游戲和機器人環境中學習一般技能。

不過研究人員同時強調，一些基本問題仍然有待解決，比如他們對于強化學習的樣本執行效率缺乏理論依據。

眾所周知，強化學習需要給機器「喂」大量的數據，假如讓電腦通過機器學習的方法來學會一個電腦游戲，它們可能需要幾百年來學習……

并且如何在更多的領域來創造一個強化學習系統對于研究者來說也是一個挑戰，因為任何環境中微小的變化都需要對模型進行全面重新訓練。

同時，獎勵最大化的學習機制是一個未解決的問題，仍然是強化學習中有待進一步研究的核心問題。

獎勵最大化的優點和缺點

加州大學圣地亞哥分校的神經科學家、哲學家和名譽教授帕特里夏·丘奇蘭 (Patricia Churchland) 將論文中的想法描述為「非常仔細和有見地的解決方案」。

同時，丘奇蘭也指出論文中關于社會決策討論中可能存在的缺陷。DeepMind的研究人員專注于在社交過程中的個人收益。

而丘奇蘭在自己最近寫的書中談到，對于哺乳動物和鳥類而言，個體之間的親情關系往往會對社會決策產生重大影響，比如動物會為了保護孩子而將自己置于危險中而不顧。

當然，丘奇蘭補充到，自己的觀點對于論文中的假設并沒有沖突，只是一個有益的補充。

而數據科學家Herbert Roitblat 則對于這篇論文的立場提出了挑戰，他認為通過簡單的學習機制和試錯經驗足以培養機器智能的說法有些站不住腳。

Herbert Roitblat 也是通用AI領域的專家

如果沒有時間限制，那么試錯學習的方法可能可行，但是這個方法就像是無限猴子定理，即讓一只猴子在打字機上隨機按鍵，當按鍵時間達到無窮，它必然會打出任何給定的文字。

「建立了模型和表述方式之后，優化或強化就可以指導其進化，但這并不意味著強化就足夠了，」Roitblat 說。

同樣，Roitblat 補充說，該論文沒有對如何定義強化學習的獎勵、操作和其他元素提出任何建議。

「強化學習的前提是代理有一組有限的潛在操作方式，同時獎勵標準和價值函數也需要提前指定。換句話說，通用人工智能的問題恰恰是強化學習的先決條件。

所以如果機器學習都能夠簡化成為最大化某種評估參數的形式，那么強化學習肯定是有意義的，但是它仍然缺乏說服力。」

通用人工智能迎來新曙光？

DeepMind的研究人員在探討通用人工智能的實現路徑：即通過自下而上，而不是由人類先制定好頂層規劃和結構的方法來實現特定的目標。

通用人工智能指的是通用人工智能是一些人工智能研究的主要目標，也是科幻小說和未來研究中的共同話題。一些研究人員將通用人工智能稱為強AI（strong AI）或者完全AI（full AI），或稱機器具有執行通用智能行為（general intelligent action）的能力。與弱AI（weak AI）相比，強AI可以嘗試執行全方位的人類認知能力。