集智俱樂部聯(lián)合加利福尼亞大學圣迭戈分校助理教授尤亦莊、北京師范大學副教授劉宇、北京師范大學系統(tǒng)科學學院在讀博士張章、牟牧云和在讀碩士楊明哲、清華大學在讀博士田洋共同發(fā)起「AI By Complexity」讀書會,探究如何度量復雜系統(tǒng)的“好壞”?如何理解復雜系統(tǒng)的機制?這些理解是否可以啟發(fā)我們設計更好的AI模型?在本質(zhì)上幫助我們設計更好的AI系統(tǒng)。讀書會于6月10日開始,每周一晚上20:00-22:00舉辦。歡迎從事相關(guān)領域研究、對AI+Complexity感興趣的朋友們報名讀書會交流! 如今的AI領域正在經(jīng)歷著加速發(fā)展,并產(chǎn)生了廣泛的社會影響,神經(jīng)網(wǎng)絡現(xiàn)在已經(jīng)占據(jù)了人工智能算法研究的核心。通過觀察神經(jīng)網(wǎng)絡領域的發(fā)展,我們發(fā)現(xiàn)人們通過引入不同的結(jié)構(gòu)設計偏見(bias)開發(fā)出了具有不同性質(zhì)的算法模型。例如,層級化的信息聚合機制帶來了卷積神經(jīng)網(wǎng)絡,記憶機制帶來了循環(huán)神經(jīng)網(wǎng)絡,稀疏性的引入帶來了節(jié)省能量的稀疏網(wǎng)絡,生物神經(jīng)元的放電機制帶來了脈沖神經(jīng)網(wǎng)路模型,等等。我們發(fā)現(xiàn),很多人們想要給神經(jīng)網(wǎng)絡引入的性質(zhì),例如節(jié)省能量,層級化的信息處理等,也都是復雜系統(tǒng)的性質(zhì)。那什么是一個“好”的神經(jīng)網(wǎng)絡?在以前的研究范式中,人們往往是將一個在復雜系統(tǒng)中觀察到的性質(zhì)引入神經(jīng)網(wǎng)絡,從而得到一個好的神經(jīng)網(wǎng)絡,然而我們認為,一個好的神經(jīng)網(wǎng)絡,本質(zhì)上應該首先是一個好的復雜系統(tǒng),然后它將自然的帶有節(jié)省能量,信息處理高效,可以對抗擾動等諸多性質(zhì)。這兩種研究思路是不同的,前者的啟發(fā)可以來源于任何地方,例如來源于直覺(持續(xù)學習,稀疏神經(jīng)網(wǎng)絡),來源于數(shù)據(jù)(對比學習),來源于人類社會的需要(聯(lián)邦學習)等。這些啟發(fā)也相當重要,但總體而言,他們指向AI如何面對特定限制下的挑戰(zhàn),而并不在本質(zhì)上指向更強的人工智能模型。而后者的啟發(fā)將來源于人們對復雜系統(tǒng)理論的進展和對復雜系統(tǒng)機制的理解,指向AI系統(tǒng)的內(nèi)在屬性的增強。通過觀察近期的科研趨勢,尤其是大語言模型的進展,我們可以觀察到數(shù)據(jù)量和參數(shù)量的勝利,然而系統(tǒng)的尺寸只是其復雜性的一個方面。如何度量復雜系統(tǒng)的“好壞”?如何理解復雜系統(tǒng)的機制?這些理解是否可以啟發(fā)我們設計更好的AI模型?這是我們想要通過這個讀書會回答的問題。復雜系統(tǒng)和人工智能的研究是互相促進的,在本次讀書會中,我們主要關(guān)注這條雙向箭頭的其中一邊,即復雜系統(tǒng)的新理論如何指導人工智能的設計。因此,我們會共同學習復雜系統(tǒng)的最新進展,并一起討論如何將其應用于AI領域。當然,在這個方向上已經(jīng)存在一些值得學習的研究范例,如神經(jīng)網(wǎng)絡的臨界性,大模型的scaling law等。但更多的復雜系統(tǒng)理論及方法也為我們展示了更多的可能,如復雜系統(tǒng)的信息處理能力,對抗擾動的魯棒性,通過局部的互相抑制來節(jié)省整體能量消耗的機制等,這些新的進展,或許可以幫助我們設計新的AI。
我們認為未來更好的AI一定是一個具有強大計算能力的復雜系統(tǒng)。所以我們應該站在復雜系統(tǒng)的視角,關(guān)注如何量化定義“好的復雜系統(tǒng)”,如何理解復雜系統(tǒng)的機制。這種對復雜系統(tǒng)的深入研究,會幫助我們更好地理解AI以及設計出更好的AI。在本次讀書會中,我們將為大家從不同的視角呈現(xiàn)復雜系統(tǒng)的研究成果以及與AI如何融合。這些方向如下圖: 張章,北京師范大學系統(tǒng)科學學院博士生。研究興趣集中于復雜網(wǎng)絡與深度學習的交叉領域,具體包括機器學習,復雜系統(tǒng)自動建模等。田洋,博士,研究方向是復雜系統(tǒng)、統(tǒng)計物理和計算物理。劉宇,副教授,北京師范大學珠海校區(qū)-復雜系統(tǒng)國際科學中心-Evolving Complex Systems Lab。物理、數(shù)學背景(瑞典Uppsala大學應用數(shù)學與統(tǒng)計博士),先后在英國Glasgow大學化學系、荷蘭Groningen大學化學生物系、瑞典Mittag-Leffler數(shù)學研究所任研究職位。目前研究方向:用算法信息論研究生命的起源與演化,即,把生命系統(tǒng)定量刻畫成軟件系統(tǒng)。微信公眾號:【ecsLab】。牟牧云,北京師范大學系統(tǒng)科學學院博士生。研究方向:復雜系統(tǒng)建模與調(diào)控、強化學習世界模型、圖神經(jīng)網(wǎng)絡。楊明哲,北京師范大學系統(tǒng)科學學院碩士生,張江老師因果涌現(xiàn)研究小組成員。研究領域是因果涌現(xiàn)、復雜系統(tǒng)自動建模。尤亦莊,加利福尼亞大學圣迭戈分校助理教授。研究領域為理論凝聚態(tài)物理,強關(guān)聯(lián)系統(tǒng),量子拓撲物態(tài),多體局域化與熱化,糾纏,張量網(wǎng)絡,以及全息原理與機器學習。個人主頁:https://everettyou./https://pattern./user/4298
本讀書會適合參與的對象基于復雜系統(tǒng)相關(guān)學科研究,對統(tǒng)計物理、復雜網(wǎng)絡、信息論、復雜系統(tǒng)臨界性等視角啟發(fā)AI系統(tǒng)構(gòu)建與研究有濃厚興趣的科研工作者; 具有一定統(tǒng)計物理、信息論、復雜網(wǎng)絡、神經(jīng)科學以及計算機科學的學科背景,在領域內(nèi)有一定的研究基礎,想進一步進行交叉學科研究與交流的學者、研究生、本科生。 對復雜科學充滿激情,對世界,特別是“AI是否能成為一個真正的復雜系統(tǒng)”充滿好奇的探索者,且具備一定的英文文獻閱讀能力的探索者。 - 想鍛煉自己科研能力或者有出國留學計劃的高年級本科生及研究生。
社群管理規(guī)則為確保專業(yè)性和討論的聚焦,本讀書會謝絕脫離讀書會主題和復雜科學問題本身的空泛的哲學和思辨式討論;不提倡過度引申在社會、人文、管理、政治、經(jīng)濟等應用層面的討論。我們將對參與人員進行篩選,如果出現(xiàn)討論內(nèi)容不符合要求、經(jīng)提醒無效者,會被移除群聊并對未參與部分退費,解釋權(quán)歸集智俱樂部所有。
運行模式本季讀書會預計討論分享10-12次,以主題分享的形式按照暫定框架貫次展開;每周進行線上會議,與會者可以廣泛參與討論,會后可以獲得視頻回放持續(xù)學習。
舉辦時間從2024年6月10日開始,每周一20:00-22:00,持續(xù)時間預計10-12周。我們也會對每次分享的內(nèi)容進行錄制,剪輯后發(fā)布在集智斑圖網(wǎng)站上,供讀書會成員回看,因此報名的成員可以根據(jù)自己的時間自由安排學習時間。
參與方式此次讀書會為線上閉門讀書會,采用的會議軟件是騰訊會議(請?zhí)崆跋螺d安裝)。在掃碼完成報名并添加負責人微信后,負責人會將您拉入交流社區(qū)(微信群),入群后告知具體的會議號碼。報名方式讀書會鏈接:https://pattern./study_group/45?from=wechat掃碼報名 第二步:填寫信息后,付費299元。 第三步:添加負責人微信,拉入對應主題的讀書會社區(qū)(微信群)。本讀書會可開發(fā)票,請聯(lián)系相關(guān)負責人溝通詳情。
共學共研模式與退費機制讀書會采用共學共研的機制,圍繞前沿主題進行內(nèi)容梳理和沉淀。讀書會成員可通過內(nèi)容共創(chuàng)任務獲得積分,解鎖更多網(wǎng)站內(nèi)容,積分達到標準后可退費。發(fā)起人和主講人作為讀書會成員,均遵循內(nèi)容共創(chuàng)共享的退費機制,暫無其他金錢激勵。讀書會成員可以在讀書會期間申請成為主講人,分享或領讀相關(guān)研究。
加入社區(qū)后可以獲得的資源:在線會議室沉浸式討論:與主講人即時討論交流。 交互式播放器高效回看:快速定位主講人提到的術(shù)語、論文、大綱、討論等重要時間點(詳情請見:解放科研時間,輕松掌握學術(shù)分享:集智斑圖推出可交互式播放器) 高質(zhì)量的主題微信社群:碩博比例超過80%的成員微信社區(qū),閉門夜談和交流 超多學習資源隨手可得:從不同尺度記錄主題下的路徑、詞條、前沿解讀、算法、學者等。 參與社區(qū)內(nèi)容共創(chuàng)任務:讀書會筆記、百科詞條、公眾號文章、論文解讀分享等不同難度共創(chuàng)任務,在學習中貢獻,在付出中收獲。 共享追蹤主題前沿進展:在群內(nèi)和公眾號分享最新進展,領域論文速遞。
參與共創(chuàng)任務,共建學術(shù)社區(qū):讀書會筆記:在交互式播放器上記錄術(shù)語和參考文獻 集智百科詞條:圍繞讀書會主題中重要且前沿的知識概念梳理成詞條。例如: 論文解讀分享:認領待讀列表中的論文,以主題報告的形式在社區(qū)分享 論文摘要翻譯:翻譯社區(qū)推薦論文中的摘要和圖注 公眾號文章:以翻譯整理形式或者原創(chuàng)寫作生產(chǎn)公眾號文章,以介紹前沿進展。例如: PS:具體參與方式可以加入讀書會后查看對應的共創(chuàng)任務列表,領取任務,與運營負責人溝通詳情,上述規(guī)則的最終解釋權(quán)歸集智俱樂部所有。
閱讀材料較長,為了更好的閱讀體驗,建議您前往集智斑圖沉浸式閱讀,并可收藏感興趣的論文。
一、作為復雜系統(tǒng)的AI大模型本視角下關(guān)注的核心問題:AI大模型首先是一個典型的復雜系統(tǒng)。如何用復雜系統(tǒng)的視角去研究現(xiàn)在的AI系統(tǒng),有哪些方法可以借鑒,有哪些規(guī)律可以幫助深入理解AI大模型,可以從復雜網(wǎng)絡、復雜動力系統(tǒng)的方法來對大模型進行研究,同時也能夠去深入理解AI大模型的涌現(xiàn)現(xiàn)象和規(guī)模法則。 推薦閱讀:https://pattern./article/224 本視角下討論的核心理論:網(wǎng)絡科學、規(guī)模法則、涌現(xiàn) 1. Jason Wei, Yi Tay, Rishi Bommasani, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682, 2022 大語言模型中的涌現(xiàn):大語言模型的涌現(xiàn)現(xiàn)象也是近年來研究的熱點問題,但是與傳統(tǒng)復雜系統(tǒng)中的涌現(xiàn)定義不同,大語言模型的涌現(xiàn)能力,指的是隨著模型規(guī)模的增長,一些能力會突然變強,突變式地擁有了小語言模型所不具有的新能力。 2. Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 2020 大語言模型的規(guī)模法則:與許多復雜系統(tǒng)一樣,大語言模型也遵循著規(guī)模法則(Scaling law),也就是它的各項宏觀指標會形成兩兩的冪律關(guān)系。 3. Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, et al. Characterizing Learning Dynamics of Deep Neural Networks via Complex Networks. arXiv:2110.02628, 2021 展示了神經(jīng)網(wǎng)絡訓練過程中權(quán)重分布的異質(zhì)化趨勢,即贏者通吃的局面。 4. Matteo Zambra, Alberto Testolin, Amos Maritan. Emergence of Network Motifs in Deep Neural Networks. arXiv:1912.12244, 2019 研究了神經(jīng)網(wǎng)絡在訓練過程中自發(fā)演化出的局部網(wǎng)絡結(jié)構(gòu)。 5. Emanuele La Malfa, Gabriele La Malfa, Claudio Caprioli, et al. Deep Neural Networks as Complex Networks. arXiv:2209.05488, 2022 探討了不同網(wǎng)絡結(jié)構(gòu)對神經(jīng)網(wǎng)絡功能和學習能力的影響。
二、神經(jīng)科學視角本視角下關(guān)注的核心問題:bio-inspired machine learning是一個非常廣闊的領域,通過一期讀書會來囊括諸多代表性研究是不夠的,因此,我們希望在這個部分只節(jié)選生物啟發(fā)機器學習中具有復雜性味道的研究范例進行學習與討論。例如:Hebbian Learning和Anti-Hebbian Learning。 本視角下討論的核心理論:Hebbian Learning、Anti-Hebbian Learning、脈沖神經(jīng)網(wǎng)絡 推薦人:張章 推薦論文:2篇 Alemanno, Francesco, et al. 'Supervised hebbian learning.' Europhysics Letters 141.1 (2023): 11001. https://iopscience./article/10.1209/0295-5075/aca55f/meta
Hebbian Learning指人們從生物神經(jīng)網(wǎng)絡中發(fā)現(xiàn)了一條簡單有趣的規(guī)則,即Fire together,wire together。這個簡單的規(guī)則可以用于指導神經(jīng)網(wǎng)絡的結(jié)構(gòu)設計和訓練。 Choe, Yoonsuck. 'Anti-hebbian learning.' Encyclopedia of Computational Neuroscience. New York, NY: Springer New York, 2022. 213-216. https://link./referenceworkentry/10.1007/978-1-0716-1006-0_675
Anti hebbian learning則是另一條與之相反的規(guī)則,即盡可能減少神經(jīng)元的協(xié)同激活,從而起到節(jié)省能量的作用,相比于Hebbian Leraning,Anti Hebbian Leraning是一個更晚發(fā)現(xiàn)的規(guī)則,但同樣是簡單規(guī)則指導神經(jīng)網(wǎng)絡結(jié)構(gòu)和動力學的可實踐的范例。
三、統(tǒng)計物理視角本視角下關(guān)注的核心問題一: 所有研究關(guān)注的核心問題都是如何理解神經(jīng)網(wǎng)絡在初始化、優(yōu)化(即訓練)和部署階段的行為所符合的物理規(guī)律。例如,在初始化時是否有可能使得神經(jīng)網(wǎng)絡避免梯度爆炸或梯度消失?在訓練過程中,神經(jīng)網(wǎng)絡是否可以在特點優(yōu)化器的作用下避開局部極小值,應該如何泛化?在部署階段,是否可以依據(jù)特定統(tǒng)計物理規(guī)則對神經(jīng)網(wǎng)絡參數(shù)進行篩選和量化以降低計算量? 本視角下討論的核心理論:平均場理論、重整化群 推薦人:田洋 推薦論文:11篇 神經(jīng)網(wǎng)絡的平均場理論的核心目的在于理解神經(jīng)網(wǎng)絡在無限寬的條件下的動力學行為,確定神經(jīng)網(wǎng)絡在初始化和訓練階段的最優(yōu)條件(例如最優(yōu)初始化方案等)。以下是關(guān)于人工神經(jīng)網(wǎng)絡的平均場理論的論文,前面為三篇核心文獻,分別對應平均場理論、實驗效果、經(jīng)典平均場理論的局限和推廣;后面兩篇為補充文獻。 Xiao, Lechao, et al. 'Dynamical isometry and a mean field theory of cnns: How to train 10,000-layer vanilla convolutional neural networks.' International Conference on Machine Learning. PMLR, 2018. https://proceedings./v80/xiao18a Schoenholz, Samuel S., et al. 'Deep information propagation.' arXiv preprint arXiv:1611.01232 (2016). https:///abs/1611.01232 Weng, K., Cheng, A., Zhang, Z., Sun, P., & Tian, Y. (2023). Statistical physics of deep neural networks: Initialization toward optimal channels. Physical Review Research, 5(2), 023023. https://journals./prresearch/abstract/10.1103/PhysRevResearch.5.023023 Pennington, J., Schoenholz, S., & Ganguli, S. (2018, March). The emergence of spectral universality in deep networks. In International Conference on Artificial Intelligence and Statistics (pp. 1924-1932). PMLR. https://proceedings./v84/pennington18a.html Yang, G., & Schoenholz, S. (2017). Mean field residual networks: On the edge of chaos. Advances in neural information processing systems, 30. https://proceedings./paper_files/paper/2017/hash/81c650caac28cdefce4de5ddc18befa0-Abstract.html Bahri, Y., Kadmon, J., Pennington, J., Schoenholz, S. S., Sohl-Dickstein, J., & Ganguli, S. (2020). Statistical mechanics of deep learning. Annual Review of Condensed Matter Physics, 11, 501-528. https://www./content/journals/10.1146/annurev-conmatphys-031119-050745
重整化群這一個方向的核心研究目的在于從信息論或概率論的角度理解重整化群的設計原理,并結(jié)合新的數(shù)學工具設計更具有泛用性或計算性能更加高的重整化群,以在原始理論無法涵蓋的場景中驗證系統(tǒng)是否處于臨界點或是否符合特定標度關(guān)系。下面5篇文章是重整化群和機器學習想法交融或用于解決數(shù)據(jù)科學問題的代表。 Kline, Adam G., and Stephanie E. Palmer. 'Gaussian information bottleneck and the non-perturbative renormalization group.' New journal of physics 24.3 (2022): 033007. https://iopscience./article/10.1088/1367-2630/ac395d/meta Cheng, Aohua, Pei Sun, and Yang Tian. 'Simplex path integral and renormalization group for high-order interactions.' arXiv preprint arXiv:2305.01895 (2023). https:///abs/2305.01895 Lenggenhager, Patrick M., et al. 'Optimal renormalization group transformation from information theory.' Physical Review X 10.1 (2020): 011037. https://journals./prx/abstract/10.1103/PhysRevX.10.011037 Xu, Yizhou, Yang Tian, and Pei Sun. 'Fast renormalizing the structures and dynamics of ultra-large systems via random renormalization group.' (2024). https://www./article/rs-3888068/v1 Gordon, Amit, et al. 'Relevance in the renormalization group and in information theory.' Physical Review Letters 126.24 (2021): 240601. https://journals./prl/abstract/10.1103/PhysRevLett.126.240601
本視角下關(guān)注的核心問題二:利用統(tǒng)計物理對復雜系統(tǒng)進行度量這個研究方向上也有了很多新的進展,如使用自由能度量復雜網(wǎng)絡的信息傳播速度,使用熵度量復雜網(wǎng)絡對抗擾動的能力,使用熱機效率度量復雜網(wǎng)絡的效率等。而因為我們有一個信仰,“一個好的AI系統(tǒng)首先是一個好的復雜系統(tǒng)”,因此這部分度量方式也可以去學習,并有助于指導AI系統(tǒng)的設計。 本視角下討論的核心理論:熵、自由能原理 推薦人:張章、牟牧云 推薦論文:9篇 Ghavasieh, Arsham, Carlo Nicolini, and Manlio De Domenico. 'Statistical physics of complex information dynamics.' Physical Review E 102.5 (2020): 052304. https://journals./pre/abstract/10.1103/PhysRevE.102.052304 Ghavasieh, Arsham, and Manlio De Domenico. 'Generalized network density matrices for analysis of multiscale functional diversity.' Physical Review E 107.4 (2023): 044304. https://journals./pre/abstract/10.1103/PhysRevE.107.044304 Ghavasieh, Arsham, and Manlio De Domenico. 'Enhancing transport properties in interconnected systems without altering their structure.' Physical Review Research 2.1 (2020): 013155. https://journals./prresearch/abstract/10.1103/PhysRevResearch.2.013155 Ghavasieh, Arsham, and Manlio De Domenico. 'Diversity of information pathways drives sparsity in real-world networks.' Nature Physics (2024): 1-8. https://www./articles/s41567-023-02330-x
自由能的概念起源于統(tǒng)計物理,后被引入機器學習和信息加工領域,表示對世界表征狀態(tài)與其真實狀態(tài)間的差異。自由能原理認為,所有可變的量,只要作為系統(tǒng)的一部分,都會為最小化自由能而變化。本質(zhì)上,自由能原理希望闡明在生物系統(tǒng)中實現(xiàn)自組織的可能性。在集智“自由能原理與強化學習”讀書會中對以自由能原理為基礎的主動推斷框架進行了詳細的介紹,更多偏向從貝葉斯定理出發(fā)的認知的視角。在本次AI by Complexity讀書會中我們將更多從隨機動力系統(tǒng)以及非平衡穩(wěn)態(tài)等視角出發(fā)探究自由能原理與智能體感知和行動之間的聯(lián)系,這對于構(gòu)建決策AI智能體或許能夠帶來新的啟發(fā)。以下5篇論文與自由能原理相關(guān)。 Karl, Friston. 'A free energy principle for biological systems.' Entropy 14.11 (2012): 2100-2121. https://www./1099-4300/14/11/2100
生命何以存在?這篇文章從隨機動力系統(tǒng)的視角出發(fā),基于變分自由能的最小作用量原理,試圖解釋生命體能夠抵抗環(huán)境中無序的波動的內(nèi)在邏輯,并建立了它與信息瓶頸方法在形式上等價的條件。 Friston, Karl, and Ping Ao. 'Free energy, value, and attractors.' Computational and mathematical methods in medicine 2012 (2012). https://pubmed.ncbi.nlm./22229042/
自由能原理認為行動和感知可以被理解為最小化感覺樣本的自由能,而強化學習源于行為主義和工程學,假定代理者優(yōu)化策略以最大化未來的獎勵。這篇文章試圖將自由能原理以及強化學習針對行動和感知的兩種表述聯(lián)系起來。 Friston, Karl, et al. 'The free energy principle made simpler but not too simple.' Physics Reports 1024 (2023): 1-29. https://www./science/article/pii/S037015732300203X
這篇論文提供了自由能原理的簡潔推導。自由能量原理是關(guān)于自組織和感知行為的規(guī)范性描述,它將自組織描述為最大化貝葉斯模型證據(jù),將感知行為描述為最優(yōu)貝葉斯設計和決策。這篇文章隨機動力系統(tǒng)的朗之萬方程描述開始,最終得出可以被看作是有感知的物理學的貝葉斯力學。 Mazzaglia, Pietro, et al. 'The free energy principle for perception and action: A deep learning perspective.' Entropy 24.2 (2022): 301. https://www./1099-4300/24/2/301
這篇文章建立了自由能原理與深度學習世界模型之間的聯(lián)系,并對強化學習世界模型架構(gòu)設計的不同方面進行了討論。 Hafner, Danijar, et al. 'Action and perception as divergence minimization.' arXiv preprint arXiv:2009.01791 (2020). https:///abs/2009.01791
基于自由能原理以及自由能原理的具體實現(xiàn)主動推斷框架,啟發(fā)了差異最小化(divergence minimization)的想法,從差異最小化的角度出發(fā),很多深度學習強化學習算法可以看作是智能體在最小化內(nèi)在模型分布與目標分布之間的差異。從這個角度出發(fā)可以將大量已有的的深度學習強化學習(更多針對強化學習)算法進行一個統(tǒng)一的分類,并且能夠啟發(fā)我們設計新的強化學習算法。
四、復雜網(wǎng)絡視角本視角下關(guān)注的核心問題:神經(jīng)網(wǎng)絡模型作在機器學習算法中處于核心地位,而現(xiàn)有的神經(jīng)網(wǎng)絡模型以全連接、CNN、RNN、Transformer等為代表,其本身并沒有和網(wǎng)絡科學直接關(guān)聯(lián)。而我們知道一個全連接的復雜網(wǎng)絡在現(xiàn)實中是很少見的。網(wǎng)絡科學告訴我們,全連接的網(wǎng)絡在成本,魯棒性,信息傳遞效率等方面都不是最優(yōu)的。而現(xiàn)在大多數(shù)稀疏神經(jīng)網(wǎng)絡的研究也只考慮了成本的降低,而并不從復雜網(wǎng)絡的視角考慮一個稀疏的網(wǎng)絡帶來的其他性質(zhì)。因此我們想在這一部分介紹結(jié)合網(wǎng)絡科學和神經(jīng)網(wǎng)絡模型的論文,一些容易想到的論文是在庫計算領域(reservoir computing)中,研究庫中不同網(wǎng)絡結(jié)構(gòu)對效果的影響。 本視角下討論的核心理論:庫計算 推薦人:張章 推薦論文:4篇 Klickstein, Isaac, Louis Pecora, and Francesco Sorrentino. 'Symmetry induced group consensus.' Chaos: An Interdisciplinary Journal of Nonlinear Science 29.7 (2019). https://pubs./aip/cha/article/29/7/073101/1059583 Dale, Matthew, et al. 'Reservoir computing quality: connectivity and topology.' Natural Computing 20 (2021): 205-216. https://link./article/10.1007/s11047-020-09823-1 Kawai, Yuji, Jihoon Park, and Minoru Asada. 'A small-world topology enhances the echo state property and signal propagation in reservoir computing.' Neural Networks 112 (2019): 15-23. https://www./science/article/abs/pii/S0893608019300115 Zador, Anthony M. 'A critique of pure learning and what artificial neural networks can learn from animal brains.' Nature communications 10.1 (2019): 3770. https://www./articles/s41467-019-11786-6
五、信息論視角本視角下關(guān)注的核心問題一:目前AI被拓展到各個領域,隨著LLM的興起和各種參數(shù)規(guī)模的增大(AI本身變?yōu)閺碗s系統(tǒng))以及需要處理的任務越來越復雜(AI面對的對象是復雜系統(tǒng)),復雜系統(tǒng)所特有的涌現(xiàn)現(xiàn)象一定會是AI研究中不可避免會遇到的問題。那么問題來了:什么是AI自身的涌現(xiàn)?因果涌現(xiàn)理論如何解釋甚至優(yōu)化出更加具有涌現(xiàn)特征的AI?另外,AI能否“理解”涌現(xiàn)?以識別甚至控制涌現(xiàn)為優(yōu)化目標,能否讓AI表現(xiàn)更出色? 因果涌現(xiàn)最早由Erik Hoel等人提出,即對一個系統(tǒng)建立多尺度建模的視角,在不同尺度下,都可以找到系統(tǒng)背后的動力學。其中,從微觀變量到宏觀變量會經(jīng)歷一個粗粒化的映射,減少我們處理變量的維度。宏觀變量固然會損失一些信息,但往往其動力學過程更為簡潔。對每一個尺度下的動力學,我們都可以測量其因果效應強度,比如計算有效信息(effective information, EI)的大小,關(guān)于這個具體度量指標的介紹可以參考集智百科詞條有效信息。我們可以比較不同尺度下動力學EI的大小,如果宏觀動力學EI大于微觀動力學EI,我們認為該系統(tǒng)發(fā)生因果涌現(xiàn)。基于Hoel等人的多尺度因果涌現(xiàn)框架來指導AI研究的工作目前只有NIS(Neural Information Squeezer)系列,其中NIS+的框架可以通過讓機器識別涌現(xiàn)(最大化有效信息)來增強分布外泛化預測的能力:本視角下討論的核心理論:因果涌現(xiàn) 推薦人:楊明哲 推薦論文:2篇 Zhang, J., & Liu, K. (2022). Neural Information Squeezer for Causal Emergence. Entropy, 25(1), 26. https:///10.3390/e25010026 Yang, M., Wang, Z., Liu, K., Rong, Y., Yuan, B., & Zhang, J. (2023). Finding emergence in data by maximizing effective information (arXiv:2308.09952). arXiv. http:///abs/2308.09952
本視角下關(guān)注的核心問題二:自去年以來,包括Ilya Sutskever、Marcus Hutter、Jack Rae等眾多研究者均對壓縮與智能之間的關(guān)系進行了探討,有觀點甚至將這一理論視為OpenAI的核心哲學。實際上,探究壓縮和智能的聯(lián)系已有悠久歷史,最早可追溯至圖靈關(guān)于可計算性的研究。此后,1960年代Solomonoff、Kolmogorov 和 Chaitin獨立提出并發(fā)展算法信息論(緊隨香農(nóng)的信息論之后),該領域逐漸引入了諸如柯式復雜度這樣的重要概念:即復雜度衡量的是在通用圖靈機上生成某個對象的最短程序長度。90年代,研究者已經(jīng)開始利用壓縮方法有效地執(zhí)行分類等任務,這一應用如今重新受到關(guān)注,仿佛它是一個全新的發(fā)現(xiàn)。隨著大型模型的興起,這一領域的聯(lián)系和重要性重新受到關(guān)注,這可能使得這一學科從默默發(fā)展到再次成為焦點。在當前的人工智能研究中,雖然數(shù)據(jù)規(guī)模和模型規(guī)模受到了極大關(guān)注,但各種Magic神經(jīng)網(wǎng)絡架構(gòu)背后,必然有更深層的原理在指導或推動其發(fā)展,這可能就像卡諾循環(huán)、內(nèi)燃機、熱力學第二定律以及熱力學統(tǒng)計之間的微妙關(guān)系。 本視角下討論的核心理論:算法信息論 推薦人:劉宇 推薦論文:5篇 Cilibrasi, Rudi, and Paul MB Vitányi. 'Clustering by compression.' IEEE Transactions on Information theory 51.4 (2005): 1523-1545. https://ieeexplore./abstract/document/1412045
在算法信息論領域非常有影響力的工作:如何利用壓縮機定義距離,進而用來分類、構(gòu)造系統(tǒng)發(fā)生樹等。 Delétang, Grégoire, et al. 'Language modeling is compression.' arXiv preprint arXiv:2309.10668 (2023). https:///abs/2309.10668
DeepMind的最新工作,闡述大模型和壓縮的關(guān)系,使得算法信息論再次引起人工智能領域的關(guān)注。 Johnston, Iain G., et al. 'Symmetry and simplicity spontaneously emerge from the algorithmic nature of evolution.' Proceedings of the National Academy of Sciences 119.11 (2022): e2113883119. https://www./doi/abs/10.1073/pnas.2113883119 從算法信息論角度去描述分子等結(jié)構(gòu)的復雜性,連接起來演化和壓縮的關(guān)系。 Sharma, Abhishek, et al. 'Assembly theory explains and quantifies selection and evolution.' Nature 622.7982 (2023): 321-328. https://www./articles/s41586-023-06600-9: 近期Nature正刊發(fā)表的充滿爭議的Assembly Theory Zecheng Zhang, Chunxiuzi Liu, Yingjun Zhu, et al. Evolutionary Tinkering Enriches the Hierarchical and Interlaced Structures in Amino Acid Sequences (近期將在Physical Review Research刊出)https://www./article/rs-3440555/v2 算法信息論領域所提出的新方法-梯徑方法,并把它應用于蛋白質(zhì)序列的分析,挖掘序列中亞結(jié)構(gòu)的重復嵌套關(guān)系以及演化關(guān)系。
本視角下關(guān)注的核心問題三:信息瓶頸的核心目的在于探索如何使得神經(jīng)網(wǎng)絡能在無監(jiān)督或弱監(jiān)督的條件下進行對比學習,實現(xiàn)對數(shù)據(jù)的最優(yōu)低維表征(當然,相關(guān)算法也適用于傳統(tǒng)的監(jiān)督學習)。 本視角下討論的核心理論:算法瓶頸 推薦人:田洋 推薦論文:2篇 以下兩篇為信息瓶頸(information bottleneck)在深度學習里最經(jīng)典的論文。 Painsky, A., & Tishby, N. (2018). Gaussian lower bound for the information bottleneck limit. Journal of Machine Learning Research, 18(213), 1-29. https://www./papers/v18/17-398.html Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). Learning deep representations by mutual information estimation and maximization. arXiv preprint arXiv:1808.06670. https:///abs/1808.06670
六、復雜系統(tǒng)的臨界性視角本視角下關(guān)注的核心問題:在生物系統(tǒng)中,用什么量化方法度量一個生物系統(tǒng)(如腦網(wǎng)絡)系統(tǒng)是否處于臨界態(tài)?臨界態(tài)將為這個系統(tǒng)帶來哪些好處?這些問題是否在人工神經(jīng)網(wǎng)絡中也成立? 本視角下討論的核心理論:自組織臨界 推薦人:張章 推薦論文:3篇 Bak, Per. How nature works: the science of self-organized criticality. Springer Science & Business Media, 2013.
關(guān)于自組織臨界性的經(jīng)典叢書,中文譯本為《大自然如何運作》,由自組織臨界性的提出人per bak撰寫。 Tetzlaff, Christian, et al. 'Self-organized criticality in developing neuronal networks.' PLoS computational biology 6.12 (2010): e1001013. https://journals./ploscompbiol/article?id=10.1371/journal.pcbi.1001013
這是一篇純生物文章,監(jiān)測了一個developing的神經(jīng)網(wǎng)絡系統(tǒng)是如何逐漸從低活性狀態(tài),經(jīng)過超臨界,亞臨界的狀態(tài),最終達到臨界態(tài)的。作者還通過數(shù)學模型來解釋了這一神經(jīng)網(wǎng)絡developing的過程。 Katsnelson, Mikhail I., Vitaly Vanchurin, and Tom Westerhout. 'Self-organized criticality in neural networks.' arXiv preprint arXiv:2107.03402 (2021). https:///abs/2107.03402 通過實驗(MNIST手寫體數(shù)字識別)和分析證明,人工神經(jīng)網(wǎng)絡再訓練中會逐漸趨向于一個自組織臨界態(tài)。
|