楊強教授是人工智能業(yè)界的國際專家,在學(xué)術(shù)界和工業(yè)界做出了許多貢獻(xiàn),尤其近些年為中國人工智能和數(shù)據(jù)挖掘的發(fā)展起到了重要的作用。 他是國際人工智能界 “遷移學(xué)習(xí)” 領(lǐng)域的發(fā)起人和帶頭人,同時為國際 “聯(lián)邦學(xué)習(xí)” 的發(fā)起人之一及帶頭人。他當(dāng)選為國際人工智能協(xié)會(AAAI)院士,成為第一位獲此殊榮的華人,之后又當(dāng)選為 AAAI 執(zhí)行委員會委員,是首位 AAAI 華人執(zhí)委,同時他也是第一位擔(dān)任 IJCAI 理事會主席的華人科學(xué)家。 學(xué)術(shù)君就楊強教授在論壇中的精彩演講進(jìn)行整理,內(nèi)容略有刪改: 非常榮幸在 SMP 開場的時候有機會和大家交流我最近的一些研究心得。題目的緣起是數(shù)據(jù)孤島和 AI,我們知道現(xiàn)在 AI 的熱潮主要來自深度學(xué)習(xí),而深度學(xué)習(xí)是離不開大數(shù)據(jù)的,但是其實我們周邊更多看到的是小數(shù)據(jù),數(shù)據(jù)難以獲取、質(zhì)量差的情況普遍存在,這些稱為 “數(shù)據(jù)孤島”,而且這些數(shù)據(jù)同時受到法律法規(guī)的限制,大部分不能進(jìn)行使用,由此對各行業(yè)研究有一定影響。 面臨這樣的挑戰(zhàn),我們做技術(shù)的研究人員應(yīng)該有對策,我們的對策有兩條,一條是面對小數(shù)據(jù),我們利用在別的地方獲取大數(shù)據(jù)的經(jīng)驗,把這種知識遷移到小數(shù)據(jù)領(lǐng)域來。而我們作為人在解決問題的時候也經(jīng)常使用這么一種遷移能力,像在教育領(lǐng)域,就有一個詞叫 “學(xué)習(xí)遷移”,大致意思是學(xué)習(xí)能力比學(xué)習(xí)內(nèi)容更重要。 第二個辦法呢,我們知道知識常常散落在不同的地方,那么我們要把數(shù)據(jù)匯聚起來,形成大數(shù)據(jù),往往是不能用簡單粗暴的辦法把數(shù)據(jù)聚集在一起。那么有一個更巧妙的辦法,把模型建立起來,但是不用把數(shù)據(jù)匯聚起來。這里舉一個例子,遷移學(xué)習(xí)就像一個老師在教一個學(xué)生,老師把自己的知識遷移到學(xué)生的大腦。那聯(lián)邦學(xué)習(xí)就像一群大學(xué)生形成一個學(xué)習(xí)小組,來共同解決一個問題,大家都是單獨的研究人員,但是在合作的時候形成互補,使得 1+1>2。那么今天的主題就是小數(shù)據(jù)能不能聚合成大數(shù)據(jù)。 首先是“ 數(shù)據(jù)不動,模型動 ”的思想,意思是說把數(shù)據(jù)保留在本地,那么模型參數(shù)可以在加密的狀態(tài)下進(jìn)行溝通,最后希望得到的模型的效果和這些數(shù)據(jù)物理聚合在一起的效果是差不多的,有幾種辦法可以達(dá)到這一點。一種辦法是按樣本分割,橫向切割數(shù)據(jù),為了把所使用的數(shù)據(jù)量擴大,在本地建立帶有參數(shù)的模型,把這些參數(shù)加密,然后整合到中心服務(wù)器,在加密的情況下進(jìn)行操作。 但是如何持續(xù)吸引參與方加入聯(lián)盟呢?這就需要我們不僅僅建立像經(jīng)濟學(xué)和博弈論的模型,同時還需要一個模擬的場景,那么這個場景就是我們最近研究的,需要考慮有哪些合理的激勵機制,比較公平的分配方案。因此參與者可以看到通過聯(lián)盟得到的收益以及需要它投入的成本。 有了這樣一種聯(lián)盟,那可以應(yīng)用到什么領(lǐng)域呢?將聯(lián)邦學(xué)習(xí)應(yīng)該到推薦系統(tǒng)是目前做的比較多的。我們每個人的手機上都有很多短視頻推薦系統(tǒng)以及新聞推薦系統(tǒng),個性化的推薦使得千人千面,我們每天或多或少都會使用,而我們每個人的點擊數(shù)據(jù)都是記錄在手機上的,這個數(shù)據(jù)是非常隱私的。傳統(tǒng)的做法是把數(shù)據(jù)移到云端,在云端進(jìn)行模型化,再把模型遷移到本地來。 特別要講的是醫(yī)學(xué),雖然醫(yī)學(xué)是機器學(xué)習(xí)很好的應(yīng)用領(lǐng)域,但是我們發(fā)現(xiàn)醫(yī)學(xué)里的數(shù)據(jù)非常珍貴,非常少的,其中一個原因是用戶數(shù)據(jù)都是具有高度用戶隱私的,因此醫(yī)院和研究機構(gòu)不愿意共享這些數(shù)據(jù),所以每一個地方數(shù)據(jù)很少以至于不足以建模。那如果在醫(yī)院之間進(jìn)行橫向聯(lián)邦縱向聯(lián)邦,無形中把數(shù)據(jù)總量和特征也增大了。 我們還建立了國際產(chǎn)業(yè)聯(lián)盟,有很多不同行業(yè)的公司和機構(gòu)參與,我們希望能進(jìn)行人才培養(yǎng),并且對政府進(jìn)行政策的建議,以及評估咨詢等。最后,再總結(jié)一下,聯(lián)邦學(xué)習(xí)是眾多人工智能和社會相結(jié)合的一個,也不是唯一的一個,我希望以后的人工智能不僅僅關(guān)心算法,而且要關(guān)心 AI 向善的問題,也就是 AI 要用在人類社會,那么用戶的隱私和數(shù)據(jù)的安全也要被考慮進(jìn)來。不僅要建立算法,還得建立算法的合作機制和生態(tài)。 |
|