推薦算法概覽

quasiceo 2016-07-29

展開全文

推薦算法概覽（二）

本文是系列文中的第二篇，將會(huì)列出推薦算法的備忘列表，介紹推薦算法的主要分類。在本文中，我們會(huì)更詳細(xì)地介紹協(xié)同過(guò)濾推薦算法，并討論其優(yōu)劣，以便大家更深刻地理解其工作原理。

協(xié)同過(guò)濾（CF）推薦算法會(huì)尋找用戶的行為模式，并據(jù)此創(chuàng)建用戶專屬的推薦內(nèi)容。這種算法會(huì)根據(jù)系統(tǒng)中的用戶使用數(shù)據(jù)——比如用戶對(duì)讀過(guò)書籍的評(píng)論來(lái)確定用戶對(duì)其喜愛程度。關(guān)鍵概念在于：如果兩名用戶對(duì)于某件物品的評(píng)分方式類似，那么他們對(duì)于某個(gè)新物品的評(píng)分很可能也是相似的。值得注意的是：這種算法無(wú)需再額外依賴于物品信息（比如描述、元數(shù)據(jù)等）或者用戶信息（比如感興趣的物品、統(tǒng)計(jì)數(shù)據(jù)等）。協(xié)同過(guò)濾推薦算法可分為兩類：基于鄰域的與基于模型的。在前一種算法（也就是基于內(nèi)存的協(xié)同過(guò)濾推薦算法）中，用戶-物品評(píng)分可直接用以預(yù)測(cè)新物品的評(píng)分。而基于模型的算法則通過(guò)評(píng)分來(lái)研究預(yù)測(cè)性的模型，再根據(jù)模型對(duì)新物品作出預(yù)測(cè)。大致理念就是通過(guò)機(jī)器學(xué)習(xí)算法，在數(shù)據(jù)中找出模式，并將用戶與物品間的互動(dòng)方式模式化。

基于鄰域的協(xié)同過(guò)濾則著眼于物品之間的關(guān)系（即基于物品的協(xié)同過(guò)濾）或者用戶之間的關(guān)系（基于用戶的協(xié)同過(guò)濾）。

基于用戶的協(xié)同過(guò)濾是探索對(duì)物品擁有相似品味的用戶，并基于彼此喜愛的物品來(lái)進(jìn)行互推。
基于物品的協(xié)同過(guò)濾是用戶喜愛的物品，推薦類似的東西。而這種相似性建立在物品同時(shí)出現(xiàn)的基礎(chǔ)上，比如購(gòu)買了x物品的用戶也購(gòu)買了y物品。

首先，在執(zhí)行基于物品的協(xié)同過(guò)濾前，我們先看一個(gè)基于用戶的協(xié)同過(guò)濾案例。
假設(shè)我們有一些用戶已經(jīng)表達(dá)了他們對(duì)某些書籍的偏好，他們?cè)较矚g某本書，對(duì)這本書的評(píng)分也越高（評(píng)分范圍是1分到5分）。我們可以在一個(gè)矩陣中重現(xiàn)他們的這種偏好，用行代表用戶，用列代表書籍。

圖片描述

圖一：用戶書籍偏好所有偏好的范圍都是1分到5分，5分是最高（也就是最喜歡的）。第一個(gè)用戶（行1）給第一本書（列1）的評(píng)分為4分，如果某個(gè)單元格為空，代表著用戶并未對(duì)這本書作出評(píng)價(jià)。

在基于用戶的協(xié)同過(guò)濾算法中，我們要做的第一件事就是根據(jù)用戶對(duì)書籍的偏好，計(jì)算出他們彼此間的相似度。我們從某個(gè)單獨(dú)用戶的角度來(lái)看一下這個(gè)問(wèn)題，以圖一中第一行的用戶為例。通常我們會(huì)將每個(gè)用戶都作為向量（或者數(shù)組），其中包含了用戶對(duì)物品的偏好。通過(guò)多種類似的指標(biāo)對(duì)用戶進(jìn)行對(duì)比是相當(dāng)直接的。在本例中，我們會(huì)使用余弦相似點(diǎn)。我們將第一位用戶與其他五位相對(duì)比，可以發(fā)現(xiàn)第一位與其他用戶的相似度有多少（圖二）。就像大多相似度指標(biāo)一樣，向量之間的相似度越高，彼此也就越相似。在本例中，第一位用戶與其中兩位有兩本相同的書籍，相似度較高；與另兩位只有一本相同書籍，相似度較低；與最后一位沒(méi)有相同書籍，相似度為零。

圖片描述

圖二：第一位用戶與其他用戶的相似性。可以在一個(gè)單獨(dú)的維度中繪制用戶間的余弦相似性。

更常見的情況下，我們可以計(jì)算出每名用戶與所有用戶的相似程度，并在相似性矩陣中表現(xiàn)出來(lái)（圖三）。這是一個(gè)對(duì)稱矩陣，也就是說(shuō)其中一些有用的屬性是可以執(zhí)行數(shù)學(xué)函數(shù)運(yùn)算的。單元格的背景色表明了用戶彼此間的相似程度，紅色越深則相似度越高。

圖片描述

圖三：用戶間的相似矩陣，每個(gè)用戶的相似度是基于用戶閱讀書籍間的相似性。

現(xiàn)在，我們準(zhǔn)備使用基于用戶的協(xié)同過(guò)濾來(lái)生成給用戶的推薦。對(duì)于特定的用戶來(lái)說(shuō)，這代表著找出與其相似性最高的用戶，并根據(jù)這些類似用戶喜愛的物品進(jìn)行推薦，具體要參照用戶相似程度來(lái)加權(quán)。我們先以第一個(gè)用戶為例，為其生成一些推薦。首先我們找到與這名用戶相似程度最高的n名用戶，刪除這名用戶已經(jīng)喜歡過(guò)的書籍，再對(duì)最相似用戶閱讀過(guò)的書籍進(jìn)行加權(quán)，之后將所有結(jié)果加在一起。在本例中，我們假設(shè)n=2，也就是說(shuō)取兩名與第一位用戶最相似的用戶，以生成推薦結(jié)果，這兩名用戶分別是用戶2及用戶3（圖四）。由于第一名用戶已經(jīng)對(duì)書籍1和書籍5做出了評(píng)分，推薦結(jié)果生成書籍3（分?jǐn)?shù)4.5）及書籍4（分?jǐn)?shù)3）。

圖片描述

圖四：為一名用戶生成推薦。我們?nèi)∵@兩名最相似的用戶所閱讀的書籍，進(jìn)行加權(quán)，然后對(duì)這名用戶尚未評(píng)分的書籍進(jìn)行推薦。

現(xiàn)在我們對(duì)基于用戶的協(xié)同過(guò)濾有了更深刻的理解，之后來(lái)看一個(gè)基于物品的協(xié)同過(guò)濾的案例。我們還是用同一組用戶（圖一）為例。

在基于物品的協(xié)同過(guò)濾中，與基于用戶的協(xié)同過(guò)濾類似，我們要做的第一件事就是計(jì)算相似度矩陣。但這一回，我們想要針對(duì)物品而非用戶來(lái)看看它們之間的相似性。與之前類似，我們以書籍作為喜愛者的向量（或數(shù)組），將其與余弦相似度函數(shù)相對(duì)比，從而揭示出某本書籍與其他書籍之間的相似程度。由于同一組用戶給出的評(píng)分大致類似，位于列1的第一本書與位于列5的第五本書相似度是最高的（圖五）。其次是相似度排名第三的書籍，有兩位相同的用戶喜愛；排名第四和第二的書籍只有一位共同讀者；而排名最后的書籍由于沒(méi)有共同讀者，相似度為零。

圖片描述

圖五：第一本書與其他書籍的對(duì)比。書籍通過(guò)所閱讀用戶的評(píng)價(jià)來(lái)表現(xiàn)。通過(guò)余弦相似度指標(biāo)（0-1）來(lái)進(jìn)行對(duì)比，相似度越高，兩本書就越相似。

我們還可以在相似矩陣中展示出所有書籍彼此間的相似程度（圖六）。同樣以背景顏色區(qū)分了兩本書彼此間的相似程度，紅色越深相似程度也越高。

圖片描述

圖六：書籍的相似矩陣

現(xiàn)在我們知道每本書彼此間的相似程度了，可以為用戶生成推薦結(jié)果。在基于物品的協(xié)同過(guò)濾中，我們根據(jù)用戶此前曾評(píng)過(guò)分的物品，推薦與其最為相似的物品。在案例中，第一位用戶獲得的推薦結(jié)果為第三本書籍，然后是第六本（圖七）。同樣地，我們只取與用戶之前評(píng)論過(guò)的書籍最相似的兩本書。

圖片描述

圖七：為某位用戶生成推薦結(jié)果。我們?nèi)〉剿麄冎霸u(píng)論過(guò)的書籍目錄，找出與每本書籍最相似的兩本，再對(duì)用戶尚未評(píng)論過(guò)的書籍進(jìn)行推薦。

根據(jù)上述描述，基于用戶與基于物品的協(xié)同過(guò)濾似乎非常類似，因此能得出不同的結(jié)果這一點(diǎn)確實(shí)很有意思。即便在上例中，這兩種方式都能為同一名用戶得出不同的推薦結(jié)果，盡管兩者的輸入內(nèi)容是相同的。在構(gòu)建推薦時(shí)，這兩種形式的協(xié)同過(guò)濾方式都是值得考慮的。盡管在向外行描述時(shí)，這兩種方法看起來(lái)非常類似，但實(shí)際上它們能得出非常不同的推薦結(jié)果，從而為用戶帶來(lái)完全不同的體驗(yàn)。

由于簡(jiǎn)單高效，且生成的推薦結(jié)果準(zhǔn)確、個(gè)性化，鄰域方法也是相當(dāng)受歡迎的。但由于要計(jì)算（用戶或物品間的）相似度，隨著用戶或物品數(shù)量的增長(zhǎng)，也會(huì)出現(xiàn)一些伸縮性方面的局限。在最糟的情況下，需要計(jì)算O(m*n)，但在現(xiàn)實(shí)中情況略好一些，只要計(jì)算O(m+n)即可，部分原因在于利用了數(shù)據(jù)的稀疏度。盡管稀疏度有助于擴(kuò)展實(shí)現(xiàn)，但同時(shí)也為基于鄰域的方法提出了挑戰(zhàn)，因?yàn)樵诤Ａ康奈锲分校瑑H有少量是有用戶評(píng)論過(guò)的。例如，Mendeley系統(tǒng)中有數(shù)百萬(wàn)篇文章，而一名用戶也許只讀過(guò)其中幾百篇。兩名各讀過(guò)100篇文章的用戶具有相似度的可能性僅為0.0002（在5000萬(wàn)篇文章的目錄中）。

基于模型的協(xié)同過(guò)濾方式可以克服基于鄰域方法的限制。與使用用戶-物品評(píng)分直接預(yù)測(cè)新物品評(píng)分的鄰域方式不同，基于模型的方法則使用評(píng)分來(lái)研究預(yù)測(cè)性模型，并根據(jù)模型來(lái)預(yù)測(cè)新物品。大致理念就是通過(guò)機(jī)器學(xué)習(xí)算法，在數(shù)據(jù)中找出模式，并將用戶與物品間的互動(dòng)方式模式化。總體來(lái)講，基于模型的協(xié)同過(guò)濾方式是構(gòu)建協(xié)同過(guò)濾更高級(jí)的算法。很多不同的算法都能用來(lái)構(gòu)建模型，以進(jìn)行預(yù)測(cè)；例如貝葉斯網(wǎng)絡(luò)、集群、分類、回歸、矩陣因式分解、受限波爾茲曼機(jī)等，這些技術(shù)其中有些在獲得Netflix Prize獎(jiǎng)項(xiàng)時(shí)起到了關(guān)鍵性作用。Netflix在2006年到2009年間舉辦競(jìng)賽，當(dāng)時(shí)還為能夠生成準(zhǔn)確度超過(guò)其系統(tǒng)10%的推薦系統(tǒng)制作團(tuán)隊(duì)提供100萬(wàn)美元的大獎(jiǎng)。勝出的解決方案是一套綜合了逾100種不同算法模型，并在生產(chǎn)環(huán)境中采用了矩陣因式分解與受限玻爾茲曼機(jī)的方法。

矩陣因式分解（比如奇異值分解、SVD++）將物品與用戶都轉(zhuǎn)化為同一個(gè)隱空間，表現(xiàn)了用戶與物品間的底層互動(dòng)（圖八）。矩陣因式分解背后的原理在于：其潛在特性代表了用戶如何對(duì)物品進(jìn)行評(píng)分。根據(jù)用戶與物品的潛在表現(xiàn)，我們就可以預(yù)測(cè)用戶對(duì)未評(píng)分的物品的喜愛程度。

圖片描述

圖八：矩陣分解算法的演示，用戶偏好矩陣可以分解為用戶主題矩陣乘以物品主題矩陣。

在表一中，我們列出了鄰域算法與基于模型的協(xié)同過(guò)濾算法的關(guān)鍵優(yōu)劣點(diǎn)。由于協(xié)同過(guò)濾算法只依賴于用戶的使用數(shù)據(jù)，想要生成足夠優(yōu)秀的推薦結(jié)果無(wú)需對(duì)技術(shù)工作有太多了解，但這種算法也有其局限。例如，CF更容易推薦流行物品，因此為品味獨(dú)特的用戶推薦物品時(shí)就會(huì)比較困難（即對(duì)其感興趣的物品可能不具有太多的使用數(shù)據(jù)），也就是流行度偏好的問(wèn)題，這一點(diǎn)通常可以通過(guò)基于內(nèi)容的過(guò)濾算法解決。CF算法更重要的一個(gè)限制就是所謂的“冷啟動(dòng)問(wèn)題”——系統(tǒng)無(wú)法為沒(méi)有或使用行為很少的用戶提供推薦（也就是新用戶的問(wèn)題），也無(wú)法為沒(méi)有或使用行為很少的物品提供推薦（也就是新物品的問(wèn)題）。新用戶的“冷啟動(dòng)問(wèn)題”可以通過(guò)流行度和混合算法來(lái)解決，而新物品問(wèn)題可以通過(guò)基于內(nèi)容過(guò)濾或multi-armed bandit推薦算法（即探索-利用）來(lái)解決。在下篇文章中我們會(huì)詳細(xì)討論其中一些算法。

本文中，我們介紹了三種基本的協(xié)同過(guò)濾算法實(shí)現(xiàn)。基于物品、基于用戶的協(xié)同過(guò)濾算法，以及矩陣分解算法之間的區(qū)別都很細(xì)微，通常很難簡(jiǎn)單地解釋其差異。理解這些算法間的差異有助于我們選擇推薦系統(tǒng)最適合的算法。在下篇文章中，我們會(huì)繼續(xù)深入探討推薦系統(tǒng)的流行算法。

第二部分原文：Overview of Recommender Algorithms – Part 2

推薦算法概覽

推薦算法概覽（一）

推薦算法概覽（二）

推薦算法概覽（三）

推薦算法概覽（四）

推薦算法概覽（五）