推薦體系之協同過濾概述

心不留意外塵 2016-09-14

展開全文

http://blog.csdn.net/wolenski/article/details/7982580

2012

集體的力量如鋼鐵，世人的聰明如日月

協同過濾（Collaborative Filtering）是現今推薦體系中應用最為成熟的一個推薦算法系類，它哄騙愛好相投、擁有共同經驗之群體的愛好來推薦應用者感愛好的資訊，小我透過合作的機制賜與資訊相當程度的回應（如評分）并記錄下來以達到過濾的目標進而幫助別人篩選資訊（參考wiki，文字有點生硬，不過卻很好的描述了協同過濾的一個互動性：用戶參與用戶獲益）。

邊收拾邊寫了整整一天o（╯□╰）o

一、靠山

1.1 根蒂根基思惟

簡單來說：

和你愛好合得來的伴侶喜好的，你也很有可能喜好；
喜好一件器材 A，而另一件器材 B 與這件十分類似，就很有可能喜好 B；
大師都斗勁合意的，人人都追著搶的，我也就很有可能喜好。

三者均反應在協同過濾的評級（rating）或者群體過濾（social filtering）這種行動特點上。

1.2 相干研究組織

協同過濾上斗勁經典有名的組織貿易有：

Tapestry（1992）：電子郵件分類過濾，解決Xerox公司在Palo Alto的研究中間資訊過載題目。
GroupLens（1994）：推薦體系，在線社區，移動及普適技巧，數字藏書樓，和地理信息體系，見大名鼎鼎的MovieLens電影評分推薦。
Netflix：研究影視視頻在線推薦。
Amazon：亞馬孫收集書城，為亞馬遜每年供獻二三十個百分點的創收。

1.3 優毛病

長處：首要從應用者角度來看：

可以或許過濾機械難以主動內容解析的資訊，如藝術品，音樂等。也就是基于用戶標識等，可以主動歸類；
共用其他人的經驗，避免了內容解析的不完全或不正確，并且可以或許基于一些錯雜的，難以表述的概念（如資訊品德、小我咀嚼）進行過濾，直接后天間接性持續進步前輩經驗；
有推薦新資訊的才能。可以發明內容上完全不類似的資訊，應用者對推薦資訊的內容事先是預感不到的?？梢园l明應用者潛伏的但本身尚未發明的愛好偏好。（基于類似用戶推薦很好的能做到）
推薦個性化、主動化程度高。可以或許有效的哄騙其他類似應用者的回饋資訊。加快個性化進修的速度。

毛病：首要從設計與實現的角度

新應用者題目（New User Problem）：體系開端時推薦品德較差；
新項目題目（New Item Problem）：品德取決于汗青材料集；
稀少性題目（Sparsity）：體系汗青數據過少，難以進行正確的模式查找匹配推薦；
體系延長性題目（Scalability）：新加User或者Item時，體系須要增長策畫負荷量大。

1.4 對于當前推薦體系的題目的一些測驗測驗解決

本末節參考《Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions》的2.2節翻譯。

新用戶題目

為了使推薦體系加倍正確，體系必須從用戶的評分中學慣用戶的偏好，有很多辦法測驗測驗這方面研究，它們大多半應用混淆推薦模型，包含了基于內容以及協同過濾推薦辦法。別的的一種辦法是發掘一些條目供給給新用戶來進行評級，以便快速學慣用戶的偏好。這些發掘條目標技巧是基于項目標風行度，項目標熵，用戶個性化，以及以上技巧的糅合。

新項目題目

新的項目會經常添加到推薦體系中，協同過濾根蒂根基上是經由過程用戶的偏好進行推薦，如許，直到新的項目被足夠數量的用戶進行評級，推薦體系才有可能推薦它，這個題目同樣是經由過程混淆推薦辦法來解決。

數據稀少性

在很多推薦體系中，已經獲獲得的評級數據比擬全部待猜測的項只是很小的一項目組，那么從一個很小的樣例數據集中高效的猜測評分是很首要的。同樣推薦體系的成功在于擁有足夠數量的用戶，列于，在電影推薦體系中，有很多電影只被小項目組用戶評級，并且這些電影會很少被推薦，即使那小項目組用戶賜與很高評級。同樣，對于那些有著不合咀嚼的小眾群體，找不到雷同特定同口味的用戶，也導致較差的推薦成果了。

一個降服數據稀少性題目的辦法，是經由過程應用用戶材料信息來策畫用戶類似度。也就是，兩個用戶會被認為類似不只單在雷同的電影評級類似，并且也有可能屬于同一小我口統計區塊（demographic），比如，用戶的性別，春秋，居住地，教導景象，工作信息。這種基于傳統協同過濾的擴大辦法稱為demographic filtering。詳見M. Pazzani，《A Framework for Collaborative， Content-Based， and Demographic Filtering， Artificial Intelligence Rev》

別的的一個測驗測驗在于發掘被推薦出的用戶之間的類似性，在客戶的汗青交易和反饋數據中，經由過程接洽關系檢索框架，以及相干傳播擴散算法來發明客戶間的可傳遞性接洽關系。

別的的一個路子解決思路是，是經由過程一種降維技巧（ dimensionality reduction ），奇怪值分化（SVD:Singular Value Decomposition ），來降落稀少矩陣的維度。SVD是今朝一個已知的矩陣分化技巧，來為原始矩陣求的最好的低維近似。詳見B. Sarwar，的《Application of Dimensionality Reduction in Recommender Systems—A Case Study》

二、分類概述

2.1 推薦體系概況

協同過濾作為推薦體系中的一個主流辦法路子，在推薦體系中所處地位是怎么樣的呢，下面首要對推薦體系的辦法類別進行介紹，從兩種不合的角度上，推薦體系中辦法技巧分類首要有以下兩種分類：

從研究對象辦法上的一種分類

起首參考Adomavicius， G的論文《Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions》

推薦體系中的總體辦法有:

基于內容的推薦（Content-based recommendations）：體系會基于用戶前次喜好的一個項目推薦類似的項目；
協同過濾推薦（Collaborative recommendations）：基于尋找雷同評為與偏好的人群進行推薦；
混淆推薦（Hybrid approaches）：融合基于內容以及協同過濾推薦辦法。

并且論文中總結的近況技巧分類概述如下圖：

從應用算法架構上分類

參考Carleton College， Northfield， MN.官方網站上：

啟發式推薦算法（Memory-based algorithms）：是體系過濾思惟中的一種算法，每次推薦都須要調用這全部評級數據庫的內容，即對于一個用戶，策畫與其他所有其他用戶的類似度，對于用戶沒有碰到的新項目，將會哄騙類似度權重及其他用戶的評分加權猜測當前用戶對于這個新項目標潛伏評分。但這種每次策畫量過大
基于模型推薦算法（Model-based algorithms）：從評級數據集中建樹一個模型，也就是從數據庫中抽取一個模型數據，然后每次推薦都是基于模型數據進行策畫并推薦，如許不消每次都調用全部數據庫，進步了速度與體系伸縮性。大致包含：
- Item-based collaborative filtering
- Personality Diagnosis
- SVD
接洽關系規矩算法（Association Rules）：接洽關系規矩測驗測驗發明不合項目之間的因果關系，一個關鍵規矩本質上是一種（A1， A2， A3， … =>B1， B2， B3，…）的情勢，測驗測驗顯現一個序列決意別的的一個序列。首要由兩項目組構成：一個是接洽關系決定計劃，一個是對應的置信度。
- 接洽關系決定計劃：即若是A => B， C，那么若是Item A呈如今或人的汗青記錄里面，那么可以揣度B和C也很可能呈如今那邊。
- 置信度：注解對應的接洽關系決定計劃有多么靠得住，局限為[0， 1]的一個區間，若是置為1，那么申明上述決定計劃總能成立，若是為0，注解這個決定計劃從來不會正確。

2.2 協同過濾基本分類

協同過濾實際上與推薦體系中的其他辦法是交錯疊加的，沒有一個明白的界線，推薦體系的辦法測驗測驗都有連絡協同過濾的思惟身分去實現，參考wiki百科中協同過濾大體可以分為三類：

基于用戶協同過濾（User – based）：基于策畫類似用戶用以推薦
基于項目協同過濾（Item – based）：基于策畫類似項目用以推薦
基于模型協同過濾（Model- based）：基于原始數據中抽取出模型，基于模型策畫并用以推薦

三、協同過濾三大分類

3.1 基于用戶協同過濾（User-based）

用類似統計的辦法獲得具有類似愛好或者愛好的相鄰應用者，最早是在1994年由來自美國Minnesota大學Paul Resnick等人揭曉的《GroupLens: An Open Architecture for Collaborative Filtering of Netnews》一文中提出的。

辦法根蒂根基步調

1. 收集應用者資訊

收集可以代表應用者愛好的資訊。概括首要分為兩類：

主動評分（顯式評分）：基于用戶的直接打分數據，如評分，愛好等級，like/dislike
被動評分（隱式評分）：是按照顧用者的行動模式由體系庖代應用者完成評價，不須要應用者直接打分或輸入評價材料，如電子商務中的購買記錄，視頻網站用戶觀察遲疑記錄、收藏記錄，甚至是評論文本概念定見發掘等進行廣泛深度的數據發掘。

2. 比來鄰搜刮（Nearest neighbor search， NNS）

以應用者為根蒂根基（User-based）的協同過濾的出發點是與應用者愛好愛好雷同的另一組應用者，就是策畫兩個應用者的類似度。

例如：尋找n個和A有類似愛好應用者，把他們對M的評分作為A對M的評分猜測。一般會按照材料的不合選擇不合的算法。

今朝較多應用的類似度算法有：

皮爾森相干系數：Person Correlation Coefficient
余弦類似度：Cosine-based Similarity
改正余弦類似度：Adjusted Cosine Similarity

3. 產生推薦成果

有了比來鄰湊集，就可以對目標應用者的愛好進行猜測，產生推薦成果。

根據推薦目標不合情勢的推薦，較常見的推薦成果有Top-N 推薦和接洽關系推薦。

Top-N 推薦：是針對個別應用者產生，對每小我產生不一樣的成果，例如：透過對A應用者的比來鄰應用者進行統計，選擇呈現頻率高且在A應用者的評分項目中不存在的，作為推薦成果。
接洽關系推薦：對比來鄰應用者的記錄進行接洽關系規矩（association rules）發掘。

優毛病

長處：在數據集完美，內容雄厚下，正確率較高，并且可以或許避開項目內容上的發掘進行正確推薦，對夠對項目接洽關系性，用戶偏好進行隱式透明的發掘。
毛?。?/strong>跟著應用者數量的增多，策畫的時候就會變長，新用戶題目，以及數據稀少性題目是導致效力與伸縮性上均不足

3.2 基于項目協同過濾（Item-based）

鑒于基于用戶的協同推薦算法跟著應用者數量的增多，策畫的時候就會變長，最早是在2001年由Sarwar提出了基于項目標協同過濾推薦算法《Item-based Collaborative Filtering Algorithms》中所提出的。

基于項目協同過濾在于透過策畫項目之間的類似性來庖代應用者之間的類似性。

所建樹的一個根蒂根基的假設：”可以或許引起應用者愛好的項目，必然與其之前評分高的項目類似”，通俗的來說：根蒂根基上喜好《長尾理論》的人，都邑去看《世界是平的》，不知道你怎么想，反正豆瓣推薦體系就是這么認為的。

辦法步調：

1. 收集應用者資訊

同以應用者為根蒂根基（User-based）的協同過濾。

2. 針對項目標比來鄰搜刮

先策畫己評價項目和待猜測項目標類似度，并以類似度作為權重，加權各已評價項目標分數，獲得待猜測項目標猜測值。

例如：要對項目 A 和項目 B 進行類似性策畫，要先找出同時對 A 和 B 打過分的組合，對這些組合進行類似度策畫，常用的算法同基于應用者（User-based）的協同過濾。

3. 產生推薦成果

在用戶應用評價一個商品感愛好后，會主動搜尋改商品類似度最大的前N項條目。

優毛病：

長處：以項目為根蒂根基的協同過濾不消推敲應用者間的差別，所以精度斗勁差。然則卻不須要應用者的汗青材料，或是進行應用者辨認。對于項目來講，它們之間的類似性要穩定很多，是以可以離線完成工作量最大的類似性策畫步調，從而降落了線上策畫量，進步推薦效力，尤其是在應用者多于項目標景象下尤為明顯。

毛病：但其仍有很多題目須要解決，最典范的有稀少題目（Sparsity）和冷啟動題目（Cold-start），開端時結果較差。此外還有新應用者題目和算法結實性等題目。

3.3 基于模型的協同過濾（Model- based）

以應用者為根蒂根基（User-based）的協同過濾和以項目為根蒂根基（Item-based）的協同過濾統稱為以記憶為根蒂根基（Memory based）的協同過濾技巧，他們共有的毛病是材料稀少，難以處理懲罰大數據量下的即時成果，是以成長出以模型為根蒂根基的協同過濾技巧。

以模型為根蒂根基的協同過濾（Model-based Collaborative Filtering）是先用汗青材料獲得一個模型，再用此模型進行猜測。以模型為根蒂根基的協同過濾廣泛應用的技巧包含Latent Semantic Indexing、Bayesian Networks…等，按照對一個樣本的解析獲得模型。

四、類似度策畫算法

4.1 概述

類似度策畫算法可以用于策畫用戶或者項目類似度。

以項目類似度策畫（Item Similarity Computation）為列，通性在于都是從評分矩陣中，為兩個項目i，j遴選出共同的評分用戶，然對這個配實用戶的評分向量，進行策畫類似度s_i，j，

由參考1，參考2如下圖：行代表用戶，列代表項目

（重視到是從i，j向量中抽出共有的評論，構成的一對向量，進行類似度策畫），

皮爾森相干系數：Person Correlation Coefficient
余弦類似度：Cosine-based Similarity
改正余弦類似度：Adjusted Cosine Similarity

4.2 皮爾森相干系數

皮爾森相干系數也是一種基于相干系數的類似度策畫辦法，一般為了使策畫成果正確，須要找出共同評分的用戶。

記用戶集U為既評論了 i 又評論了 j 的用戶集，那么對應的皮爾森相干系數策畫公式為：

（此中R_u，i   為用戶u 對項目 i 的評分，對應帶橫杠的為這個用戶集U對項目i的評分評分）

4.3 余弦類似度

兩個項目 i ，j 視作為兩個m維用戶空間向量，類似度策畫經由過程策畫兩個向量的余弦夾角，那么，對于m*n的評分矩陣，i ，j 的類似度sim（ i ， j ）策畫公式：

（此中 " · "記做兩個向量的內積）

4.4 改正余弦類似度

余弦類似度策畫并沒有推敲到不合的用戶的評分標準差別性，也就是說有的用戶評分更寬容廣泛打分較高，有的用戶評分更嚴格，廣泛打分較低。改正余弦類似度正式為了降服這一毛病，經由過程求出每位用戶的均勻打分，調劑評分向量為評分誤差向量，再進行求解余弦類似度。

（此中帶橫杠的為第u個用戶的均勻評分）

4.5 基于項目類似度與基于用戶類似度的差別

上述三個類似度公式是基于項目類似度場景下的，而實際上，基于用戶類似度與基于項目類似度策畫的一個根蒂根基的差別是，基于用戶類似度是基于評分矩陣中的行向量類似度求解，基于項目類似度策畫式基于評分矩陣中列向量類似度求解，然后三個公式分別都可以實用，如下圖：

（此中，為0的默示未評分）

基于項目類似度策畫式策畫如Item3，Item4兩列向量類似度；
基于用戶類似度策畫式策畫如User3，User4量行向量類似度。

終極的策畫公式辦法均雷同。具體可具體參考《Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions》2.2節

4.6 類似度策畫不足與改進

基于評分矩陣類似度策畫所面對的一個機能題目，數據稀少下，精度很差，因為類似度策畫是基于尋找擁有配實用戶評分的項目或者共同項目評分的用戶，在數據稀少下，兩個向量中空值過多，導致策畫共同評分維度過低，甚至就沒有共同評分。

對于數據稀少性這種景象下，一個測驗測驗的路子是進行對評分矩陣進行填充。

填充規矩有很多，一種通用的辦法是，填充均分，具體如下兩種：

基于用戶均分：填充對應用戶的均勻打分
基于項目均分：基于對應項目標均勻打分



          （基于用戶均分填充）                                       （基于項目均分填充）

五、協同過濾急迅實踐

5.1 概述

起首參考Slope one的wiki百科的一段話（此章節遵守Slope one的wiki百科從頭收拾）：

當可以對一些項目評分的時辰，比如人們可以對一些器材給出1到5星的評價的時辰，協同過濾意圖基于一個個別疇昔對某些項目標評分和（重大的）由其他用戶的評價構成的數據庫，來猜測該用戶對未評價項目標評分。

In this context， item-based 協同過濾體系[按照其它項目標評分來猜測某項目標分值，一般辦法為線性回歸（f（x） = ax + b）. 于是，當有1000個項目時，須要列多達1，000，000個線性回歸方程，以及多達2，000，000個回歸量。除非我們只選擇某些用戶共同評價過的項目對，不然協同過濾會碰到過適題目。

別的一種更好的辦法是應用更簡單一些的式子，比如 f（x） = x + b：實驗證實當應用一半的回歸量的時辰，該式子（稱為Slope One）的發揮解析有時優于[2] 線性回歸方程。該簡化辦法也不須要那么多存儲空間和延遲。

基于奧卡姆剃刀原則：“切勿浪費較多器材，去做‘用較少的器材，同樣可以做好的工作’。”

基于項目類似度協同過濾的一種簡化的思惟Slope One算法也就反應出了加倍實用之處。

附帶一句，關于推薦體系等算法，急迅開辟實現，可以測驗測驗看下《集體聰明編程》（Programming Collective Intelligence），Python實現。

5.2 Slope One算法

為了大大削減過適的產生，提拔算法簡化實現， Slope One 系列易實現的Item-based協同過濾算法被提了出來。本質上，該辦法應用更簡單情勢的回歸表達式（f（x） = x + b）和單一的參數，而不是一個項目評分和另一個項目評分間的線性回歸（f（x） = ax + b）。該參數只不過就是兩個項目評分間的均勻差值。甚至在某些實例傍邊，它比線性回歸的辦法更正確[2]，并且該算法只須要一半（甚至更少）的存儲量。

基起原根蒂根基理

如下圖評分矩陣：

基于UserA對Item1與Item2的評分，以及UserB對Item1的打分，Slope One算法思惟對于UserB對于Item2的猜測評分為 2 +（1.5-1）=2.5.

從這里可以看出，Slope One的思惟是，每次只著眼兩點，因為兩點斷定一條直線嘛，并且對于這兩點Item 1與Item2，User A都經過，User B經過此中1點，Slope One思惟假設User B與User A這條直線發揮解析同一斜率：

應用處景

如下圖評分矩陣

要猜測Lucy對項目1的評分：

項目1與項目2間的均差值（5-3）+（3-4）/2 =0.5，（John線與Mark線）
項目1與項目3間的均差值（5-2）/1 =3（John線）

那么Lucy對于項目1的評分猜測可以基于項目1與項目2，以及項目1與項目3的兩個均差值，3項線來猜測，項線幾道對應均差值的權重上。也就有

rate（lucy，項目1）=（（0.5+2）*2+（3+5）*1）/（2+1）=4.33

想要實現 Slope One，只須要策畫并存儲“n”對評分間的均勻差值和評價數量即可。

算法錯雜度

設有“n”個項目，“m”個用戶，“N”個評分。策畫每對評分之間的差值須要n（n-1）/2 單位的存儲空間，最多須要 m*n*n步.

假設用戶已經評價了最多 y 個項目，那么策畫不跨越n*n+m*y*y個項目間策畫差值是可能的。

若是一個用戶已經評價過“x”個項目，猜測單一的項目評分須要“x“步，而對其所有未評分項目做出評分猜測須要最多（n-x）x 步. 當一個用戶已經評價過“x”個項目時，當該用戶新增一個評價時，更新數據庫須要 x步。

可以經由過程分別數據（參照分別和稀少存儲（沒有共同評價項目標用戶可以被忽視）來降落存儲請求。

還不想親身實現？找開源吧

開源的Slope one的法度包

Python：
http://www./blog/2006/12/12/collaborative-filtering-made-easy/
Java：
http://taste./
http://www./fr/documents/publications/SlopeOne.java
http://www./cofi/
PHP：
http:///projects/vogoo
http://www./project/cre
http://www./fr/documents/publications/webpaper.txt Slope one算法作者寫的，簡單了然。

5.3 Amazon的item-to-item專利算法

在加倍廣泛的場景中，人們并不老是能給出評分，當用戶只供給二元數據（購買與否）的時辰，就無法應用Slope One 和其它基于評分的算法。然則卻有一個更簡單更簡單的辦法：Amazon的 item-to-item 專利算法

item-to-item算法是二元 item-based協同過濾應用的例子之一，該算法頂用二元向量默示用戶-項目購買關系的矩陣，并策畫二元向量間的cosine相干系數。

如以下應用處景：

在本例傍邊，項目1和項目2間的cosine相干系數為：

項目1和項目3間的cosine相干系數為：

而項目2和項目3的cosine相干系數為：

于是，瀏覽項目1的顧客會被推薦買項目3，而瀏覽項目2的顧客會被推薦買項目3，瀏覽了項目3的會被推薦買1（并由1推薦2）。該模型只應用了每對項目間的一個參數（cosine相干系數）來產生推薦。是以，若是有n個項目，則須要策畫和存儲 n（n-1）/2次cosine相干系數。

六、算法評價指標

推薦體系，協同過濾范疇，在科學研究上的一些評價指標首要有MAE，AUC，MAP，P＠N，P·R·F曲線。而實際應用中還要推敲到體系伸縮性，算法錯雜度，等等，那些就不說了，P·R·F指標參考我之前的一篇文章：《信息檢索根蒂根基評價指標-P·R·F》

以下指標具體界定參考論文《Mining mood-specific movie similarity with matrix factorization for context-aware recommendation》及《New Approaches to Mood-based Hybrid Collaborative Filtering》

6.1 均勻絕對誤差 MAE（Mean Absolute Error）

經由過程策畫猜測的用戶評分與實際的用戶評分之間誤差來懷抱。首要連絡交叉驗證來實現，公式如下：

（此中，g（authentic）為真實評分，g（prediction）為猜測評分，G^test，為全部待猜測用戶評分集）

6.2均勻正確率MAP（Mean Aaverage Precision）

MAP是信息檢索中解決P·R·F指標的不足，而提出的，其規范的定義是，設P（R）為體系在召回率為R時的正確率。

單個主題的均勻正確率是每篇相干文檔檢索出后的正確率的均勻值。主湊集的均勻正確率（MAP）是每個主題的均勻正確率的均勻值。 MAP 是反應體系在全部相干文檔上機能的單值指標。體系檢索出來的相干文檔越靠前（rank 越高），MAP就可能越高。

一個簡單的比方就是（參考）：

設有兩個主題，主題1有4個相干網頁，主題2有5個相干網頁。某體系對于主題1檢索出4個相干網頁，其rank分別為1， 2， 4， 7；對于主題2檢索出3個相干網頁，其rank分別為1，3，5。

對于主題1，均勻正確率為（1/1+2/2+3/4+4/7）/4=0.83。

對于主題 2，均勻正確率為（1/1+2/3+3/5+0+0）/5=0.45。

則MAP= （0.83+0.45）/2=0.64。

應用與協同過濾中的衡量時，也便是測量體系返回推薦項目對應真實用戶愛好偏好的排名的均勻正確率。公式如下：

此中：U為測試用戶集，|U|默示用戶集的數量，| R_i |默示用戶 u_i 相干的項目（如電影）數據， r_i，j默示體系為用戶u_i 推薦的第 j 個相干項目對于用戶 u_i 實際的偏好排名。

6.3 P＠n測度

測量對于給定用戶ui，前n推薦項目中相干項所占比率。如下公式

6.4 AUC（Area Under Curve）

對于用戶u，推薦機能AUC 衡量指標策畫公式如下：

此中h（x）是一個指標函數，即若參數值x>0或者邏輯真，著函數值為1，不然為0，Pair（u）是一組用戶u待策畫的配對集值：

此中Tr（u）是練習集頂用戶u已經有的項目集，Ts（u）為測試集頂用戶實際預期應當被推薦的項目，實際上，這里面的 n 也就是測試集不該該被推薦的項目。AUC取值[0，1]，最好的就是1了。

其實以上可以看出，AUC是相對其他正確率測度最不直接的一個，來由是AUC涉及到所有配對，包含相干的項目以及不相干的項目（那些即不呈如今練習集，也不呈如今測試集中），盡管如此，因為凡是數據集中不相干的項目比相干項目多得多，注解了AUC可以對于項目排序的變更沒有那么敏感。

一些參考：

http://zh./zh-cn/％E5％8D％94％E5％90％8C％E9％81％8E％E6％BF％BE
http://www.cs./cs_comps/0607/recommend/recommender/
http://www.cs./cs_comps/0607/recommend/recommender/svd.html
http://wenku.baidu.com/view/e12b10ea81c758f5f61f67fb.html
http://zh./wiki/Slope_one
http://www./algorithm/20080903/16387.html
http://www.cnblogs.com/kuber/archive/2008/06/10/1216846.html
更多參照文章中的鏈接