久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    Mahout的taste里的幾種相似度計算方法

     openlog 2013-04-03

    歐幾里德相似度(Euclidean Distance)

    最初用于計算歐幾里德空間中兩個點的距離,以兩個用戶x和y為例子,看成是n維空間的兩個向量x和y,  xi表示用戶x對itemi的喜好值,yi表示用戶y對itemi的喜好值,他們之前的歐幾里德距離是

     

    對應(yīng)的歐幾里德相似度,一般采用以下公式進(jìn)行轉(zhuǎn)換:距離越小 ,相似度越大

     

    在taste里,計算user之間和item之前歐幾里德相似度的類是EuclideanDistanceSimilarity。

     

     

    皮爾遜相似度(Pearson Correlation Coefficient)

    皮爾遜相關(guān)系數(shù)一般用于計算兩個定距變量間線性相關(guān)的緊密程度,它的取值在[-1,+1]之間。當(dāng)取值大于0時表示兩個變量是正相關(guān)的,即一個變量的值越大,另一個變量的值也會越大;當(dāng)取值小于0時表示兩個變量是負(fù)相關(guān)的,即一個變量的值越大,另一個變量的值反而會越小。其計算公式如下

    其中sx和sy是樣品的標(biāo)準(zhǔn)偏差

     

     

    在taste里, PearsonCorrelationSimilarity的實現(xiàn)方式不是采用上述公式,而是采用3的實現(xiàn)。

     

    Cosine相似度(Cosine Similarity)

    就是兩個向量的夾角余弦,被廣泛應(yīng)用于計算文檔數(shù)據(jù)的相似度

     

    在taste里, 實現(xiàn)Cosine相似度的類是PearsonCorrelationSimilarity, 另外一個類UncenteredCosineSimilarity的實現(xiàn)了形式化以后的cosine向量夾角,如下公式

     

    用這種公式計算的原因如下:余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感。因此沒法衡量每個維數(shù)值的差異,會導(dǎo)致這樣一個情況:比如用戶對內(nèi)容評分,5分制,X和Y兩個用戶對兩個內(nèi)容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結(jié)果是0.98,兩者極為相似,但從評分上看X似乎不喜歡這2個內(nèi)容,而Y比較喜歡,余弦相似度對數(shù)值的不敏感導(dǎo)致了結(jié)果的誤差,需要修正這種不合理性,就出現(xiàn)了調(diào)整余弦相似度,即所有維度上的數(shù)值都減去一個均值,比如X和Y的評分均值都是3,那么調(diào)整后為(-2,-1)和(1,2),再用余弦相似度計算,得到-0.8,相似度為負(fù)值并且差異不小,但顯然更加符合現(xiàn)實。

     

    Tanimoto 相似度

    Tanimoto系數(shù)也稱Jaccard系數(shù),是Cosine相似度的擴(kuò)展,也多用于計算文檔相似度。計算公式如下:

     

    其中x表示用戶x所喜好的所有item的集合, y表示用戶y所喜好的所有item的集合。

    在taste里,實現(xiàn)Tanimoto 相似度的類是TanimotoCoefficientSimilarity,可以看出這種計算方法適用于用戶對item的喜好是0和1那種情況。

     

    City Block(或者曼哈頓)相似度

    出租車幾何或曼哈頓距離(Manhattan Distance)是由十九世紀(jì)的赫爾曼·閔可夫斯基所創(chuàng)詞匯 ,是種使用在幾何度量空間的幾何學(xué)用語,用以標(biāo)明兩個點上在標(biāo)準(zhǔn)坐標(biāo)系上的絕對軸距總和。圖中紅線代表曼哈頓距離,綠色代表歐氏距離,也就是直線距離,而藍(lán)色和黃色代表等價的曼哈頓距離。

    計算公式是:

    轉(zhuǎn)換后的相似度為:

     

    在tasete里的實現(xiàn)類CityBlockSimilarity采用了簡化的計算方式,比較適用于用戶的喜歡數(shù)據(jù)時0或者1的情況

     

    LogLikelihood(對數(shù)似然相似度)相似度

    公式比較復(fù)雜,實現(xiàn)類為LogLikelihoodSimilarity,比較適用于用戶的喜歡數(shù)據(jù)時0或者1的情況

     

    Spearman(斯皮爾曼)相似度

    斯皮爾曼相關(guān)性可以理解為是排列后(Rank)用戶喜好值之間的Pearson相關(guān)度。《Mahout in Action》中有這樣的解釋:假設(shè)對于每個用戶,我們找到他最不喜歡的物品,重寫他的評分值為“1”;然后找到下一個最不喜歡的物品,重寫評分值為“2”,依此類推。然后我們對這些轉(zhuǎn)換后的值求Pearson相關(guān)系數(shù),這就是Spearman相關(guān)系數(shù)。

    斯皮爾曼相關(guān)度的計算舍棄了一些重要信息,即真實的評分值。但它保留了用戶喜好值的本質(zhì)特性——排序(ordering),它是建立在排序(或等級,Rank)的基礎(chǔ)上計算的。

    因為斯皮爾曼相關(guān)性的計算需要花時間計算并存儲喜好值的一個排序(Ranks),具體時間取決于數(shù)據(jù)的數(shù)量級大小。正因為這樣,斯皮爾曼相關(guān)系數(shù)一般用于學(xué)術(shù)研究或者是小規(guī)模的計算。

    在taste里的實現(xiàn)類為SpearmanCorrelationSimilarity

      本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 一区二区三区国产不卡| 国产又大又硬又粗| 男人把女人桶到喷白浆的软件免费 | 日韩激情一区二区三区| 日本高清视频网站www| 无码乱人伦一区二区亚洲| 久久人人爽人人人人片AV| 伊人久久无码大香线蕉综合| 久久午夜无码免费| 国产精品剧情亚洲二区| 中文字幕亚洲制服在线看| 国产情侣激情在线对白| 国产萌白酱喷水视频在线观看| 国内精品伊人久久久久影院对白| 久久婷婷五月综合色国产免费观看| 丰满人妻AV无码一区二区三区| 3D动漫精品啪啪一区二区免费| 国产性一交一乱一伦一色一情 | 亚洲熟妇自偷自拍另欧美| 中文丝袜人妻一区二区| 亚洲精品日韩精品久久| 日韩免费视频一一二区| 亚洲AV无码专区国产乱码电影| 香蕉EEWW99国产精选免费| 亚洲一区二区三区自拍公司| 日韩加勒比一本无码精品| 亚洲旡码欧美大片| 亚洲综合一区国产精品| 老司机67194精品线观看| 亚洲更新最快无码视频| 第一精品福利导福航| 无码国产69精品久久久久孕妇| 蜜桃视频一区二区在线观看| 日韩日韩日韩日韩日韩| 制服丝袜美腿一区二区| 男女扒开双腿猛进入爽爽免费看| 色综合 图片区 小说区| 亚洲精品国产一二三区| 波多野结衣中文字幕久久| 亚洲AV旡码高清在线观看| 中文字幕精品亚洲二区|