久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    數據分享|Weka數據挖掘Apriori關聯規則算法分析用戶網購數據

     拓端數據 2023-04-14 發布于浙江

    相關視頻

    數據挖掘正是為了滿足此種需求而迅速發展起來的,它是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。由于大數據技術的發展,零售企業可以利用互聯網收集大量的銷售數據,這些數據是一條條的購買事務信息,每條信息存儲了銷售事務的處理時間,顧客所購買的商品、各種商品的數量以及價格等。如果對這些歷史數據進行分析,則可以對理解分析顧客的購買行為提供有價值的信息。

    數據建模

    數據來源

    本次分析的數據來自電商網站交易數據文件查看文末了解數據免費獲取方式

    指標選取

    本次分析一共選取了17個指標600個樣本,分別是:ID號、平均購物額度、購物總次數、交易成功次數、信用等級、購物積分。

    指標介紹

    (1)ID號:購網網站上的網購客戶ID ;

    (2)平均購物額度:網購客戶平均的網購服務的金額;

    (3)購物總次數:網購客戶的每個月購物次數;

    (4)交易成功次數:網購客戶的交易成功次數;

    (5)信用等級:網購客戶的購物信用等級;

    (6)購物積分:網購客戶購物的積分;

    (7)Pincome:個人年收入(萬元)

    (8)Hincome:家庭年收入(萬元)

    (9)Age:年齡

    (10)Gender:性別(0:女;1:男)

    (11)Car:家庭擁有汽車的數量

    (12)Education:教育水平(1:初中及以下;2:高中;3:專科;4:本科;5:研究生)

    (13)Job:工作類型(1:公司職員;2:工廠工人;3:公務員;4:個體;5:事業單位;6:其他)

    (14)People:家里人口數量

    (15)Children:家里未成年人數量

    (16)Housing:房屋擁有類型(0:租房;1:買房)

    (17)Area:房屋居住面積(平方米)

     數據審核

    由上表,可得:本次分析的數據都是有效的,不存在缺失值。


    點擊標題查閱往期內容

    R語言APRIORI關聯規則、K-MEANS均值聚類分析中藥專利復方治療用藥規律網絡可視化

    左右滑動查看更多

    01

    02

    03

    04

    描述性統計量

    由上表,可得:月服務、年齡、居住時間、收入、工作時間、家庭人數、長途距離、免費通信這8個變量的均值分別為:35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274,可以看出這8個連續性變量不存在量綱上的差異,因此在后面的分析中,不需要進行標準化處理。同時,這8個變量之間存在較強的線性相關性,說明變量之間存在嚴重的多重共線性,可以考慮對變量進行降維后在進行分析。

    數據歸一化

    在進行分類之前,為消除量綱的差別,首先對屬性進行歸一化處理。

    Weka數據挖掘流程

    數據挖掘一般是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程,是一種決策支持過程。它實現的過程大致可分為:問題定義、數據收集和預處理、數據挖掘、算法執行,以及結果的分析和評估。

    (1)問題定義

    數據挖掘的目的是從海里數據中挖掘有效信息,幫助用戶更好決策。因此,在數據挖掘之前需定義明確的挖掘目標,明確數據挖掘目的。

    (2)數據收集和數據預處理

    數據準備又可分為三個子步驟:數據收集、數據預處理和數據變換。數據收集是指收集所有與挖掘業務對象相關的外部和內部數據,從獲取的原始數據中,選擇出需要挖掘的信息數據,建立挖掘原始數據庫。在建立的挖掘原始數據庫中,其數據可能是不完全的、有噪聲的、隨機的、復雜的,數據預處理數據就要對數據進行過濾,清洗掉不完全的、有噪聲的數據,為下一步的分析工作做準備。數據轉換是指格式化數據,并將其加載到適合分析的存儲環境中,形成最終的挖掘數據庫。

    (3)數據挖掘

    算法執行階段主要根據對問題的定義明確挖掘的任務或目的,數據挖掘是指選擇合適的挖掘算法,對轉換過的數據庫進行有效挖掘,此階段選好挖掘算法是關鍵。

    (4)結果分析和評估

    數據挖掘階段發現的模式,經過評估,可能存在冗余或無關的模式,這時需要剔除;模式也有可能不滿足用戶要求,這時則需要整個發現過程回退到前一個階段,如重新選取數據、采用新的數據變換方法、設定新的參數值,甚至換一種算法等。

    模型的實際應用

    研究數據說明

    本文數據來源于平臺后臺數據庫中歷史交易信息,包括網購相關信息以及網購用戶信息等。

    經過數據篩選梳理,最終研究的樣本包括999條網購列表。其中,248審核未通過的有條;209條是網購放棄;542條成功網購,169條已還完網購。成功交易總額達3090.93萬元。

    網購用戶關聯規則算法分析設計

    本文分別用Apriori算法對數據進行處理挖掘,具體結果如下所示。

    (1)Apriori算法

     雖然 Apriori 算法可以直接挖掘生成表中的交易數據集,但是為了關聯挖掘其他算法的需要先把交易數據集轉換成分析數據集,構建的數據流程圖如圖 1 所示。

     1 商品關聯規則 Apriori 算法挖掘流圖

    關聯規則模型Apriori模型參數設置

    通過格式轉換, 設最低條件支持度為15%,最小規則置信度為30%,最大前項數為5,選擇專家模式,挖掘出最有價值的10條關聯規則,如圖所示。生成的10條規則如下所示:


     1. 交易成功次數=1 469 ==> 購物總次數=1 465    <conf:(0.99)> lift:(1.06) lev:(0.05) [27] conv:(6.25)

     2. 交易成功次數=1 房屋狀況=1 423 ==> 購物總次數=1 419    <conf:(0.99)> lift:(1.06) lev:(0.04) [24] conv:(5.64)

     3. 是否有小孩=1 房屋狀況=1 365 ==> 購物總次數=1 345    <conf:(0.95)> lift:(1.01) lev:(0.01) [4] conv:(1.16)

     4. 是否有小孩=1 397 ==> 購物總次數=1 375    <conf:(0.94)> lift:(1.01) lev:(0.01) [4] conv:(1.15)

     5. 房屋狀況=1 545 ==> 購物總次數=1 508    <conf:(0.93)> lift:(1) lev:(0) [0] conv:(0.96)

     6. 購物總次數=1 是否有小孩=1 375 ==> 房屋狀況=1 345    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.11)

     7. 是否有小孩=1 397 ==> 房屋狀況=1 365    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.1)

     8. 購物總次數=1 560 ==> 房屋狀況=1 508    <conf:(0.91)> lift:(1) lev:(0) [0] conv:(0.97)

     9. 交易成功次數=1 469 ==> 房屋狀況=1 423    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

    10. 購物總次數=1 交易成功次數=1 465 ==> 房屋狀況=1 419    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

    分析及建議: 通過結果可以清晰的看到交易次數較多的顧客購物成功次數比較多,另外是否有小孩、是否有房屋對顧客是否購物成功次數也有關聯,建議網站可以加大對這些用戶的推薦購買力度,由上述結果可知,同時購物且成功的用戶占總用戶的的90%,有房屋的用戶成功購物分別占總訂單數的91%,有小孩的人有91%會網購, 房屋面積越大,網購次數越高,由此可見,房屋、網購、是否有小孩、網購成功次數這幾個變量關聯度較高,可以對這些用戶進行廣告策略投放,從而增加用戶網購的成功率。


    Associator Model

     

    Apriori

    =======

     

    Minimum support: 0.55 (330 instances)

    Minimum metric <confidence>: 0.9

    Number of cycles performed: 9

     

    Generated sets of large itemsets:

     

    Size of set of large itemsets L(1): 4

     

    Size of set of large itemsets L(2): 5

     

    Size of set of large itemsets L(3): 2

    結論與展望

    數據挖掘中的關聯規則側重于不同對象之間的聯系,本文討論了關聯規則挖掘在用戶網購策略中的應用。利用WEKA軟件,通過實例分析了頻繁項集及關聯規則生成的過程,采用Apriori算法對數據分別進行了解析挖掘,針對挖掘結果提出了相應的建議,對電商網站的發展有著到重要的現實的意義。

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 美日韩在线视频一区二区三区| 亚洲精品无码久久千人斩| 日韩中文字幕国产精品| 女人18毛片水真多免费看| 久久久这里只有免费精品| 亚洲国产精品久久久天堂麻豆宅男 | 精品国产免费一区二区三区香蕉 | 中国女人熟毛茸茸A毛片| 免费看成人毛片无码视频| 国产成人精品A视频免费福利| 男女激情一区二区三区| 嫩草院一区二区乱码| 无遮无挡爽爽免费视频| 国产娱乐凹凸视觉盛宴在线视频 | 偷拍专区一区二区三区| 欧美成人精品高清在线观看| 亚洲欧美高清在线精品一区二区| 黑巨茎大战俄罗斯美女| 成人免费A级毛片无码片2022| 无码少妇高潮浪潮AV久久| 亚洲一区二区精品另类| 亚洲精品无码中文久久字幕| 亚洲高潮喷水无码AV电影| 日日碰狠狠添天天爽无码| 欧美福利电影A在线播放| 国产精品免费看久久久无码| 高清无码爆乳潮喷在线观看| 亚洲AV无码一区东京热久久| 国产成年码AV片在线观看| 色窝窝免费播放视频在线| H无码动漫在线观看| 精品视频在线观看免费观看| 国产草草影院ccyycom| 国产AV巨作丝袜秘书| 成人看的污污超级黄网站免费| 国产精品VA在线观看无码不卡| 亚洲综合小说另类图片五月天| 亚洲国内精品一区二区| 日日摸夜夜添夜夜添高潮喷水| 老司机导航亚洲精品导航| 欧美成人午夜在线观看视频|