【原】數據分享|Weka數據挖掘Apriori關聯規則算法分析用戶網購數據

拓端數據 2023-04-14 發布于浙江

展開全文

相關視頻

數據挖掘正是為了滿足此種需求而迅速發展起來的，它是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。由于大數據技術的發展，零售企業可以利用互聯網收集大量的銷售數據，這些數據是一條條的購買事務信息，每條信息存儲了銷售事務的處理時間，顧客所購買的商品、各種商品的數量以及價格等。如果對這些歷史數據進行分析，則可以對理解分析顧客的購買行為提供有價值的信息。

數據建模

數據來源

本次分析的數據來自電商網站交易數據文件（查看文末了解數據免費獲取方式）。

指標選取

本次分析一共選取了17個指標600個樣本，分別是：ID號、平均購物額度、購物總次數、交易成功次數、信用等級、購物積分。

指標介紹

（1）ID號：購網網站上的網購客戶ID ；

（2）平均購物額度：網購客戶平均的網購服務的金額；

（3）購物總次數：網購客戶的每個月購物次數；

（4）交易成功次數：網購客戶的交易成功次數；

（5）信用等級：網購客戶的購物信用等級；

（6）購物積分：網購客戶購物的積分；

（7）Pincome：個人年收入（萬元）

（8）Hincome：家庭年收入（萬元）

（9）Age：年齡

（10）Gender：性別（0：女；1：男）

（11）Car：家庭擁有汽車的數量

（12）Education：教育水平（1：初中及以下；2：高中；3：專科；4：本科；5：研究生）

（13）Job：工作類型（1：公司職員；2：工廠工人；3：公務員；4：個體；5：事業單位；6：其他）

（14）People：家里人口數量

（15）Children：家里未成年人數量

（16）Housing：房屋擁有類型（0：租房；1：買房）

（17）Area：房屋居住面積（平方米）

數據審核

由上表，可得：本次分析的數據都是有效的，不存在缺失值。

點擊標題查閱往期內容

R語言APRIORI關聯規則、K-MEANS均值聚類分析中藥專利復方治療用藥規律網絡可視化

左右滑動查看更多

描述性統計量

由上表，可得：月服務、年齡、居住時間、收入、工作時間、家庭人數、長途距離、免費通信這8個變量的均值分別為：35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274，可以看出這8個連續性變量不存在量綱上的差異，因此在后面的分析中，不需要進行標準化處理。同時，這8個變量之間存在較強的線性相關性，說明變量之間存在嚴重的多重共線性，可以考慮對變量進行降維后在進行分析。

數據歸一化

在進行分類之前，為消除量綱的差別，首先對屬性進行歸一化處理。

Weka數據挖掘流程

數據挖掘一般是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程，是一種決策支持過程。它實現的過程大致可分為：問題定義、數據收集和預處理、數據挖掘、算法執行，以及結果的分析和評估。

（1）問題定義

數據挖掘的目的是從海里數據中挖掘有效信息，幫助用戶更好決策。因此，在數據挖掘之前需定義明確的挖掘目標，明確數據挖掘目的。

（2）數據收集和數據預處理

數據準備又可分為三個子步驟：數據收集、數據預處理和數據變換。數據收集是指收集所有與挖掘業務對象相關的外部和內部數據，從獲取的原始數據中，選擇出需要挖掘的信息數據，建立挖掘原始數據庫。在建立的挖掘原始數據庫中，其數據可能是不完全的、有噪聲的、隨機的、復雜的，數據預處理數據就要對數據進行過濾，清洗掉不完全的、有噪聲的數據，為下一步的分析工作做準備。數據轉換是指格式化數據，并將其加載到適合分析的存儲環境中，形成最終的挖掘數據庫。

（3）數據挖掘

算法執行階段主要根據對問題的定義明確挖掘的任務或目的，數據挖掘是指選擇合適的挖掘算法，對轉換過的數據庫進行有效挖掘，此階段選好挖掘算法是關鍵。

（4）結果分析和評估

數據挖掘階段發現的模式，經過評估，可能存在冗余或無關的模式，這時需要剔除；模式也有可能不滿足用戶要求，這時則需要整個發現過程回退到前一個階段，如重新選取數據、采用新的數據變換方法、設定新的參數值，甚至換一種算法等。

模型的實際應用

研究數據說明

本文數據來源于平臺后臺數據庫中歷史交易信息，包括網購相關信息以及網購用戶信息等。

經過數據篩選梳理，最終研究的樣本包括999條網購列表。其中，248審核未通過的有條；209條是網購放棄；542條成功網購，169條已還完網購。成功交易總額達3090.93萬元。

網購用戶關聯規則算法分析設計

本文分別用Apriori算法對數據進行處理挖掘，具體結果如下所示。

（1）Apriori算法

雖然 Apriori 算法可以直接挖掘生成表中的交易數據集，但是為了關聯挖掘其他算法的需要先把交易數據集轉換成分析數據集，構建的數據流程圖如圖 1 所示。

圖 1 商品關聯規則 Apriori 算法挖掘流圖

關聯規則模型Apriori模型參數設置

通過格式轉換，設最低條件支持度為15%，最小規則置信度為30%，最大前項數為5，選擇專家模式，挖掘出最有價值的10條關聯規則，如圖所示。生成的10條規則如下所示：


 1. 交易成功次數=1 469 ==> 購物總次數=1 465    <conf:(0.99)> lift:(1.06) lev:(0.05) [27] conv:(6.25)

 2. 交易成功次數=1 房屋狀況=1 423 ==> 購物總次數=1 419    <conf:(0.99)> lift:(1.06) lev:(0.04) [24] conv:(5.64)

 3. 是否有小孩=1 房屋狀況=1 365 ==> 購物總次數=1 345    <conf:(0.95)> lift:(1.01) lev:(0.01) [4] conv:(1.16)

 4. 是否有小孩=1 397 ==> 購物總次數=1 375    <conf:(0.94)> lift:(1.01) lev:(0.01) [4] conv:(1.15)

 5. 房屋狀況=1 545 ==> 購物總次數=1 508    <conf:(0.93)> lift:(1) lev:(0) [0] conv:(0.96)

 6. 購物總次數=1 是否有小孩=1 375 ==> 房屋狀況=1 345    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.11)

 7. 是否有小孩=1 397 ==> 房屋狀況=1 365    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.1)

 8. 購物總次數=1 560 ==> 房屋狀況=1 508    <conf:(0.91)> lift:(1) lev:(0) [0] conv:(0.97)

 9. 交易成功次數=1 469 ==> 房屋狀況=1 423    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

10. 購物總次數=1 交易成功次數=1 465 ==> 房屋狀況=1 419    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

分析及建議: 通過結果可以清晰的看到交易次數較多的顧客購物成功次數比較多，另外是否有小孩、是否有房屋對顧客是否購物成功次數也有關聯，建議網站可以加大對這些用戶的推薦購買力度，由上述結果可知，同時購物且成功的用戶占總用戶的的90%，有房屋的用戶成功購物分別占總訂單數的91%，有小孩的人有91%會網購，房屋面積越大，網購次數越高，由此可見，房屋、網購、是否有小孩、網購成功次數這幾個變量關聯度較高，可以對這些用戶進行廣告策略投放，從而增加用戶網購的成功率。


    Associator Model

     

    Apriori

    =======

     

    Minimum support: 0.55 (330 instances)

    Minimum metric <confidence>: 0.9

    Number of cycles performed: 9

     

    Generated sets of large itemsets:

     

    Size of set of large itemsets L(1): 4

     

    Size of set of large itemsets L(2): 5

     

    Size of set of large itemsets L(3): 2