久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    實驗1:基于Weka的典型數據挖掘應用

     丹楓無跡 2022-03-12

    一、實驗目標

    理解數據挖掘的基本概念,掌握基于Weka工具的基本數據挖掘(分類、回歸、聚類、關聯規(guī)則分析)過程。

    二、實驗內容

    1. 下載并安裝Java環(huán)境(JDK 7.0 64位)。
    2. 下載并安裝Weka 3.7版。
    3. 基于Weka的數據分類。
    4. 基于Weka的數據回歸。
    5. 基于Weka的數據聚類。
    6. 基于Weka的關聯規(guī)則分析。

    三、實驗步驟

    1.下載并安裝Java環(huán)境(JDK 7.0 64位)

    (1)搜索JDK 7.0 64位版的下載,下載到本地磁盤并安裝。

    (2)配置系統環(huán)境變量PATH,在末尾補充JDK安裝目錄的bin子目錄,以便于在任意位置都能執(zhí)行Java程序。

    2.下載并安裝Weka 3.7版

    3.基于Weka的數據分類

    (1)讀取“電費回收數據.csv”(逗號分隔列),作為原始數據。

    讀取文件后,將一些對數據分析無用的屬性刪除。
    首先,刪除CONS_NO(用戶編號),用戶編號是用來標識用戶的,對數據分析沒用。
    然后,發(fā)現TQSC(欠費時長)為YMD(年月日)與RCVED_DATE(實收日期)之差,故刪去YMD與RCVED_DATE。
    其次,CUISHOU_COUNT(催收次數)全為0,刪去;YM(年月)對數據分析無用,刪去。

    (2) 數據預處理:

    a)將數值型字段規(guī)范化至[0,1]區(qū)間。

    在Filter中選擇weka.filters.unsupervised.attribute.Normalize,進行歸一化。歸一化的數據如下圖所示。

    b)調用特征選擇算法(Select attributes),選擇關鍵特征。

    評價策略使用CfsSubsetEval,它根據屬性子集中每一個特征的預測能力以及它們之間的關聯性進行評估。
    搜索方法使用BestFirst。
    得到兩個關鍵特征,分別為RCVED_AMT(實收金額)與TQSC(欠費時長)。

    (3)分別使用決策樹(J48)、隨機森林(RandomForest)、神經網絡(MultilayerPerceptron)、樸素貝葉斯(NaiveBayes)等算法對數據進行分類,取60%作為訓練集,記錄各算法的查準率(precision)、查全率(recall)、混淆矩陣與運行時間。

    對數據進行分類,首先要對其進行離散化。
    在Filter中選擇weka.filters.unsupervised.attribute.Discretize,進行離散化。

    對數據分類,需要數據為Nominal類型,但此時IS_BAD還是Number類型,在Filter中選擇weka.filters.unsupervised.attribute.NumericToNominal進行類型轉換。

    (a)決策樹(J48)

    查準率:0.838
    查全率:0.807
    混淆矩陣:
    運行時間:2.27s

    (b)隨機森林(RandomForest)

    查準率:0.837
    查全率:0.807
    混淆矩陣:
    運行時間:67.04s

    (c)神經網絡(MultilayerPerceptron)

    查準率:0.837
    查全率:0.807
    混淆矩陣:
    運行時間:14713.98s

    (d)樸素貝葉斯(NaiveBayes)

    查準率:0.837
    查全率:0.807
    混淆矩陣:
    運行時間:0.57s

    4.基于Weka的回歸分析

    (1)讀取“配網搶修數據.csv”,作為原始數據。

    讀取文件后,將一些對數據分析無用的屬性刪除,如:YMD(年月日)、REGION_ID(地區(qū)編號)

    (2)數據預處理:

    a)將數值型字段規(guī)范化至[0,1]區(qū)間。

    在Filter中選擇weka.filters.unsupervised.attribute.Normalize,進行歸一化。歸一化的數據如下圖所示。

    b)調用特征選擇算法(Select attributes),選擇關鍵特征。

    評價策略使用CfsSubsetEval,搜索方法使用BestFirst。
    得到三個關鍵特征,分別為HIGH_TEMP(開始氣溫)、MAX_VALUE(負荷最大值)和MIN_VALUE(負荷最小值)。

    (3)分別使用隨機森林(RandomForest)、神經網絡(MultilayerPerceptron)、線性回歸(LinearRegression)等算法對數據進行回歸分析,取60%作為訓練集,記錄各算法的均方根誤差(RMSE,Root Mean Squared Error)、相對誤差(relative absolute error)與運行時間。

    對數據進行回歸分析前,先進行離散化。
    在Filter中選擇weka.filters.unsupervised.attribute.Discretize,進行離散化。

    (a)隨機森林(RandomForest)

    均方根誤差:152.2666
    相對誤差:27.9604%
    運行時間:0.26s

    (b)神經網絡(MultilayerPerceptron)

    均方根誤差:185.7892
    相對誤差:41.9412%
    運行時間:33.85s

    (c)線性回歸(LinearRegression)

    均方根誤差:141.7254
    相對誤差:26.9541 %
    運行時間:0.19s

    5.基于Weka的數據聚類

    (1)讀取“移動客戶數據.tsv”(TAB符分隔列),作為原始數據。

    刪除無關屬性,SUM_MONTH、USER_ID、MSISDN、CUS_ID。

    (2)數據預處理:

    (a)將數值型字段規(guī)范化至[0,1]區(qū)間。

    在Filter中選擇weka.filters.unsupervised.attribute.Normalize,進行歸一化。歸一化的數據如下圖所示。

    (b)調用特征選擇算法(Select attributes),選擇關鍵特征。

    選擇特征前,還要把數據中的2個string屬性的刪掉,才能使用CfsSubsetEval成功選擇特征

    評價策略使用CfsSubsetEval,搜索方法使用BestFirst。
    共有20個關鍵特征,分別為
    BRAND_ID
    AVG_3_CALL_DUR60
    CUR_CALL_RATE
    AVG_3_PTP_CNT
    AVG_GNET_DATA
    AVG_TNET_DATA
    OTHER_10_INTELLIGENT_RATE
    GEN_AMOUNT
    INCREMENT_LLM_RATE
    CUR_BALANCE
    ONUSE_BALANCE
    BINGDING_LEAVE_MONTH
    PAD_CHNNL_CNT
    CHNL_TYPE
    CHANGE_INURE_DATE
    IS_LIKE_INTELLIGENT
    IS_LIKE_BRAND
    TS_NET_CNT
    JSTX_CNT
    JSTX_DATA

    (3)分別使用K均值(SimpleKMeans)、期望值最大化(EM)、層次聚類(HierarchicalClusterer)等算法對數據進行聚類,記錄各算法的聚類質量(sum of squared errors)與運行時間。

    (a)K均值(SimpleKMeans)

    聚類質量: 138999.20953835524
    運行時間:1.18s

    (b)期望值最大化(EM)

    聚類質量:

    運行時間:6892.63s

    (c)層次聚類(HierarchicalClusterer)

    爆了內存,暫時找不到解決方法。

    聚類質量:
    運行時間:

    6.基于Weka的關聯規(guī)則分析

    (1)讀取“配網搶修數據.csv”,作為原始數據。

    讀取文件后,將一些對數據分析無用的屬性刪除,如:YMD(年月日)、REGION_ID(地區(qū)編號)

    (2)數據預處理:

    a)將數值型字段規(guī)范化至[0,1]區(qū)間。

    在Filter中選擇weka.filters.unsupervised.attribute.Normalize,進行歸一化。歸一化的數據如下圖所示。

    b)調用特征選擇算法(Select attributes),選擇關鍵特征。

    評價策略使用CfsSubsetEval,搜索方法使用BestFirst。
    得到三個關鍵特征,分別為HIGH_TEMP(開始氣溫)、MAX_VALUE(負荷最大值)和MIN_VALUE(負荷最小值)。

    (3)使用Apriori算法對數值型字段進行關聯規(guī)則分析,記錄不同置信度(confidence)下算法生成的規(guī)則集。

    (a)置信度為0.9

    Best rules found:
    1.BEGIN_WEATHER=0.833333 WIND_VELOCITY=1 RAIN_PROBABILITY=0 230 ==> END_WEATHER=0.833333 220 conf:(0.96) lift:(2.03) lev:(0.06) [111] conv:(11.06)
    2.BEGIN_WEATHER=0.833333 RAIN_PROBABILITY=0 300 ==> END_WEATHER=0.833333 280 conf:(0.93) lift:(1.98) lev:(0.08) [138] conv:(7.56)
    3.BEGIN_WEATHER=0.833333 RAIN_PROBABILITY=0.125 230 ==> END_WEATHER=0.833333 210 conf:(0.91) lift:(1.94) lev:(0.06) [101] conv:(5.79)
    4.WIND_VELOCITY=1 RAIN_PROBABILITY=0.125 220 ==> END_WEATHER=0.833333 200 conf:(0.91) lift:(1.93) lev:(0.06) [96] conv:(5.54)

    (b)置信度為0.6

    Best rules found:
    1.END_WEATHER=0.833333 WIND_VELOCITY=1 600 ==> BEGIN_WEATHER=0.833333 480 conf:(0.8) lift:(1.55) lev:(0.1) [169] conv:(2.39)
    2.BEGIN_WEATHER=0.833333 END_WEATHER=0.833333 620 ==> WIND_VELOCITY=1 480 conf:(0.77) lift:(1.12) lev:(0.03) [51] conv:(1.35)
    3.BEGIN_WEATHER=0.666667 660 ==> END_WEATHER=0.666667 510 conf:(0.77) lift:(1.82) lev:(0.13) [229] conv:(2.52)
    4.END_WEATHER=0.833333 810 ==> BEGIN_WEATHER=0.833333 620 conf:(0.77) lift:(1.48) lev:(0.12) [200] conv:(2.05)
    5.BEGIN_WEATHER=0.833333 WIND_VELOCITY=1 640 ==> END_WEATHER=0.833333 480 conf:(0.75) lift:(1.59) lev:(0.1) [178] conv:(2.1)
    6.END_WEATHER=0.833333 810 ==> WIND_VELOCITY=1 600 conf:(0.74) lift:(1.07) lev:(0.02) [39] conv:(1.18)
    7.BEGIN_WEATHER=0.833333 890 ==> WIND_VELOCITY=1 640 conf:(0.72) lift:(1.04) lev:(0.01) [24] conv:(1.09)
    8.END_WEATHER=0.666667 730 ==> BEGIN_WEATHER=0.666667 510 conf:(0.7) lift:(1.82) lev:(0.13) [229] conv:(2.04)
    9.BEGIN_WEATHER=0.833333 890 ==> END_WEATHER=0.833333 620 conf:(0.7) lift:(1.48) lev:(0.12) [200] conv:(1.74)
    10.END_WEATHER=0.666667 730 ==> WIND_VELOCITY=1 480 conf:(0.66) lift:(0.95) lev:(-0.01) [-25] conv:(0.9)

    (c)置信度為0.4

    Best rules found:
    1.END_WEATHER=0.833333 WIND_VELOCITY=1 600 ==> BEGIN_WEATHER=0.833333 480 conf:(0.8) lift:(1.55) lev:(0.1) [169] conv:(2.39)
    2.BEGIN_WEATHER=0.833333 END_WEATHER=0.833333 620 ==> WIND_VELOCITY=1 480 conf:(0.77) lift:(1.12) lev:(0.03) [51] conv:(1.35)
    3.BEGIN_WEATHER=0.666667 660 ==> END_WEATHER=0.666667 510 conf:(0.77) lift:(1.82) lev:(0.13) [229] conv:(2.52)
    4.END_WEATHER=0.833333 810 ==> BEGIN_WEATHER=0.833333 620 conf:(0.77) lift:(1.48) lev:(0.12) [200] conv:(2.05)
    5.BEGIN_WEATHER=0.833333 WIND_VELOCITY=1 640 ==> END_WEATHER=0.833333 480 conf:(0.75) lift:(1.59) lev:(0.1) [178] conv:(2.1)
    6.END_WEATHER=0.833333 810 ==> WIND_VELOCITY=1 600 conf:(0.74) lift:(1.07) lev:(0.02) [39] conv:(1.18)
    7.BEGIN_WEATHER=0.833333 890 ==> WIND_VELOCITY=1 640 conf:(0.72) lift:(1.04) lev:(0.01) [24] conv:(1.09)
    8.END_WEATHER=0.666667 730 ==> BEGIN_WEATHER=0.666667 510 conf:(0.7) lift:(1.82) lev:(0.13) [229] conv:(2.04)
    9.BEGIN_WEATHER=0.833333 890 ==> END_WEATHER=0.833333 620 conf:(0.7) lift:(1.48) lev:(0.12) [200] conv:(1.74)
    10.END_WEATHER=0.666667 730 ==> WIND_VELOCITY=1 480 conf:(0.66) lift:(0.95) lev:(-0.01) [-25] conv:(0.9)

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 国产精品大片中文字幕| 欧美成人一区二区三区不卡| 午夜无码A级毛片免费视频| 久草热8精品视频在线观看| 久久这里有精品国产电影网| 在线A毛片免费视频观看| 亚洲AV无码一区东京热久久| 国产情侣激情在线对白| 老熟妇性色老熟妇性| 人妻少妇精品中文字幕| 久久国产成人亚洲精品影院老金| 久久综合九色欧美综合狠狠| 国产99视频精品免费视频36| 精品午夜福利在线观看| 久久精品免视看国产成人| 天堂影院一区二区三区四区| 亚洲欧美日韩国产综合一区二区| 强奷漂亮少妇高潮麻豆| 日韩精品中文字幕有码| 亚洲码欧美码一区二区三区| 伊人成伊人成综合网222| 国产精品av中文字幕| 中文有无人妻VS无码人妻激烈| 欧美乱妇高清无乱码免费| 欧美亚洲国产日韩一区二区| 成人午夜大片免费看爽爽爽| 亚洲成人av在线高清| 一本色道久久东京热| 国产偷国产偷亚洲清高| 男女无遮挡XX00动态图120秒| 亚洲欧美日韩中文字幕一区二区三区 | 午夜福利试看120秒体验区| 国产成人啪精品午夜网站| 亚洲人成小说网站色在线 | 国产边摸边吃奶边叫做激情视频| 亚洲色欲色欱WWW在线| 熟女系列丰满熟妇AV| 成人午夜看黄在线尤物成人| 色AV专区无码影音先锋| 中文字幕久久国产精品| 国内精品久久久久久久影视麻豆|