1、數據標簽化用戶畫像的底層是機器學習,那么無論是要做客戶分群還是精準營銷,都先要將用戶數據進行規整處理,轉化為相同維度的特征向量,諸多華麗的算法才可以有用武之地,像是聚類,回歸,關聯,各種分類器等等。對于結構化數據而言,特征提取工作往往都是從給數據打標簽開始的,比如購買渠道,消費頻率,年齡性別,家庭狀況等等。好的特征標簽的選擇可以使對用戶刻畫變得更豐富,也能提升機器學習算法的效果(準確度,收斂速度等)。 我們在項目中根據不同維度提取了數十個多個標簽,圖7展示了其中的一部分。這些標簽主要有三個來源: 一個類是在IT系統中可以取得的信息,比如辦會員卡時留下的信息(性別,年齡,生日),購買渠道,積分情況等; 第二類是可以通過計算或是統計所獲得的,比如用戶對某類促銷活動的參與程度,對某種顏色/款式商品的偏好程度,是否進行過跨品牌的購買等; 第三類則是通過推測所得,比如送貨地址中出現“宿舍”,“學校”,“大學”等字樣,則用戶身份可以推測為學生,出現“騰訊大廈”,“科技園”等信息時,則可判斷是上班族,并有很大概率是技術從業者。 在標簽的設計上也帶有較強的行業性,比如是否偏好購買當季爆款或是新品多于經典款(時尚度);是否更傾向購買低價或打折商品(價格敏感度);是否喜歡購買高價商品或限量版(反向價格敏感度)。 對于已經打好的標簽,根據不同的分析場景進行離散化,或將分類類型的標簽拆成多個0/1標簽,就可以進行一些機器學習的建模了,比如聚類,分類,預測,或者關聯性分析,最終生成的向量維度在數千個。 2、關聯性分析關聯性分析(Association rule learning)是在零售行業中應用最廣泛的一種機器學習方法,營銷學里經典的“啤酒/尿布”(超市里購買尿布的消費者往往同時購買啤酒)案例也已經是家喻戶曉。雖然后來被證實這是一個為了教學目的而虛構出來的案例,但從其上鏡率也可以看得出關聯性分析在零售領域的重要程度,或許這個例子在國內改成“泡面/火腿腸”會更親切。 關聯性分析的相關文章有非常多,支持度(Support),置信度(Confidence)和增益(Lift)這些基本概念的介紹在這里就不贅述了,各位如果有興趣可以參見Wikipedia的 Association rule learning 頁面。 和購物籃關聯規則不同,我們數據挖掘過程中的基本單位是用戶,而特征向量則是基于提取出的用戶標簽而構建的,下表是一個簡單的示例。 第一個例子 我們獲得了一個NxM的特征矩陣,N為用戶數,量級在百萬級,M為特征維度,約數千個的二元標簽。基于這個特征矩陣我們使用了最基礎的Apriori算法計算相關度,并在支持度,置信度和增益三個層面設置threshold,輸出符合要求的關聯規則。 由于輸出的關聯規則可能涉及到客戶隱私,在這里僅做一個示例。下表中的前項(antecedent)為用戶的所在地,后項(consequent)為最高的活動敏感度, 結果如下: 可見上以及江浙地區對于促銷活動的敏感度和參與度是最高的,增益均高于兩倍,而上海則是達到了3.3倍之多。 第二個例子 另一個例子是顏色的關聯規則,下表展示了用戶對于不同顏色的產品以及SKU之間的偏好特征,可見某些用戶是有較強的顏色偏向的,比如金色和銀色之間,咖啡色和綠色之間等等。如果運用到商業實踐,因為在買過紫色和杏色的用戶中,接下來會比較會買金色;把這些數據給到地面團隊或者線上團隊,這時候推薦顏色以及配貨就比較輕松一些。 值得注意的是,做關聯分析時要確保前后項以及的獨立性(independence)。由于在提取特征時有些維度本身就是從相同或相關的字段提取出來的,比如用戶的星座以及出生月份,如果不做控制的話就會得出“11月出生的天蝎座特別多”這樣讓人啼笑皆非的規則。 3、RFM ModelRFM模型是用戶價值研究中的經典模型,基于近度(Recency),頻度(Frequency)和額度(Monetory)這3個指標對用戶進行聚類, 找出具有潛在價值的用戶, 從而輔助商業決策,提高營銷效率。如果對RFM模型的細節感興趣可以參見Wikipedia中有關 RFM模型的頁面。 RFM建模所需要的數據源是相對簡單的,只用到了購買記錄中的時間和金額這兩個字段。我們基于交易數據中用戶的最后一次的購買時間,購買的次數以和頻率,以及平均/總消費額對每個用戶計算了三個維度的標準分。然后我們對于三個維度賦予了不同的權重,再基于加權后的分值應用K-Means進行聚類,根據每種人群三個維度與平均值之間的高低關系,確定哪些是需要保持用戶,哪些是需要挽留的用戶,哪些是需要發展的用戶等。 在將這些客戶圈出之后,便可以對不同客戶群使用不同針對性地營銷策略(引導,喚醒等),提高復購率與轉化率。值得注意的是,三個維度的權重制定并沒有統一的標準,比較通用的方法是用層次分析法(AHP),再結合行業以及具體公司的特點進行優化。 圖8是通過RFM模型進行用戶聚類后的結果,可以清楚看到幾個人群用戶的數量以及比例。同時這些分群也會作為標簽重新輸入至用戶畫像以及CRM當中,作為圈定特定用戶群以及營銷的入口。 圖9展示了用戶群之間在各個維度上的分布。消費,金額,頻率這些模型直接相關的標簽上自然有非常顯著的差異,同時在一些垂直(orthogonal)的特征維度上也有很大的不同。 4、用戶體系最后,對消費品公司而言,所有在數據挖掘和用戶畫像方面的投入,根本目的還是要提升業務表現,所以如何將數據挖掘的結果進行落地就變成了尤為關鍵的一環。對于用戶畫像所輸出的所有標簽和關聯規則,都需要通過某種渠道抵達用戶群。 這種渠道可以是一個強大的CRM系統,可以通過不同的標簽圈定用戶群,定向發布營銷方案;也可以是一個會員客戶端,推送個性化的打折券或新品推薦;甚至是自營電商,實現像天貓京東一樣的數據自生產和自消費的循環。 |
|