實戰｜分分鐘帶你殺入Kaggle Top 1%

田杰4 2017-06-26

展開全文

實戰｜分分鐘帶你殺入Kaggle Top 1%

請點擊此處輸入圖片描述

作者 | 吳曉暉

整理 | AI100（rgznai100）

原文 - https://zhuanlan.zhihu.com/p/27424282

不知道你有沒有這樣的感受，在剛剛入門機器學習的時候，我們一般都是從MNIST、CIFAR-10這一類知名公開數據集開始快速上手，復現別人的結果，但總覺得過于簡單，給人的感覺太不真實。因為這些數據太“完美”了（干凈的輸入，均衡的類別，分布基本一致的測試集，還有大量現成的參考模型），要成為真正的數據科學家，光在這些數據集上跑模型卻是遠遠不夠的。而現實中你幾乎不可能遇到這樣的數據（現實數據往往有著殘缺的輸入，類別嚴重不均衡，分布不一致甚至隨時變動的測試集，幾乎沒有可以參考的論文），這往往讓剛進入工作的同學手忙腳亂，無所適從。

Kaggle則提供了一個介于“完美”與真實之間的過渡，問題的定義基本良好，卻夾著或多或少的難點，一般沒有完全成熟的解決方案。在參賽過程中與論壇上的其他參賽者互動，能不斷地獲得啟發，受益良多。即使對于一些學有所成的高手乃至大牛，參加Kaggle也常常會獲得很多啟發，與來著世界各地的隊伍進行廝殺的刺激更讓人欲罷不能。更重要的是，Kaggle是業界普遍承認的競賽平臺，能從Kaggle上的一些高質量競賽獲取好名次，是對自己實力極好的證明，還能給自己的履歷添上光輝的一筆。如果能獲得金牌，殺入獎金池，那更是名利兼收，再好不過。

Kaggle適用于以下人群：

我是小白，但是對數據科學充滿求知欲。
我想要歷練自己的數據挖掘和機器學習技能，成為一名真正的數據科(lao)學(si)家(ji)。
我想贏取獎金，成為人生贏家。

0 簡介

Kaggle創辦于2010年，目前已經被Google收購，是全球頂級的數據科學競賽平臺，在數據科學領域中享有盛名。筆者參加了由Quora舉辦的Quora Question Pairs比賽，并且獲得了前1%的成績(3307支隊伍)。這是筆者Kaggle首戰，所以寫下此文來系統化地梳理比賽的思路，并且和大家分享我們參賽的一些心得。

Quora Question Pairs是一個自然語言(NLP)比賽，比賽的題目可以簡單地概括為“預測兩個問句的語義相似的概率”。其中的樣本如下：

也許是作為Kaggle上為數不多的NLP比賽，這看似簡單的比賽卻吸引了眾多的參賽隊伍。由于這是NLP問題，所以接下來的介紹都會偏向于NLP，本文會分為以下三個部分：

打Kaggle比賽的大致套路。（比賽篇）
我們隊伍和其他出色隊伍的參賽經驗。（經驗篇）
完成Kaggle比賽需要學會哪些實用的工具。（工具篇）

1 比賽篇

為了方便，我們先定義幾個名詞：

Feature：特征變量，也叫自變量，是樣本可以觀測到的特征，通常是模型的輸入。
Label：標簽，也叫目標變量，需要預測的變量，通常是模型的標簽或者輸出。
Train Data：訓練數據，有標簽的數據，由舉辦方提供。
Test Data：測試數據，標簽未知，是比賽用來評估得分的數據，由舉辦方提供。
Train Set：訓練集，從Train Data中分割得到的，用于訓練模型（常用于交叉驗證）。
Valid Set ：驗證集，從Train Data中分割得到的，用于驗證模型（常用于交叉驗證）。

1.1 分析題目

拿到賽題以后，第一步就是要破題，我們需要將問題轉化為相應的機器學習問題。其中，Kaggle最常見的機器學習問題類型有：

回歸問題
分類問題(二分類、多分類、多標簽)
多分類只需從多個類別中預測一個類別，而多標簽則需要預測出多個類別。

比如Quora的比賽就是二分類問題，因為只需要判斷兩個問句的語義是否相似。

1.2 數據分析(Data Exploration)

所謂數據挖掘，當然是要從數據中去挖掘我們想要的東西，我們需要通過人為地去分析數據，才可以發現數據中存在的問題和特征。我們需要在觀察數據的過程中思考以下幾個問題：

數據應該怎么清洗和處理才是合理的？
根據數據的類型可以挖掘怎樣的特征？
數據中的哪些特征會對標簽的預測有幫助？

1.2.1 統計分析

對于數值類變量(Numerical Variable)，我們可以得到min，max，mean，meduim，std等統計量，用pandas可以方便地完成，結果如下：

從上圖中可以觀察Label是否均衡，如果不均衡則需要進行over sample少數類，或者down sample多數類。我們還可以統計Numerical Variable之間的相關系數，用pandas就可以輕松獲得相關系數矩陣：

觀察相關系數矩陣可以讓你找到高相關的特征，以及特征之間的冗余度。而對于文本變量，可以統計詞頻(TF)，TF-IDF，文本長度等等，更詳細的內容可以參考這里

1.2.2 可視化

人是視覺動物，更容易接受圖形化的表示，因此可以將一些統計信息通過圖表的形式展示出來，方便我們觀察和發現。比如用直方圖展示問句的頻數：

或者繪制相關系數矩陣:

常用的可視化工具有matplotlib和seaborn。當然，你也可以跳過這一步，因為可視化不是解決問題的重點。

1.3 數據預處理(Data Preprocessing)

剛拿到手的數據會出現噪聲，缺失，臟亂等現象，我們需要對數據進行清洗與加工，從而方便進行后續的工作。針對不同類型的變量，會有不同的清洗和處理方法：

對于數值型變量(Numerical Variable)，需要處理離群點，缺失值，異常值等情況。
對于類別型變量(Categorical Variable)，可以轉化為one-hot編碼。
文本數據是較難處理的數據類型，文本中會有垃圾字符，錯別字(詞)，數學公式，不統一單位和日期格式等。我們還需要處理標點符號，分詞，去停用詞，對于英文文本可能還要詞性還原(lemmatize)，抽取詞干(stem)等等。

1.4 特征工程(Feature Engineering)

都說特征為王，特征是決定效果最關鍵的一環。我們需要通過探索數據，利用人為先驗知識，從數據中總結出特征。

1.4.1 特征抽取(Feature Extraction)

我們應該盡可能多地抽取特征，只要你認為某個特征對解決問題有幫助，它就可以成為一個特征。特征抽取需要不斷迭代，是最為燒腦的環節，它會在整個比賽周期折磨你，但這是比賽取勝的關鍵，它值得你耗費大量的時間。

那問題來了，怎么去發現特征呢？光盯著數據集肯定是不行的。如果你是新手，可以先耗費一些時間在Forum上，看看別人是怎么做Feature Extraction的，并且多思考。雖然Feature Extraction特別講究經驗，但其實還是有章可循的：

對于Numerical Variable，可以通過線性組合、多項式組合來發現新的Feature。
對于文本數據，有一些常規的Feature。比如，文本長度，Embeddings，TF-IDF，LDA，LSI等，你甚至可以用深度學習提取文本特征（隱藏層）。
如果你想對數據有更深入的了解，可以通過思考數據集的構造過程來發現一些magic feature，這些特征有可能會大大提升效果。在Quora這次比賽中，就有人公布了一些magic feature。
通過錯誤分析也可以發現新的特征（見1.5.2小節）。

1.4.2 特征選擇(Feature Selection)

在做特征抽取的時候，我們是盡可能地抽取更多的Feature，但過多的Feature會造成冗余，噪聲，容易過擬合等問題，因此我們需要進行特征篩選。特征選擇可以加快模型的訓練速度，甚至還可以提升效果。

特征選擇的方法多種多樣，最簡單的是相關度系數(Correlation coefficient)，它主要是衡量兩個變量之間的線性關系，數值在[-1.0, 1.0]區間中。數值越是接近0，兩個變量越是線性不相關。但是數值為0，并不能說明兩個變量不相關，只是線性不相關而已。

我們通過一個例子來學習一下怎么分析相關系數矩陣：

相關系數矩陣是一個對稱矩陣，所以只需要關注矩陣的左下角或者右上角。我們可以拆成兩點來看：

Feature和Label的相關度可以看作是該Feature的重要度，越接近1或-1就越好。
Feature和Feature之間的相關度要低，如果兩個Feature的相關度很高，就有可能存在冗余。

除此之外，還可以訓練模型來篩選特征，比如帶L1或L2懲罰項的Linear Model、Random Forest、GDBT等，它們都可以輸出特征的重要度。在這次比賽中，我們對上述方法都進行了嘗試，將不同方法的平均重要度作為最終參考指標，篩選掉得分低的特征。

1.5 建模(Modeling)

終于來到機器學習了，在這一章，我們需要開始煉丹了。

1.5.1 模型

機器學習模型有很多，建議均作嘗試，不僅可以測試效果，還可以學習各種模型的使用技巧。其實，幾乎每一種模型都有回歸和分類兩種版本，常用模型有：

KNN
SVM
Linear Model（帶懲罰項）
ExtraTree
RandomForest
Gradient Boost Tree
Neural Network

幸運的是，這些模型都已經有現成的工具（如scikit-learn、XGBoost、LightGBM等）可以使用，不用自己重復造輪子。但是我們應該要知道各個模型的原理，這樣在調參的時候才會游刃有余。當然，你也使用PyTorch／Tensorflow／Keras等深度學習工具來定制自己的Deep Learning模型，玩出自己的花樣。

1.5.2 錯誤分析

人無完人，每個模型不可能都是完美的，它總會犯一些錯誤。為了解某個模型在犯什么錯誤，我們可以觀察被模型誤判的樣本，總結它們的共同特征，我們就可以再訓練一個效果更好的模型。這種做法有點像后面Ensemble時提到的Boosting，但是我們是人為地觀察錯誤樣本，而Boosting是交給了機器。通過錯誤分析->發現新特征->訓練新模型->錯誤分析，可以不斷地迭代出更好的效果，并且這種方式還可以培養我們對數據的嗅覺。

舉個例子，這次比賽中，我們在錯誤分析時發現，某些樣本的兩個問句表面上很相似，但是句子最后提到的地點不一樣，所以其實它們是語義不相似的，但我們的模型卻把它誤判為相似的。比如這個樣本：

Question1: Which is the best digital marketing institution in banglore?
Question2: Which is the best digital marketing institute in Pune?

為了讓模型可以處理這種樣本，我們將兩個問句的最長公共子串(Longest Common Sequence)去掉，用剩余部分訓練一個新的深度學習模型，相當于告訴模型看到這種情況的時候就不要判斷為相似的了。因此，在加入這個特征后，我們的效果得到了一些提升。

1.5.3 調參

在訓練模型前，我們需要預設一些參數來確定模型結構（比如樹的深度）和優化過程（比如學習率），這種參數被稱為超參（Hyper-parameter），不同的參數會得到的模型效果也會不同。總是說調參就像是在“煉丹”，像一門“玄學”，但是根據經驗，還是可以找到一些章法的：

根據經驗，選出對模型效果影響較大的超參。
按照經驗設置超參的搜索空間，比如學習率的搜索空間為[0.001，0.1]。
選擇搜索算法，比如Random Search、Grid Search和一些啟發式搜索的方法。
驗證模型的泛化能力（詳見下一小節）。

1.5.4 模型驗證(Validation)

在Test Data的標簽未知的情況下，我們需要自己構造測試數據來驗證模型的泛化能力，因此把Train Data分割成Train Set和Valid Set兩部分，Train Set用于訓練，Valid Set用于驗證。

簡單分割

將Train Data按一定方法分成兩份，比如隨機取其中70%的數據作為Train Set，剩下30%作為Valid Set，每次都固定地用這兩份數據分別訓練模型和驗證模型。這種做法的缺點很明顯，它沒有用到整個訓練數據，所以驗證效果會有偏差。通常只會在訓練數據很多，模型訓練速度較慢的時候使用。

交叉驗證

交叉驗證是將整個訓練數據隨機分成K份，訓練K個模型，每次取其中的K-1份作為Train Set，留出1份作為Valid Set，因此也叫做K-fold。至于這個K，你想取多少都可以，但一般選在3～10之間。我們可以用K個模型得分的mean和std，來評判模型得好壞（mean體現模型的能力，std體現模型是否容易過擬合），并且用K-fold的驗證結果通常會比較可靠。

如果數據出現Label不均衡情況，可以使用Stratified K-fold，這樣得到的Train Set和Test Set的Label比例是大致相同。

1.6 模型集成(Ensemble)

曾經聽過一句話，“Feature為主，Ensemble為后”。Feature決定了模型效果的上限，而Ensemble就是讓你更接近這個上限。Ensemble講究“好而不同”，不同是指模型的學習到的側重面不一樣。舉個直觀的例子，比如數學考試，A的函數題做的比B好，B的幾何題做的比A好，那么他們合作完成的分數通常比他們各自單獨完成的要高。

常見的Ensemble方法有Bagging、Boosting、Stacking、Blending。

1.6.1 Bagging

Bagging是將多個模型（基學習器）的預測結果簡單地加權平均或者投票。Bagging的好處在于可以并行地訓練基學習器，其中Random Forest就用到了Bagging的思想。舉個通俗的例子，如下圖：

實戰｜分分鐘帶你殺入Kaggle Top 1%

請點擊此處輸入圖片描述

老師出了兩道加法題，A同學和B同學答案的加權要比A和B各自回答的要精確。Bagging通常是沒有一個明確的優化目標的，但是有一種叫Bagging Ensemble Selection的方法，它通過貪婪算法來Bagging多個模型來優化目標值。在這次比賽中，我們也使用了這種方法。

Bagging Ensemble Selection
http://www.cs./~alexn/papers/shotgun.icml04.revised.rev2.pdf

1.6.2 Boosting

Boosting的思想有點像知錯能改，每訓練一個基學習器，是為了彌補上一個基學習器所犯的錯誤。其中著名的算法有AdaBoost，Gradient Boost。Gradient Boost Tree就用到了這種思想。

我在1.2.3節(錯誤分析)中提到Boosting，錯誤分析->抽取特征->訓練模型->錯誤分析，這個過程就跟Boosting很相似。

1.6.3 Stacking

Stacking是用新的模型（次學習器）去學習怎么組合那些基學習器，它的思想源自于Stacked Generalization這篇論文。如果把Bagging看作是多個基分類器的線性組合，那么Stacking就是多個基分類器的非線性組合。

Stacked Generalization論文
http://www.machine-learning./ensembles/stacking/Wolpert1992.pdf

Stacking可以很靈活，它可以將學習器一層一層地堆砌起來，形成一個網狀的結構，如下圖：

舉個更直觀的例子，還是那兩道加法題：

實戰｜分分鐘帶你殺入Kaggle Top 1%

請點擊此處輸入圖片描述

這里A和B可以看作是基學習器，C、D、E都是次學習器。

Stage1: A和B各自寫出了答案。
Stage2: C和D偷看了A和B的答案，C認為A和B一樣聰明，D認為A比B聰明一點。他們各自結合了A和B的答案后，給出了自己的答案。
Stage3: E偷看了C和D的答案，E認為D比C聰明，隨后E也給出自己的答案作為最終答案。

在實現Stacking時，要注意的一點是，避免標簽泄漏(Label Leak)。在訓練次學習器時，需要上一層學習器對Train Data的測試結果作為特征。如果我們在Train Data上訓練，然后在Train Data上預測，就會造成Label Leak。為了避免Label Leak，需要對每個學習器使用K-fold，將K個模型對Valid Set的預測結果拼起來，作為下一層學習器的輸入。如下圖：

實戰｜分分鐘帶你殺入Kaggle Top 1%

請點擊此處輸入圖片描述

由圖可知，我們還需要對Test Data做預測。這里有兩種選擇，可以將K個模型對Test Data的預測結果求平均，也可以用所有的Train Data重新訓練一個新模型來預測Test Data。所以在實現過程中，我們最好把每個學習器對Train Data和對Test Data的測試結果都保存下來，方便訓練和預測。

對于Stacking還要注意一點，固定K-fold可以盡量避免Valid Set過擬合，也就是全局共用一份K-fold，如果是團隊合作，組員之間也是共用一份K-fold。

如果想具體了解為什么需要固定K-fold，請看這里
https:///kaggle-ensembling-guide/

1.6.4 Blending

Blending與Stacking很類似，它們的區別可以參考這里

1.7 后處理

有些時候在確認沒有過擬合的情況下，驗證集上做校驗時效果挺好，但是將測試結果提交后的分數卻不如人意，這時候就有可能是訓練集的分布與測試集的分布不一樣而導致的。這時候為了提高LeaderBoard的分數，還需要對測試結果進行分布調整。

比如這次比賽，訓練數據中正類的占比為0.37，那么預測結果中正類的比例也在0.37左右，然后Kernel上有人通過測試知道了測試數據中正類的占比為0.165，所以我們也對預測結果進行了調整，得到了更好的分數。具體可以看這里。

2 經驗篇

2.1 我們的方案（33th）

深度學習具有很好的模型擬合能力，使用深度學習可以較快得獲取一個不錯的Baseline，對這個問題整體的難度有一個初始的認識。雖然使用深度學習可以免去繁瑣的手工特征，但是它也有能力上限，所以提取傳統手工特征還是很有必要的。我們嘗試Forum上別人提供的方法，也嘗試自己思考去抽取特征。總結一下，我們抽取的手工特征可以分為以下4種：

Text Mining Feature，比如句子長度；兩個句子的文本相似度，如N-gram的編輯距離，Jaccard距離等；兩個句子共同的名詞，動詞，疑問詞等。
Embedding Feature，預訓練好的詞向量相加求出句子向量，然后求兩個句子向量的距離，比如余弦相似度、歐式距離等等。
Vector Space Feature，用TF-IDF矩陣來表示句子，求相似度。
Magic Feature，是Forum上一些選手通過思考數據集構造過程而發現的Feature，這種Feature往往與Label有強相關性，可以大大提高預測效果。

我們的系統整體上使用了Stacking的框架，如下圖：

實戰｜分分鐘帶你殺入Kaggle Top 1%

請點擊此處輸入圖片描述

Stage1: 將兩個問句與Magic Feature輸入Deep Learning中，將其輸出作為下一層的特征（這里的Deep Learning相當于特征抽取器）。我們一共訓練了幾十個Deep Learning Model。
Stage2: 將Deep Learning特征與手工抽取的幾百個傳統特征拼在一起，作為輸入。在這一層，我們訓練各種模型，有成百上千個。
Stage3: 上一層的輸c進行Ensemble Selection。

比賽中發現的一些深度學習的局限：

通過對深度學習產生的結果進行錯誤分析，并且參考論壇上別人的想法，我們發現深度學習沒辦法學到的特征大概可以分為兩類：

對于一些數據的Pattern，在Train Data中出現的頻數不足以讓深度學習學到對應的特征，所以我們需要通過手工提取這些特征。
由于Deep Learning對樣本做了獨立同分布假設（iid），一般只能學習到每個樣本的特征，而學習到數據的全局特征，比如TF-IDF這一類需要統計全局詞頻才能獲取的特征，因此也需要手工提取這些特征。

傳統的機器學習模型和深度學習模型之間也存在表達形式上的不同。雖然傳統模型的表現未必比深度學習好，但它們學到的Pattern可能不同，通過Ensemble來取長補短，也能帶來性能上的提升。因此，同時使用傳統模型也是很有必要的。

2.2 第一名的解決方案

比賽結束不久，第一名也放出了他們的解決方案，

我們來看看他們的做法。
https://www./c/quora-question-pairs/discussion/34355

他們的特征總結為三個類別：

Embedding Feature
Text Mining Feature
Structural Feature（他們自己挖掘的Magic Feature）

并且他們也使用了Stacking的框架，并且使用固定的k-fold：

Stage1: 使用了Deep Learning，XGBoost，LightGBM，ExtraTree，Random Forest，KNN等300個模型。
Stage2: 用了手工特征和第一層的預測和深度學習模型的隱藏層，并且訓練了150個模型。
Stage3: 使用了分別是帶有L1和L2的兩種線性模型。
Stage4: 將第三層的結果加權平均。

對比以后發現我們沒有做LDA、LSI等特征，并且N-gram的粒度沒有那么細（他們用了8-gram），還有他們對Magic Feature的挖掘更加深入。還有一點是他們的Deep Learning模型設計更加合理，他們將篩選出來的手工特征也輸入到深度學習模型當中，我覺得這也是他們取得好效果的關鍵。因為顯式地將手工特征輸入給深度學習模型，相當于告訴“它你不用再學這些特征了，你去學其他的特征吧”，這樣模型就能學到更多的語義信息。所以，我們跟他們的差距還是存在的。

3 工具篇

工欲善其事，必先利其器。

Kaggle 的上常工具除了大家耳熟能詳的XGBoost之外，這里要著重推薦的是一款由微軟推出的LightGBM，這次比賽中我們就用到了。LightGBM的用法與XGBoost相似，兩者使用的區別是XGBoost調整的一個重要參數是樹的高度，而LightGBM調整的則是葉子的數目。與XGBoost 相比, 在模型訓練時速度快, 單模型的效果也略勝一籌。

調參也是一項重要工作，調參的工具主要是Hyperopt，它是一個使用搜索算法來優化目標的通用框架，目前實現了Random Search和Tree of Parzen Estimators (TPE)兩個算法。

對于 Stacking，Kaggle 的一位名為Μαριο? Μιχαηλιδη?（https://www./kazanova）的GrandMaster使用Java開發了一款集成了各種機器學習算法的工具包StackNet，據說在使用了它以后你的效果一定會比原來有所提升，值得一試。

以下總結了一些常用的工具：

Numpy | 必用的科學計算基礎包，底層由C實現，計算速度快。
Pandas | 提供了高性能、易用的數據結構及數據分析工具。
NLTK | 自然語言工具包，集成了很多自然語言相關的算法和資源。
Stanford CoreNLP | Stanford的自然語言工具包，可以通過NLTK調用。
Gensim | 主題模型工具包，可用于訓練詞向量，讀取預訓練好的詞向量。
scikit-learn | 機器學習Python包，包含了大部分的機器學習算法。
XGBoost／LightGBM | Gradient Boosting 算法的兩種實現框架。
PyTorch／TensorFlow／Keras | 常用的深度學習框架。
StackNet | 準備好特征之后，可以直接使用的Stacking工具包。
Hyperopt | 通用的優化框架，可用于調參。

4 總結與建議

在參加某個比賽前，要先衡量自己的機器資源能否足夠支撐你完成比賽。比如一個有幾萬張圖像的比賽，而你的顯存只有2G，那很明顯你是不適合參加這個比賽的。當你選擇了一個比賽后，可以先“熱熱身”，稍微熟悉一下數據，粗略地跑出一些簡單的模型，看看自己在榜上的排名，然后再去慢慢迭代。
Kaggle有許多大牛分享Kernel, 有許多Kernel有對于數據精辟的分析，以及一些baseline 模型, 對于初學者來說是很好的入門資料。在打比賽的過程中可以學習別人的分析方法，有利于培養自己數據嗅覺。甚至一些Kernel會給出一些data leak，會對于比賽提高排名有極大的幫助。
其次是Kaggle已經舉辦了很多比賽, 有些比賽有類似之處, 比如這次的Quora比賽就與之前的Home Depot Product Search Relevance(https://www./c/home-depot-product-search-relevance)有相似之處，而之前的比賽前幾名已經放出了比賽的idea甚至代碼，這些都可以借鑒。
另外，要足夠地重視Ensemble，這次我們組的最終方案實現了paper ' Ensemble Selection from Libraries of Models' 的想法，所以有些比賽可能還需要讀一些paper，尤其對于深度學習相關的比賽，最新paper，最新模型的作用就舉足輕重了。
而且，將比賽代碼的流程自動化，是提高比賽效率的一個關鍵，但是往往初學者并不能很好地實現自己的自動化系統。我的建議是初學者不要急于構建自動化系統，當你基本完成整個比賽流程后，自然而然地就會在腦海中形成一個框架，這時候再去構建你的自動化系統會更加容易。
最后，也是最重要的因素之一就是時間的投入，對于這次比賽，我們投入了差不多三個多月，涉及到了對于各種能夠想到的方案的嘗試。尤其最后一個月，基本上每天除了睡覺之外的時間都在做比賽。所以要想在比賽中拿到好名次，時間的投入必不可少。另外對于國外一些介紹kaggle比賽的博客(比如官方博客)也需要了解學習，至少可以少走彎路，本文的結尾列出了一些參考文獻，都值得細細研讀。
最后的最后，請做好心理準備，這是一場持久戰。因為比賽會給你帶來壓力，也許過了一晚，你的排名就會一落千丈。還有可能造成出現失落感，焦慮感，甚至失眠等癥狀。但請你相信，它會給你帶來意想不到的驚喜，認真去做，你會覺得這些都是值得的。

5 感謝

感謝@劉思聰對本文詳細審閱，也感謝@鄭華濱對本文的指正。同時也感謝@一壺酒兮真狂士和@ChingKitWong在比賽期間帶我一起努力拼殺，真的學到了很多。

參考文獻：

1.Paper: Ensemble Selection from Libraries of Models
http://link.zhihu.com/?target=http%3A//www.cs./%7Ealexn/papers/shotgun.icml04.revised.rev2.pdf
2. Kaggle 數據挖掘比賽經驗分享
https://zhuanlan.zhihu.com/p/26820998
3. Kaggle Ensembling Guide
http://link.zhihu.com/?target=https%3A///kaggle-ensembling-guide/