前言主要內容全文內容總共分為六大部分:線型回歸、softmax 回歸、多層神經網絡、模型選擇、必知技巧、思維導圖。 1 線型回歸預測氣溫、預測銷售額、預測商品價格等 模型:權重,偏差 模型訓練:feed 數據學習模型參數值,使得誤差盡可能小 訓練集、測試集、驗證集、樣本、標簽、特征 損失函數:回歸常用平方誤差函數; 優化算法:小批量隨機梯度下降(每次選一小批樣本訓練參數),每批樣本大小叫做 batch size 學習率:正數 超參數:不是通過訓練學出的,如學習率,批量大小 網絡輸出層只有一個神經元節點 全連接層:輸出層中的神經元和輸入層中各個輸入完全連接 基本要素:模型、訓練數據、損失函數和優化算法 2 softmax 回歸圖像分類、垃圾郵件識別、交易詐騙識別、惡意軟件識別等 softmax運算符將輸出值變換成值為正,且和為1的概率分布 交叉熵損失函數:更適合衡量兩個概率分布差異 softmax 回歸是一個單層神經網絡,輸出個數等于類別個數 3 多層神經網絡激活函數:一種非線性函數 ReLU函數:只保留正數元素,負數元素清零 sigmoid函數:將元素值變換到0到1 tanh(雙曲正切):元素值變換到-1到1 4 模型選擇模型在訓練集上更準確時,不代表在測試集上就一定準確 訓練誤差:訓練數據集上表現出的誤差;泛化誤差:模型在測試集上表現的誤差期望 機器學習需要關注降低泛化誤差 模型選擇:評估若干候選模型的表現并從中選擇模型 候選模型可以是有著不同超參數的同類模型 驗證集:預留訓練和測試集之外的數據; 折交叉驗證:訓練集分成份,共次輪詢訓練集 欠擬合:模型無法得到較低的訓練誤差 過擬合:模型的訓練誤差遠小于測試集上的誤差 模型復雜度:低,容易欠擬合;高,容易過擬合 數據集大小:訓練樣本少,尤其少于學習參數數時,容易過擬合;層數多時盡量數據大些 5 必知技巧過擬合解決措施之一:權重衰減,常用L2正則 L2懲罰系數越大,懲罰項在損失函數中比重就越大 丟棄法(dropout):一定概率丟棄神經元 正向傳播:沿著輸入層到輸出層的順序,依次計算并存儲模型的中間變量 反向傳播:從輸出層到輸入層參數調整過程 訓練深度學習模型時,正向傳播和反向傳播間相互依賴 數值穩定性的問題:衰減和爆炸 層數較多時容易暴露,如每層都是一個神經元的30層網絡,如果權重參數為0.2,會出現衰減;如果權重參數為2,會出現爆炸 權重參數初始化方法:正態分布的隨機初始化;Xavier 隨機初始化。 6 思維導圖以上1-5節的完整思維導圖,制作出來方便大家更好學習: 喜歡的朋友可以轉發關注女神一波哈,希望能多多支持女神! |
|