一、樣本均值與樣本方差
假設(shè)有以下數(shù)據(jù):
以下定義了數(shù)據(jù)的樣本均值與樣本方差: 接下來需要對樣本均值與樣本方差進行一些變換來獲得其另一種表示形式: 中心矩陣 因此最終可以得到 二、主成分分析的思想一個中心:PCA是對原始特征空間的重構(gòu),將原來的線性相關(guān)的向量轉(zhuǎn)換成線性無關(guān)的向量;
PCA首先要將數(shù)據(jù)中心化(即減去均值)然后投影到一個新的方向上,這個新的方向即為重構(gòu)的特征空間的坐標軸,同時也要保證投影以后得到的數(shù)據(jù)的方差最大,即最大投影方差,這樣也保證了數(shù)據(jù)的重構(gòu)距離最小。 四、最大投影方差假設(shè)投影方向為 因此該問題就轉(zhuǎn)換為以下最優(yōu)化問題: 然后使用拉格朗日乘子法進行求解: 最后解得符合條件的向量是協(xié)方差矩陣 特征向量表示投影變換的方向,特征值表示投影變換的強度。通過降維,我們希望減少冗余信息,提高識別的精度,或者希望通過降維算法來尋找數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征。找最大的特征值是因為 ,在降維之后要最大化保留數(shù)據(jù)的內(nèi)在信息,并期望在所投影的維度上的離散最大。 五、最小重構(gòu)距離最小重構(gòu)距離是另一種求解的方法,其本質(zhì)上和最大投影方差是相同的。 我們知道有 因此重構(gòu)距離也就是指 然后就可以轉(zhuǎn)化為以下最優(yōu)化問題: 顯然這里的每個 六、SVD角度看PCA和PCoA協(xié)方差矩陣
將 接下里可以做以下變換: 接下來我們構(gòu)造矩陣 對比 關(guān)于為什么將 這兩種?法都可以得到主成分,但是由于?差矩陣是 七、概率PCA(p-PCA)
假設(shè)有以下數(shù)據(jù): 其中
這是一個線性高斯模型,其中
上圖中數(shù)據(jù)空間為?維,潛在空間為?維。?個觀測數(shù)據(jù)點
求解
該問題和《高斯分布|機器學(xué)習(xí)推導(dǎo)系列(二)》中第六部分的問題是類似的。 利用《高斯分布|機器學(xué)習(xí)推導(dǎo)系列(二)》中第五部分的公式可以求解
使用EM算法求解,這里不做展示。 參考資料ref:降維時為什么找最大的特征值對應(yīng)的特征向量 |
|