近年來,隨著各類組學(xué)技術(shù)(如轉(zhuǎn)錄組、蛋白組、代謝組等)在醫(yī)學(xué)領(lǐng)域的興起和蓬勃發(fā)展,大家對于組學(xué)數(shù)據(jù)處理和應(yīng)用的需求也日益高漲。與此同時,預(yù)測模型作為疾病診斷、風(fēng)險(xiǎn)分層和療效評估的核心工具,其在精準(zhǔn)醫(yī)療實(shí)踐中的核心價(jià)值也日益凸顯。基于組學(xué)數(shù)據(jù)構(gòu)建高效、可靠的預(yù)測模型是組學(xué)數(shù)據(jù)臨床應(yīng)用的重要途徑。因此,從今天開始,我們將開啟一個全新的系列:組學(xué)相關(guān)預(yù)測模型構(gòu)建。本系列將以此類文章的研究套路為中心,圍繞變量篩選、模型構(gòu)建、風(fēng)險(xiǎn)分層、模型評價(jià)四個方面,以蛋白組學(xué)數(shù)據(jù)為貫穿范例開展具體方法介紹、高分文獻(xiàn)范例講解和R語言實(shí)踐,旨在為大家提供:③ 可復(fù)現(xiàn)的代碼實(shí)踐。作為本系列的第一期,我們會從宏觀上告訴大家,如果你已經(jīng)有了組學(xué)數(shù)據(jù),要如何去構(gòu)建組學(xué)預(yù)測模型,此類文章的研究套路和流程是怎樣的?要進(jìn)行組學(xué)相關(guān)預(yù)測模型構(gòu)建的研究,基本分為以下五步,至于其中的原理和具體方法,在后文我們將一一展開敘述。01 | 明確組學(xué)數(shù)據(jù)類型及檢測技術(shù)每種組學(xué)數(shù)據(jù)及相關(guān)檢測技術(shù)都有其獨(dú)特的優(yōu)勢和適用場景。因此,首先我們需要對自己的組學(xué)數(shù)據(jù)有一個明確的定位,以蛋白組學(xué)為例:適當(dāng)了解組學(xué)技術(shù)背景知識可以幫助我們對自己的數(shù)據(jù)做到“心中有數(shù)”,其他組學(xué)技術(shù)相關(guān)背景我們在這里不再贅述。(大家可以點(diǎn)擊進(jìn)入我們之前分享的“生物信息學(xué)合集” ,為后續(xù)的學(xué)習(xí)奠定基礎(chǔ))02 | 確定可行的研究目標(biāo)與預(yù)測模型類型在對自己的組學(xué)數(shù)據(jù)有了清晰的定位之后,第二步我們需要根據(jù)所擁有的組學(xué)數(shù)據(jù)臨床信息思考適合的預(yù)測模型類型并選擇我們的預(yù)測目標(biāo)(結(jié)局指標(biāo))。上述流程圖可以幫助大家根據(jù)自己的數(shù)據(jù)信息迅速定位適合的預(yù)測模型類型。 簡單來說,組學(xué)預(yù)測模型研究最常見的兩大類應(yīng)用是診斷(當(dāng)前狀態(tài)) 和 預(yù)后(未來風(fēng)險(xiǎn)),但除此之外,我們列出了一些特殊類別的預(yù)測模型類型,可幫助大家擴(kuò)展思路。這些特殊類別的預(yù)測模型我們在后續(xù)推送中也會為大家展開講解。03 | 特征選擇、模型構(gòu)建、模型評價(jià)流程這一部分主要是想幫助大家先搭建一個框架,其中具體方法詳解、不同方法如何搭配使用以及R語言復(fù)現(xiàn)在本系列的后續(xù)推送中,我們會通過高分文獻(xiàn)實(shí)例講解和R語言實(shí)踐的方式展開,希望大家通過這種方式能逐步理解并掌握此類研究。此外,下列方法幾乎涵蓋常規(guī)方法,如果大家能靈活使用這些方法,選擇得當(dāng)?shù)姆椒ńM合,我覺得應(yīng)該可以做一篇還不錯的研究!一、組學(xué)數(shù)據(jù)特征選擇:特征選擇的目的是為了降低維度、防止過擬合,更能提升模型的可解釋性。 以下我們整理了研究中常用的特征選擇方法,通常分為初篩(快速降維)、核心篩選(重要性評估) 和 魯棒性優(yōu)化(穩(wěn)定性驗(yàn)證) 三個階段,需根據(jù)數(shù)據(jù)類型和研究目標(biāo)靈活組合方法。① 差異分析:使用t檢驗(yàn)或ANOVA篩選差異表達(dá)特征。② 聚類分析:如Mfuzz 聚類,識別具有相似時間表達(dá)模式的動態(tài)特征。- 常規(guī)數(shù)據(jù):LASSO回歸、彈性網(wǎng)絡(luò)回歸(ENR)。
- 縱向數(shù)據(jù):GLMM/LMM + L1懲罰。
④ 生存分析:Cox比例風(fēng)險(xiǎn)模型的單變量分析。2. 核心篩選:在初篩基礎(chǔ)上,篩選出核心特征集。① 多模型集成評估:利用多種不同算法評估特征重要性。- 樹模型:RF、XGBoost、LightGBM、CatBoost
- 線性模型:含正則化項(xiàng) (L1/L2) 的 Logistic 回歸或 Cox 多變量模型。
- 判別分析:OPLS-DA (正交偏最小二乘判別分析)--使用VIP值篩選。
需結(jié)合特定模型和評估指標(biāo)(如AUC),同時,可結(jié)合SHAP值增強(qiáng)可解釋性。 ③ 混合效應(yīng)模型(縱向數(shù)據(jù)):使用 LMM/GLMM 估計(jì)特征固定效應(yīng)的效應(yīng)值作為重要性指標(biāo)。④ Boruta算法:基于隨機(jī)森林的“影子特征”比較法。① 重采樣技術(shù):Bootstrap穩(wěn)定性驗(yàn)證;遞歸特征消除交叉驗(yàn)證 (RFECV)。在篩選出關(guān)鍵特征后,下一步就是選擇合適的算法構(gòu)建預(yù)測模型。以下兩類是目前研究中主流的模型構(gòu)建方法,需靈活選擇。③ 正則化模型:LASSO 回歸、彈性網(wǎng)絡(luò) (ENR)。2.機(jī)器學(xué)習(xí)模型(高預(yù)測力模型):① 集成樹模型:隨機(jī)森林(RF);梯度提升樹(GBDT, XGBoost, LightGBM, CatBoost)。③ 神經(jīng)網(wǎng)絡(luò)(NN)(可選)計(jì)算風(fēng)險(xiǎn)評分并進(jìn)行風(fēng)險(xiǎn)分層:這里要提醒大家,不是所有的模型都需要分層,關(guān)鍵是看我們的研究目標(biāo)。- 推薦做分層:如果目標(biāo)是疾病診斷或預(yù)后評估,推薦做風(fēng)險(xiǎn)分層,因?yàn)樗苤庇^指導(dǎo)臨床決策,提升臨床可用性。
- 不推薦做分層:如果目標(biāo)是機(jī)制探索、生物標(biāo)志物篩選,或僅為算法性能驗(yàn)證,不推薦做。還有一個關(guān)鍵點(diǎn)是,如果數(shù)據(jù)不支持做分層,不要強(qiáng)行切分。
當(dāng)我們確定需要做風(fēng)險(xiǎn)分層時,核心任務(wù)就是找到一個合適的“分界線” (Cutoff),把連續(xù)的風(fēng)險(xiǎn)評分劃分成幾個有臨床意義的區(qū)間。常用方法包括:1. 計(jì)算風(fēng)險(xiǎn)評分:① 基于(多因素)Cox/Logistic回歸系數(shù)加權(quán)求和 ② 基于LASSO回歸系數(shù)加權(quán)求和 ① 最大Youden指數(shù)確定cutoff值② 最小P值法:容易導(dǎo)致過擬合,使用時需注意。③ 中位數(shù)、四分位數(shù)/百分位數(shù)① 通過生存曲線(Kaplan-Meier Plot) + Log-rank檢驗(yàn),直觀展示分層效果。三、進(jìn)行模型評價(jià)與驗(yàn)證: 構(gòu)建模型后,嚴(yán)格評價(jià)其性能并在獨(dú)立數(shù)據(jù)上驗(yàn)證其可靠性至關(guān)重要。評價(jià)需涵蓋多個維度,驗(yàn)證則確保模型能推廣到新數(shù)據(jù)。① 區(qū)分度:ROC曲線(最常用)、C指數(shù)(生存模型核心指標(biāo))、PR曲線(不平衡數(shù)據(jù))。① 內(nèi)部驗(yàn)證: K折交叉驗(yàn)證、留出法(Hold-Out)、Bootstrap重抽樣。② 外部驗(yàn)證: 獨(dú)立隊(duì)列驗(yàn)證(金標(biāo)準(zhǔn));生物學(xué)一致性驗(yàn)證(在無法進(jìn)行獨(dú)立隊(duì)列驗(yàn)證時可考慮)。以上就是本期的全部內(nèi)容,要提醒大家注意的是,對于上述具體方法大家需要靈活選擇合適的方法組合。好啦,從下一期開始,我們將繼續(xù)推送組學(xué)相關(guān)預(yù)測模型構(gòu)建的具體方法詳解、不同方法如何搭配使用以及R語言復(fù)現(xiàn)!
|