【原】組學(xué)相關(guān)預(yù)測模型 | 第1期. 一文理清組學(xué)預(yù)測模型研究套路

新用戶4064dVjo 2025-07-24 發(fā)布于北京

展開全文

近年來，隨著各類組學(xué)技術(shù)（如轉(zhuǎn)錄組、蛋白組、代謝組等）在醫(yī)學(xué)領(lǐng)域的興起和蓬勃發(fā)展，大家對于組學(xué)數(shù)據(jù)處理和應(yīng)用的需求也日益高漲。與此同時，預(yù)測模型作為疾病診斷、風(fēng)險(xiǎn)分層和療效評估的核心工具，其在精準(zhǔn)醫(yī)療實(shí)踐中的核心價(jià)值也日益凸顯。

基于組學(xué)數(shù)據(jù)構(gòu)建高效、可靠的預(yù)測模型是組學(xué)數(shù)據(jù)臨床應(yīng)用的重要途徑。因此，從今天開始，我們將開啟一個全新的系列：組學(xué)相關(guān)預(yù)測模型構(gòu)建。

本系列將以此類文章的研究套路為中心，圍繞變量篩選、模型構(gòu)建、風(fēng)險(xiǎn)分層、模型評價(jià)四個方面，以蛋白組學(xué)數(shù)據(jù)為貫穿范例開展具體方法介紹、高分文獻(xiàn)范例講解和R語言實(shí)踐，旨在為大家提供：

① 清晰的研究框架與流程認(rèn)知。

② 實(shí)用的方法論與操作技能。

③ 可復(fù)現(xiàn)的代碼實(shí)踐。

④ 可借鑒的研究思路。

作為本系列的第一期，我們會從宏觀上告訴大家，如果你已經(jīng)有了組學(xué)數(shù)據(jù)，要如何去構(gòu)建組學(xué)預(yù)測模型，此類文章的研究套路和流程是怎樣的？

話不多說，我們開始發(fā)車?yán)瞺

要進(jìn)行組學(xué)相關(guān)預(yù)測模型構(gòu)建的研究，基本分為以下五步，至于其中的原理和具體方法，在后文我們將一一展開敘述。

01 | 明確組學(xué)數(shù)據(jù)類型及檢測技術(shù)

每種組學(xué)數(shù)據(jù)及相關(guān)檢測技術(shù)都有其獨(dú)特的優(yōu)勢和適用場景。因此，首先我們需要對自己的組學(xué)數(shù)據(jù)有一個明確的定位，以蛋白組學(xué)為例：

適當(dāng)了解組學(xué)技術(shù)背景知識可以幫助我們對自己的數(shù)據(jù)做到“心中有數(shù)”，其他組學(xué)技術(shù)相關(guān)背景我們在這里不再贅述。（大家可以點(diǎn)擊進(jìn)入我們之前分享的“生物信息學(xué)合集” ，為后續(xù)的學(xué)習(xí)奠定基礎(chǔ)）

02 | 確定可行的研究目標(biāo)與預(yù)測模型類型

在對自己的組學(xué)數(shù)據(jù)有了清晰的定位之后，第二步我們需要根據(jù)所擁有的組學(xué)數(shù)據(jù)臨床信息思考適合的預(yù)測模型類型并選擇我們的預(yù)測目標(biāo)（結(jié)局指標(biāo)）。

上述流程圖可以幫助大家根據(jù)自己的數(shù)據(jù)信息迅速定位適合的預(yù)測模型類型。

簡單來說，組學(xué)預(yù)測模型研究最常見的兩大類應(yīng)用是診斷（當(dāng)前狀態(tài)）和預(yù)后（未來風(fēng)險(xiǎn)），但除此之外，我們列出了一些特殊類別的預(yù)測模型類型，可幫助大家擴(kuò)展思路。這些特殊類別的預(yù)測模型我們在后續(xù)推送中也會為大家展開講解。

03 | 特征選擇、模型構(gòu)建、模型評價(jià)流程

這一部分主要是想幫助大家先搭建一個框架，其中具體方法詳解、不同方法如何搭配使用以及R語言復(fù)現(xiàn)在本系列的后續(xù)推送中，我們會通過高分文獻(xiàn)實(shí)例講解和R語言實(shí)踐的方式展開，希望大家通過這種方式能逐步理解并掌握此類研究。

此外，下列方法幾乎涵蓋常規(guī)方法，如果大家能靈活使用這些方法，選擇得當(dāng)?shù)姆椒ńM合，我覺得應(yīng)該可以做一篇還不錯的研究！

一、組學(xué)數(shù)據(jù)特征選擇：

特征選擇的目的是為了降低維度、防止過擬合，更能提升模型的可解釋性。

以下我們整理了研究中常用的特征選擇方法，通常分為初篩（快速降維）、核心篩選（重要性評估）和魯棒性優(yōu)化（穩(wěn)定性驗(yàn)證）三個階段，需根據(jù)數(shù)據(jù)類型和研究目標(biāo)靈活組合方法。

1. 初篩：常用于快速降維。

① 差異分析：使用t檢驗(yàn)或ANOVA篩選差異表達(dá)特征。

② 聚類分析：如Mfuzz 聚類，識別具有相似時間表達(dá)模式的動態(tài)特征。

③ 正則化初篩：

常規(guī)數(shù)據(jù)：LASSO回歸、彈性網(wǎng)絡(luò)回歸（ENR）。

縱向數(shù)據(jù)：GLMM/LMM + L1懲罰。

④ 生存分析：Cox比例風(fēng)險(xiǎn)模型的單變量分析。

2. 核心篩選：在初篩基礎(chǔ)上，篩選出核心特征集。

① 多模型集成評估：利用多種不同算法評估特征重要性。

樹模型：RF、XGBoost、LightGBM、CatBoost

線性模型：含正則化項(xiàng) (L1/L2) 的 Logistic 回歸或 Cox 多變量模型。

判別分析：OPLS-DA (正交偏最小二乘判別分析)--使用VIP值篩選。

② 包裝法：

順序向前選擇（SFS）

遞歸特征消除（RFE）

需結(jié)合特定模型和評估指標(biāo)（如AUC），同時，可結(jié)合SHAP值增強(qiáng)可解釋性。

③ 混合效應(yīng)模型（縱向數(shù)據(jù)）：使用 LMM/GLMM 估計(jì)特征固定效應(yīng)的效應(yīng)值作為重要性指標(biāo)。

④ Boruta算法：基于隨機(jī)森林的“影子特征”比較法。

3. 魯棒性優(yōu)化：避免過擬合和偶然性。

① 重采樣技術(shù)：Bootstrap穩(wěn)定性驗(yàn)證；遞歸特征消除交叉驗(yàn)證 (RFECV)。

② 特征可解釋性：SHAP值。

二、構(gòu)建預(yù)測模型常用方法：

在篩選出關(guān)鍵特征后，下一步就是選擇合適的算法構(gòu)建預(yù)測模型。以下兩類是目前研究中主流的模型構(gòu)建方法，需靈活選擇。

1.線性/廣義線性模型(高解釋性模型)：

① Cox比例風(fēng)險(xiǎn)模型

② Logistic回歸

③ 正則化模型：LASSO 回歸、彈性網(wǎng)絡(luò) (ENR)。

2.機(jī)器學(xué)習(xí)模型(高預(yù)測力模型)：

① 集成樹模型：隨機(jī)森林(RF)；梯度提升樹(GBDT, XGBoost, LightGBM, CatBoost)。

② 支持向量機(jī)(SVM)

③ 神經(jīng)網(wǎng)絡(luò)(NN)

（可選）計(jì)算風(fēng)險(xiǎn)評分并進(jìn)行風(fēng)險(xiǎn)分層：

這里要提醒大家，不是所有的模型都需要分層，關(guān)鍵是看我們的研究目標(biāo)。

推薦做分層：如果目標(biāo)是疾病診斷或預(yù)后評估，推薦做風(fēng)險(xiǎn)分層，因?yàn)樗苤庇^指導(dǎo)臨床決策，提升臨床可用性。
不推薦做分層：如果目標(biāo)是機(jī)制探索、生物標(biāo)志物篩選，或僅為算法性能驗(yàn)證，不推薦做。還有一個關(guān)鍵點(diǎn)是，如果數(shù)據(jù)不支持做分層，不要強(qiáng)行切分。

那么風(fēng)險(xiǎn)分層怎么做？

當(dāng)我們確定需要做風(fēng)險(xiǎn)分層時，核心任務(wù)就是找到一個合適的“分界線” (Cutoff)，把連續(xù)的風(fēng)險(xiǎn)評分劃分成幾個有臨床意義的區(qū)間。常用方法包括：

1. 計(jì)算風(fēng)險(xiǎn)評分：

① 基于(多因素)Cox/Logistic回歸系數(shù)加權(quán)求和

② 基于LASSO回歸系數(shù)加權(quán)求和

2. 尋找最佳Cutoff值進(jìn)行分層：

① 最大Youden指數(shù)確定cutoff值

② 最小P值法：容易導(dǎo)致過擬合，使用時需注意。

③ 中位數(shù)、四分位數(shù)/百分位數(shù)

④ 基于臨床意義/結(jié)合外部證據(jù)

3. 分層后效果展示：

① 通過生存曲線(Kaplan-Meier Plot) + Log-rank檢驗(yàn)，直觀展示分層效果。