醫生必備技能，萬字長文讓你明白臨床模型研究應該如何做

昵稱69125444 2020-05-25

展開全文

對于大部分臨床醫生來說，往往是沒有能力去做基礎科研的，因為沒有時間、經費和實驗室。但是每家單位對文章的要求又是這么強硬，沒有文章就無法進職稱，該怎么辦？

臨床醫生最大的優勢就是手握第一手的臨床資料，比如此次新冠疫情，最初掌握的臨床資料已經衍生出一大批lancet、nejm頂級期刊，給疫情防控貢獻了巨大力量，所以，只要你會合理的統計分析方法，就用你身邊“稀松平?！钡呐R床數據一樣能發表頂級研究成果。從本篇文章開始，我們會推出一系列的教程，教大家如何從一堆無意義的數據入手，挖掘出有臨床意義的統計模型，換回高分SCI文章。本篇內容，我們就從導論開始講起。

正文開始

Here is the begining

對于醫生來說，如果有某種“特定功能”來預測患者是否會有未知結果，那么許多醫療實踐模式或臨床決策都會改變。幾乎每天我們都會聽到這樣的嘆息：“如果我能提前知道，我當然不會這樣做！”。例如，如果我們可以預測患有惡性腫瘤的患者對某種化療藥物耐藥，那么我們將不會選擇給患者服用該藥物。如果我們可以預測患者在手術過程中可能出現大出血，那么我們將謹慎操作并為患者準備足夠的血液制品；如果我們可以預測高脂血癥患者不會從某些降脂藥物中受益，那么我們可以避免許多無意義的醫療干預。

作為一種評估風險和收益的定量工具，臨床預測模型可以為醫生，患者和衛生管理人員的決策提供更客觀，準確的信息，因此其應用變得越來越普遍。在這種剛性需求下，臨床預測模型的研究方興未艾。

當前的醫學實踐模式已經從經驗醫學發展到循證醫學，再到精準醫學。數據的價值從未如此重要。在大數據時代，數據采集，數據存儲和分析以及預測技術的飛速發展使得個體化醫療的愿景變得越來越清晰。從醫療實踐模式的演變來看，準確預測某種臨床結果的可能性也是當前精準醫療模式的內在要求。

因此，我們將從臨床預測模型的概念、應用現狀、構建方法和過程、臨床預測模型的分類、開展臨床預測模型研究的必要條件和存在的問題等方面對臨床預測模型的研究進行講解。

臨床預測模型的概念

臨床預測模型是指使用參數/半參數/非參數數學模型來估計受試者當前患有某種疾病的概率或將來發生某種結果的可能性。可見，臨床預測模型是通過已知來預測未知的，該模型是一個數學公式，即利用已知特征通過該模型計算未知結果發生的概率。

如果把未知定義為Y，已知定義為X，那么這個關系即像我們即將講到的回歸分析一樣。回歸分析的統計性質是尋找“定量因果關系”。簡單來說，回歸分析是X對Y的影響程度的定量表征?；貧w分析包括很多種統計模型，所以，下面的文章中，統計將會是我們講解到的主要內容，這是數據建模和項目設計的關鍵，也是數據分析技術中最苛刻（要求最高）的部分。

根據我們研究的臨床問題，臨床預測模型主要包括診斷模型、預后模型和疾病發生模型。從統計學的角度來看，只要臨床問題的結果(Y)可以被特征(X)量化，就可以構建預測模型。

橫斷面研究中常見的診斷模式是側重于研究對象的臨床癥狀和特征，以及診斷某一疾病的概率。
預后模型側重于特定疾病在特定時間段內復發、死亡、殘疾和并發癥等結果的概率。這種模型在隊列研究中很常見。
還有另一種類型的預測模型，叫做疾病發生模型，它是根據受試者的一般特征來預測未來是否會發生某種疾病，這在隊列研究中也很常見。

診斷模型、預后模型和疾病發生模型之間有許多相似之處。其結局事件通常是二分類數據，其效應指標是結局發生的絕對風險，即發生的概率，而不是結局發生的相對風險，比如相對風險(RR)、比值比(OR)或風險比(HR)等指標。在模型的技術層面，我們將面臨預測因子的選擇、建模策略的制定，以及模型性能的評估和驗證。

臨床預測模型的應用

背景部分介紹了臨床預測模型在醫學研究和實踐中的廣泛應用。借助臨床預測模型，臨床研究人員可以更準確地選擇合適的研究對象，患者可以做出對自己更有利的選擇，醫生可以做出更好的臨床決策，衛生管理部門可以更好地監控和管理醫療服務質量，更合理地配置醫療資源。臨床預測模型的效能幾乎完全反映在疾病的三級預防體系中：

1. 疾病的一級預防

臨床預測模型可以根據當前的健康狀況，為患者和醫生提供未來診斷特定疾病的量化風險值（概率），為健康教育和行為干預提供更直觀和更有力的科學工具。例如，基于弗雷明漢心臟研究的弗雷明漢心血管風險評分（the Framingham Cardiovascular Risk Score）闡明了降低血脂和血壓可以預防心肌梗死。

2. 疾病的二級預防

診斷模型通常采用無創、低成本、易獲取的指標來構建具有高靈敏度和特異性的診斷手段，踐行“早發現、早診斷、早治療”的理念，具有重要的衛生經濟學意義。

3. 疾病的三級預防

預測模型提供了疾病復發、死亡、殘疾和并發癥發生概率的定量估計，指導對癥治療和康復計劃，預防疾病復發，降低死亡率和殘疾，促進功能恢復和生活質量。

臨床實踐中有幾種成熟的預測模型。例如，Framingham、QRISK、PROCAM和ASSIGN scores都是著名的預測模型。惡性腫瘤的TNM分期系統是最具代表性的預測模型。TNM的最大優勢在于它簡單快捷，但最大的問題是預測不夠準確，這與臨床醫生的期望值相差甚遠。臨床實踐中，對預測工具的使用需求遠遠不局限于預測疾病的發生或預測患者的預后這兩方面。如果我們能提前預測病人的病情，比如肝癌病人，如果我們能提前預測其是否有微血管浸潤，這可能有助于外科醫生在標準切除和擴大切除這兩個完全不同的切除方式之間作出選擇。術前新輔助放化療是T1-4N 中低位直腸癌的標準治療方法。然而，在臨床實踐中發現，根據術前影像學檢查判斷的淋巴結狀態不夠準確，具有較高的假陽性或假陰性。在放療和化療之前，是否有可能根據已知的特征準確預測患者的淋巴結狀態？這些臨床問題都可以通過構建合適的預測模型來解決。

冠心病的疾病預防

臨床預測模型的研究方法

臨床預測模型并不像擬合統計模型那么簡單。從模型的建立、驗證、評價到應用，有一個完整的臨床預測模型研究過程。許多學者討論了臨床預測模型的研究方法?！缎呐K雜志》（Heart Magazine）最近發表了一篇綜述，作者以心血管疾病風險評分（CVD）為例，探討了如何借助可視化圖形和六個重要步驟構建疾病預測模型:

（一）選擇一組預測因子作為潛在的心血管疾病影響因素，并將其納入風險評分；

（二）選擇合適的統計模型，來分析預測因子與心血管疾病的關系；

（三）從現有預測因子中選擇具有顯著意義或足夠重要的變量，將其納入風險評分；

（四）構建風險評分模型；

（五）評價風險評分模型；

（六）解釋風險評分在臨床實踐中的應用。

作者結合文獻報道和個人研究經驗，總結了如圖所示的研究步驟。（這個思維導圖非常重要?。?/p>

研究類型選擇

臨床問題決定研究類型選擇，臨床預測模型可以回答疾病的病因、診斷、治療反應和預后等問題。不同的問題需要不同類型的研究設計。例如，對于病因學研究，隊列研究可用于根據潛在原因預測疾病是否發生。對于診斷準確性的問題，適用橫斷面研究設計，因為預測因素和結果同時出現或在短時間內出現。為了預測患者對治療的反應，可以應用隊列研究或隨機對照試驗(RCT)。對于預后問題，隊列研究是合適的，因為有預測因子和結果的縱向時間邏輯。評估病因的隊列研究，需要合理選擇研究對象和控制混雜因素。在診斷模型的研究中，需要一個“金標準”或參考標準來獨立診斷疾病，并且參考標準的診斷應該采用盲法。也就是說，參考標準診斷不能依賴預測模型中的預測因子信息，以避免診斷回顧偏倚。評估患者對治療的反應是一種介入性研究，也要合理選擇研究對象，控制非試驗因素的干擾。在預后模型的研究中，預測因子和結局之間存在垂直關系，研究人員通常期望在自然狀態下獲得疾病的預后情況，因此前瞻性隊列研究是最常見的預后模型和最好的研究設計類型。

建立研究設計和實施方案

臨床實驗的數據收集和質量控制需要良好的研究設計和實施協議。首先，我們需要回顧文獻來確定要構建的預測模型的數量。有以下幾種情形：

（一）目前還沒有針對具體臨床問題的預測模型。為了構建一個新的模型，通常需要一個訓練集來構建模型，并需要一個驗證集來驗證模型的預測能力。

（二）目前已有預測模型。為了構建新的模型，使用驗證集來構建新模型，并使用相同的訓練數據集來分別驗證現有模型和新模型的預測能力。

（三）為了更新現有模型，使用相同的驗證集來驗證兩個模型的預測能力。

關于訓練數據集和驗證數據集的生成，可以前瞻性地或回顧性地收集數據，其中前瞻性收集的數據集具有更高的質量。對于建模人群，樣本量應盡可能大。對于前瞻性臨床研究，相關文件的編制應包括研究方案、研究者操作手冊、病例報告表和倫理批準文件。還應進行數據收集的質量控制和管理。如果數據是回顧性收集的，還應評估數據質量，識別異常值，并正確處理缺失值，如填充或刪除。最后，根據實際情況確定建模的訓練數據集和驗證的驗證集。由于現實的原因，有時我們只能在同一個數據集上建模和驗證，這是允許的，但是模型的外部適用性會受到一定程度的影響。

模型的建立

在建立預測模型之前，有必要澄清以往文獻中報道的預測因子，確定選擇預測因子的原則和方法，并選擇所應用數學模型的類型。通常將使用參數或半參數模型，例如logistic回歸模型或Cox回歸模型。有時會用機器學習的算法來建立模型，但是這些模型大多是非參數的，導致模型和實際操作起來比較困難。我自己就遇到過這樣的問題，機器學習做出來的模型跟臨床醫生完全沒辦法解釋，人家跟我要評分模型的計算公式，我只能說沒有。正是因為很多機器學習的模型，最終不會生成一個帶參數的計算公式。目前，預測模型中常用的有四種呈現形式:

（一）公式。直接使用數學公式作為預測模型工具。臨床上很常用。

（二）列線圖（Nomogram）。通過適當的數學變換，將回歸模型的回歸系數轉化為分數，并作為預測模型工具繪制列線圖。

（三）網絡計算器。其本質也是通過適當的數學運算將回歸模型的回歸系數轉換成分數，并將其制作成網站供在線使用。以前少，現在日漸增多。

（四）評分系統。通過適當的數學運算，將回歸模型的回歸系數轉化為一個可量化的評分系統。這個也很常用，諸如此類的很多評分量表。

第1種（公式）形式主要是線性回歸模型，即確定性回歸。后面3種（列線圖、網絡計算器、評分系統）形式則是基于參數或半參數模型，其統計性質是模型參數的可視化表示。研究人員可以根據實際情況做出選擇。模型建立后，如何評價模型的優劣？模型的評價和驗證采用了較高的統計分析技術。例如，評價預測模型的區分度、校準度、臨床有效性和其他指標，以確定模型的性能。

模型的驗證

預測模型的效果會隨著應用場景和人口的變化而變化。因此，對預測模型的完整研究應該包括模型的驗證。驗證的內容包括模型的內部有效性和外部有效性。內部有效性反映了模型的可重復性，這可以通過交叉驗證和自助抽樣（重抽樣）的方式，利用研究本身的數據進行驗證。外部有效性反映了模型的可推廣性，需要用不同于研究本身的數據集進行驗證，這些數據集在時間和地理上是獨立的，或者是完全獨立的。

模型的內部驗證和外部驗證是評估模型穩定性和適用性的必要步驟。用于內部驗證和外部驗證的數據集應該是完全異構的，但不是在一定程度上異構。通常，來自原始機構的數據被用作模型構建的訓練集，并且隨機選擇一部分內部數據來作為內部驗證集。選擇其他機構的數據作為外部驗證集。當然，最好進行外部數據集驗證。

下面，我將介紹幾種驗證內部有效性的方法。

（一）對半分割法。將現有數據隨機分成兩部分，一部分用于構建模型，另一部分用于驗證模型。采用半分割法將數據分為兩部分進行“內部驗證”。由于只有一半的數據用于構建模型，因此模型相對不穩定。小樣本研究不適合這種方法。

（二）交叉驗證方法。這種方法是對半分法的進一步發展。通常使用半折疊交叉驗證和N倍折疊（N-fold）交叉驗證。半折疊交叉驗證方法是將原始數據分成兩部分，一部分用于建立模型，另一部分用于驗證模型。然后交換兩部分的卷，并相互驗證。N折疊交叉驗證方法是將數據分成N個部分，用N-1部分建立模型，剩下一部分驗證模型。用這種方法建立并驗證模型N次，就可以構造出一個相對穩定的模型。（常用的N多為5或者10）

（三）自助抽樣法（重抽樣法，Bootstrap）。傳統的Bootstrap內部有效性分析方法是從原始數據集中隨機抽取一定數量的可放回案例建立模型，然后利用原始數據對模型進行驗證。通過500-1000次隨機抽樣、建立和驗證，可以得到500-1000個模型，并總結出模型的參數分布。因此，可以確定模型的最終參數值。自助抽樣法是近年來發展迅速的一種方法，是在計算機運算量增加的背景下發展起來的。結果表明，用該方法得到的模型比用前兩種方法得到的模型具有更高的穩定性。可以推測，自助抽樣法將越來越多地應用于預測模型的內部有效性分析。當然，如果條件滿足，我們應該盡可能多地對預測模型進行外部驗證，以提高模型的外部適用性。

臨床效果和有效性評估

臨床預測模型的最終目的是改變醫患雙方的行為，改善患者的預后或成本效應，這是臨床預測模型的臨床效應研究。從方法論的角度來看，通常是根據新的預測模型來劃分訓練集和驗證集。例如，為了預測二分類結局，我們可以通過評估模型的敏感性和特異性來評估臨床效果。

臨床預測模型的臨床效益研究，其最終目標是研究其是否會改變醫患的行為，改善患者的預后以及提高成本效益。方法學上，通常根據新的預測模型分為訓練集和驗證集。例如，對于預測二分類結果，我們可以通過模型的敏感性和特異性來評估臨床有效性。我們通常根據預測模型評估患者的預后好壞來預測生存結局。例如，通過Nomogram計算每個受試者的得分，并根據一定的臨界值將患者分為預后良好組和預后不良組，然后繪制Kaplan-Meier生存曲線。決策曲線分析也是預測模型臨床有效性的常用方法。從預測模型構建和研究設計的最終目的來看，設計隨機對照試驗的臨床有效性評估最好，并且通常使用整群隨機對照試驗來評估應用預測模型是否可以改善患者預后并減少醫療費用。

模型的更新

由于疾病風險因素、無法測量的風險因素、治療措施和治療背景隨著時間推移產生變化（稱為校準漂移），即使是已經充分驗證的臨床預測模型，其性能也會日益下降。因此，臨床預測模型需要不斷地發展和更新。同樣的，最常用的惡性腫瘤TNM分期系統也因上述原因而不斷更新。

臨床模型研究的分類

拋開研究的角度，單從臨床醫生的角度來看，目前對臨床預測模型的研究大致可分為三類：

1. 構建具有傳統臨床特征、病理特征、體格檢查結果、實驗室檢查結果等的預測模型。此類模型的預測變量臨床上更加便于獲取，并且此類模型的構建更加可行。

2. 隨著影像組學研究方法的成熟，越來越多的學者意識到影像學的某些表現或參數代表了特定的生物學特征。使用彩色多普勒超聲、CT、MR以及PET的大量成像參數結合臨床特征來構建預測模型，往往可以進一步提高預測模型的準確性。此類建?；谟跋窠M學特征的掃描。此類建模的前期工作量比第一種方法大得多，并且需要臨床和影像部門之間的緊密合作。

3. 隨著基因組學和蛋白質組學等高通量生物技術的廣泛應用，臨床研究人員正在探索特征性的生物標志物，并由這些大量生物信息構建預測模型。這種預測模型是基礎醫學向臨床醫學轉化的良好切入點，但是由于需要對臨床樣本進行各種組學測試，因此需要強大的經濟支持。但是，科學研究的投入和產出是成正比的。俗話說：“舍不得孩子套不著狼。”盡管沒有人愿意將狼與孩子困在一起，但原因是相同的。一旦愿意將錢投入到能很好地轉化為臨床的組學分析研究中，通常這些研究就可以產出具有高影響因子的文章。

臨床模型研究的必要條件

1. 建立單個疾病的隨訪數據庫，并盡可能完整地收集患者信息，包括但不限于以下各項：人口統計學特征、既往史、家族史、個人史；疾病相關信息，例如治療前重要的體格檢查和實驗室檢查結果、疾病嚴重程度、疾病臨床階段、病理階段、組織學等級；治療信息，如手術方法、放化療方案、劑量和強度；預后：癌癥患者需要進行持續隨訪才能獲得其預后，此任務較為困難和復雜。其他信息：如果有，例如遺傳信息。數據庫的建立為核心。

2. 從先前發表的預測模型文章中，大多數都是基于回顧性數據集的，而其中有一部分是基于預期數據集的。這類研究與RCT相比更容易進行，屬于我們現在提出的現實世界研究領域?，F實世界研究和RCT應該是臨床研究皇冠中的兩顆同樣璀璨的珍珠，且能互相彌補不足。過去，我們過分強調RCT的重要性，而忽略了實際數據本身的巨大價值。毫無疑問，RCT數據具有最高的質量，但對數據進行了嚴格的篩選，因此證據的外推受到限制?，F實世界的數據來自我們的日常臨床實踐，它更全面地反映了臨床干預的有效性，而且具有更好的外部適用性。但是，現實世界研究的最大問題是數據質量參差不齊，并且存在太多難以識別的混雜因素。因此，有必要使用更復雜的統計方法從繁復的混雜因素中找出真相。沙里淘金并不容易，可靠的統計學基礎就像沙中淘金的篩子。我們需要了解混雜因素是客觀存在的，因為任何臨床結果的發生都不是單一因素作用的結果。對于混雜因素，有兩個校正級別。一種是在實驗設計階段進行的校正，這是頂層校正，例如通過隨機化和足夠的樣本量來均衡組間的混雜因素。這也是RCT受歡迎的原因：只要樣本量足夠大且隨機化正確，混雜因素就可以一勞永逸地解決。第二種是通過統計學方法進行的結果校正，顯然不如RCT校正那么徹底，但第二種情況更接近我們臨床的實際情況。

3. 樣本量。因現實研究中存在許多混雜因素，所以辨別混雜因素對結果的影響，需要一定的樣本數量。通過多變量分析篩選變量的一種簡單可行的原則是，如果在多變量分析中包括一個變量，則應有20個端點樣本，即“ 1:20原理”。

4. 臨床研究洞察力。建立臨床預測模型是為了解決臨床問題。要發現有價值的臨床問題，就要進行廣泛閱讀和臨床實踐。

預測模型研究中面臨的問題

1. 臨床轉化率低。主要原因是預測模型的臨床應用需要平衡模型的準確性和簡便性。想象一下，如果有一個模型可以像TNM分級一樣易于使用，但是比TNM分級更準確，那么您會做出哪些選擇？

2. 大多數臨床預測模型都是基于回顧性數據集構建和驗證的，很少在前瞻性數據中進行驗證。因此，模型預測的穩定性相對較差。

3. 多數臨床預測模型的驗證基于內部數據。多數文章僅一個數據集。即使有兩個數據集，一個用于構建模型，另一個用于驗證，但兩個數據集通常來自同一研究中心。如果預測模型的驗證可以進一步擴展到另一個研究中心的數據集，則該模型的應用價值將得到極大的擴展。我自己在臨床工作中遇到過這樣的問題，同樣的肝硬化評分APRI、FIB-4在不同人群中統計效能千差萬別。這項工作非常困難，需要多中心合作。此外，大多數國內中心沒有用于驗證的完整數據庫，這又回到了前面討論的“數據庫重要性”主題。

科研貓結語

臨床預測模型的初衷是使用少量易于收集的低成本預測因子來預測疾病的狀態和預后。因此，大多數預測模型都很簡短。在信息技術不發達且數據收集、存儲和分析成本高昂的時代，這是合情合理的。但是，隨著經濟的發展和技術的進步，數據收集和存儲的成本已大大降低，數據分析技術也在不斷進步。因此，臨床預測模型應突破固有的概念，應用大量數據（大數據）和更復雜的模型以及算法（機器學習和人工智能）來為醫生、患者和醫療決策者提供更準確的結果。

另外，從臨床醫生的角度出發，進行臨床預測模型的研究應把握以下四個原則：

建立更好的臨床預測模型也是精準醫學的內在要求；
如何獲得高質量的數據？建立數據庫是核心競爭力，而預測模型只是一種技術方法；
我們需要認識到現實研究與RCT同樣重要。兩者都是提供可靠的臨床證據的方法。
模型的驗證需要內部和外部的合作，因此，我們應該加強科學研究的內部合作，提高對多中心科學研究合作的認識。

參考文獻：Zhi-Rui Zhou, Wei-Wei Wang, Yan Li, et al. In-depth mining of clinical data: the construction of clinical prediction model with R.Annals of Translational Medicine.

更多科研新鮮資訊、文獻精讀和生物信息技

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。

醫生必備技能，萬字長文讓你明白臨床模型研究應該如何做