一文理清 混雜因素vs交互作用 vs調節效應vs中介效應 Summary 一文系列 ![]() 眾所周知,在研究中,或多或少我們都會遇到變量(Variable)。 變量(Variable): 亦稱觀察指標。變量的取值表示觀察值(或測量值)或對應的觀察結果,亦稱資料(data)。 變量可分為:
還會遇到危險因素(risk factor)。 危險因素(risk factor): 亦稱病因(cause)。即能使疾病發生概率升高的因素。 可分為:
我們往往希望從各種暴露因素中找到危險因素。然而,暴露因素與疾病之間的關聯,可能是因隨機誤差所致,也可能是真正具有統計學意義的關聯。 統計學關聯也可以是:
因此:要排除各種虛假關聯;調整和分析間接關聯;從而評價病因學關聯。 ![]() 上圖的理解是錯誤的 ![]() 該圖的理解是正確的 為了揭示關聯,我們引入了誤差(error)。 總有人問:誤差(error) 和偏倚(bias)是什么關系? 誤差(error): 指研究的測得值與真實值的偏差。 誤差可分為:
偏倚(bias)包括:
選擇偏倚和信息偏倚 → 虛假關聯 混雜偏倚 → 間接關聯 關聯的分類: ① 虛假關聯(spurious assocation):
② 間接關聯(indirect assocation):
混雜偏倚(confounding bias): 指在估計暴露與疾病之間聯系時,受到一個或多個(與研究的疾病(Y)有密切關系,又與暴露因素(X)有密切聯系的)潛在危險因素的影響,從而歪曲了所研究因素與疾病間的真實聯系。 混雜因素(confounding factor): 引起混雜偏倚的因素。 當一個潛在混雜因素在研究組間分布不均衡時,才能起到混雜作用,產生混雜偏倚。 混雜因素必須3個特征:
③ 因果關聯(causal assocation): 指一定的原因產生相應的結果。在排除虛假關聯和間接關聯之后,才能對兩事件間的因果關聯進行判斷。因與果在空間上相伴存在,在時間上總是先后相隨。 常見有:
疾病的發生是多個病因共同作用的結果,想要確定某種因素與疾病間的因果聯系,必須按照因果關聯的標準進行嚴格篩選。 因果關聯的推斷標準(Hill's guideline): ① 關聯強度(strength); ② 時間順序(temporality); ③ 關聯特異性(specificity); ④ 關聯可重復性(consistency); ⑤ 劑量-反應關系(dose-response); ⑥ 分布一致性(coherence); ⑦ 生物學合理性(biologic plausibility); ⑧ 實驗證據(exprerimental evidence); ⑨ 相似性(analogy); 1 混雜因素(confounding factor) 上文已經介紹了。混雜因素屬于間接關聯的范疇。 混雜因素(confounding factor): 引起混雜偏倚的因素。 當一個潛在混雜因素在研究組間分布不均衡時,才能起到混雜作用,產生混雜偏倚。 混雜因素必須3個特征:
![]() ![]() 混雜偏倚(confounding bias): 指在估計暴露與疾病之間聯系時,受到一個或多個(與研究的疾病(Y)有密切關系,又與暴露因素(X)有密切聯系的)潛在危險因素的影響,從而歪曲了所研究因素與疾病間的真實聯系。 間接關聯(indirect assocation): 亦稱繼發關聯。指由混雜偏倚所致的關聯。 如何校正混雜因素?(adjusted for)
多因素分析校正混雜因素: 在各種觀察性研究中,我們常常可以看到研究者會在結論中聲明:在校正了年齡、性別...等等各種因素后,所研究因素的HR/OR/β值。 ![]() 事實上,多因素分析校正就是在回歸模型中引入已知或潛在的混雜因素,通過計算獲取在其他變量(協變量)不變的條件下,研究變量對結局獨立的效應。 ![]() 因此,通過在回歸模型中對混雜因素進行矯正,能夠平衡掉混雜因素在研究因素分組中的分布,以突出研究因素的獨立作用。 當然,在觀察性研究中,就算我們校正了足夠的已知混雜因素,仍然可能存在未知的混雜因素,這就是我們閱讀過的觀察性研究的文獻在limitation部分經常提及的殘余混雜(residual confounding)。 殘余混雜只能盡量減少,但沒法消除,總會有潛在的混雜偏倚存在。這也是觀察性研究的結果在循證醫學中證據級別較低的原因之一。 2 協變量(covariate) 在前文所述多因素分析校正混雜因素部分時,我們提到了協變量。 協變量(covariate) : 指與因變量(Y)有線性相關,并在探討自變量(X)與因變量(Y)關系時通過統計技術加以控制的變量。 常用的協變量包括:
協變量屬于控制變量的一種。 控制變量包括: ① 可以通過實驗操作加以控制的變量:
② 由于受實驗設計等因素的限制,只能借助統計技術來加以控制的變量:
協方差分析 ( analysis o f covariance,ANCOVA) : 概念:是對實驗進行統計控制的一種方法。是關于如何控制協變量對因變量的影響作用,從而更有效地分析實驗處理效應的一種統計分析技術。 思想:根據因變量對協變量的回歸系數,從因變量中扣除受協變量影響的部分,從而正確分析自變量對因變量的影響。 舉例:(一個協變量的單因素實驗設計) 假定因變量和協變量之間存在線性關系,設實驗處理具有 k 個水平, 每個處理組有 n 個觀測, 單因素協方差分析模型可以表示為: ![]() 從上面模型的表示可以看出,協方差分析是方差分析與回歸分析所用線性模型的組合。 即,在協方差分析模型中包含:
使用的前提條件:
一般情況下, 協方差分析中: 自變量( 處理因素) 為:離散型變量; 因變量和協變量為:連續型變量; 3 交互作用(Interaction) 交互作用屬于評價病因學關聯的范疇。 當兩個或多個因素同時作用于一個結局時,可能產生交互作用(interaction)。 交互作用(Interaction): 亦稱效應修飾作用(effect modification),是指一個因素(X1)各個水平之間所致反應量(Y)的差異隨著其他因素(X2…)的不同水平變化而發生變化的現象。該因素(X2)則稱為交互因素。 效應修飾作用(effect modification): 亦稱交互作用(Interaction),指第三種因素對暴露與結局關系強弱或暴露在結局上作用大小的影響或修飾。我們把這種暴露和結局外的第三種因素叫效應修飾因素(effect modifier)。 當兩個或兩個以上因子共同作用于某一事件時,其效應明顯不同于該兩個或兩個以上因子單獨作用時的和與(或)積,稱因子之間存在效應修飾。 主效應: 由一個因素的不同水平引起的因變量的變異,有幾個因素就有幾個主效應。 簡單主效應: 當交互作用顯著時,為考查一個因素在另一個因素某個水平上的處理效應,以便具體確定它的處理效應在另一個因素哪個水平上是顯著的,即簡單主效應,也叫簡單效應。 計算:
其中:N:因素個數;n:所有因素水平數之和 交互作用的存在說明: 同時研究的若干因素的效應非獨立。 交互作用意味著兩變量之間(X-Y)的因果關系隨交互變量的取值不同而產生變化。 交互作用的效應可度量一個因素不同水平的效應變化依賴于另一個或幾個因素的水平的程度。 交互作用原理如下: ![]() 效應修飾類型: ① 增強作用(正交互); ② 拮抗作用(負交互); ![]() ![]() ![]() 效應修飾模型:
二分類解釋變量交互作用: ① 相乘交互作用: 定義:假設研究多風險因素中交互作用的兩暴露因素為AB,則OR00表示AB均無暴露,即OR00=1;OR10表示A暴露、B無暴露,OR01表示A無暴露、B暴露,OR11表示A、B均暴露。則相乘交互作用INTM=ORA×B=OR11/(OR10×OR01); 在二分類logistic回歸模型中: ln[P/(1-P)] = β0 + β1A + β2B + β3A×B,OR10=exp(β1);OR01=exp(β2); OR11=INTA=exp(β1 + β2 + β3) 判定:logistic 等回歸乘積項95%CI不包含1,表明有相乘交互作用。交互項得到的OR值<1,拮抗作用;交互項 OR>1,協同作用。 ② 相加交互作用: 定義:定量評價流行病學研究中暴露因素間及暴露因素與基因間相加交互作用需要3項指標:
判定:如果兩因素有相加交互作用,則RERI 95%CI、AP 95%CI應不包含0,S 95%CI應不包含1。 超額相對危險度RERI以及歸因比AP均>0,且可信區間不包括0, S>1且可信區間不包括1,表示存在交互作用,且為協同作用。RER1以及AP均<0,S<1,表示存在交互作用,且為拮抗作用。 計算置信區間CI的方法: Delta法、Wald法、輪廓似然置信區間(profile likelihood confidence intervals,PL)法、variance recovery method和percentile bootstrapping等。 交互作用的相對性: 交互作用是相對的,在同一個研究里,既可以存在,同時又可以不存在,存在與否取決于使用什么效應指標進行分析。 有無統計學交互作用很大程度上取決于所選擇的模型,所以在報告有無交互作用時,需要說明分析所用的模型。 效應修飾的識別: ![]() 識別交互作用的關鍵:一致性檢驗 如果一致性檢驗顯示差異有顯著性(p≤0.05),說明可能存在交互作用,即效應修飾因素各層的真實效應可能不同。 這時,沒有一個單一的效應值可以代表各層的效應,因此估計無混雜的總效應將不再具有意義,重要的是描述交互作用,即分別報告各層的效應。 如果修飾因素和效應大小有一定的趨勢或形態,則可進一步模擬和描述有關趨勢或形態,這種交互作用可使用相關分析和回歸分析來描述二者間的線性關系。 區別交互作用和混雜的關鍵也在于:一致性檢驗。 如果異質性檢驗顯示差異無顯著性(p>0.05),說明可能不存在交互作用,即可疑的效應修飾因素各層的真實效應可能是相同的,可以用一個加權平均效應值來表達。 如果這個平均效應值又與粗效應值一致,說明無混雜,反之,則說明粗效應存在混雜。 識別和測量效應修飾作用的分析方法:
① 多因素回歸模型分析:
在多元回歸分析里,檢驗交互作用的存在需要在回歸方程里加入至少三個變量:暴露、效應修飾因素,以及由這兩個可能的交互因素的乘積形成的新因素(或簡稱交互項)。 ![]() ![]() ![]() 回歸方程提供的對交互項的顯著性檢驗就等于分層分析里的異質性檢驗,如果有顯著性,說明交互作用可能存在。 多元回歸的優點是:分析交互作用時可以同時控制其他因素對交互作用分析的影響。 ② 分層分析: 即隨機對照試驗的亞組分析。 例如:發現某藥物在男性病人中十分有效,而在女性中沒有明顯的作用,顯示藥物和性別有交互作用。該證據對未來用藥使用十分重要:女性應避免使用此藥。 又如:某暴露在兒童可引起嚴重疾病,而在成年人中沒有明顯的害處,說明該暴露和年齡間存在交互作用,兒童應是主要保護對象,應該盡可能避免暴露于該因素。 舉例說明:回歸分析中交互效應怎么解釋? 研究者想要探索:高血壓(X2)對患者生活質量(Y1)和死亡(Y2)的影響,同時考慮吸煙(X1)有沒有對這種影響產生變化? ![]() A)線性回歸(結局指標為計量變量)解釋: Y1=β0+β1*X1+β2*X2+β3*X1*X2 =2.3-3.5*X1-4.6*X2-1.2*X1*X2 解讀:
B)Logistic回歸(結局指標為分類變量)解釋: Logit(P(Y2))= β0+β1*X1+β2*X2+β3*X1*X2 =1.5+0.89*X1+1.2*X2+0.2*X1*X2 解讀:
回歸分析中發現交互效應可以進一步分析嗎? 可以,分層分析是一個不錯的選擇。 效應修飾與混雜偏倚的區別:
交互作用不同于混雜偏倚: 混雜偏倚是粗效應值估計里存在的一種偏倚,是需要控制和消除的; 而交互作用指效用的大小隨第三因素暴露強度或劑量的變化而變化的現象; 當交互作用存在時,粗效應是否存在混雜已不重要,也無法判斷,因為各層效應不同,不存在一個真實無偏的總效應可以與粗效應進行比較來判斷混雜的存在。 因此,當發現交互作用時,結果報告的重點是交互作用,而不是對混雜的控制。 評價交互作用的目的和意義:
![]() ![]() 效應修飾指標及可信區間估計: ![]() ![]() ![]() 4 調節作用(confounding factor) 調節效應(moderating effect): 指兩變量之間的因果關系隨調節變量的取值不同而產生變化。 是指一個因素(X1)各個水平之間所致反應量(Y)的差異隨著其他因素(X2…)的不同水平變化而發生變化的現象。該因素(X2)則稱為交互因素。 調節變量( moderator, mod) : 如果變量(Y)與變量(X)的關系是變量M的函數,稱(M)為調節變量。就是說, Y與X的關系受到第三個變量(M)的影響。其所要解釋的是自變量在何種條件下會影響因變量。 ![]() 即,當自變量與因變量的相關大小或正負方向受到其它因素的影響時,這個其它因素就是該自變量與因變量之間的調節變量。 它界定了自變量(X)和因變量(Y)之間關系的邊界條件, 既可以是質化形式的變量( 如性別) , 也可以是量化形式的變量( 如獎勵水平) 。 在相關分析當中, 調節變量是影響兩變量零階相關的第三變量。 當然,如果兩變量的關系因第三因素而發生了方向性的改變, 也可將這第三因素稱為調節變量 。 在方差分析中, 如果自變量與限定自變量作用之條件的另一因素之間出現了交互效應,則稱另一因素為調節變量。 調節效應的計算與確定: 對調節效應的測量和檢驗與自變量和調節變量的測量水平有關。
Cohen 等曾介紹過兩回歸系數差異的檢驗方法。 應考慮先進行回歸系數差異檢驗,再進行兩個斜率的單獨檢驗。 若回歸系數的差異顯著,則調節效應顯著。 以上均是針對顯變量而言的,當調節變量和自變量兩者中至少有一個是潛變量時, 可以分為兩種情形:
此外, 有時調節變量與自變量屬于不同層次( 如學校水平 vs.個體水平) 的變量,在這種多層、多水平數據的處理中,需要用多層線性模型來分析。 此時, 調節變量和自變量一般都屬于連續型變量。對調節作用的解釋,除了看相應參數的大小外,還需綜合考慮受調節關系的性質和調節系數的正負方向。 調節效應分析: 在做調節效應分析時,通常要將自變量和調節變量做中心化變換(即變量減去其均值)。 最簡單常用的調節模型,即假設Y與X 有如下關系: Y = aX + bM + cXM + e 可以把上式重新寫成: Y = bM + ( a + cM ) X + e 對于固定的M ,這是Y對X 的直線回歸。Y與X 的關系由回歸系數a + cM 來刻畫,它是M,的線性函數, c衡量了調節效應(moderating effect)的大小。 ![]() 對模型中調節效應的分析主要是估計和檢驗β3: 如果β3顯著(即H0∶β3 = 0的假設被拒絕) ,說明M 的調節效應顯著。 ![]() 熟悉交互效應(interactioneffect)的讀者可以從模型看出: β3其實代表了X與M的交互效應,所以這里的調節效應就是交互效應。這樣,調節效應與交互效應從統計分析的角度看可以說是一樣的。 調節效應分析方法: 調節效應分析和交互效應分析大同小異。這里分兩大類進行討論:
① 顯變量的調節效應分析方法: 調節效應分析方法根據自變量和調節變量的測量級別而定。 變量可分為兩類:
定序變量的取值比較多且間隔比較均勻時,也可以近似作為連續變量處理。 表1分類列出了顯變量調節效應分析方法: ![]()
② 潛變量的調節效應分析方法: 有關潛變量的分析需要用到結構方程模型,本文不詳細闡述,可以參看參考文獻【6】。 調節效應和交互效應的區別: 調節效應和交互效應這兩個概念不完全一樣。 ① 在交互效應分析中,兩個自變量的地位:
② 但在調節效應中,兩個自變量的地位:
③ 和交互效應相比, 從強到弱或從強到無的相關關系變化趨勢會使調節變量的作用體現得更為明顯:
![]() 舉例看交互作用和調節作用的區別: 例如: 研究問題:研究數學能力(Y)的性別差異(X1),將年級(X2)作為調節變量,這個問題關注的是性別差異,以及性別差異是否會隨年級而變化。 實驗設計:如果從小學一年級到高中三年級都獲得了各年級學生有代表性的樣本,每個年級各用一份測試題,所得的數據就可以進行上述分析。 注意:同樣的實驗設計卻不能用于做年級為自變量、數學能力為因變量、性別為調節變量的分析。 因為:各年級的測試題目不同,得分沒有可比性,因而按調節效應的分析方法,分別不同性別做數學能力對年級的回歸沒有意義。要做數學能力對年級的回歸,應當用同一份試題測試所有年級的學生。 5 中介效應(mediating effect) 中介效應(mediating effect)也屬于探索病因聯系的范疇。 中介變量(mediator,med): 指考慮自變量(X)對因變量(Y)的影響,如果 X通過影響變量(M)來影響 Y,則稱M為中介變量。 中介效應的兩種類型: ![]() 中介效應的分析(Mediation analysis): 假設變量已經中心化或標準化,可用下圖所示的路徑圖和相應的方程來說明變量之間的關系。 ![]() 其中:
當只有一個中介變量時,效應之間有如下關系: c=c′+ab 中介效應的大小用 :c-c′=ab 來衡量 中介效應分析方法: 中介效應是間接效應,無論變量是否涉及潛變量,都可以用結構方程模型分析中介效應。 如果所有變量都是顯變量,可以依次做下圖中的三個回歸分析: ![]() 無論是結構方程分析還是回歸分析,用統計軟件都可以得到:
衡量中介效應的相對大小的方法: ① 中介效應與總效應之比 : ab/(c′+ab) ② 中介效應與直接效應之比: ab/c′ 假設 Y與 X的相關顯著,意味著回歸系數c顯著 (即H0∶c=0的假設被拒絕)。 在這個前提下考慮中介變量M,提出了一個中介 效應檢驗程序: ![]() ![]() ![]() 一般分為三步:
![]() ![]() 注意:變量的中介作用必須建立在理論和現實的基礎上,正如前所述,自變量必須在現實或理論上可以影響第三變量的變化,否則,即使數據支持該變量有中介效應,該結果也是無效的。 中介效應和調節效應的區別: 中介變量必須是自變量X的結果,且必須是應變量Y的前提; 調節變量必須不是自變量X的結果(這個未必); ![]()
![]() 有中介效應的調節效應: ![]() 設要研究學生行為 (X )對同伴關系 (Y )的影響。以往的研究發現,老師的管教方式 (U)是調節變量,老師對學生的喜歡程度 (W )是中介變量 。據此可以建立如下圖所示的模型。 ![]() 我們知道 , UX 是調節效應項, 如果它影響 W, 而 W 影響 Y, 說明調節效應 (至少部分地)通過中介變量 W 而起作用,稱這樣的調節變量是有中介的調節變量。 ![]() 從上面分析步驟可知: 檢驗有中介的調節效應時,先要檢驗調節效應 ,然后檢驗中介效應 。 有調節效應的中介效應: 在知道管教方式 (U )是調節變量 、喜歡程度(W )是中介變量以后, 也可以建立如下圖所示的模型 。 ![]() 與之前的模型不同的是乘積項, UX 換成了UW。考慮 X 對 Y 的影響時 , W 仍然是中介變量 。但 U 不是 Y 與 X 關系的調節變量 ,而是 Y 與 W 關系的調節變量 。就是說 ,經過 W 的中介效應受到 U 的影響,所以稱 W 為有調節的中介。 ![]() 從上面分析步驟可知: 檢驗有調節的中介效應時,先要檢驗中介效應,然后檢驗調節效應。 同時注意到:有調節的中介作用常見的形式往往是分類變量: ![]() 總結 . ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 補:不同效應在醫學研究 下面,我們舉一篇文章,來看一下不同效應在醫學研究中的作用: ![]() ![]() ![]() 通過題目:Platelet Count Affects Effificacy of Folic Acid in Preventing First Stroke,我們不難發現: 自變量:Folic Acid Treatment 葉酸治療 因變量:First Stroke 初次卒中 調節變量:Platelet Count 血小板計數 ![]() 本文研究目的:本研究旨在探究PLT計數較低和總半胱氨酸水平(tHcy)較高是否增加首次發生卒中的風險。若該關系得到證實,葉酸治療能否在一級預防中發揮作用。 由研究目的可以發現: 總半胱氨酸水平也是一個調節因素。 ![]() 根據示意圖: 感覺情況發生了變化: 自變量:Folic Acid Treatment 葉酸治療 因變量:First Stroke 初次卒中 Platelet Count 血小板計數和總半胱氨酸水平則發生了變化:兩者看上去更像是中介變量 中介變量1:總半胱氨酸水平; 中介變量2:Platelet Count 血小板計數; 并且,由生物學知識可得: 中介變量1:總半胱氨酸水平 在先 中介變量2:血小板計數 在后 ![]() 再看一下研究結果: ![]() ![]() 由研究結果可以發現: 本文的實驗設計和研究分析,揭示: Table2:PLT作為調節變量在X對Y的影響中發揮作用; Table3:并且探索了PLT調節tHcy調節在X對Y的影響中發揮作用; ![]() 本文所用方法: Similarly, the HRs and 95% CIs of fifirst stroke in response to folic acid supplementation across each PLT/tHcy subgroup were estimated and their interactions were tested. A 2-tailed p< 0.05 was considered to be statistically signifificant in all analyses. Data were analyzed using the statistical package R version 3.1.2 (R Foundation for Statistical Computing, Vienna, Austria) and Empower (X&Y Solutions, Inc. Boston, Massachusetts). 參考: [1] 唐金陵. 第二十章: 流行病學研究數據統計分析概述. 見: 李立明 主編. 《流行病學》. 第一卷. 第三版. 北京: 人民衛生出版社: 2015: 369-397. [2] 聶志強, 歐艷秋, 莊建, 曲艷吉, 麥勁壯, 陳寄梅, 劉小清. 實現logistic與Cox回歸相乘相加交互作用的臨床實踐宏程序. 中華流行病學雜志, 2016, 37(5): 737-740. [3] epiR: Tools for the Analysis of Epidemiological Data. R package version 2.0.19. [5] https://max.book118.com/html/2017/0216/92080186.shtm [6]溫忠麟,侯杰泰,張雷.調節效應與中介效應的比較和應用[J].心理學報,2005(02):268-274. [7]張莉,林與川.實驗研究中的調節變量和中介變量[J].管理科學,2011,24(01):108-116. [8]溫忠麟,張雷,侯杰泰.有中介的調節變量和有調節的中介變量[J].心理學報,2006(03):448-452. [9]盧謝峰,韓立敏.中介變量、調節變量與協變量——概念、統計檢驗及其比較[J].心理科學,2007(04):934-936.DOI:10.16719/j.cnki.1671-6981.2007.04.056. [10]Rijnhart, Judith J M et al. Mediation analysis methods used in observational research: a scoping review and recommendations. BMC Med Res Methodol. 2021;21(1):226. Published 2021 Oct 25. doi:10.1186/s12874-021-01426-3 [11]Pourhoseingholi MA, Baghestani AR, Vahedi M. How to control confounding effects by statistical analysis. Gastroenterol Hepatol Bed Bench. 2012;5(2):79-83. [12] https://zhuanlan.zhihu.com/p/99435552 [13] https://blog.csdn.net/qq_24339451/article/details/103718981 [14] https://www.zhihu.com/question/60520004 [15] https://zhuanlan.zhihu.com/p/264342286 [16] Kong X, Huang X, Zhao M, Xu B, Xu R, Song Y, Yu Y, Yang W, Zhang J, Liu L, Zhang Y, Tang G, Wang B, Hou FF, Li P, Cheng X, Zhao S, Wang X, Qin X, Li J, Huo Y. Platelet Count Affects Efficacy of Folic Acid in Preventing First Stroke. J Am Coll Cardiol. 2018 May 15;71(19):2136-2146. doi: 10.1016/j.jacc.2018.02.072. PMID: 29747834. ![]() 現在: 版權聲明:本文內容由互聯網用戶自發貢獻,版權歸作者所有,本公眾號不擁有所有權,也不承擔相關法律責任。 |
|