久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    各類軌跡建模技術如何使用?適用數據、步驟及規范,一文講清楚

     妙趣橫生統計學 2024-04-30 發布于江蘇

    統計服務,歡迎咨詢!

    鄭老師團隊指導 | 重復測量資料的數據分析一對一高級學習班,掌握SPSS、R語言分析技巧


    本文翻譯自《Clinical Epidemiology》雜志的一篇論文,題為:“Trajectory Modelling Techniques Useful to Epidemiological Research: A Comparative Narrative Review of Approaches”(對流行病學研究有用的軌跡建模技術:方法的比較敘述回顧)。
    本篇是潛變量系列文章第8篇
    本公眾號回復“沙龍”即可獲得R語言代碼,PPT,數據等資料
    研究摘要

    近年來,不斷有采用軌跡建模技術研究涌現,多數為醫療領域內縱向數據的挖掘,對人群健康情況隨時間的個體內和個體間變異性進行探究。本綜述旨將闡述流行病學研究中的各種軌跡建模方法,并概述它們的應用和差異,同時提供如何報告軌跡建模結果的指導。
    本文綜述的潛類別建模方法包括增長混合模型(GMM)、組軌跡模型(GBTM)、潛類別分析(LCA)和潛轉換分析(LTA),并與其他側重單個數據的統計方法如聚類分析(CA)和序列分析(SA)進行對比。根據研究問題和數據類型不同,可以采用多種方法對縱向研究中的重復測量數據進行軌跡建模,然而目前對于各種潛類別建模方法(GMM、GBTM、LTA、LCA)存在多種不一致的術語,容易引起混淆。報告術語的一致性有助于提高研究人員選擇技術時的效率,因此本文將一并對上述建模方法的術語進行統一。
    關鍵詞:建模技術,增長混合模型,組軌跡模型,潛類別分析,潛轉換分析,聚類分析,序列分析

    引言

    對測量結果取均值是分析整體或某特定亞組的指標變化最常見的手段,但有一種情況相當普遍,就是存在一批未知的個體,擁有相似的臨床癥狀、行為或醫療模式。真實世界中的整體是由許多個體組成的,因此使用估計的均值來描述整體,實際上是對真實臨床環境中復雜的個體內和個體間變異性的過度簡化。針對這一情況,軌跡模型應運而生,將個體按特定項目上的相似性區分,并分配到不同的軌跡中。

    為什么要對軌跡進行建模?

    在縱向數據中,軌跡描述了隨時間變化的某一數量、行為、生物標志物或其他重復測量數據的演變過程。軌跡建模側重個體間的關系,目的是基于個體反應模式,將它們歸類到不同的潛在類別中。分類的目的是讓同一類別內的個體之間的相似性大于不同類別內個體之間的相似性。根據個體的相似性進行分組并賦予類別標簽,是組織大型數據集、提高效率和理解的一個有力工具,研究者可以通過尋找潛在類別以指導預防和臨床實踐。
    例如可以根據癥狀嚴重程度的不同軌跡(隨時間變化的疼痛強度得分)對患者進行重新分組。識別到潛在類別后,所在類別就可以作為一個因變量來識別健康軌跡的預測因子,或作為自變量來探索它們對未來健康結果的影響。如圖1所示,與基于樣本均值的測量相比,軌跡建模使研究人員能夠更好地描述和理解隨時間變化的健康結果在個體內和個體間的變異性和模式,它在探索健康狀況的異質性、識別需要更好醫療保健的脆弱人群以及識別通往最佳健康結果的軌跡方面非常有用。這樣的方法可以提供科學證據,優化針對特定亞群體需求的個性化醫療保健。
    上述方法在流行病學領域的使用相對較新,迄今為止,關于軌跡建模的非技術性比較方法論論文發表不多,而且非統計學者在瀏覽相關文獻時會遇到各種挑戰。本綜述的目的是提供各種軌跡建模技術的概覽,并討論它們的應用和差異,以幫助衛生研究人員選擇最適合其研究問題的技術。更具體地說,本文回顧了四種潛在類別建模方法:一種參數法(增長混合模型[GMM]),和三種半參數法(組軌跡模型[GBTM]、潛類別分析[LCA]和潛轉換分析[LTA])。
    本文超越了之前發表的綜述,通過將這些軌跡建模技術與其他以個體為中心的統計方法(如聚類分析[非參數法]和序列分析[非參數法])進行比較。這篇綜述的受眾是為那些不熟悉高級統計理論的讀者,對于本文中回顧的每一種統計方法,我們都將介紹基本概念、處理的數據類型、進行分析所涉及的各個步驟、可用的統計軟件包以及一個現實世界的例子,也會討論如何更好地報告軌跡建模的結果,最是本綜述中提出的關鍵點的總結。

    軌跡建模方法

    現有的用于檢查軌跡模式方法和算法可以分為三種主要類型:非參數法、參數法和半參數法。非參數法不對數據的分布做任何假設,因此個體被分配到一個子類別是基于不相似程度。相比之下,參數法和半參數法假設數據來自有限的混合分布。因此,個體被分配到一個亞組是基于該亞組成員資格的條件概率。

    潛類別建模方法

    潛變量的使用起源于心理學和社會科學領域,用于建模未被觀察到的量,例如發展軌跡。其在流行病學領域的應用相對較新。例如在疼痛研究中,潛變量越來越多地被用于建模疼痛嚴重程度(例如強度評分、干擾評分)。
    潛類別模型是包括無法直接觀察到的隨機變量的統計模型,基于個體被觀察到的癥狀或行為,將他們分配到潛在軌跡亞組中。每個亞組由在觀察到的行為上有相對類似觀察的個體組成。潛類別模型可以應用于縱向或橫斷面數據,能夠處理包括部分缺失數據、離散量表重復測量或時間變化協變量等多種復雜情況。在縱向數據的潛類別模型方法中,為了正確估計,至少需要三個測量時間點,而為了估計涉及立方或二次趨勢的更復雜模型,四到五個測量時間點更為理想。縱向潛在類別建模方法不是評估單個時間點或相鄰時間點之間的變化,而是識別在整個研究期間具有相似結果模式的受試者子群。
    本文論述了四種潛類別模型。三種適用于縱向數據:增長混合模型(GMM)、組軌跡模型(GBTM)和潛轉換分析(LTA),而潛類別分析(LCA)適用于橫斷面數據。時常見到論文作者使用不恰當的術語來指代他們所使用的方法,因此非統計學研究者在選擇合適的方法進行自己的研究時會面臨困難。為了解決這個問題,本文概述了不同的潛在類別方法,并提供了使用這些統計方法的研究的具體示例,見表1。下面將詳細介紹每種方法。

    增長混合模型Growth Mixture Modelling (GMM)

    1.介紹
    GMM是一種有限混合模型。它假設在任何給定的人群中,存在有限數量的未觀察到的亞群體或類別(潛在類別),這些類別具有相似的行為或經歷。這與經典統計模型形成對比,傳統模型假設所有個體都來自具有共同人群參數的同一人群。
    GMM是一種用于縱向數據的參數模型,它為每個潛在類別估計一個平均增長曲線,并允許同一類別內部個體之間存在變異。通過在模型中引入隨機效應,可以捕捉類別內的異質性,從而估計增長參數(截距和斜率)的方差。因此,隨機效應用于表示個體潛在增長參數與人口平均增長參數之間的差異。
    例如,在三個疼痛強度軌跡亞組(無改善、逐漸改善、快速改善)的情況下,GMM允許在這些亞組中的任何一個里,任何個體的疼痛強度都可以比同一亞組中的任何其他個體更強烈。對于每個軌跡,GMM估計一個截距、一個斜率以及一個增長參數的方差。這些參數是通過最大化對數似然函數來估計的。對于每個個體,基于觀測數據估計其屬于每個類別的概率(后驗群體概率)。然后根據較高的后驗群體概率將個體分配到對應的子軌跡中。
    在GMM中,協變量(無論其是否隨時間變化)的貢獻也可以被建模。實際上,某個體屬于某一潛類別的概率可能會根據協變量而變化,且協變量可以影響模型系數。一旦確定了軌跡成員身份,它可以被用作因變量或自變量來探索健康軌跡的預測因子及其對未來健康結果的貢獻。
    2.適用數據類型
    GMM用于縱向數據,最初是為研究連續數據而開發的。但后來,它被改進以處理其他類型的數據,比如計數數據(無論是否存在零膨脹)和分類數據。
    3.操作步驟
    GMM可以通過迭代程序實施,其實施需要基于研究領域的知識以及統計推斷來做出先驗決策。
    第一步:問題定義和軌跡亞組數量的規定
    首先,研究領域與方法之間的聯系被正式建立。其次,制定一個合適的分析計劃。基于研究者對該領域的了解和對原始數據的描述性分析,假設潛在類別的預期數量和每個類別的曲線形態。例如,我們可以預期,接受手術的患者將遵循各種術后疼痛強度的軌跡(輕度、中度或重度疼痛,隨后是疼痛的改善或持續)。
    第二步:模型規范 
    在這一步中,可以指定和估計一系列模型。研究人員可能會就增長參數(截距、斜率方差和協方差)以及協變量的添加做出決策。應盡可能采取實質性理論和先前的研究指導這些決策。例如,如果研究人員預期有三個潛在類別,他們可以開始擬合兩個、三個和四個類別的模型,決定決定每個軌跡隨時間變化的形狀應該是線性的、二次的還是三次的,還應決定增長因子方差是否應該對每個類別具體化,類內增長因子協方差是否應該不為零,以及結果殘差方差是否應該與類別無關。Frankfurt等(2016)強調正確規定模型以避免基于解釋的陷阱的重要性。此外,正確的模型規范能夠降低GMM結果解釋的復雜性。
    第三步:模型估計 
    GMM可以通過最大似然法或貝葉斯方法估計。
    第四步:模型選擇與解釋 
    本步驟的目的是確定測試的模型哪一個最能合理地代表觀測到的數據。應通過LoMendell-Rubin調整似然比測試(LMR-LRT,p<0.05表示更好的擬合)來比較各個模型的擬合優度,該測試適用于嵌套模型(k+1與k類模型),和/或參數化自助法似然比測試(p<0.05表示更好的擬合),和/或貝葉斯信息準則(BIC)(較小的BIC表示更優的模型)。研究人員還應考慮模型的收斂性、模型提供的類別是否分明(熵接近1)、樣本中每個軌跡的比例(建議超過5%)、平均后驗概率(接近1)、簡約性以及觀察到的潛在類別在實踐中的實用性。
    4.可用軟件包
    GMM可以通過Mplus軟件和R中的lcmm包來實現。據我們所知,商業統計軟件如SPSS、SAS等目前還沒有提供GMM軟件包。
    5.優勢與局限性
    與所有其他潛在類別建模方法一樣,GMM對于處理一些技術方面非常有用,例如處理缺失數據、允許殘差相關以及將回歸中的殘差和混合效應模型中的隨機效應視為潛在變量。與其他潛在類別建模方法不同的是,GMM為每個類別估計一個平均增長曲線,并通過估計每個類別的增長因子方差來捕捉圍繞這些增長曲線的個體變異。此外,因為GMM估計的參數比其他潛在類別建模方法多得多,結果的解釋可能會很復雜,這使得這種方法對許多健康研究人員來說難以接近。
    6.GMM的實際應用
    以Pagé等(2019)的研究為例,他們采用GMM檢查心臟手術患者術后抑郁和焦慮的軌跡。使用手術前、手術后7天以及3個月、6個月、12個月和24個月時測量的醫院焦慮和抑郁量表(HADS)分數,擬合了一個包含圍手術期協變量的三條軌跡模型。軌跡建模基于特定的選擇標準,如最低的AIC和BIC、最小軌跡亞組中超過5%的患者以及理論上的合理性。然后將軌跡類別用作廣義估計方程(GEE)中的分類變量,旨在檢查與此類軌跡相關的人口統計學和臨床特征。該研究發現了一組患者焦慮持續不緩解的患者,可能預測了持續的、甚至延續到術后2年的疼痛。

    組軌跡模型Group-Based Trajectory Modelling (GBTM)

    1.介紹
    同GMM一樣,GBTM(類似潛在類別增長模型LCGA)是一種有限混合模型。GBTM是一種基于縱向數據的半參數模型,它假設人群分布是離散的,從而從中區分出擁有相似軌跡的潛在類別。GMM估計潛類別內部的方差,而GBTM假設同一潛類別內部的個體之間沒有變異(增長因素上沒有隨機效應),因此實際上GBTM是GMM的簡化版。例如,在前述的三個疼痛強度軌跡潛類別(無改善、逐漸改善、快速改善)中,GBTM假設每個潛類別中的所有個體具有相同的疼痛強度演變,然后估計屬于該潛類別的人口比例,再估計每個個體屬于某個潛類別的概率(后驗群體概率)。如同在GMM模型中一樣,每個個體按照最高的后驗群體概率被分配到特定的潛類別中。參數通過最大化似然來估計,模型中也可以納入隨時間變化或保持不變的協變量。
    2.適用數據類型
    GBTM是基于縱向數據的,專為研究下列三中類型的變量而開發:連續數據(特別是心理測量學產生的尺度數據)、計數數據、以及分類數據。
    3.操作步驟
    與GMM一樣,GBTM擬合過程是迭代的,需要根據研究領域的知識進行事先決策。然而它需要研究人員做出的決策更少。
    第一步:問題定義和軌跡亞組數量的規定
    與GMM模型相同。
    第二步:模型規范 
    建議首先測試一個單一群組模型,然后逐步調整,最后確定邏輯亞組的最大數量,這個最大數量應該大于預期的亞組數量。在只有三個時間點的數據集中,應該只測試一個單一的二次方程軌跡模型。如果這個模型的二次項并不顯著,那么應該運行一個線性軌跡模型來代替,并計算這個模型的貝葉斯信息準則(BIC)值。如果二次項顯著,那么就進行兩條軌跡的二次模型分析。然后將BIC值與只包含一條軌跡的模型的BIC值進行比較,這一過程會一直重復,直到找到BIC值最小的模型。每增加一條軌跡,都會重新評估模型的BIC值,以確定是否通過增加軌跡數量來改進模型擬合。理想情況下,應結合研究領域的知識和統計考慮來決定每個子軌跡的形狀。例如模擬隨時間變化的醫療接觸次數時,那些在整個研究期間沒有與醫療系統接觸的病人,可以假設他們屬于一個“零階形狀”軌跡,即他們的醫療接觸次數保持為零(水平直線)。
    第三步:模型估計
    與GMM相同。
    第四步:模型選擇與解釋
    模型選擇應結合研究領域的具體需求,同時還應考慮以下因素:1)選擇模型時,應偏好既實用又簡潔的模型;2)模型應確保每個子群體的估計概率與根據最大概率歸屬規則分類的個體比例相匹配;3)每個子群體的平均后驗概率應大于或等于0.7;4)每個子群體中的個體數量應超過總數的5%;5)模型的置信區間應足夠窄;6)比較具有不同子群體數量的模型時,應考慮它們的BIC值差異。
    4.可用軟件包
    GBTM模型可以通過SAS軟件中的Proc Traj程序步來使用,也可以通過Mplus、R語言的crimCV包和lcmm包,以及使用Stata的traj插件來實現,在SPSS或Excel中不可用。
    5.優勢與局限性
    GBTM是GMM的一個更簡潔的版本,兩者在處理缺失數據和允許相關殘差方面都具有相同的優勢。GBTM假設同一軌跡類別中的所有個體都表現出相同的行為,而GMM允許存在潛類別內部存在隨機效應。這意味著,使用GBTM時,研究人員可以討論潛類別之間的差異,但不能討論潛類別內部的差異。GBTM估計的參數更少,因此運行速度更快,報錯更少。同時由于模型較為簡單,結果也可能更易于解釋。出于這些原因,GBTM通常是研究人員更實用的選擇。
    6.GBTM的實際應用
    Flint等(2017)通過GBTM法研究了參加以患者為中心的疾病管理干預隨機對照試驗的心力衰竭門診患者的健康狀態軌跡。研究借助堪薩斯城心肌病問卷(KCCQ)在基線、3個月、6個月和12個月的測量數據,根據以下標準識別了包括一些協變量的三種健康狀態軌跡:
    (1)各種統計指標(較低的BIC和AIC,顯著的LMR-LRT以及軌跡樣本量超過總樣本的5%),
    (2)潛類別分類的理論意義和概念可解釋性。
    然后將軌跡亞組作為多項邏輯回歸模型中的分類變量,以識別軌跡亞組的預測因子。研究顯示,較差的抑郁情緒、癥狀負擔和平靜感與健康狀況較差的軌跡亞組相關。大多數時間里患者的健康狀態變化是平穩的,也就是說在這一期間內,大多數患者的健康狀況沒有經歷劇烈的波動。

    潛轉換分析Latent Transition Analysis (LTA)

    1.介紹
    LTA能夠分析多個分類變量隨時間的變化(例如,是/否,輕度/中度/重度),以及隨時間變化的2x2表或任何列聯表的變化。LTA是一種用于縱向數據的半參數有限混合模型,通過一組分類變量的觀察數據來定義每個時間點的潛在變量。該模型假設個體隨時間可以改變其所在的潛類別。例如,在三個疼痛強度亞組(輕度/中度/重度)中,LTA允許個體從一個時間點的重度亞組轉換到下一個時間點的輕度或中度亞組,因此這種方法的主要目標是研究個體從一個時間點的一個類別轉移到下一個時間點另一個類別的轉換概率。在這個模型中,變化在兩個連續時間點之間的轉換概率矩陣中被量化。模型估計以下參數:
    (1)第一時間點在某潛類別中的概率;
    (2)每個時間點每個潛類別中的人口比例;
    (3)隨時間從一個潛類別轉移到另一個潛類別的條件概率例如,給定時間t-1的潛在狀態L1,時間t的潛在狀態L2的概率);
    (4)后驗群體概率。在任何給定的時間點都可以預測一個后驗群體概率。因此,可以使用時間1的潛在狀態成員資格概率,將個體分配到時間1的潛在類別/狀態,并使用后群體概率在給定時間點進行分配。
    參數是通過最大似然函數或貝葉斯法來估計。如同GMM和GBTM一樣,LTA模型也可以加入協變量,但必須在添加協變量之前選擇類別數,主要是為了避免加入協變量前后類別數可能發生的變化。
    2.適用數據類型
    LTA可以研究隨時間變化的分類變量(名義或順序)。不過,由于數據集的結構可能導致變量類別過多時形成龐大而復雜的列聯表,因此推薦將這些變量重新編碼為盡可能少的類別。當時間點的數量不超過6個時,使用LTA更為合適。
    3.操作步驟
    與GMM和GBTM一樣,LTA的實施是迭代的,需要基于研究領域的知識和統計考慮做出先驗決策。LTA的實施還需要幾個步驟。
    第一步:問題定義和軌跡子群體數量的規定
    選擇潛在類別數量基于假設測試的結果,以及研究領域的理論和特定考慮因素。
    第二步:模型規定
    在此步驟中,研究人員需要決定項目響應概率的時間不變性、轉換概率的測量不變性(為了實現模型識別并促進類別流行度的解釋)以及協變量的添加。
    第三步:模型估計
    在此步驟中,應在擬合模型之前選擇估計方法。LTA模型可以通過使用期望最大化算法的最大似然法來估計。它們也可以使用馬爾可夫鏈蒙特卡洛算法的貝葉斯方法來估計。
    第四步:模型選擇和解釋
    依據更小的AIC和BIC來選擇最佳模型。 
    4.可用軟件包
    LTA可以通過SAS中的Proc LTA程序步、Mplus以及R中的poLCA和depmixs4包來使用。
    5.優勢與局限性
    LTA在模擬隨時間變化以及研究這種變化的預測因素方面非常有用,也有助于比較不同子群體以測試治療效果。然而LTA需要大樣本量,因為需要估計許多參數。實際上,每個可能的轉換都可以被視為一個單獨的列聯表。這個表通常包含大量可能的響應模式。事實上,許多已抽樣的單元格可能是空的,但是樣本量越大,列聯表單元格內稀疏的可能性就越小。此外,當時間點的數量增加(例如大于6)時,由于需要估計的參數眾多,LTA變得更加復雜。值得注意的是,LTA與隱藏馬爾可夫模型(HMM)有一些相似之處。
    6.LTA的實際應用
    Pat-Horenczyk等(2016)使用LTA法評估乳腺癌患者治療后適應情況的穩定性和轉變。通過在治療后0個月、6個月、12個月和24個月測量的一系列指標,包括困擾和應對策略,基于多個擬合優度指標和類別的可解釋性,發現了四種治療后適應情況:困擾、抵抗、建設性成長和掙扎成長。研究結論是,適應情況之間的大多數轉變發生在治療后6到12個月之間。他們的工作被視為對成長、困擾和應對之間關系理論理解的貢獻。

    潛類別分析Latent Class Analysis (LCA)

    1.介紹
    LCA假設存在未觀察到的潛在分類變量,這些變量將人群劃分為互斥且完整的潛在類別。每個潛在類別代表一組個體,這些個體通過對一組變量的響應類型來進行特征描述。LCA是用于分類橫斷面數據的半參數模型(即,非縱向版本的LTA)。實際上,在LTA中,每個時間點都使用LCA來確定類別。因此像在LTA中一樣,LCA中的參數通過最大化似然或貝葉斯方法來估計。每個類別中還可以模擬協變量的貢獻。因此,屬于某一類別的概率取決于協變量的值或水平。
    2.適用數據類型
    LCA是為了研究橫斷面數據中的分類變量而開發的。與LTA一樣,當變量的類別過多時,最好將它們重新編碼為盡可能少的類別。
    3.操作步驟
    執行LCA的步驟與其縱向版本LTA相同,不同之處在于LTA中關于縱向方面的模型規范決策,例如參數時間不變性。
    4.可用軟件包
    LCA可以通過SAS中的Proc LCA實現,也可以在Mplus、R(通過poLCA和depmixs4包)以及其他一些文獻中較少提及的軟件中進行。
    5.優勢與局限性
    LCA是一種強大的工具,用于分析分類變量之間關系的結構。它使研究人員能夠探索和解釋復雜的列聯表,并提供了一種測試分類變量之間潛在結構假設的方法。然而,LCA僅適用于橫斷面數據或序數數據。LCA更適合用于探索性研究,由于它分析的是橫截面數據,LCA不能真正被視為一種“軌跡”建模技術。
    6.LCA的實際應用
    Huh等(2011)采用LCA法,以飲食、體育活動和體重感知等方面,識別兒童的不同亞型。使用一組代表肥胖風險維度的橫截面指標,得到了一個包括人口統計變量的5類模型。通過較低的BIC和AIC、顯著的LMR-LRT以及每個類別的內容和獨特性確定了類別數量,然后評估潛在類別成員資格與體重、體重感知和社會人口統計特征等多種變量之間的關聯。研究顯示,兒童的體重、種族、性別和社會經濟地位與潛在類別成員資格相關。最后,作者建議,兒童肥胖相關因素的這些亞型對肥胖干預計劃的設計和實施是相關的。
    關于潛類別建模方法的進一步說明
    • a.使用以往的研究和理論來指導建模的類別數量時,可能會遇到困難(缺乏先前的研究)或者在研究的人群中可能不適用。在這種情況下,研究人員應當從建模一個類別開始,然后是兩個類別、三個類別等(包括建模他們認為正確的軌跡數量)。然后可以比較模型的擬合優度。
    • b.潛在類別模型因其靈活性和能夠處理隨機缺失數據(MAR)而受到重視。當數據非隨機缺失(NMAR)時,一些作者提出了對增長模型(如GMM、GBTM和LTA)的擴展,以考慮這類缺失數據。
    • c.除了前面提到的擬合優度指標外,熵也可以用來評估模型在使用潛在類別建模方法時提供良好分離子群的能力。實際上,如果分析的目的是對研究參與者進行分類(這通常是潛在類別建模的情況),那么就有必要報告這種分類的性能。熵總結了潛在類別的可區分程度以及個體被分配到類別的精確性。它是個體估計后驗概率的函數,范圍從0到1,數值越高表示類別分離得越好。然而,對于解釋沒有固定的截止標準。此外,當向潛在類別模型添加協變量時,熵可能會被高估,這會增加對分類的信心。
    • d.值得注意的是,對于GMM、GBTM、LCA和LTA,底層的軌跡是未被觀察到的,也永遠無法去觀察。因此,在報告和解釋結果時,不應該將其描述為已知的軌跡。此外,衍生的軌跡只應在其研究的人群背景下進行解釋,它們可能在不同的人群中不適用。
    • e.一旦確定了軌跡(類別/亞組),就有不同的方法將這些軌跡與先前因素或后續結果關聯起來。需要注意的是,評估此類關聯的方法可能會產生非常不同的結果。
    • f.潛類別建模方法對于回答許多類型的研究問題都是有用的。然而研究人員應該意識到,最佳模型可能是單一類別模型,建模的擬合優度可能較差或者無法解釋。在這些情況下,研究人員可以使用常見的建模方法,如回歸模型,或者使用非參數建模方法,如下一節所述。

    其他建模方法

    聚類分析

    在某些情況下,由于數據的性質,潛類別建模方法可能不適用。在這些情況下,聚類分析可以作為非參數的替代方法來使用,例如當不滿足假設或者感興趣的變量不是分類變量時。
    1.介
    在數據挖掘領域,“聚類”一詞指的是一組相似的對象。聚類分析是一種完全非參數的方法,用于橫斷面數據,旨在將相似的對象或個體分類為離散的類別,其目標是確定類別的數量和組成。個體之間的相似性是通過距離度量來衡量的。這種方法的目標是最大化組內相似性,同時最小化組間相似性。
    在聚類分析中,可以使用多種方法對數據進行分類:
    (1) 劃分法:構建多個集群,然后根據特定的標準對這些分區進行評估來對數據進行分類(如k-均值,k-中心點算法)。必須事先確定集群的數量(k);
    (2) 層次法:根據特定標準對對象進行層次化分解。這種方法使用距離矩陣作為分組標準。集群的數量(k)無需預先定義;但必須指定一個停止條件(例如達到預定的群集數量);
    (3)密度法依據數據點的密集程度和相互連接性來確定群集;
    (4)網格法:通過將數據空間劃分為有限數量的單元格,即“網格”,來進行數據分類。這些單元格構成了一個多級粒度結構,使得聚類過程可以在不同的粒度級別上進行。
    經典的距離度量包括歐幾里得距離、曼哈頓距離和基于相關性的距離(皮爾遜相關距離、Eisen余弦相關距離、Spearman相關距離和Kendall相關距離)。
    聚類分析中,每個個體或對象屬于一個單一的集群,并且完整的集群集包含所有個體。聚類分析經常用于流行病學和公共衛生,以及心理學和社會科學。
    2.適用數據類型
    聚類分析可以支持各種類型的橫截面數據,包括連續數據、分類數據和混合數據。
    3.操作步驟
    構建聚類的步驟取決于所選方法和距離度量。
    第一步:數據探索 
    鑒于距離度量的選擇取決于所用數據的類型,對數據集進行探索性分析以了解數據的類型和分布。在某些情況下,根據所追求的目標,數據可以進行轉換(例如,連續變量可以被重新編碼為二進制變量)。
    第二步:方法和距離度量的選擇
    一旦了解數據的性質,就可以選擇距離度量和聚類分析方法。然而,不同的方法使用相同的變量集合可能會產生截然不同的結果。聚類分析方法高度依賴于所選的距離度量。根據變量的性質(連續、分類或混合數據),距離的定義也有所不同。Everitt等建議在特定情況下使用距離度量,具體如下:
    (1)連續數據:使用Minkowski距離;
    (2)二元數據:基于列聯表,如果對象是對稱的,則使用簡單匹配系數,如果對象是不對稱的,則使用Jaccard系數;
    (3)多余兩類的分類數據:根據變量總數和匹配數使用簡單匹配系數,或為每種模態創建一個二進制變量并采用二元數據的方法;
    (4)混合數據:結合兩種或更多上述距離度量。
    第三步:方法實施和結果解釋
    根據選定的方法和距離度量的特點進行聚類分析。距離度量用于找出兩個對象之間的相似度,并決定執行哪種分組。兩個對象之間的距離測量結果范圍在0到1之間,其中“0”表示對象不相似,“1”表示完全相似。
    4.可用軟件包
    聚類分析可以在多種常見軟件包中進行,例如SAS的proc cluster、R的一系列包、Stata的cluster和clustermat命令、SPSS的cluster語法。
    5.優勢與局限性
    聚類分析在探索橫截面多變量數據時非常有用。通過將這些數據組織成聚類,有助于研究人員發現潛在結構或模式的特征。然而聚類分析無法提供有關子群內個體差異的詳細視角。與之相反,潛在類別模型比聚類分析更靈活,適用于識別異質的子群體。與潛在類別分析一樣,聚類分析處理的是橫截面數據,并不能真正被視為“軌跡”建模技術。
    6.聚類分析的實際應用
    為了研究導致自發性早產的共同機制和潛在的遺傳因素,Esplin等(2015)使用層次聚類分析來識別同質的表型特征配置。利用橫截面臨床和人口統計變量、每種表型的二元指標、每個表型類別的加權得分和不相似矩陣,找到了一個5聚類模型,可能識別出具有相似遺傳風險的自發性早產婦女的子集,然后選擇其中一個表型聚類進行了基因關聯研究。

    序列分析

    當研究人員對將展示了相似事件序列的個體進行分組感興趣時,序列分析顯得非常重要。例如,在健康服務研究領域,個人的護理軌跡可以被視為一系列健康事件的模式,這涉及到與患者、疾病狀況、護理提供者、護理環境、治療方法及時間相關的變量。
    1.介紹
    序列分析是一種用于縱向序列數據的完全非參數方法,旨在根據觀察序列的相似性對其進行分類(例如護理軌跡:急診-住院-回家-普通執業醫生訪問)。這種方法最初是為蛋白質和DNA序列分析而開發的,然而自那時起它已經被應用于許多其他領域,包括流行病學和公共衛生、心理學和社會科學。
    序列分析首先計算個體之間的不相似性或距離矩陣。這種矩陣是通過比較序列中的事件或狀態的順序和持續時間來構建的,從而反映出個體序列之間的差異。接著,這些不相似性矩陣被用于分類方法——主要是聚類分析方法——以確定根據其相似性的觀察子組或類別。這意味著,通過分析數據中的模式和關系,可以將具有相似生活或健康軌跡的個體分為相同的組或類別。
    基于之前的“多維護理軌跡模型”,最近提出了一種全面的序列分析方法。這種方法同時考慮疾病狀況、護理提供者和護理設置,從而提供了一個更為全面的視角來分析和理解個體的健康和護理路徑。這種方法的提出,是為了更好地理解不同因素如何共同影響健康結果。在這種分類方法中,子組成員資格可以用作依賴變量或獨立變量,以探索健康軌跡的預測因素及其對未來結果的貢獻。這意味著,通過識別和分析影響健康軌跡的關鍵因素,可以更好地預測個體未來的健康狀況,并為制定個性化的健康干預措施提供依據。這種方法在公共衛生、流行病學、心理學和社會科學等多個領域都有廣泛的應用前景。
    2.適用數據類型
    序列分析能夠處理分類的縱向數據。
    3.操作步驟
    第一步:數據探索 
    在進行分析之前,必須從原始數據中創建狀態序列數據。例如,確保為每個狀態選擇合適的字母(例如,H代表住院,E代表急診訪問等)。狀態序列必須放置在時間軸上,時間周期(每日、每周、每月、每年等)必須明確定義。對于每個時間周期,研究者必須選擇一個單一狀態。
    這一步驟相對復雜,因為在給定時間點有多個狀態可供選擇時,確定優先考慮的狀態有許多可能性(例如,在月度醫療利用的情況下,一個人可能在同一個月內既住院又急診)。
    第二步:距離度量選擇
    研究者應基于更新的距離或基于子序列的距離選擇合適的距離度量。基于更新的距離通過計算將一個序列轉換成另一個完全相同的序列所需的最少更新操作次數來測量兩個序列之間的距離,這些距離度量被稱為“最優匹配”。因此,兩個軌跡之間的距離是一個函數,取決于歸因于插入、刪除和替換等操作的成本(就運行時間和計算機內存空間而言)。確定所有操作的相對成本對于確定序列之間的距離至關重要。這些需要研究者事先定義。相比之下,基于子序列的距離通過計算共有子序列的數量來評估序列之間的距離。然而,最優匹配是文獻中最廣泛使用的距離度量。
    第三步:序列分析及結果解釋
    計算所有序列之間的距離會得到一個距離矩陣。序列分析使用這個距離矩陣將序列劃分為相對均勻的子組。為此目的,各種聚類分析方法都是合適的,包括層次化方法。
    4.可用軟件包
    SAS、Stata、SPSS、R等軟件包執行序列分析,迄今為止,執行序列分析最強大和完整的方法是R的TraMineR軟件包。
    5.優勢與局限性
    序列分析的優勢在于,當研究人員對隨時間發生事件的順序感興趣時,這種方法使得可以根據路徑的相似性將個體分組為類別。然而,如果研究人員對隨時間發生的事件數量感興趣,則順序分析就不太合適。
    6.序列分析的實際應用
    Vanasse等(2020)使用序列分析來識別慢性阻塞性肺疾病(COPD)首次住院后患者之間的類似護理軌跡。護理軌跡由在一年時間內的醫療利用序列組成,以“周”為時間單位。利用魁北克醫療行政數據中關于醫療就診和住院情況的信息,基于多種工具和特定選擇標準(最佳匹配、匯總距離矩陣、Ward's連接標準和平方和或慣性),發現了五個亞組,形成了新的護理軌跡類型學。隨后,患者的特征在護理軌跡亞組之間進行了比較。研究表明,在第三高利用護理軌跡亞組中的患者年齡較大,合并癥較多,并且在住院期間病情更為嚴重。

    如何報告軌跡模型的方法

    在科學論文中報告統計方法時,研究者應確保分析描述得足夠詳細,以便其他研究者能夠復現。因此應包含:

    (1)數據呈現(確定因變量和可能的協變量,并提及所有數據處理,例如創建新變量,重新編碼某些變量以便于分析等);

    (2)軌跡建模技術及其使用的理由;

    (3)選擇軌跡數量的邏輯和標準的規格說明(例如,使用BIC和/或AIC,或用于在聚類分析和序列分析中選擇子組的距離度量);

    (4)統計軟件(例如,指定在SAS中使用的程序,或R上的包等)。之前已發布了關于潛在軌跡研究報告的詳細指南(GRoLTS),如GMM和GBTM。

    根據我們的審查,軌跡建模技術的完整描述通常不夠充分,并且由于某些醫學期刊的空間限制,缺乏必要的細節。這影響了研究社區理解、評估適當性以及復制軌跡建模分析的能力。如果稿件長度有限,研究者應考慮增加網絡附錄以完整描述其建模步驟。這將增強軌跡建模技術的透明度、適當性和可復制性。

    如何報告軌跡模型的結果

    軌跡分析結果的描述應包含:
    (1)獲得的軌跡/類別數量;
    (2)軌跡形狀(在GMM和GBTM的情況下:線性、二次、三次等);
    (3)用于選擇軌跡數量的標準值(例如,BIC和/或AIC);
    (4)軌跡亞組成員的特征(每個亞組中的頻率和百分比,包括潛在狀態的普遍性、項目響應概率和LTA的轉換概率);
    (5)一個顯示軌跡亞組的圖形(例如,使用SAS proc traj進行GBTM時,連續曲線代表觀察到的數據,不連續曲線代表所選模型的估計)。
    還應解釋分配給每個軌跡的標簽或名稱。

    總結

    軌跡建模方法已被用于使用不同統計方法預測各種結果。在醫療研究中,它們有助于改善我們對疾病嚴重程度、干擾、管理和隨時間演變的理解。然而,一些問題限制了人們對它們的理解、實用性和解釋。事實上,在已發表的科學文獻中,用于指代潛在類模型方法的各種術語(如GMM、GBTM、LTA、LCA)使用不一致,經常互換使用。對于描述和報告潛在類模型統計技術結果的空間在科學文章中也是不足的。我們希望這篇敘述性評論將指導研究人員選擇最適合其研究問題的技術。我們展示了不同方法如何實施以及結果如何報告,這對非統計學研究人員是有價值的。

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 亚洲夂夂婷婷色拍ww47| 扒开双腿猛进入喷水高潮叫声| 96在线看片免费视频国产| 欧洲亚洲精品免费二区| 亚洲熟女片嫩草影院| 精品久久人妻AV中文字幕| 亚洲精品人妻中文字幕| 在线观看AV永久免费| 国内精品无码一区二区三区| 成人无码午夜在线观看| 无码日韩精品一区二区三区免费| 亚洲日韩性欧美中文字幕| 亚洲精品色午夜无码专区日韩| 亚洲国产午夜精品福利| 中文字幕无码免费久久| 国内不卡一区二区三区| 国产AV巨作丝袜秘书| 天天澡日日澡狠狠欧美老妇| 精品无码国产一区二区三区51安| 欧洲中文字幕一区二区| 人妻少妇精品久久久久久| 国产午夜亚洲精品国产成人| 国产精品爽爽VA在线观看无码| 国产精品午夜精品福利| 亚洲乱码在线卡一卡二卡新区| 最新亚洲人成网站在线影院| 国产乱子伦农村叉叉叉 | 久章草在线毛片视频播放| 成年男女免费视频网站| 好男人好资源WWW社区| 久久精品国产一区二区三区不卡| 久久亚洲色WWW成人男男| 最近中文字幕国产精品| 国产精品永久免费视频| 午夜免费无码福利视频| 在线视频中文字幕二区| 久久精品国产久精国产| 久久不见久久见免费视频观看| 国产精品美女久久久久久麻豆| 美女裸体无遮挡免费视频网站| 国产成人乱色伦区|