Foundation models for generalist medical artificial intelligence 作者:Moor, Michael, Banerjee, Oishi, Abad, Zahra Shakeri Hossein, Krumholz, Harlan M., Leskovec, Jure, Topol, Eric J., Rajpurkar, Pranav Nature:2023/04/12 The exceptionally rapid development of highly flexible, reusable artificial intelligence (AI) models is likely to usher in newfound capabilities in medicine. We propose a new paradigm for medical AI, which we refer to as generalist medical AI (GMAI). GMAI models will be capable of carrying out a diverse set of tasks using very little or no task-specific labelled data. Built through self-supervision on large, diverse datasets, GMAI will flexibly interpret different combinations of medical modalities, including data from imaging, electronic health records, laboratory results, genomics, graphs or medical text. Models will in turn produce expressive outputs such as free-text explanations, spoken recommendations or image annotations that demonstrate advanced medical reasoning abilities. Here we identify a set of high-impact potential applications for GMAI and lay out specific technical capabilities and training datasets necessary to enable them. We expect that GMAI-enabled applications will challenge current strategies for regulating and validating AI devices for medicine and will shift practices associated with the collection of large medical datasets. 高度靈活、可重復使用的人工智能(AI)模型的異常快速發展可能會在醫學領域帶來新的能力。我們提出了一種新的醫學人工智能范式,我們稱之為廣義醫學人工智能(GMAI)。GMAI模型將能夠使用很少或根本不使用特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自我監督,將靈活解釋不同的醫療模式組合,包括來自成像、電子健康記錄、實驗室結果、基因組學、圖表或醫學文本的數據。模型反過來會產生富有表現力的輸出,如自由文本解釋、口頭推薦或圖像注釋,以展示先進的醫學推理能力。在這里,我們為GMAI確定了一組具有高影響力的潛在應用,并列出了實現這些應用所需的具體技術能力和培訓數據集。我們預計,支持GMAI的應用程序將挑戰當前監管和驗證醫學人工智能設備的策略,并將改變與大型醫學數據集收集相關的做法</p> 高度靈活且可重復使用的人工智能(AI)模型的快速發展,有望給醫學領域帶來全新變革。對于AI在醫療的應用,有學者提出通用醫療AI(GMAI)的范式,指利用大型、多樣化數據集的無監督學習,靈活結合臨床醫療場景,如實驗室檢查結果、基因組學、醫學文本標注(用不同的標簽標記文章特征,如具體語義、構成、語境、目的、情感等標簽)等,使用很少或沒有特定任務的標記數據來執行各種任務。模型還可以輸出具體內容,如自由文本解釋,口頭建議或圖像注釋等。 近日,頂刊《自然》(Nature)發表一項關于通用醫療AI臨床應用潛力和局限的研究,表明通用醫療AI模型前景整體向好,在6大具體醫療場景有望早日落地,但依然面臨著諸多挑戰,有待進一步解決和完善。醫療AI現狀:多為特定任務模型,臨床應用受限,難以廣泛使用 大模型(指網絡規模巨大的深度學習模型,具體表現為模型的參數量規模較大,其規模通常在千億級別,如大家熟知的ChatGPT就屬于大模型)是新一代人工智能模型,通過對大量不同數據集的訓練,應用到多個下游任務中,隨著數據集的增長,模型大小的增加和模型架構的改進,大模型也達到新的高度。盡管早期已有不少研究人員嘗試開發醫療AI模型,但由于大型、多樣化的醫療數據集難以獲取,且醫療領域尤為復雜,因此醫療AI模型尚未廣泛得以應用。 目前,醫療AI模型主要還是基于特定任務而開發的相應模型,例如胸部X射線訓練集模型,將每個圖像明確標記是否屬于肺炎,這意味著需要大量的人工標注,且這種模型只能用于判斷是否為肺炎,但無法做完整的診斷練習,即撰寫一份完整的影像學報告。這種狹隘、基于特定任務的范式生成的模型很不靈活,僅限于執行由訓練數據集及標簽預先定義的任務,而在臨床實踐中,這種模型無法完成其他任務,甚至無法很好的完成同一任務的不同數據。在美國食品藥品監督管理局(FDA)批準的500多個醫療模型中,大多數模型僅獲批用于1~2個狹窄的任務。最新的大模型或有望打破這種特定任務范式,其中包含多模型架構和無需顯式標簽的無監督學習技術,如語言建模、對比學習、上下文學習等。這些技術的進步使通用醫療AI的發展成為可能,“通用”意味著醫療AI有望廣泛應用于醫療,并在很大程度上取代特定任務模型。通用醫療AI模型與傳統醫學AI模型最大的區別是什么? 通用醫療AI模型與傳統醫學AI模型在3個關鍵功能上有明確的區別:1) 通用醫療AI模型很容易應用到新任務中,只需要告訴通用醫療AI模型具體任務是什么(動態任務規范),而不需要再做額外訓練。2) 通用醫療AI模型可接收不同數據模態的靈活組合并輸出結果,如可接收圖像、文本、實驗室檢查結果或其他任何組合。這種靈活的交互性與多模態模型形成鮮明對比,因為多模態模型使用預定義的模態集作為輸入和輸出,如必須同時接收圖像、文本或是實驗室檢查結果。3) 通用醫療AI模型允許利用非定向任務進行推理,再使用準確的醫學術語來解釋輸出的內容。
▲通用醫療AI模型概述(圖片來源:參考文獻[1]) 圖a:利用諸如無監督學習技術,在多種醫學數據模態上訓練通用醫療AI模型;圖b:通用醫療AI模型為臨床跨學科應用奠定基礎,每個應用都需要驗證和監督通用醫療AI模型有望解決比當前醫療AI模型更多樣化和更具挑戰的任務,甚至特定任務都不需要標注。最近發布的AI模型已經可以靈活結合各種模式,但距離實現通用醫療AI模型的3個重要功能,仍有不少待提高空間,如現有具有醫學推理模型并非多模態,且尚無法完全生成可靠的醫學事實陳述,如GPT-3或PaLM。通用醫療AI模型為用戶提供了自定義查詢和模型交互的能力,使不同受眾更容易理解AI輸出的內容,在任務和設置方面也更為靈活。自定義查詢利用了通用醫療AI模型的動態任務規范和多模式輸入和輸出的能力。“請解釋下這個頭部MRI掃描結果的腫塊,更可能是腫瘤還是膿腫?” “這是個膠質母細胞瘤患者的MRI結果,請用紅色標記出所有的腫瘤”。 “就這個超聲結果來看,患者的膽囊壁有多厚(毫米)?” 但通用醫療AI模型可能還難以完成涉及到未知概念或病理的任務,如:“這里是過去10位患者的既往病史,他們患有一種新發疾病,即瑯琊亨尼帕病毒感染。我們現在的患者感染瑯琊亨尼帕病毒的概率有多大?” 通用醫療AI模型的多模式輸入和輸出的能力可以輸出不同模式的回應,如用戶要求同時輸出文本和可視化圖片。繼Gato等模型后,通用醫療AI模型可以整合指定患者的整個患病史,包括波形信號、實驗室檢查結果、報告和影像結果等。通用醫療AI模型模型可形式化地表示醫學知識(即能夠被計算機可讀和處理),如知識圖譜可以允許模型推理醫學概念及其關聯關系。基于最新的檢索方式,通用醫療AI模型還可以從現有的數據庫檢索相關上下文,以文本、圖像等形式呈現。這意味著通用醫療AI模型可做出臨床推斷,如:“患者因嚴重的胸部創傷入院,雖然氧流量增加,但動脈氧分壓持續下降,考慮可能發展為急性呼吸窘迫綜合征”。 最后,通過獲取豐富的分子分型和臨床知識,通用醫療AI模型還可以利用知識來解決有限數據的任務,如基于AI的藥物再利用,計算機技術讓海量信息挖掘和數據連接成為可能,既有藥物的安全性已經過驗證,也有助于加快研發進程。通用醫療AI模型在醫療領域的應用很難窮舉,這里文章提出了針對不同用戶和學科的6大潛在應用方向,以期通用醫療AI模型可以為不同的應用場景提供更為全面的解決方案。通用醫療AI模型可在影像科醫生的整個工作流程中提供支持,減少醫生工作量。具體來說,通用醫療AI模型可起草影像學報告,包括結合患者病史,以及正常或異常的結果,再以文本匹配可視化交互為臨床醫生提供建議。醫生可以與通用醫療AI模型溝通來加深對患者病情的認識,如:“能否突出顯示上一張圖像中無多發性硬化病變的區域” ? 而既往多通過專家標記圖像進行監督學習的方式來實現,但Grad-CAM等方法可以實現無監督學習,無需標記數據。通用醫療AI模型可以執行可視化任務,如手術團隊提出:“我們找不到患者腸道破裂處,請檢查在最后的15分鐘操作中是否錯過了腸道切片視圖?” 通用醫療AI模型也可以以口頭提醒的方式提供有效信息,例如當操作者跳過某個手術步驟時發出警示,或是當醫生遇到罕見解剖病例時可協助查閱相關文獻。此外,也可應用于微創手術操作,如內窺鏡手術。通用醫療AI模型可以通過解剖學知識全面解構操作過程中遇到的情況,如十二指腸鏡檢查中發現大血管,表明可能存在主動脈十二指腸潰瘍。 不過,在手術操作場景部署通用醫療AI模型可能會遇到臨床罕見情況,這些罕見情況在開發通用醫療AI模型時無法被納入,被稱為“看不見的長尾挑戰”。因此,模型的醫學推理能力對于發現罕見異常情況并做出合理解釋就顯得尤為重要。 通用醫療AI模型支持一類新的床旁決策支持工具,該工具擴展了現有基于AI的早期預警系統,可提供更為詳細的臨床解釋和未來護理建議,例如利用臨床知識提供自由文本解釋和數據摘要:“警告:這位患者即將發生休克。在過去的15分鐘內他的體內循環不穩定<鏈接到數據摘要>,建議后續操作……<鏈接到檢查表>。” 這需要通用醫療AI模型能夠解析電子健康記錄源,如患者生命體征、實驗室參數和臨床記錄,這類源涉及到多種模態,如文本和數字時間序列數據等。通用醫療AI模型要能夠從原始數據中總結患者當前狀態,預測未來潛在狀態,并根據現行治療指南和其他相關政策推薦治療決策。此外,還需要將語音數據和電子健康記錄信息結合,生成自由文本注釋或報告,在與患者互動前,需要征求患者知情同意等等。
▲通用醫療AI模型臨床應用示例(圖片來源:參考文獻[1]) 圖a:通用醫療AI模型可支持床邊決策;圖b:通用醫療AI模型可提供放射學報告,配有可點擊鏈接,并可視化展現;圖c:通用醫療AI模型可以對開發過程中未遇到的情況進行分類通用醫療AI模型有望為患者提供新的應用,甚至是院外護理,如構建患者整體狀況視圖,范圍可包含非結構化的癥狀描述、用藥日志等,在解構這些數據后,通用醫療AI模型可以與患者進行交互,提供詳細的建議和解釋。重要的是,通用醫療AI模型能夠實現無障礙交互,提供給患者清晰、可讀或可聽的具體信息。不過,通用醫療AI模型在患者端的應用也面臨相關挑戰:1) 如何保證輸出的內容簡單明了,用非專業語言向患者解釋的同時,也不犧牲掉內容的準確性。2) 由于需要結合患者多項數據,如何保證患者不漏提供,提供的信息準確無誤,避免因錯誤數據造成的錯誤推薦?3) 如果沒有足夠可靠的數據來源,如何確保能夠輸出具體內容及內容的準確性?通用醫療AI模型可根據文本提示生成蛋白質氨基酸序列及其三維結構。通用醫療AI模型可利用豐富的生物醫學知識參與蛋白質設計接口,使用從文本到圖像的生成模型,如Stable Diffusion 和 DALL-E,提示生成的蛋白質氨基酸序列及其三維結構。此外,利用上下文學習能力,通用醫療AI模型還可以通過與序列配對的少量示例指令,動態定義新任務,如:生成以高親和力結合到指定靶標并滿足附加條件的蛋白質。目前,已經有基于簡單規范生成蛋白質的開發生物序列AI模型,在此基礎上,通用醫療AI模型可以做“升級”,如利用多模態AI最新研究進展(如CLIP),在不同模態的配對數據上做聯合訓練等。現有的大規模蛋白質數據庫,如UniProt,可以繪制出數百萬種蛋白質的功能,可能是未來模型開發過程中不可或缺的重要組成。臨床工作中文檔的使用不可或缺,通過患者信息、患者與醫生的對話等,通用醫療AI模型可初步起草電子病歷、出院報告等文檔,以供醫生審查、編輯和確認。這將大大節省臨床醫生寫病案的時間,省出來的時間可充分與患者溝通。這需要借助到語音轉文本的能力,在醫療場景應用時,還需要考慮到能否準確識別語音,理解醫學術語或縮寫。此外,通用醫療AI模型也需要將語音數據與電子健康記錄結合,生成自由文本和報告,以及獲得患者知情同意等等。相比于在其他領域的應用,醫療場景對于AI模型提出了更高要求,通用醫療AI模型的臨床應用面臨以下挑戰:1) 驗證結論難度較大:目前,醫療AI模型都是為特定任務而開發的,所以只需要對預定義狀況做處理,如從腦部MRI結果,診斷特定類型的癌癥,而通用醫療AI模型可以對用戶提出的過往未涉及到的狀況做處理,如根據腦部MRI結果診斷出所有可能的疾病。這對通用醫療AI模型提出了更高的挑戰,如通用醫療AI模型是如何測試的?可以被獲批用于哪些場景?此外,對于未知的內容,通用醫療AI模型應提出使用警告,而不是“一本正經的胡說八道”。2) 內容準確性有待提高:通用醫療AI模型可以處理非常復雜的輸入內容,這會導致對內容準確性的判斷變得更加困難。例如傳統AI模型做癌癥分類時,僅考慮影像學或病理學結果,那就只需要影像科或病理科醫生來驗證輸出的結果是否準確。但通用醫療AI模型在前面的基礎上,還能輸出初始分類、治療建議、統計分析和參考文獻等,這種情況下可能需要多學科專家共同判斷輸出內容的準確性,如由影像科、病理科、腫瘤科醫生組成的多學科專家小組。這意味著,對通用醫療AI模型輸出內容的事實核查,將成為必須面臨的重大挑戰。3) 如何保護個人隱私?通用醫療AI模型的開發和使用都會涉及到個人隱私,如患者臨床檢查結果、人口學信息、行為統計信息等,當有類似情況出現時,通用醫療AI模型可能會記住相關數據并輸出,這就可能暴露患者的敏感信息。通過去標識化和限制對個人信息的收集量,可以減少一部分信息暴露風險。但個人隱私暴露問題不僅發生在訓練數據,部署通用醫療AI模型的過程中同樣可能暴露個人信息。例如某些惡意操作強制讓模型忽略指令要求,提取敏感數據,這個被強制修改的指令可能是“通用醫療AI模型永遠不能向未經過認證的用戶透露任何患者信息”。4) 數據收集和模型訓練成本激增:現有的醫療AI模型是通過爬取Web信息做數據訓練,而這些通用的數據源并不只關注醫療,而且信息準確性也有待商榷。通用醫療AI模型可能需要專項醫療領域的大量數據集,這些數據集必須是多樣化、匿名的,使用過程也必須符合相關機構和監管機構的政策要求。此外,大規模數據模型需要大量訓練數據集,意味著訓練成本高昂。這就提出了新的挑戰:究竟數據集合模型多大才合適?但實際情況卻可能是這樣的,收集醫療數據的需求取決于醫療實際應用情況,甚至無法對數據需求做出準確的預估。此外,通用醫療AI模型在醫療場景的部署也相當具有挑戰性,需要有高端的硬件設備做支持,在醫院可能很難部署。對于以上問題的解決方案,或許可以從本地部署,不上云;利用知識蒸餾技術減小模型規模等方式來處理。總之,通用醫療AI模型可動態學習新任務,并利用醫療領域知識,為幾乎無限范圍的醫療任務提供幫助。通用醫療AI模型的靈活性可以應用于不同新場景,與醫療技術更新保持同步,無需重新開始訓練。將通用醫療AI模型部署在傳統醫療場景和遠程設備(如智能手機)上,預計將使不同人群受益。但同時也需要指出的是,盡管通用醫療AI模型前景整體向好,但依然面臨著諸多挑戰,有待進一步解決和完善。參考資料 [1] Moor, M., Banerjee, O., Abad, Z.S.H.et al. Foundation models for generalist medical artificial intelligence. Nature 616, 259–265 (2023). https:///10.1038/s41586-023-05881-4
|