導讀:多模態大語言模型(MLLM)在醫學視覺問答(VQA)領域展現出巨大潛力,通過提供針對醫學圖像的具體臨床問題的回答,有助于提高醫療專業人員的工作效率。然而,現有醫學VQA數據集規模較小且問題過于簡單,限制了模型訓練和微調。為了解決這一問題,研究團隊提出了Medical-CXR-VQA,這是一個大規模的X光胸片問答數據庫,覆蓋了更廣泛的問題類型,包括異常、存在、位置等七種問題類型,為構建更準確的醫學VQA模型提供了基礎。 多模態大語言模型 (Multimodal Large Language Moodel, MLLM) 以其強大的語言理解能力和生成能力,在各個領域取得了巨大成功。 在醫學領域上,視覺問答 (VQA) 是醫學多模態大語言模型的一項重要任務,它可以通過回答針對醫學圖像的具體臨床問題,有效提高醫療專業人員的效率。這一類工作可以減輕公共衛生系統的負擔,對于醫療資源貧乏的國家來說尤其重要。 然而,現有的醫學 VQA 數據集規模較小,僅包含相當于分類任務的簡單問題,缺乏語義推理和臨床知識。 如圖1所示,現有的ImageCLF VQA-MED數據集僅包含「這張圖像里主要異常是什么?」和「這張圖片里看到了什么?」這兩種完全相當于分類任務的問題。 較小的數量以及過于簡單的問題使得大語言模型很難在現有數據集上訓練以及微調。 ![]() 為此,得克薩斯大學阿靈頓分校、理化學研究所、國立衛生研究院、日本癌癥研究中心以及東京大學的團隊提出了一個大型X光胸片的問答數據庫。 Medical-CXR-VQA,這個數據庫覆蓋了更大范圍的問題類型,包含異常、存在、位置、級別、拍攝角度和類型,共7種類型的問題。 ![]()
同時,作者還提出了一種新的基于LLM的方法來構建數據集。傳統的數據集構建方法中主要包括兩種類型:人工標注和基于規則的方法。 人工標注方法的典型示例如VQA-RAD,其依賴于大量人力資源,因而數據集的規模往往受限。 只有基于規則的方法,例如ImageCLEF和作者之前的工作Medical-Diff-VQA,才可能生成更大規模數據集。 然而,基于規則的方法對于大覆蓋面的信息提取能力仍然有限,所需要提取的信息越多,意味著需要創建的規則越多。 在這里,作者使用LLM來幫助建立規則,使得相同信息覆蓋面上比基于傳統規則的方法準確率提高62%。 同時,作者還與2位臨床專家合作對100個樣本的標簽進行了全面的評估,進一步幫助微調LLM。 基于該數據集,作者提出了一種新的基于圖(Graph)的可解釋的醫學VQA方法利用圖注意力來學習回答臨床問題時的邏輯推理路徑。 這些學習到的圖推理路徑可進一步用于 LLM 提示工程(Prompt engineering)和鏈式思維(Chain-of-thought),這對于進一步微調和訓練多模態大語言模型有重要意義。 數據集介紹全新的Medical-CXR-VQA 數據集包括在215,547張胸部X光片上的780,014個問題答案對,問題含蓋異常,存在,位置,級別,拍攝角度和類型,共7種類型的問題。各種問題類型的比例和問題類別請分別見如下圖2和表1。 ![]() ![]() 數據集構建的方法MIMIC-CXR是一個包括377,110張胸部X光片和277,835個放射學報告的大型數據集。作者基于MIMIC-CXR構建了Medical-CXR-VQA數據集。 傳統基于規則構建的方法的一種途徑是將數據集構建過程分為兩步,第一步是從原始文本信息中提取出結構化的關鍵信息,例如疾病的位置,類型,級別,存在可能性等等;第二步是基于所提取的關鍵信息構建問題答案對(QA pairs)。 作者先前的工作Medical-Diff-VQA所采用的就是這種該方法,而這種方法在第一步提取結構化關鍵信息時非常依賴于預設關鍵詞和規則的覆蓋程度。 在千變萬化的自然語言表達中,構建出一套可以覆蓋所有情形和表達的規則幾乎是不可能完成的任務,而借助于LLM其強大的語言理解能力和生成能力,這個問題可以迎刃而解。 這種基于LLM的方法正是針對上述第一步過程的改進。 作者采用了Llama 2 70B 作為核心LLM,以提取放射學報告中的數據。整個數據生成過程可以分為以下幾個步驟: 首先,為增強LLM對特定任務的理解,作者對其進行了微調(finetune)。使用GPT-4對100份放射學報告按照精心設計的提示詞進行結構化關鍵信息提取,并將這些信息格式化為JSON。隨后,兩位專業放射科醫生對提取的信息進行了校驗和修正,并將這100個醫生標注的樣本便作為黃金標準用于對Llama 2 70B的微調。 在微調完成后,利用該模型對MIMIC-CXR數據集進行全量的關鍵信息提取。為了確保提取質量并抑制模型可能的幻覺問題(hallucination),作者實施了一系列后處理操作。這些操作包括:統一疾病名稱,從疾病名稱中剝離屬性詞(如位置、類型、級別),并進行屬性詞的重新分配等。 至此,結構化的關鍵信息提取已經完成。 為驗證基于LLM的方法與傳統基于規則的方法在結構化信息上的表現差異,作者對兩種方法在100個隨機抽取的樣本上進行了比較?;谝巹t的方法使用了與LLM方法相同的信息覆蓋面進行關鍵詞提取。 結果如表2所示,基于LLM的方法在高信息覆蓋面的信息提取上顯示出顯著提升,相比基于規則的方法具有斷層式的優勢。 ![]() 最后,作者基于提取的結構化信息生成了問答對(QA pairs),并由兩位人工驗證者對500個問答對進行了驗證。 驗證結果顯示,如表3所示,問答對的平均正確率達到了94.8%。 ![]() Baseline模型介紹基于構建的Medical-CXR-VQA數據集,作者提出了一種多模態圖推理模型,如圖3所示。 針對拍攝胸部X光片時病人姿態變化帶來的挑戰,作者提出了一種方法,通過定位病人的解剖結構和病灶,并提取這些定位對象的特征作為圖的節點,來避免因姿態問題導致的圖像不匹配。 ![]() 為了使圖網絡能夠有效理解問題并從檢測目標中提取相關節點信息,作者在每個節點中融入了問題的編碼特征。 為深入挖掘解剖結構和病灶之間的關系,作者設計了一種包含三種關系的圖網絡結構:空間關系、語義關系和隱含關系。
共現知識圖譜是通過統計不同疾病的共同出現概率構建的,而解剖學知識圖譜則詳細分類了病灶與其可能出現的解剖結構之間的關聯。
經過ReGAT計算后,每種圖均生成最終的節點特征,這些特征進一步經過平均池化層處理,得到各圖的最終特征。然后,將三種圖的特征加權相加,生成最終答案特征并用于答案預測。 通過以上方法,作者成功解決了病人姿態變化帶來的挑戰,同時提升了模型在Medical-CXR-VQA(醫學胸片問答)任務中的性能。 如表4所示,該方法全面超越了MMQ和VQAMix這兩個先進的醫學VQA模型。 ![]() 總結與討論為了促進多模態大型語言模型在醫學研究中的發展,作者對之前使用傳統基于規則方法工作進行了延伸。 利用基于LLM的方法,作者創建了一個名為Medical-CXR-VQA的以臨床為驅動的大規模醫學VQA數據集,在給定相同的關鍵詞提取集時將數據集構建的準確性提高了62%。 此外,作者還提出了一種用于VQA的多關系圖學習方法,該方法通過包含三種不同的圖關系,并引入了醫學知識圖譜來回答問題。 未來,作者還將通過回答問題所顯示出的推理路徑來構建醫學LLM的思維鏈,并構建醫學知識驅動的提示(prompt)來訓練醫學LLM。
請聯系:amos@52cv.net ![]() END 歡迎加入「醫學問答」交流群??備注:Med |
|
來自: doctorwangfovn > 《待分類》