AI 疾病管理新突破：AMIE 系統在臨床推理與用藥建議上超越醫師

大型語言模型（LLM）在診斷對話方面展現潛力，但其在疾病進展、治療反應和安全用藥等疾病管理推理方面的能力仍待探索。研究團隊開發了名為 AMIE 的新一代 LLM 代理系統，透過結合長文本處理、結構化推理與臨床指南，使其在多階段臨床管理和對話方面表現優異。在一項隨機盲測的虛擬臨床技能測驗中，AMIE 在疾病管理推理方面不亞於 21 位基層醫療醫師，且在治療與檢查的精確度以及與臨床指南的契合度上表現更佳。此外，AMIE 在藥物推理基準測試 RxQA 中也超越了醫師。儘管實際應用仍需進一步研究，AMIE 的出色表現標誌著對話式 AI 在疾病管理工具發展上的重要里程碑。

值得注意此研究展示了 AI 在複雜醫療決策上的重大進展，可能深刻影響醫療照護模式與效率。

儘管大型語言模型（LLM）在診斷對話方面展現了潛力 1，但其在有效的管理推理能力——包括疾病進展、治療反應和安全用藥處方——方面仍未被充分探索。我們透過一個新穎的、基於 LLM 的代理系統，進一步提升了先前已展示的 Articulate Medical Intelligence Explorer（AMIE）1−3 的診斷能力，該系統針對多階段臨床管理和對話進行了優化。為了將其推理建立在權威的臨床知識之上，AMIE 利用了 Gemini 的長文本處理能力 4，結合了上下文檢索與結構化推理，使其輸出與最新的臨床實踐指南和藥品目錄保持一致。在一項隨機、盲測的虛擬客觀結構化臨床檢查（OSCE）研究中，AMIE 與 21 位基層醫療醫師（PCPs）在 100 個多階段病例情境中進行了比較，這些情境旨在反映英國 NICE 指南和 BMJ 最佳實踐指南。在由專家評估的管理推理方面，AMIE 不劣於 PCPs，並且在治療和檢查的精確度，以及與臨床指南的一致性和基礎上得分更高。為了對藥物推理進行基準測試，我們開發了 RxQA，這是一個多項選擇題基準測試，源自兩個國家的藥品目錄（美國、英國），並由委員會認證的藥劑師進行了驗證。儘管 AMIE 和 PCPs 都受益於能夠獲取外部藥物資訊的能力，但 AMIE 在難度較高的問題上表現優於 PCPs。雖然在實際應用之前還需要進一步的研究，但 AMIE 在各項評估中的強勁表現，標誌著朝向將對話式 AI 作為疾病管理工具邁出了重要一步。

朝向用於疾病管理的對話式 AI