儘管大型語言模型(LLM)在診斷對話方面展現了潛力 1,但其在有效的管理推理能力——包括疾病進展、治療反應和安全用藥處方——方面仍未被充分探索。我們透過一個新穎的、基於 LLM 的代理系統,進一步提升了先前已展示的 Articulate Medical Intelligence Explorer(AMIE)1−3 的診斷能力,該系統針對多階段臨床管理和對話進行了優化。為了將其推理建立在權威的臨床知識之上,AMIE 利用了 Gemini 的長文本處理能力 4,結合了上下文檢索與結構化推理,使其輸出與最新的臨床實踐指南和藥品目錄保持一致。在一項隨機、盲測的虛擬客觀結構化臨床檢查(OSCE)研究中,AMIE 與 21 位基層醫療醫師(PCPs)在 100 個多階段病例情境中進行了比較,這些情境旨在反映英國 NICE 指南和 BMJ 最佳實踐指南。在由專家評估的管理推理方面,AMIE 不劣於 PCPs,並且在治療和檢查的精確度,以及與臨床指南的一致性和基礎上得分更高。為了對藥物推理進行基準測試,我們開發了 RxQA,這是一個多項選擇題基準測試,源自兩個國家的藥品目錄(美國、英國),並由委員會認證的藥劑師進行了驗證。儘管 AMIE 和 PCPs 都受益於能夠獲取外部藥物資訊的能力,但 AMIE 在難度較高的問題上表現優於 PCPs。雖然在實際應用之前還需要進一步的研究,但 AMIE 在各項評估中的強勁表現,標誌著朝向將對話式 AI 作為疾病管理工具邁出了重要一步。