awesome-medical-llm-agent
This agent is a curated collection of research papers focused on using artificial intelligence, specifically large language models, to improve healthcare. It gathers and organizes the most important studies exploring how AI can assist with medical decision-making, diagnosis, and collaboration between specialists. Doctors, researchers, and healthcare technology developers would find this resource valuable for staying up-to-date on the latest advancements in the field. The agent’s usefulness lies in its structured roadmap, guiding users through the complex landscape of medical AI research, from foundational concepts to cutting-edge multi-agent systems. It helps users quickly understand the current state of the art and identify promising areas for further exploration.
README
<div align="center">
# 🏥 Awesome Medical LLM & Agent Papers
**超棒的医学大模型 + 智能体论文精选集**
[](https://awesome.re)


> 专注于 **医学大模型 · LLM 智能体 · 多智能体系统** 的高质量论文合集
> 覆盖临床决策 · 诊断推理 · 多专科协作 · 规划推理等核心方向
</div>
---
## 📌 目录
- [🗺️ 阅读路线图](#️-阅读路线图)
- [🧱 通用 Agent 地基必读(从经典中精选)](#-通用-agent-地基必读从经典中精选)
- [📖 综述论文](#-综述论文-surveys)
- [🧠 医学大模型](#-医学大模型-medical-llm)
- [🤖 医学单智能体](#-医学单智能体-medical-single-agent)
- [👥 医学多智能体](#-医学多智能体-medical-multi-agent)
- [🤝 如何贡献](#-如何贡献)
## 🗺️ 阅读路线图
> 推荐新人按以下顺序阅读,逐步建立完整知识体系
```
阶段零:先补通用 Agent 地基(2-3 天)
──────────────────────────────────────────────────────────
0. 🧱 ReAct + Toolformer + Reflexion + Plan-and-Solve
└─ 先掌握 Agent 的 4 个核心能力:推理-行动、工具调用、自反馈、规划
阶段一:了解全局(1-2 天)
──────────────────────────────────────────────────────────
1. 📖 A Survey of LLMs for Healthcare(Kai He et al., 2023)
└─ 最系统的综述,了解整个领域发展脉络
2. 📖 LLMs in Healthcare and Medical Applications(PMC, 2025)
└─ 最新进展全景,了解当前技术状态
阶段二:掌握基础模型(3-5 天)
──────────────────────────────────────────────────────────
3. 🧠 Med-PaLM: Large Language Models Encode Clinical Knowledge
└─ 医学 LLM 奠基之作,必读
4. 🧠 Med-PaLM 2: Towards Expert-Level Medical QA
└─ 理解医学 LLM 的能力演进方向
5. 🧠 GPT-4 on Medical Challenge Problems(Microsoft)
└─ 通用 LLM 在医疗中的能力边界
阶段三:理解单智能体(3-5 天)
──────────────────────────────────────────────────────────
6. 🤖 A Survey of LLM-based Agents in Medicine: How Far from Baymax?
└─ 医学 Agent 综述,快速了解全貌
7. 🤖 Autonomous AI Agents for Clinical Decision Making in Oncology
└─ 单 Agent 的经典实现,工具调用范式
8. 🤖 Agent Hospital: A Simulacrum of Hospital
└─ 自主进化型 Agent,训练新范式
阶段四:进入多智能体(5-7 天)
──────────────────────────────────────────────────────────
9. 👥 MedAgents: LLMs as Collaborators(ACL 2024)
└─ 多智能体医学推理的开山之作
10. 👥 MDAgents: Adaptive Collaboration(NeurIPS 2024)
└─ 目前最具影响力的医学多智能体框架
11. 👥 MedAgentBoard: Benchmarking Multi-Agent
└─ 客观评估多智能体系统,了解真实差距
深入研究(按方向自选)
──────────────────────────────────────────────────────────
📖 更多综述 → 本页综述章节其余论文
🧠 开源模型 → BioGPT · PMC-LLaMA · Meditron-70B
🤖 可解释性 → CoD(诊断链)· AI-SCE 评估框架
👥 前沿方向 → ColaCare · MMedAgent-RL · ClinicalAgents
```
---
## 🧱 通用 Agent 地基必读(从经典中精选)
> 你给的表里论文很多,这里只保留**医学方向最必要**的通用 Agent 基石。
> 建议先读完这一组,再进入本仓库的医学 LLM/医学 Agent 论文。
### 1. ReAct: Synergizing Reasoning and Acting in Language Models
- **作者**:Shunyu Yao et al.(Google Research)
- **时间**:2022
- **链接**:[arXiv 2210.03629](https://arxiv.org/abs/2210.03629)
- **为什么必读**:Agent 最核心范式(Reason + Act)。后续医疗 Agent 的问诊、检索、工具调用流程基本都能映射到 ReAct 思路。
---
### 2. Toolformer: Language Models Can Teach Themselves to Use Tools
- **作者**:Timo Schick et al.(Meta FAIR)
- **时间**:2023
- **链接**:[arXiv 2302.04761](https://arxiv.org/abs/2302.04761)
- **为什么必读**:解释了模型如何学会「何时调用外部工具」,这是医疗场景接入检索、指南库、计算器、影像工具的基础。
---
### 3. Reflexion: Language Agents with Verbal Reinforcement Learning
- **作者**:Noah Shinn et al.
- **时间**:2023
- **链接**:[arXiv 2303.11366](https://arxiv.org/abs/2303.11366)
- **为什么必读**:自我反思与错误修正机制,能直接提升医疗任务里的可靠性与稳健性。
---
### 4. Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning
- **作者**:Lei Wang et al.
- **时间**:2023
- **链接**:[arXiv 2305.04091](https://arxiv.org/abs/2305.04091)
- **为什么必读**:把复杂问题拆成计划再执行,对临床分步决策和差错控制非常实用。
---
### 5. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- **作者**:Jason Wei et al.(Google Research)
- **时间**:2022
- **链接**:[arXiv 2201.11903](https://arxiv.org/abs/2201.11903)
- **为什么必读**:虽然不是 Agent 论文,但它定义了推理提示的基础,是理解 ReAct/Plan-and-Solve 的前置知识。
---
### 6. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
- **作者**:Akari Asai et al.
- **时间**:2024
- **链接**:[arXiv 2310.11511](https://arxiv.org/abs/2310.11511)
- **为什么必读**:把检索与自我批判结合,特别适合医疗场景里「减少幻觉 + 引用证据」的需求。
---
### 7. AgentBench: Evaluating LLMs as Agents
- **作者**:Xiao Liu et al.
- **时间**:2023
- **链接**:[arXiv 2308.03688](https://arxiv.org/abs/2308.03688)
- **为什么必读**:学习 Agent 评测方法学,避免只看单一准确率;对你后续看医学 Agent benchmark 很关键。
---
## 📖 综述论文 (Surveys)
> 全局视角了解领域进展,建议新人优先阅读
### 1. A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics
- **作者**:Kai He et al.
- **时间**:2023.10(更新至 2025.01)
- **链接**:[arXiv 2310.05694](https://arxiv.org/abs/2310.05694)
- **简介**:系统梳理医疗 LLM 的发展路径,从传统预训练语言模型(PLMs)到 LLMs 的范式转变。重点讨论公平性、可问责性、透明度与伦理(FATE)四大核心障碍,并配套维护了开源数据集、方法和评测基准资源合集。
---
### 2. Large Language Models in Healthcare and Medical Applications: A Review
- **作者**:PMC 综述团队
- **时间**:2025
- **链接**:[PMC](https://pmc.ncbi.nlm.nih.gov/articles/PMC12189880/)
- **简介**:全面综述 LLM 在医疗领域的基础技术、方法论、应用场景、评估框架与挑战。检索时间跨度 2015–2025 年,覆盖临床决策支持、医学教育、诊断和患者护理等核心方向,并系统讨论隐私、伦理部署和事实准确性等关键问题。
---
### 3. Advances in Large Language Models for Medicine
- **作者**:arXiv 团队
- **时间**:2025.09
- **链接**:[arXiv](https://arxiv.org/html/2509.18690v1)
- **简介**:系统回顾医学 LLM 的最新研究进展,创新性地将医学 LLM 按训练方法分为三类,将评估方法分为两类。分析临床决策支持、个性化治疗、药物研发、医学影像等广泛应用场景,并针对现有问题提出未来研究策略。
---
### 4. A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
- **作者**:Hanguang Xiao, Feizhong Zhou et al.
- **时间**:2024
- **链接**:[ScienceDirect](https://www.sciencedirect.com/science/article/abs/pii/S1566253524006663)
- **简介**:综述医学 LLM 和多模态 LLM(MLLM)的发展原理、应用场景、挑战与未来方向。系统梳理微调方法、评估策略和可用训练数据集,涵盖五大临床应用方向,旨在弥合先进技术与临床实践之间的鸿沟。
---
### 5. A Systematic Review of Large Language Model (LLM) Evaluations in Clinical Medicine
- **作者**:BMC Medical Informatics 团队
- **时间**:2025.03
- **链接**:[Springer](https://link.springer.com/article/10.1186/s12911-025-02954-4)
- **简介**:对 2019–2025 年间 735 篇文章进行系统综述,共评测 1534 个 LLM 实例。发现 2023 年研究数量暴增(160 篇),2024 年达到 557 篇,揭示临床 LLM 研究的指数级增长趋势。93.55% 的评测针对通用域 LLM,医学专用模型仅占 6.45%。
---
### 6. A Survey of Datasets in Medicine for Large Language Models
- **作者**:Zhang D, Xue X, Hu M et al.
- **时间**:2024.12
- **链接**:[OAE Publishing](https://www.oaepublish.com/articles/ir.2024.27)
- **简介**:系统梳理驱动医疗 LLM 的数据集资源,涵盖预训练、微调、评估三阶段的数据集特征及关键作用,填补了该领域系统性数据集综述的空白,为研究者选择合适数据集提供全面指引。
---
### 7. Large Language Models in Medical and Healthcare Fields: Applications, Advances, and Challenges
- **作者**:Springer Nature 团队
- **时间**:2024.09
- **链接**:[Springer](https://link.springer.com/article/10.1007/s10462-024-10921-0)
- **简介**:分析 175 篇相关文献,汇总 56 个实验数据集,覆盖医学问答、对话摘要、电子病历生成、科学研究、医学教育、临床决策支持等多个任务,梳理 GPT-4、LLaMA、MedPaLM 等主流模型的医疗应用进展。
---
## 🧠 医学大模型 (Medical LLM)
> 专为医疗领域设计或适配的大语言模型
### 1. Large Language Models Encode Clinical Knowledge (Med-PaLM)
- **作者**:Karan Singhal, Shekoofeh Azizi et al.(Google)
- **时间**:2023.08
- **期刊**:Nature
- **链接**:[Nature](https://www.nature.com/articles/s41586-023-06291-2)
- **简介**:提出 MultiMedQA 评估基准,整合 6 个现有医学问答数据集与 HealthSearchQA,推出 Med-PaLM(PaLM + 指令微调)。首次在 USMLE 风格题目上达到通过线(67.2%),确立了医学 LLM 评估的多维度框架(真实性、理解、推理、危害、偏见)。
---
### 2. Towards Expert-Level Medical Question Answering with Large Language Models (Med-PaLM 2)
- **作者**:Karan Singhal, Tao Tu, Juraj Gottweis et al.(Google)
- **时间**:2023.05 / 2025.01 正式发表
- **期刊**:Nature Medicine
- **链接**:[arXiv 2305.09617](https://arxiv.org/abs/2305.09617)
- **简介**:提出 Med-PaLM 2,结合更强的基础模型(PaLM 2)、医学域微调和集成精炼提示策略。在 MedQA 数据集上准确率比 Med-PaLM 提升 19%,在多个 USMLE 子任务上达到接近医生水平,是医学 LLM 的重要里程碑。
---
### 3. BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
- **作者**:Renqian Luo, Liai Sun et al.(Microsoft Research)
- **时间**:2022
- **期刊**:Briefings in Bioinformatics
- **链接**:[Paper](https://academic.oup.com/bib/article/23/6/bbac409/6713511)
- **简介**:在大规模生物医学文献上预训练的生成式语言模型 BioGPT,在 PubMedQA、BC5CDR、KD-DTI 等多项生物医学文本挖掘与问答基准上达到当时最优性能,开创了生物医学领域开放式文本生成方向。
---
### 4. PMC-LLaMA: Towards Building Open-source Language Models for Medicine
- **作者**:Chaoyi Wu et al.
- **时间**:2023
- **链接**:[arXiv 2304.14454](https://arxiv.org/abs/2304.14454)
- **简介**:在 480 万篇生物医学学术
[truncated…]PUBLIC HISTORY
IDENTITY
Identity inferred from code signals. No PROVENANCE.yml found.
Is this yours? Claim it →METADATA
README BADGE
Add to your README:
