1. 项目概述与核心发现最近在医疗AI圈子里关于大语言模型LLM到底能不能干好“预测”这个老本行吵得挺热闹。传统观点认为像GPT这类生成式模型写写病历总结、回答医患问答还行但真要让它去做死亡率预测、再入院风险判断这种需要精准输出概率的非生成式任务肯定比不过专门为这些任务“量身定制”的模型比如在结构化电子健康记录EHR数据上训练的XGBoost、GRU或者在临床文本上微调过的ClinicalBERT、GatorTron。理由也很直接术业有专攻通用模型在特定任务上缺乏针对性训练性能理应不如专用模型。但事情真的这么简单吗我和团队最近深度研读并复现了ClinicRealm这项重磅研究它系统性地把15个GPT风格的LLM、5个BERT风格模型和11种传统机器学习/深度学习方法拉到了同一个擂台上用真实的临床数据MIMIC-III/IV和同济医院数据集进行了一场全方位的“比武”。结果出乎很多人的意料也直接挑战了上述固有认知。简单来说核心发现可以概括为三点在非结构化临床笔记预测任务上游戏规则变了。过去大家默认的“黄金标准”是在海量医学文本上预训练、再针对特定预测任务微调的BERT类模型如GatorTron。但ClinicRealm的结果显示像DeepSeek-R1、GPT-5、DeepSeek-V3.1-Think这些顶尖的LLM在零样本即不提供任何任务示例直接给指令设置下其预测性能已经显著超越了经过充分微调的BERT模型。这意味着为了一个预测任务而去费力微调一个专用文本编码器其必要性正在被削弱。在结构化EHR预测任务上LLM是“数据稀缺”场景下的利器。当有充足数据时专门为时序EHR设计的模型如AdaCare、AICare依然表现最强。然而在只有极少样本如10个样本的“少样本”场景下先进的LLM如GPT-5、DeepSeek-V3.1-Think展现出了惊人的零样本能力其性能甚至可以超越大多数传统模型。这对于研究新发疾病、罕见病或数据获取困难的临床场景具有重大价值。开源模型的崛起与“医学专用”模型的尴尬。研究发现顶尖的开源LLM如DeepSeek系列在多项任务上的表现已经与闭源的商业模型如GPT系列不相上下甚至有所超越。这为医疗机构在本地安全部署高性能AI模型提供了可能。同时一些经过医学领域专门微调的LLM如BioGPT、Meditron在非生成式预测任务上并未显示出相对于通用LLM的明显优势其价值定位需要重新审视。这项研究的意义在于它用扎实的数据和严谨的实验告诉我们现代LLM已经不再是只能“生成文本”的玩具它们在理解复杂临床叙事、从异构数据中推理风险方面具备了成为临床预测竞争性工具的潜力。这迫使临床信息学家、AI开发者和研究者必须更新自己的“模型选型手册”。2. 研究设计与方法深度解析ClinicRealm的研究设计体现了其追求全面、公平和临床相关性的初衷。要理解其结论的可靠性我们必须深入其方法论的细节。2.1 数据源与任务构建贴近临床现实的考验研究选用了三个公开数据集MIMIC-III、MIMIC-IV和同济医院TJHCOVID-19数据集。这种选择兼顾了数据的多样性美国ICU数据 vs. 中国COVID-19数据和任务的代表性。任务设计的关键在于区分“前瞻性预测”和“回顾性分类”这是很多研究容易混淆的地方。ClinicRealm对此做了清晰界定院内死亡率预测这被拆分成三个子任务极具巧思。回顾性结构化EHR使用患者整个住院期间的EHR数据在出院时判断其是否死亡。这更像一个“事后验证”任务信息最全。回顾性出院小结使用出院小结文本在出院时判断。这是基于完整文本记录的分类。前瞻性入院笔记仅使用患者入院最初24小时内的临床笔记来预测其后续住院期间的死亡风险。这是真正的、高难度的临床预测模拟医生在入院早期进行风险评估的场景。30天再入院预测这是一个纯粹的前瞻性任务。在患者出院时利用截至出院时的EHR数据或出院小结预测其未来30天内是否会再次入院。住院时长预测这是一个回归任务使用TJH数据集根据患者每次就诊时的累积EHR数据动态预测其剩余的住院天数。这种任务划分的价值在于它告诉我们LLM在不同信息完备度下的表现。例如在“入院笔记预测死亡率”这个硬核任务上表现出色才能真正证明其具有临床前瞻性风险评估的潜力。2.2 模型阵容一场跨越时代的对决研究构建了一个庞大的模型竞技场基本涵盖了当前临床预测的主流技术路线传统ML/DL模型11个包括经典机器学习方法XGBoost, Random Forest和深度学习基础模型RNN, LSTM, GRU以及最新的EHR专用预测模型AdaCare, ConCare, AICare。这些是当前的“守擂者”。BERT风格模型5个从通用BERT到医学领域预训练的ClinicalBERT、BioBERT、GatorTron超大规-模临床文本训练。这些是非结构化文本预测的“前冠军”。GPT风格LLM15个涵盖了从开源到闭源从通用到医学微调从基础到增强推理的各类模型。如GPT-4o、GPT-5、Gemma 3、Qwen 2.5、DeepSeek全系列包括DeepSeek-R1和具有“思考”能力的DeepSeek-V3.1-Think以及医学微调的BioGPT、Meditron等。这些是来“挑战”的“新王”。2.3 评估策略公平性与洞察力评估方式的设计直接决定了结论的可靠性。对齐比较基准为了公平对比LLM的“零样本”能力研究让传统模型和BERT模型在“少样本”10个样本设置下训练。这模拟了数据稀缺场景也是LLM零样本能力发挥优势的战场。同时也提供了传统模型在“全量数据”下训练的性能作为上限参考。针对性的提示工程LLM处理结构化EHR数据是个挑战。研究没有简单地把CSV表格扔给模型而是设计了特征列表式的提示模板并为每个临床特征附上了单位和参考值范围。例如不是输入“心率120”而是输入“心率120次/分钟参考范围60-100”。这极大地帮助LLM理解了数字的临床意义。他们还探索了上下文学习在提示中提供几个例子进一步激发模型能力。超越AUC的评估除了标准的AUROC、AUPRC等指标研究进行了两项深度评估人工专家评估邀请5位临床专家对LLM生成的预测推理过程进行评分。评估维度包括临床准确性/安全性、推理逻辑与完整性、清晰度与临床效用。这回答了“LLM的预测是否可信、可解释”这个关键问题。错误类型分析建立了一个详细的错误分类体系如事实不一致/幻觉、遗漏关键信息、逻辑缺陷等系统分析LLM推理中的典型错误模式。这对于改进模型和提示设计至关重要。失败处理对于LLM未遵循指令输出预测的情况研究没有简单地丢弃样本而是赋予一个默认的非信息值如分类任务给0.5概率。这确保了所有模型都在完全相同的测试集上评估并将输出不可靠的“惩罚”体现在了性能指标中更为严谨。注意这项研究在提示工程上投入的精力是很多试图简单调用API复现结果的研究者容易忽略的。直接将原始EHR表格粘贴进ChatGPT得到的结果很可能没有可比性。结构化数据的“自然语言化”表述是解锁LLM临床预测能力的关键一步。3. 核心结果解读与实操启示基于上述严谨的设计我们来看具体结果并提炼出对实践有指导意义的结论。3.1 临床笔记预测LLM的“主场优势”与范式转移结果速览前瞻性死亡率预测MIMIC-III入院笔记DeepSeek-R1以90.75%的AUROC位居榜首显著超过了微调后的最佳BERT模型GatorTron87.97%。GPT-589.75%和DeepSeek-V3.1-Think88.42%也表现优异。这证明仅凭入院早期的文本记录顶尖LLM就能做出比专用文本编码器更准确的死亡风险预测。回顾性分类MIMIC-IV出院小结LLM的优势更加明显。在死亡率分类上DeepSeek-V3.1达到了接近完美的97.89% AUROC。在30天再入院预测上o3-mini-high和GPT-5领先。在所有任务中零样本LLM均大幅超越了微调后的最佳BERT模型。实操启示与决策建议重新评估文本编码器选型如果你现在的项目正在使用或考虑使用微调的BERT类模型如ClinicalBERT、BioBERT从临床文本中提取特征进行预测那么是时候将顶级开源LLM如DeepSeek-V3.1的零样本能力纳入对比测试了。对于许多任务后者可能提供更优的性能且省去了繁琐的微调过程。“零样本”作为强基线在启动一个新的临床文本预测项目时应将像GPT-5或DeepSeek-V3.1这样的LLM的零样本性能作为一个必须对比的强基线。它的表现很可能直接决定你的项目是否需要、以及值得投入多少资源去收集数据并训练专用模型。开源模型的可行性DeepSeek系列模型的卓越表现为医院或研究机构在内部私有化部署高性能预测工具扫清了一个主要障碍——不再必须依赖可能涉及数据出境风险的闭源API。3.2 结构化EHR预测传统模型的堡垒与LLM的奇袭结果速览数据充足时专用模型依然称王在MIMIC-IV和TJH数据集上当使用全部数据训练时专门为时序EHR设计的深度学习模型如AdaCare, AICare在大多数任务上取得了最佳性能。这是它们的设计优势所在。数据稀缺时LLM展现惊人效率在仅提供10个训练样本的“少样本”设置下传统模型性能大幅下降。而此时采用优化提示含上下文学习的GPT-4o在MIMIC-IV死亡率预测上取得了85.99%的AUROC超过了所有10样本训练的传统模型其中最好的AdaCare为80.02%。这表明在数据有限时LLM凭借其强大的先验知识能实现更高效的学习。提示策略的影响复杂优化提示提供单位、参考范围和添加上下文学习ICL并不总是提升性能其效果因模型和任务而异。例如对GPT-4o提升显著但对GPT-5在某些任务上可能适得其反。然而优化提示能显著降低模型的“预测失败率”提高输出可靠性这一点至关重要。实操启示与决策建议场景化模型选择拥有丰富、高质量历史EHR数据优先考虑训练专用的EHR预测模型如AdaCare、AICare它们能最大程度挖掘数据中的时序依赖和交互关系性能天花板最高。数据稀缺或任务新颖如新发传染病、罕见病预后高级LLM的零样本/少样本能力应成为首选探索方向。你可以快速构建一个提示模板在极少量数据上测试其性能可能迅速获得一个可用的基线模型。需要快速原型验证在项目初期利用LLM零样本能力快速验证想法的可行性成本低、速度快。提示工程是必修课要让LLM理解EHR数据简单的表格粘贴是行不通的。必须将数据翻译成模型能理解的“临床语言”。这包括结构化叙述以清晰列表形式呈现特征-值对。提供临床上下文为每个数值特征附加单位和正常参考范围。谨慎使用上下文学习ICL提供1-3个精心构造的示例可能极大提升性能但需要测试因为也可能引入偏差或降低大模型的性能。3.3 多模态整合11未必大于2研究尝试将结构化EHR和非结构化临床笔记结合探索多模态预测。结果发现对于微调模型采用自注意力或交叉注意力机制融合两种模态的特征能获得比单一模态稍好的性能但提升幅度有限且未能超越最好的单模态临床笔记LLM。对于LLM简单地将EHR数据和临床文本拼接在一个提示词中并未带来一致的性能提升有时甚至会导致性能下降。实操启示 这个结果非常反直觉但也极具启发性。它可能意味着信息冗余高质量的出院小结已经概括并包含了EHR中的关键信息因此额外添加结构化的EHR数据带来的信息增益有限。LLM的整合能力瓶颈当前LLM可能还不擅长在单次前向传递中有效地从两种截然不同的数据格式结构化列表 vs. 自然语言段落中协同推理、去冗余并提取互补信息。融合策略是关键简单的拼接Prompt-based不够。未来需要更精巧的多模态对齐与融合架构例如让LLM分别处理两种数据再进行推理层面的交互这可能比早期特征融合更有效。心得不要盲目追求多模态。在临床预测中首先应评估单一最佳模态尤其是临床文本的性能上限。只有当确信两种模态提供的是独特且互补的信息时才值得投入精力设计复杂的多模态融合方案。目前来看对于许多任务深耕文本模态的LLM可能已经提供了足够优秀的解决方案。4. 超越准确率可靠性、公平性与错误模式一个模型仅有高AUC是不够的尤其是用于临床辅助决策时。ClinicRealm研究的深度体现在其对模型“软实力”的评估上。4.1 人工评估LLM的推理质量如何临床专家从三个维度对LLM的推理链进行评分1-5分临床准确性与安全性LLM的推理是否基于给定事实有无虚构或危险陈述平均得分在3.5-4.2之间表明整体较好但仍有改进空间。幻觉问题确实存在但并非主流。推理与完整性LLM是否抓住了关键风险因素并进行了逻辑连接平均得分在3.7-4.3之间。专家发现LLM通常能识别重要特征但逻辑链条的深度和临床洞察的层次感有时不如资深医生。清晰度与临床效用解释是否清晰有用平均得分在3.8-4.4之间是评分最高的维度。这说明LLM生成的解释对临床医生有实际参考价值能帮助理解模型的判断依据。启示LLM在提供“可解释性”方面具有天然优势。通过设计合理的提示如“请逐步推理”我们可以获得一个伴随预测的、人类可读的“诊断思路”。这比传统模型的黑箱输出或简单的特征重要性排序在临床实践中可能更容易被接受和信任。4.2 错误模式分析LLM常在哪“踩坑”研究归纳了LLM在临床推理中常见的五类错误这对于提示工程和模型改进至关重要事实不一致/幻觉最严重的问题。模型可能“脑补”出病历中未记录的并发症或检查结果。遗漏关键信息忽略了病历中明确记载的、对预测至关重要的高风险指标。逻辑或推理缺陷虽然引用的数据正确但得出的临床结论不合理或误解了其重要性例如将稳定的慢性病与急性风险过度关联。包含无关信息在推理中堆砌了大量与当前预后无关的细节干扰了核心判断。信心程度不当对基于模糊数据得出的结论表现出过度自信或对明确的风险因素表现得过于犹豫。应对策略提示设计在指令中明确强调“仅基于提供的信息进行推理”、“避免猜测未提及的内容”、“重点关注与[具体任务如死亡风险]最相关的因素”。后处理与校验对于高风险应用可以引入规则校验或二次确认机制对模型输出中提及的关键事实与原始数据进行核对。领域微调虽然研究显示医学微调LLM在预测性能上优势不大但针对“减少幻觉、提升推理严谨性”的微调可能对提高可靠性有专门价值。4.3 公平性考量研究还对模型在不同人口统计学亚组如年龄、性别、种族上的表现差异进行了分析详见附录。这是负责任AI的必备环节。初步结果表明不同模型在不同子群体间存在性能差异但没有一种模型在所有群体上始终公平。这提醒我们在部署任何临床预测模型前必须进行独立的公平性审计确保其不会加剧现有的医疗不平等。5. 给从业者的实战指南与未来展望基于ClinicRealm的全面发现我们可以绘制一份当前阶段在临床预测任务中应用LLM的实战指南。5.1 模型选型决策树面对一个具体的临床预测需求你可以遵循以下路径进行技术选型开始 │ ├── 你的数据模态是什么 │ │ │ ├── 主要是非结构化临床文本如病程记录、出院小结 │ │ │ │ │ └── **首选顶级LLM的零样本能力测试** │ │ ├── 推荐模型DeepSeek-V3.1, GPT-5, DeepSeek-R1 │ │ ├── 操作设计清晰指令直接输入文本进行预测。 │ │ └── **对比基线微调的BERT/GatorTron模型**。如果LLM零样本已超越或接近则优先采用LLM方案。 │ │ │ └── 主要是结构化时序EHR数据 │ │ │ ├── 你的数据量是否充足通常指数千至上万样本 │ │ │ │ │ ├── 是 → **首选专用EHR预测模型如AdaCare, AICare进行全量训练**。这是性能上限最高的方案。 │ │ │ └── **同时测试**LLM零样本/少样本性能作为有趣对照。 │ │ │ │ │ └── 否数据稀缺→ **首选高级LLM的零样本/少样本提示** │ │ ├── 推荐模型GPT-5, DeepSeek-V3.1-Think, GPT-4o (使用优化提示ICL) │ │ └── **核心步骤**必须进行精细的提示工程特征列表化、添加单位/参考范围。 │ └── 你是否需要模型提供推理过程以增强可信度 │ ├── 是 → **优先考虑具有“思考链”能力的LLM**如DeepSeek-V3.1-Think, GPT-5并在提示中明确要求逐步推理。 │ └── 注意需对生成的推理进行人工审核或自动化事实核查防范幻觉。 │ └── 否只需最终预测概率 → 所有上述模型均可考虑传统模型输出更简洁。5.2 提示工程模板示例以结构化EHR死亡率预测为例以下是一个经过优化的提示模板你可以在此基础上调整你是一位经验丰富的临床医生助理。请根据以下患者的住院电子健康记录EHR数据评估其在本次住院期间的死亡风险。请逐步思考最后给出一个介于0到1之间的死亡风险概率其中0表示极不可能死亡1表示极有可能死亡。 患者信息 - 年龄[数值] 岁 - 性别[男/女] 入院后每日监测数据记录格式指标名称: 数值 [单位] (正常参考范围) 第1天 - 心率: 105 [次/分钟] (60-100) - 收缩压: 88 [mmHg] (90-140) - 血氧饱和度: 91% (95-100%) - 体温: 38.5 [°C] (36.5-37.5) - 呼吸频率: 24 [次/分钟] (12-20) - 白细胞计数: 15.2 [10^9/L] (4.0-10.0) - 肌酐: 1.8 [mg/dL] (0.6-1.2) ...(列出所有相关特征) 第2天 ...(同上) [可选添加上下文学习示例] 示例1 [数据示例1] 关键风险因素患者存在高龄、低血压、低氧血症和白细胞显著升高提示可能存在严重感染和器官灌注不足。 推理这些指标的组合表明患者处于感染性休克的高危状态死亡风险高。 预测概率0.85 示例2 [数据示例2] 关键风险因素患者生命体征基本在正常范围内仅单项指标轻微异常。 推理无明显高危因素死亡风险低。 预测概率0.05 现在请分析当前患者的数据 [插入当前患者的实际EHR数据] 请按以下步骤输出 1. 首先列出你认为最关键的三到五个异常临床指标及其临床意义。 2. 然后基于这些指标进行逐步的临床推理。 3. 最后输出你的最终死亡风险概率格式为{risk_score: [你的概率值]}5.3 未来研究方向与挑战ClinicRealm研究打开了一扇门也指明了未来的路提示工程的自动化与优化如何为不同的临床预测任务和数据类型自动生成或搜索最优提示模板是一个亟待解决的问题。解决时序数据理解瓶颈LLM对长序列、稀疏的时序EHR数据的理解仍是短板。需要探索更好的架构如状态空间模型SSM与LLM结合或编码方式让LLM能像理解故事一样理解病情演变。可靠性与安全性的强化如何通过微调、强化学习从人类反馈RLHF或约束解码等技术系统性减少LLM在临床推理中的幻觉和逻辑错误是走向临床部署的关键。真正高效的多模态融合开发新的架构使LLM能更深度、更智能地融合文本、时序数据、影像甚至基因组学信息实现真正的全息患者建模。个性化与动态预测将LLM与患者个体历史数据结合实现随时间推移不断更新的动态风险预测而不仅仅是单次静态评估。这项研究清晰地表明大语言模型在临床预测领域的角色正从一个“有趣的辅助工具”迅速转变为“不可忽视的竞争性解决方案”。它带来的不仅是性能基准的刷新更是一种思维模式的转变我们或许不再总是需要为每一个预测任务从头训练一个模型而是可以学会如何更好地与一个通用的、强大的医学知识推理引擎进行“对话”和“协作”。对于医疗AI的从业者而言现在正是重新审视工具箱、拥抱这场范式变革的最佳时机。