Claude Code开发者大会系列3｜智能体学会“做梦”：Managed Agents的三项核心进化

张

张建站

2026/5/15 20:07:19

10分钟阅读

Claude Code开发者大会系列3｜智能体学会“做梦”：Managed Agents的三项核心进化

在“Code w/ Claude”旧金山开发者大会的Keynote平台环节Claude平台的产品负责人Angela Jiang和工程负责人Katelyn Lesse联合登台为Claude Managed Agents带来了三项重大更新。这不是简单的功能叠加而是为AI智能体赋予了三个此前只属于人类高级认知能力的“元技能”——Dreaming复盘学习、Outcomes结果评估和Multi-agent Orchestration多智能体编排。一、Dreaming让智能体学会从经验中自我进化1.1 为什么Agent需要“做梦”任何深度使用过AI Agent的人都迟早会撞上同一堵墙——记忆污染。Anthropic研发产品管理负责人Alex Albert在大会上指出当一个智能体需要长时间、多频次地处理复杂任务时它会将大量离散信息存入记忆库。然而随着项目持续记忆会变得臃肿而混乱重复条目越来越多早期信息已过时却仍占据空间甚至出现前后矛盾的内容。更致命的是单个智能体只拥有当前会话的局部视角缺乏对整体工作状况的宏观认知无法自行发现这类问题。Anthropic对此给出的解决方案就是Dreaming梦境机制。1.2 Dreaming是如何工作的Dreaming与传统的上下文窗口压缩有着本质区别。传统的压缩机制通常只在单次对话内运行作用是腾出Token空间而Dreaming是一个跨会话、跨智能体、定期运行的异步流程。它会同时读取Agent现有的记忆库和过去最多100个会话的完整文字记录然后生成一个全新的、经过重新梳理的记忆库。具体来说Dreaming在执行过程中完成三件事合并重复项将多个智能体独立记录的高度相似信息整合为一条精炼记忆。更新过时或矛盾的条目用最新的、准确的值替换那些已被新信息覆盖或互相矛盾的内容。挖掘宏观规律从历史会话中识别出单个智能体无法独立发现的隐藏模式——例如重复出现的错误、多个智能体不约而同收敛到的高效工作流、以及团队间共享的偏好和规范。熟悉神经科学的人会立刻发现这正是人脑快速眼动睡眠的核心机制人类在白天接收大量原始信息并存入短期记忆夜间的REM睡眠阶段则将这些经历重放、筛选、巩固有价值的长时记忆同时丢弃无用的信息碎片。Dreaming就是为AI智能体复现了这一过程。Alex Albert用了一个更通俗的比喻来解释Dreaming“想象一个团队——第一个人做了某件事并学到了方法第二个人再做时已经有所改进到了第三、第四次团队就会形成一个标准的操作流程。Dreaming做的事非常类似它是在智能体之间创建SOP”。1.3 重要的安全与可控设计Dreaming的设计中包含了两个重要的安全考量。第一Dreaming不会修改原始记忆库。它始终输出一个全新的记忆库副本开发者可以在变更生效前审查所有内容若对结果不满意可以直接丢弃。这意味着开发者对AI的“梦境”拥有完全的控制权可以选择自动更新也可以在人工审核后再决定是否采纳。第二梦境过程全程透明可观测。Dream任务进入运行状态后会暴露一个session_id开发者可以流式订阅该会话的完整事件流实时看到AI正在读取哪些记忆、正在写入哪些新条目若发现异常随时可以“叫醒”取消任务任务完成后底层会话会被归档保留事后还能回看完整的“梦境记录”。此外开发者可以通过instructions字段明确告诉AI“做什么梦”——例如聚焦于特定模块、特定时间范围或特定任务类型。由于输入记忆库从不被修改理论上可以基于同一份原始记忆跑多次Dreaming每次都聚焦不同主题产出不同维度的记忆优化结果。1.4 早期应用效果法律AI公司Harvey是Dreaming的首批测试用户之一。其应用场景是使用Managed Agents进行法律文书的起草和文件创建。Anthropic公布的数据显示启用Dreaming后Harvey的文档任务完成率提升了约六倍。原因在于智能体通过Dreaming学会了文件格式的变通技巧和工具使用模式——这些经验在传统的一次性会话中会直接“丢失”但Dreaming让它们跨会话、跨智能体保留并传播。实操提示Dreaming目前处于研究预览阶段需要向Anthropic申请访问权限。如果你的团队已部署了长期运行的多智能体流程——例如需要多个智能体协同完成的项目建议尽早申请试用因为Dreaming对跨会话、跨智能体的记忆管理效果最为显著。二、Outcomes让智能体拥有自我考核与迭代能力2.1 解决的问题如果Dreaming解决的是“如何让智能体从经验中学习”那么Outcomes解决的就是一个更基础的问题——“如何让智能体知道自己做得好不好”。传统Agent工作流中完成质量往往依赖人工审核。开发者发布指令智能体生成结果人工确认后再决定是否需要修改。这种模式在任务量小、频率低时可行但当智能体需要独立运行数小时、产出大量文件时人工逐个检查便成为瓶颈。2.2 Outcomes的运作机制Outcomes的核心设计是一套“独立评估-迭代修正”的自动化循环流程。开发者先编写一套评估标准rubric明确描述“什么算任务成功”。智能体以该标准为目标执行任务完成后由一个独立的评分模块在专属的上下文窗口中评估输出质量——评分模块与执行任务的Agent完全隔离因此不会受到Agent自身推理过程的干扰。若输出不符合标准评分模块会精准指出需要改进之处智能体随即重新处理完成后再送评分模块再次评估直到达标为止。开发者可以设置最大迭代次数来控制成本。值得注意的是Outcomes还可以与Webhooks联动开发者预先设定成果目标后让Agent自主运行任务完成后通过Webhook接收通知无需实时监控。2.3 实测数据Anthropic在内部测试中将Outcomes与标准提示循环做了系统性对比结果相当可观任务成功率提升最高10个百分点任务越难、提升越明显。在文件生成场景中docx格式任务成功率提高**8.4%pptx格式提高10.1%**。除了硬性质量提升Outcomes在主观质量场景中同样有效。比如品牌文案是否符合品牌语气、设计稿是否遵循视觉规范——这类过去必须靠人工反复确认的工作现在Agent可以对照明确的标准自行迭代打磨直至达标。医疗文件审查公司Wisedocs已经在生产环境中使用Outcomes。据Anthropic公布的数据Wisedocs的文档审查时间因此**缩短了50%**。实操建议Outcomes已在公测中可用。建议先从团队中一个边界清晰、成功标准易于定义的任务入手——例如一份Release Note、一份API文档、或一份测试覆盖率报告——先编写明确的评估规则让Agent跑起来并感受效果再逐步扩展到更多任务类型。三、Multi-agent OrchestrationAI的“兵团作战”3.1 架构设计当任务体量过大、涉及数据源过多单个Agent即便能力再强也难以高效完成。多智能体编排就是为这个场景而生。其架构采用“主导-专项”的代理模式。主导智能体首先将复杂任务拆解为多个子任务然后分派给配备专属模型、提示词和工具的专项子智能体。这些子智能体可以在共享文件系统上并行运作各自完成所负责的部分最终将结果汇总到主导智能体的整体上下文中。举例来说当发起一项复杂的系统事件调查时主导智能体可以同时派出子智能体A扫描错误日志寻找异常模式、子智能体B检查近期的部署历史、子智能体C分析性能指标、子智能体D查阅相关的支持工单。四线并行而非逐一排队。关键设计细节还包括事件记录具有持久化特性每个智能体都保有自己的操作记录主导智能体在流程中途可以随时回头与任一子智能体进行状态同步。此外Claude Console中提供了完整的溯源功能——开发者可以追溯每一步由哪个智能体执行、以何种顺序、出于何种原因确保整个编排过程可观测、可审计。3.2 Netflix的实战部署Netflix是多智能体编排的最早应用者之一。其平台工程团队需要处理来自海量构建生成的日志数据。传统方式下工程师需逐一手动分析数百个构建的日志效率极低。部署多智能体编排后主导智能体一次性将任务拆解分发多个子智能体在并行通道中批量分析来自不同数据源的日志识别出跨应用的重复性问题。Netflix在大会上公开了这一部署展示了AI驱动并行调查如何将大规模故障排查的效率提升到新的维度。3.3 更多应用场景除Netflix外更多团队也展示了多智能体编排的灵活应用Spiral by Every为其写作Agent构建了多智能体编排系统。主导智能体处理请求并拆解写作任务子智能体并行生成多版本草稿再由Outcomes系统对照编辑准则和用户写作风格进行评分筛选。“建议-执行分离”的架构模式Angela Jiang和Katelyn Lesse在会后播客中透露已有团队利用多智能体编排构建了“建议Agent”与“执行Agent”分离的架构——一个Agent负责提出方案另一个负责实施两者独立运作以降低出错风险还有团队尝试将内容生成与内容审核分配给不同的“对抗式”Agent以及利用“蜂群swarm”模式并行搜索Bug。部署建议第一步识别团队中那些“数据源分散、需要同时查阅多个系统才能得出结论”的任务——例如系统事故调查、跨仓库代码审计、多维度质量巡检。这类任务天生适合多智能体编排。第二步在Claude Console中使用溯源功能跟踪每个子智能体的行动路径确保编排过程完全可观测。架构考量企业IT负责人需要关注三个关键决策子智能体的模型分配策略哪些任务用大模型、哪些用小模型足够、共享文件系统的权限与安全边界、以及编排链路的失败恢复机制。三项能力的叠加效应与获取方式这三项能力并非孤立的“功能点”而是Anthropic构建自我进化型智能体工程平台的三根支柱。它们之间的协同关系可以用一个完整的闭环来描述多智能体编排让复杂任务被高效拆解并并行处理Outcomes为每个任务环节提供独立的质量把关和自动迭代Dreaming则在任务间的“安静时刻”复盘全局、沉淀经验、避免同样的错误在下一轮再次发生——三者叠加构成了一套智能体不重复犯错、能自我评估、能群体协作的正向飞轮。获取方式功能当前状态获取路径Dreaming研究预览Research Preview通过Anthropic官网提交等待列表申请Outcomes公测Public Beta通过Claude Platform API使用使用beta headermanaged-agents-2026-04-01Multi-agent Orchestration公测Public Beta同上Angela Jiang和Katelyn Lesse在会后访谈中描绘了一个更长远的方向“Claude会变得非常了解自己能自动判断该用哪个模型如何启动子智能体。用户关心的参数最终只有两个结果和预算”。从这个角度看Dreaming、Outcomes和Multi-agent Orchestration不仅是三项产品更新——它们是通往这一“自主Agent平台”愿景的三个关键基石。底线判断Anthropic正在做的事比任何单一功能发布都更加根本——它试图构建一套智能体不重复犯错、会自我评估、能群体协作、并在安静时刻自我进化的工程平台。这三项能力合在一起标志着Agent从“被使用者驱动”向“具备自主进化能力”的关键跃迁。如果你的团队正在使用或评估AI Agent工具此刻最值得做的是两件事第一找团队中一个高频重复的任务用Outcomes定义成功标准并开始试用第二识别团队中最适合多智能体编排的那个复杂任务——它的数据源分散、调查路径多变、人工处理耗时——然后申请多智能体编排权限开始部署。至于Dreaming如果你的团队已经涉及长期运行的多智能体流程现在正是申请研究预览的最佳窗口。

Vue项目集成海康威视NVR多通道视频预览：从环境配置到流畅播放的实战指南

1. 环境准备与基础配置第一次在Vue项目里对接海康威视NVR设备时，我对着官方文档折腾了整整两天。后来才发现，很多问题其实都出在环境配置阶段。这里把踩过的坑都总结出来，让你少走弯路。网络互通是首要条件。记得去年有个项目，客…...

2026/5/15 20:04:03 阅读更多 →

从零到1打造爆款智能体产品：AI产品经理/经理/开发工程师必备技能图谱！

本文系统梳理了从零到一设计和开发智能体产品的关键知识和技能，覆盖AI产品经理、AI项目经理和AI应用开发工程师三大核心角色的能力要求。内容涉及需求分析、场景选择、产品设计、数据标注、模型评估、AI伦理、项目规划、技术评估、提示工程、RAG技术、Agent架构、工…...

2026/5/15 20:00:48 阅读更多 →

第16章：C++ 灰度发布稳定

第16章：C++ 灰度发布稳定本章定位：第四卷《实战卷》第五篇"生产环境"第 16 章。 90% 的线上事故都是变更引起的，灰度发布是把"事故的影响半径"从全量缩到 1% 的关键工程。目录 01.变更与故障 1.1 90% 事故源头 1.2 灰度的本质 1.3 适用与不适用 02.发…...

2026/5/15 20:00:46 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/14 4:32:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/14 21:21:27 阅读更多 →