【技术干货】从 Anthropic Cloud Managed Agents 看下一代 AI 代理架构（含完整 Python 接入示例）

张

张建站

2026/5/8 6:54:51

10分钟阅读

【技术干货】从 Anthropic Cloud Managed Agents 看下一代 AI 代理架构（含完整 Python 接入示例）

摘要Anthropic 推出的 Cloud Managed Agents本质上是一个“云托管 AI 代理平台”内置 Agent Loop、工具执行层、长时任务调度、上下文压缩与性能优化。本文从架构原理出发拆解其核心能力类比如何在自己项目中用“托管式 Agent 思路”落地并给出基于薛定猫 AIOpenAI 兼容的一套可运行 Python 代码示例帮助你快速构建生产级 AI 代理服务。一、背景介绍从“调用模型”到“托管代理”过去一年Agent 相关的开源项目如 LangChain Agents、AutoGen、OpenAI o1 Agents 类方案层出不穷但普遍存在几个落地痛点Agent Loop 需自研自己实现“思考 - 调用工具 - 再思考 - 再调用工具”的迭代流程容错、重试、超时、日志、可观测性都要自己处理长时任务难以可靠运行多小时任务需要额外的队列、调度系统Celery、Airflow 等中途中断、任务恢复、状态持久化都需要额外工程方案上下文成本高昂多轮工具调用长上下文 Token 成本爆炸需要手写“摘要压缩”策略极易出错Anthropic 的 Cloud Managed Agents 试图解决的是**从“自己写 Agent 框架”到“直接在托管平台上配置并部署 Agent”**的范式转变提供预构建、可配置的 Agent Harness代理框架运行在托管基础设施上原生支持文件读取代码执行Web 浏览命令执行沙箱内安全运行内置Prompt Caching提示缓存Context Compaction上下文压缩性能优化与质量控制对开发者的意义不再从零搭一个 Agent Runtime而是**把精力放到“定义能力接入业务”**上。二、核心原理托管式 AI 代理的关键能力拆解2.1 托管 Agent Harness统一的“智能体运行时”Cloud Managed Agents 提供的是一个统一的代理运行容器其核心职责包括Agent Loop 编排负责多轮推理、工具调用与决策工具执行层在沙箱中执行代码 / 命令或通过 MCP / HTTP 调用外部系统状态管理维护会话、任务状态、运行日志长时任务调度支持异步与长时后台运行如批量文档处理、复杂研究任务这种模式在企业里非常重要——你只需声明 Agent 的职责system prompt / description声明可用工具 / 外部系统Box API、Slack、Notion、自建 API 等把 Agent 暴露给业务侧Webhook、API、应用内集成其余的循环、调度和资源管理由平台托管。2.2 智能优化Prompt Cache 上下文压缩视频中提到的几个关键能力其实解决的是传统 Agent 的两个工程痛点Prompt Caching对重复调用的指令 / context 增加缓存减少模型重复工作降低成本Context Compaction将长对话、长任务中的历史信息压缩为摘要保留语义关键信息减少 token 长度性能优化QoS / Latency / Cost不同任务自动选择合适模型如为深度研究自动选 Anthropic Opus 4.6在延迟、成本、推理深度之间自动协调这些能力的本质都是通过平台统一做“跨任务的经验复用与最优策略搜索”而不是让每个团队各自重复造轮子。2.3 MCP、外部 API 与企业工作流集成视频中的示例场景本质上都是**“Agent 工具 / API 长时任务”**从 Box 拉取发票和采购订单 → 校验明细 → 生成对账报告Slack Notion 构建内部知识库问答 / 支持 Agent深度研究 Agent自动检索 Web / 知识库生成 Markdown 报告关键技术点**工具Tools / MCP Servers**作为 Agent 的“手脚”Agent 负责何时调用工具如何解析结果如何组织最终输出这种模式非常适合企业的端到端自动化工作流文档审核、报表生成、邮件自动回复、销售线索跟进等。三、实战演示用“托管式思路”在 Python 中构建一个长时研究 Agent虽然 Cloud Managed Agents 本身是 Anthropic 的托管平台但在自己的项目中我们可以复刻类似的**“托管 Agent 思路”**把 Agent Runtime 单独做成一个服务业务侧只需要调用一个统一接口。下面用薛定猫 AIxuedingmao.com来做一个简化版的“深度研究 Agent”示例使用 OpenAI 兼容接口URL API Key模型claude-sonnet-4-6类比视频中的 Opus 4.6擅长长推理支持接收一个研究主题自动分解为多个小任务输出结构化 Markdown 报告以“托管式”方式提供 HTTP API供其他服务调用3.1 环境准备pipinstallrequests fastapi uvicorn3.2 核心代码示例可直接运行# filename: research_agent_service.py# 一个简化版“托管代理”服务示例基于薛定猫 AI 的 OpenAI 兼容接口importosimporttimeimportuuidfromtypingimportListimportrequestsfromfastapiimportFastAPIfrompydanticimportBaseModel# 配置区域 # 薛定猫 AI 平台https://xuedingmao.com# 后台创建 API Key 后填入环境变量 XUEDINGMAO_API_KEYXUEDINGMAO_API_KEYos.getenv(XUEDINGMAO_API_KEY)ifnotXUEDINGMAO_API_KEY:raiseRuntimeError(请先在环境变量中设置 XUEDINGMAO_API_KEY)# OpenAI 兼容模式的 Base URLBASE_URLhttps://xuedingmao.com/v1MODEL_NAMEclaude-sonnet-4-6# 基础 HTTP 客户端封装 defcall_llm(system_prompt:str,user_prompt:str)-str: 调用薛定猫 AI 的 Chat Completions 接口返回模型文本输出。相当于“托管代理框架”中的一次思考/决策步骤。 urlf{BASE_URL}/chat/completionsheaders{Authorization:fBearer{XUEDINGMAO_API_KEY},Content-Type:application/json,}payload{model:MODEL_NAME,messages:[{role:system,content:system_prompt},{role:user,content:user_prompt},],temperature:0.2,}resprequests.post(url,jsonpayload,headersheaders,timeout60)resp.raise_for_status()dataresp.json()returndata[choices][0][message][content]# 简化版“托管 Agent Loop”实现 SYSTEM_PROMPT 你是一个严谨的研究型 AI 代理负责针对给定主题进行多步骤、高质量的研究并输出结构化的 Markdown 报告。约束 1. 所有结论必须基于权威公开信息期刊论文、权威媒体、行业报告等。 2. 报告结构至少包括概述、关键参与者、近期进展、技术/商业挑战、时间线与前景。 3. 内容要求条理清晰、分点叙述、给出简要来源说明不需要精确引用格式。 4. 输出统一使用 Markdown 标题与列表。 defplan_research_tasks(topic:str)-List[str]: 让模型先进行“任务拆解”生成子问题列表相当于 Agent 的“规划阶段”。 user_promptf 请针对研究主题 {topic} 设计一个分步骤的研究计划。输出格式为纯文本多行每行一个子任务或子问题不要添加序号前缀。 plan_textcall_llm(SYSTEM_PROMPT,user_prompt)tasks[line.strip(-• ).strip()forlineinplan_text.splitlines()ifline.strip()]returntasksdefexecute_research(topic:str,tasks:List[str])-str: 按照任务列表执行研究。这里为了简化实际仍然由大模型在一次调用中“模拟多步推理”。在真实场景中你可以 - 为每个子任务单独调用 LLM - 存储中间结果 - 调用外部搜索/数据接口 joined_tasks\n.join(f-{t}fortintasks)user_promptf 研究主题{topic}你需要根据以下子任务列表进行系统性研究{joined_tasks}请综合这些子任务的研究结果输出一份完整的 Markdown 报告。严格遵守系统提示中的结构要求。 reportcall_llm(SYSTEM_PROMPT,user_prompt)returnreport# FastAPI 服务模拟“云托管代理”的 API 接口 classResearchRequest(BaseModel):topic:strclassResearchResponse(BaseModel):task_id:strreport_markdown:strcreated_at:floatappFastAPI(titleDeep Research Agent Service (xuedingmao Claude Sonnet 4.6))app.post(/research,response_modelResearchResponse)defresearch_endpoint(req:ResearchRequest): 供业务侧调用的统一接口 - 输入研究主题 - 内部自动任务规划执行 - 输出Markdown 报告任务 ID便于持久化与追踪 task_idstr(uuid.uuid4())created_attime.time()# 1) 规划阶段tasksplan_research_tasks(req.topic)# 2) 执行阶段这里简单同步执行也可以改为异步队列reportexecute_research(req.topic,tasks)returnResearchResponse(task_idtask_id,report_markdownreport,created_atcreated_at,)if__name____main__:importuvicorn# 本地启动服务uvicorn research_agent_service:app --reloaduvicorn.run(app,host0.0.0.0,port8000)使用方式# 启动服务exportXUEDINGMAO_API_KEYyour_api_key_herepython research_agent_service.py# 或 uvicorn research_agent_service:app --reload然后通过curl或 Postman 调用curl-XPOST http://localhost:8000/research\-HContent-Type: application/json\-d{topic: 聚变能源发展的现状、关键参与者、近期突破与商业化前景}返回结果包含task_id模拟托管任务 IDreport_markdown完整 Markdown 报告created_at时间戳这就是一个简化版“托管 Agent 服务”业务只需通过 HTTP 丢一个主题过来不关心内部如何调用 LLM、如何规划子任务。进一步你可以将任务持久化到数据库实现“会话 / 任务中心”增加外部搜索工具如调用自建检索 API将报告自动写入 Confluence / Notion / 企业文档系统四、注意事项与工程实践建议4.1 长时任务与可靠性使用消息队列Kafka / RabbitMQ或任务队列Celery / RQ处理长任务持久化 Agent 状态任务进度、子任务结果、错误日志增加超时、重试机制避免单次 LLM 调用阻塞4.2 成本控制与上下文管理为 Agent 层统一实现历史对话摘要类似 Cloud 的 context compactionPrompt 模板复用与缓存针对不同任务类型动态选择模型如快速问答用小模型深度研究用大模型4.3 安全与权限边界对“文件读取 / 命令执行 / 外部 API 调用”进行严格沙箱化和权限控制对敏感数据使用脱敏 / 分级访问控制为每类 Agent 设定“可见数据范围”和工具白名单五、技术资源与工具推荐多模型时代如何做技术选型在落地类似 Cloud Managed Agents 这种架构时一个核心问题是如何在多模型环境下统一接入与管理这里推荐一个我日常在用的开发平台——薛定猫 AIxuedingmao.com从技术选型视角来看有几个优点模型聚合能力聚合了 500 主流大模型GPT-5.4、Claude 4.6、Gemini 3 Pro 等新模型上线速度快可以第一时间做 A/B 测试和效果对比统一 API 接口OpenAI 兼容像本文示例一样只需切换 Base URL Key 模型名上层 Agent 框架代码基本不变大幅降低多模型集成复杂度工程友好性接口稳定、错误码设计清晰便于做重试与限流配合你自己的队列 / 调度系统很容易搭建类似“自建云托管 Agent 平台”对需要构建“公司内部版 Cloud Managed Agents”的团队来说一个支持多模型、统一接口的底层平台会极大简化工程复杂度。六、小结围绕 Anthropic Cloud Managed Agents可以提炼出几条对我们真正有价值的工程思路从“直接调模型”升级为“搭建统一的 Agent Runtime / Service”把精力放在定义 Agent 职责接入业务系统管理工具权限利用类 OpenAI 兼容平台如薛定猫 AI作为底层模型层屏蔽多模型差异在 Agent 层统一实现长时任务、上下文压缩、成本控制和可观测性一旦形成这样的技术架构你就可以像视频中的示例一样快速搭建智能邮件助手自动管理 Gmail / 企业邮箱文档审核与报表生成 Agent深度研究 / 市场情报 Agent面向 Slack / 钉钉 / 飞书的内部知识助理而这些都不再是“Demo 级别”而是真正可以跑在生产环境中的 AI 代理系统。#AI #大模型 #Python #机器学习 #技术实战

用phpstudy在Win11上快速搭建DVWA：一个视频+这篇图文就够了

Win11下DVWA靶场极速搭建指南：phpstudy全流程详解与避坑手册每次在本地搭建渗透测试环境时，最头疼的就是各种组件的版本冲突和配置问题。直到发现了phpstudy这个神器，配合DVWA靶场，终于能实现一键式部署。本文将带你用最简洁的步…...

2026/5/6 14:29:42 阅读更多 →

MySQL优化全攻略：索引、SQL与分库分表的最佳实践坝

一、各自优势和对比这是检索出来的数据，据说是根据第三方评测与企业数据，三款产品在代码生成质量上各有侧重： 产品语言优势场景亮点核心差异百度 Comate C核心代码质量第一；Python首生成率达92.3% SQL生成准确率提升35%&…...

2026/4/16 6:58:50 阅读更多 →

Qwen3-4B Instruct-2507功能体验：流式输出、参数调节、多轮记忆全解析

Qwen3-4B Instruct-2507功能体验：流式输出、参数调节、多轮记忆全解析 1. 开箱体验：极速文本对话服务初印象第一次接触Qwen3-4B Instruct-2507时，最直观的感受是它的响应速度。输入一个问题后，几乎在按下回车的瞬间就能看到光标…...

2026/4/11 0:46:01 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →