收藏!美团开源论文Skill1/SKILL0,小白程序员必看:轻松掌握大模型技能进化秘籍
美团的Skill1和SKILL0论文分别从外部技能库进化和技能内化模型参数两个方向推动Agent技能提升。Skill1通过频率分解用强化学习统一驱动技能选择、使用和提炼SKILL0采用动态课程策略在训练中逐步移除技能上下文使模型在推理时无需依赖技能库效率提升80-95%。实验证明Skill1将ALFWorld成功率提升至97.5%SKILL0在ALFWorld和Search-QA上分别提升9.7%和6.6%且推理开销极低。两篇论文的结合为Agent技能管理提供了新思路助力大模型真正“起飞”。如果说 Agent 是 LLM 的双手那 Skill 库就是 Agent 的肌肉记忆——但怎么让记忆真的好用、真的省力一直是道没解开的题。美团最近连出两篇论文分别叫 Skill1 和 SKILL0一个管外部技能库怎么进化一个管技能怎么内化到模型参数里。两篇论文从两个方向把同一个问题往前推了一大步让 Agent 的技能既强又轻。Skill1用频率分解让选、用、造一起进化Skill1 的核心思路是用一套强化学习信号同时驱动技能选择、技能使用和技能提炼三个模块。怎么做到的它把任务最终的成功/失败信号做了频率分解低频分量长期趋势→ 归给技能选择——说明是选对了技能才赢了高频分量短期波动→ 归给技能提炼——说明是执行过程中某个关键动作立了功这样一个 reward 信号同时教会了三件事不需要分别设计三套奖励函数。Skill1 方法架构底座用的是 Qwen2.5-7B-Instruct训练在 8 卡 H800 上跑约 30 小时。用的是 GRPOGroup Relative Policy Optimization不走 SFT直接 RL 端到端训练。SKILL0训练时学推理时甩掉SKILL0 的口号是 Skills at training, zero at inference。做法分三步训练初期给满技能上下文描述 示例 使用指南让模型充分学会训练中期根据一个有用度指标H(s, k)逐步撤掉帮助不大的技能上下文训练末期所有技能上下文全部移除模型必须靠自己的参数来完成任务这个逐步撤掉的策略叫 Dynamic Curriculum是 SKILL0 最关键的贡献。论文发现如果一次性拿掉技能性能会暴跌但渐进式撤除可以让模型平稳地把技能内化到权重里。SKILL0 动态课程机制结果很直观推理时每个 step 只需要 0.5k token比传统技能库方案少了 80-95% 的 token 开销。实验结果两篇论文都在 ALFWorld家庭环境交互基准上做了主实验方法ALFWorld 成功率推理 Token 开销核心特点Skill197.5%正常带技能库统一 RL 联合优化SKILL09.7%vs AgentOCR0.5k/step训练学技能推理不用RetroAgent前 SOTA94.9%高检索式技能库Skill1 主实验结果Skill1 在 ALFWorld 上把之前的最好成绩从 94.9% 拉到 97.5%涨了 2.6 个百分点。同时消融实验证明去掉任何一个联合优化模块都会掉点——说明一起进化确实比各管各的管用。SKILL0 实验对比SKILL0 在 ALFWorld 上比 AgentOCR 基线高 9.7%在 Search-QA 上高 6.6%。而且推理效率碾压——每步不到 500 token。最后两篇论文放在一起看信息量比单独看一篇大得多Skill1 解决了外部技能库怎么自我进化的问题——选、用、造三个环节不再各自为战SKILL0 解决了技能能不能长进模型里的问题——训练完就把技能库扔掉推理极轻这意味着 Agent 技能管理可以从两个方向同时突破对外技能库可以越用越聪明对内技能可以变成模型本能。美团团队同时推这两条路线大概率不是巧合——未来如果把 Skill1 的联合进化能力和 SKILL0 的技能内化能力结合理论上可以实现训练阶段技能库持续进化推理阶段技能全部内化、零额外开销。这才是 Agent 真正起飞的样子。论文标题: Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning 论文链接: https://arxiv.org/abs/2605.06130 GitHub: https://github.com/AlphaLab-USTC/Skill1 论文标题: SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization 论文链接: https://arxiv.org/abs/2604.02268 GitHub: https://github.com/ZJU-REAL/SkillZero如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取