AI 递归自我改进Anthropic 联创预测 2028 年前有 60% 概率实现如果有一天AI 能自主构建并改进更强大的 AI而不再需要人类工程师介入——这个时刻会是什么感觉Anthropic 联合创始人 Jack Clark 给出了他的判断到 2028 年底这件事发生的概率是 60%。这不是科幻小说里的情节设定而是他基于数百份公开论文、能力基准测试数据一条条推导出来的结论。什么是递归自我改进RSI“递归自我改进”Recursive Self-ImprovementRSI的核心含义是AI 系统能够自主地设计、训练和改进下一代 AI 系统形成无需人类干预的自我迭代循环。Clark 将其比作跨越卢比孔河——一旦越过就进入了一个几乎无法用现有框架预测的未来。这个概念听起来抽象但他用具体数据把它拉回了现实。数据说话AI 能力正在加速突破任务时长四年提升 1440 倍METR 的研究跟踪了 AI 能独立完成任务所需的时长以 50% 成功率为基准2022 年约 30 秒2026 年约 12 小时预测 2026 年底可能突破 100 小时四年内这个数字从 30 秒跳到 12 小时增长了1440 倍。这意味着 AI 能够独立驾驭的任务复杂度正在以惊人速度扩展。SWE-Bench从 2% 到 93.9%SWE-Bench 测试 AI 解决真实 GitHub 问题的能力——这是软件工程中最贴近实际生产环境的基准之一时间Claude 模型能力2023 年底2%2026 年93.9%不到三年这个基准几乎被彻底解决。CORE-Bench15 个月从 21.5% 到 95.5%CORE-Bench 衡量 AI 复现论文实验结果的能力——这正是科研流程中最耗时的环节之一2024 年最高准确率 21.5%2025 年中最高准确率 95.5%15 个月从勉强及格到接近完美。该基准已宣布被解决。MLE-BenchAI 参加 Kaggle 竞赛MLE-Bench 让 AI 参与真实的机器学习竞赛Kaggle评估其在模型优化任务上的实战水平2024 年 10 月最高得分 16.9%2026 年 2 月最高得分 64.4%AI 优化训练代码速度提升 52 倍Anthropic 内部测试中AI 优化小型语言模型训练代码的效率在不到一年内从基准的2.9 倍跃升至 52 倍。这意味着 AI 已经能够有效地对AI 训练本身进行工程优化。核心逻辑99% 的工程即将自动化提供与官方 API 完全兼容的接入服务在这里插入图片描述](https://i-blog.csdnimg.cn/direct/13327fe047144c62813bc5e4fd58a310.png)Clark 引用爱迪生的名言将 AI 研究分为两部分1% 的灵感真正开创性的思路比如 Transformer 架构的提出99% 的汗水数据清洗、实验跑通、超参调整、论文复现……他的判断是AI 正在快速接管那 99% 的工程性工作。有几个具体迹象支撑这一判断AI 充当项目经理现有系统已能像 PM 一样调度多个 AI 子任务分配工作并汇总结果。PostTrainBench 的表现在微调开源模型以提升性能的任务上AI 已能达到人类研究员效果的约一半。Anthropic 内部概念验证在自动化对齐研究的实验中AI 提出的方案甚至超过了人类研究员的基线。一旦 AI 在那 1% 的灵感方面也取得突破完整的研究→改进→更强 AI循环就会形成。为什么是 60%而不是更高Clark 的预测并非无条件乐观。他将概率区分为两个阶段2027 年底30% 概率2028 年底60% 概率他坦承AI 目前在需要创意直觉的突破性研究上仍存在系统性缺口——那种真正提出新范式的能力现有模型还不具备。2027 年的 30% 反映的是工程自动化基本完成但创意缺口未弥合的情景而 2028 年的 60%则基于他对这一能力缺口有相当概率在那之前被填补的判断。如果你正在评估如何将 Claude API 接入你的产品或工作流ClaudeAPI.com 提供与官方 API 完全兼容的接入服务质疑的声音也值得认真对待公平起见文章也梳理了几个反驳视角边际效益递减AI 自我改进未必带来指数级增长可能只是边际收益递减——在某些维度上越来越难再有突破。定义模糊目前学界对递归自我改进尚无权威的统一定义不同人对实现 RSI的标准理解可能差异很大。能力缺口正如 Clark 自己承认的现有 AI 在开创性研究上仍有明显不足。这些质疑不是否定而是提醒我们预测这类拐点本质上存在极大的不确定性。更紧迫的问题治理窗口正在关闭技术层面的争论可以持续但 Clark 更担心的是另一件事我们没有多少时间了。他警告如果 RSI 发生现有的 AI 对齐技术在多代迭代后效果会急剧衰减社会、研究界和政策层对此的讨论和准备还远远不够OpenAI、Anthropic 以及专注于此方向的新公司如 Recursive Superintelligence正在全速推进整个行业都在踩油门而刹车系统还没造好。对开发者意味着什么如果 Clark 的判断哪怕只有一半是对的那么接下来几年的 AI 能力跃升将是我们见过的最快的一次。对于现在正在使用 Claude API 构建产品的开发者来说这意味着今天构建的 AI 工作流明天可能会被 AI 自动优化——把自动化能力内嵌进产品架构是值得认真思考的方向。模型能力边界在快速移动——定期重新评估你的任务分配哪些交给 AI哪些留给人类是必要的习惯。复杂的多智能体协作正在变得可行——编排 AI 完成端到端研究或工程任务不再只是实验室里的概念。小结Jack Clark 的预测不是末日论也不是盲目乐观——它是一份基于数据推导的、带着明确不确定性区间的技术判断。从 SWE-Bench 的 2% 到 93.9%从 30 秒任务到 12 小时任务从人工跑实验到 AI 自动优化训练代码……这些数字不是在预言未来它们描述的是已经发生的现在。2028 年还有两年半。无论 RSI 是否如期到来AI 研发自动化的浪潮已经在路上了。