ZDNET 要点总结使用智能体时AI 按令牌计算的成本飙升且表现不稳定无法预测其令牌总使用量用户必须要求价格透明和性能保证。研究背景与发现密歇根大学及其合作机构的研究指出智能体成本飙升且难以预测。该研究题为《AI 智能体如何花费你的金钱分析和预测智能体编码任务中的令牌消耗》已发布在 arXiv 预印本服务器上。研究发现智能体消耗的令牌数量比逐轮的简单基于提示的聊天多得多不同模型执行相同任务时令牌成本差异大且同一模型每次处理相同问题成本也可能不同无法预测。计算令牌成本研究团队使用开源智能体 AI 框架 OpenHands 构建智能体并在开源编码基准测试 SWE - Bench 上测试。不同模型有不同表现如 OpenAI 的 ChatGPT 5 和 5.2 以低成本实现较高准确率Anthropic 的 Claude Sonnet - 4.5 准确率最高但令牌成本更高Google 的 Gemini - 3 - Pro 处于两者之间中国 AI 实验室 Moonshot 的 Kimi - K2 模型表现最差。更多令牌不一定带来更好结果智能体在任务上花费时间越长工作效果可能越差。无法预测成本智能体难以进行令牌使用量预测和定价其自我预测往往偏低。关注输入令牌输入令牌在令牌成本中占主导地位智能体工作流会累积不同来源信息相同上下文反复输入模型导致输入/输出比率高最昂贵的输入令牌因素是从内存中检索先前信息。终将面临清算研究结果证实使用编码智能体时费用增加且成本不明。作者提议智能体可进行“粗粒度”的令牌成本估计。用户可考虑控制输入环节因素但整个行业需采取更多措施用户应联合施压供应商提供价格透明和任务完成保证。相关推荐微软终于开源 DOS 1.0如何审计 ChatGPT 对你的了解并重新夺回数据隐私为什么虚拟桌面如此有用测试 ChatGPT Images 2.0 与 Gemini Nano Banana 哪个更好。