Agent 的创造力:随机性与确定性的平衡
Agent 的创造力:随机性与确定性的平衡开篇故事:一个被吵翻的需求评审会上周我参与了某头部电商公司智能营销Agent的POC需求评审会,产品经理抛出的两个要求让整个技术团队吵翻了天:要求1:所有生成的营销方案中,产品参数、优惠规则、合规话术必须100%准确,绝对不能出现虚假宣传,否则要吃监管罚单;要求2:每次生成的10套方案必须完全不同,要有让人眼前一亮的创意,不能和现有模板库的内容重复,否则还要我们做Agent干什么?团队里两个资深工程师各执一词:做企业级应用出身的工程师坚持要把大模型temperature调到0,加多层Pydantic校验、RAG强制召回知识库内容,保证零错误;做AIGC应用的工程师坚决反对,说temperature调到0输出全是千篇一律的模板,根本没有任何创意可言,不如直接用规则引擎。这不是个例,而是当前所有Agent开发都会遇到的核心矛盾:我们到底要怎么平衡确定性和随机性,才能让Agent拥有真正实用的创造力,而不是要么变成死板的规则机器,要么变成满嘴跑火车的幻觉生成器?本文会从核心概念、数学模型、算法实现、项目实战、最佳实践等多个维度,彻底讲透Agent创造力的本质,以及如何在实际项目中落地可控的创造力平衡策略。一、核心概念与问题定义1.1 三个核心概念的清晰界定要讨论平衡,首先要把三个容易混淆的概念说清楚:概念定义核心特征确定性Agent输出符合预设约束的程度,约束包括事实准确性、合规要求、业务规则、任务目标等可预期、可校验、低风险随机性Agent输出的多样性、新颖性、发散性,是跳出已有模板生成全新内容的基础不可预期、差异化、高探索性创造力(Agent语境下)在满足所有确定性约束的前提下,生成新颖、有价值、可落地的输出的能力约束下的发散、有实际价值、非重复注意:很多人有个误区,认为“创造力就是无拘无束的天马行空”,这是完全错误的。所有人类的创造力都有边界:李白写诗要符合平仄押韵,设计师做海报要符合品牌调性,工程师做架构设计要符合性能、成本约束。没有边界的随机不是创造力,是噪音。Agent的创造力同样如此,脱离了确定性约束的随机性,本质就是幻觉。1.2 问题背景:当前Agent落地的两大死穴根据2024年《企业级Agent落地现状调研》,72%的Agent项目最终无法上线,核心原因就卡在两个极端:极端1:过度追求确定性,Agent完全丧失实用价值很多企业做Agent的第一优先级是“不能出错”,于是会叠加大量约束:temperature设为0、prompt强制要求“只能用知识库内容回答,不知道就说不知道”、所有输出必须过规则引擎校验、禁止调用外部工具做发散思考。最终做出来的Agent比传统问答机器人还死板:用户问“有没有适合学生的优惠”,如果知识库没有就直接回复“没有相关活动”,完全不会主动推荐性价比最高的入门款套餐;用户问“这个功能能不能改一下适配我们的场景”,直接回复“不支持自定义”,不会给出变通的实现方案。这种Agent除了节省一点客服话术成本,没有任何额外价值。极端2:过度追求随机性,幻觉问题不可控另一类做C端创意类Agent的团队,会把temperature调到1以上,减少prompt约束,鼓励大模型自由发挥。最终生成的内容看起来创意十足,但仔细看全是问题:营销方案里写着“产品售价299元”,实际官方售价是399;代码生成方案里调用了根本不存在的第三方API;广告文案里出现了违反广告法的“国家级”“最高级”词汇。这类Agent根本没法落地,一上线就会带来业务风险。1.3 核心问题:如何实现可控的平衡我们要解决的核心问题可以抽象为:给定任意任务场景SSS,预设约束集合CCC,如何配置Agent的生成策略和校验机制,使得输出集合OOO满足:所有o∈Oo \in Oo∈O都满足约束集合CCC(确定性要求)OOO中元素的重复率低于阈值TdT_dTd,且新颖度高于阈值TnT_nTn(随机性要求)所有o∈Oo \in Oo∈O的价值度高于阈值TvT_vTv(创造力要求)二、核心要素关系与模型2.1 确定性与随机性的属性维度对比我们从8个核心维度对两者的属性做对比,方便大家理解不同场景下的倾斜策略:对比维度确定性随机性核心目标降低风险、保证合规、符合预期提升多样性、探索新路径、增强差异化价值体现避免损失、降低人工校验成本创造增量价值、提升用户体验、突破现有瓶颈风险点输出僵化、用户体验差、无法应对开放问题幻觉、合规风险、输出不可控适用场景客服、运维、代码生成、数据查询、财务核算文案创作、创意策划、艺术设计、路径探索、方案设计技术实现手段RAG、Prompt约束、输出校验、低temperature、Greedy解码高temperature、Top-P采样、多候选生成、提示词鼓励发散评价指标准确率、合规率、错误率新颖度、重复率、多样性得分权重占比(常规场景)60%-90%10%-40%极端场景权重100%(比如医疗诊断、金融交易)80%(比如艺术创作、头脑风暴)2.2 三者的实体关系架构图我们用Mermaid ER图展示确定性、随机性、创造力三者的关系:作为基座约束作为增量来源确定性list事实约束list合规约束list业务约束