Agent 在二手车行业的落地实践

张

张建站

2026/4/25 22:37:21

10分钟阅读

Agent在二手车行业的落地实践从记忆中台到智能顾问的全链路搭建过去一年我主导了从底层记忆中台、中间Agent编排平台到上层二手车交易智能顾问应用的完整AI Agent落地体系解决了二手车销售咨询场景中人工成本高、规则系统覆盖不全、多轮对话上下文断层等痛点。本文将复盘整个落地过程从技术架构、核心机制到业务成果分享行业Agent落地的实践经验。一、二手车咨询场景的Agent落地痛点二手车在线销售的咨询场景一直是行业里的老大难问题问题复杂度高用户的问题跨越车型配置、车况、金融方案、交易流程、售后、车辆推荐等近10个领域传统规则引擎最多只能覆盖40%的标准化问题剩下的开放式问题全靠人工坐席处理长周期上下文断层二手车交易周期长达1-2周客户的交互分散在线聊天、历史跟进消息、APP各种动作行为等多个渠道销售很难记住客户之前提过的预算、偏好经常重复问相同的问题口径不一体验很差能力扩展慢之前每次上新业务都要改核心代码上线周期长达2周跟不上业务的迭代速度稳定性差早期试过单一模型直答不仅经常答非所问遇到高并发场景还经常出现旧回复覆盖新问题的情况问题排查也非常困难。为了解决这些问题我们搭建了一套分层的Agent落地体系从底层的记忆中台解决上下文问题到中间的编排平台解决能力沉淀与迭代问题最终在上层落地了智能顾问中台实现了咨询的自动化闭环。二、底层基建对话记忆中台解决Agent的「长周期上下文」问题Agent最核心的能力之一就是「记忆」——没有稳定的长周期记忆多轮对话就是无根之木。为此我们从0到1搭建了网销记忆中台把多个来源企业微信、IM、商城浏览搜索等动作记录的碎片化数据加工成Agent可以直接使用的分层记忆。2.1 整体架构整个记忆中台采用分层设计对外提供统一的写入/查询接口内部通过异步任务处理高耗时的摘要计算接口层FastAPI - 编排层UserStateManage - 记忆管理层Short/Long Memory - Agent Prompt层 - 存储层Mongo/Redis接口层提供/onchat/historychat/action三类写入接口分别承接在线聊天、历史跟进消息、APP行为数据统一用Pydantic做参数校验编排层统一处理不同来源的数据做清洗、去重过滤掉系统消息、机器人话术等噪声记忆管理层核心是两级记忆沉淀机制短期记忆对最近的对话做消息级摘要保留实时上下文长期记忆对整个会话做会话级摘要沉淀客户的需求、偏好、关键问题等长期信息存储层用Mongo做主存储Redis做队列和分布式锁预留了Milvus/ES的向量检索接口为后续语义召回做扩展。2.2 核心机制1多源数据统一处理我们把在线聊天、历史消息、APP行为三类完全不同的数据统一标准化成了Agent可以理解的格式同时做了噪声过滤比如过滤掉系统通知、重复的机器人话术把APP的点击行为转化成「用户查看了XX车源」这类语义化信息。2双触发的记忆压缩为了平衡上下文完整性和Token成本我们设计了双触发的截断策略长度触发当单轮聊天的消息数超过阈值时把历史窗口转成摘要保留最近的实时消息时间触发按时间差切分会话超过2小时的历史自动转成长期摘要避免实时上下文被旧数据污染。3异步化与并发控制把耗时的LLM摘要计算从主接口链路剥离用Celery做异步消费同时对每个用户加了分布式锁避免并发Worker重复做摘要、覆盖记忆保证了记忆的一致性。最终这个中台把之前高噪声的碎片化交互数据变成了Agent可以直接调用的chat_history/short_memory/long_memory解决了长周期对话的上下文断层问题为上层的所有Agent应用提供了基础的记忆能力。三、中间层基于Langgraph的Agent编排让能力可沉淀、可迭代有了记忆能力之后我们需要解决的下一个问题是怎么管理大量的领域Agent怎么让业务能力可以快速迭代、稳定上线我们基于Langgraph搭建了一套Agent编排与发布体系把 workfow graph 作为核心资产实现了「主路由领域子Agent」的分层架构让不同的专业Agent各司其职同时保证整个系统的可迭代性。3.1 整体架构整个编排平台的核心是分层的工作流设计前置上下文工程 - 主路由中台 - 领域子Agent集群 - 缓存与发布治理上下文工程统一做会话历史压缩、词槽定位、隐私脱敏、查询改写把用户的输入处理成标准格式给下游Agent使用主路由中台核心是「规则优先LLM兜底」的路由策略先通过query_type、精确匹配、正则这些规则做路由规则没命中的再用LLM做意图识别保证路由的准确性和可解释性领域子Agent把车况、价格、金融、服务与权益等不同领域的能力拆成独立的子Agent每个Agent只负责自己的领域保证专业度发布治理所有的Agent工作流都用langgraph进行workflow图管理支持多环境配置、灰度发布、快速回滚解决了之前Agent迭代乱、难回滚的问题。3.2 核心能力1可控的路由策略我们没有用纯LLM做路由而是设计了多阶段的融合路由query_type - postback - 精确匹配 - 正则匹配 - LLM识别90%的常见问题都可以通过规则命中剩下的10%才会交给LLM既保证了路由的速度和稳定性又能覆盖开放式的问题路由准确率提升到了95%以上。2标准化的上下文工程我们把所有Agent共用的上下文能力抽成了统一的流水线历史压缩只保留和当前问题相关的历史轮次把Token成本降低了40%查询改写把用户的模糊指代比如「这个车多少钱」补全成完整的问题提升下游Agent的理解准确率隐私脱敏统一识别手机号、身份证等敏感信息做脱敏处理保证合规。3workflow资产化与发布治理所有的Agent工作流都存成Git管理的graph文件变更后自动触发发布流程支持 online/preview/test多环境切换还可以做灰度发布出问题了可以一键回滚把业务能力的上线周期从2周缩短到了1天迭代效率提升了非常多。四、上层应用智能网销顾问打造可执行的行业Agent在底层记忆和中间编排的基础上我们最终落地了核心的业务应用汽车销售AI顾问中台把之前分散的能力整合起来实现了从用户咨询到业务动作触发的完整闭环。4.1 整体架构汽车销售AI顾问中台的核心是三段式智能体链路插件化技能体系既保证了核心链路的稳定性又支持业务能力的快速扩展接口层FastAPI - 应用服务层 - 智能体层 - 技能层 - 基础设施层智能体层核心是用户问题改写 - 编排规划 - 总结三段式主链路QueryParseAgent对用户的问题做改写和结构化意图提取OrchestratorAgent做技能选择、执行规划、脚本运行和工具调度SummarizerAgent把技能执行的结果聚合生成用户能看懂的回复技能层把车况、推荐、金融这些业务能力做成了可插拔的技能插件每个技能只需要写SKILL.md和执行脚本就可以快速接入到系统里不用改核心代码基础设施层用LiteLLM做模型路由保证主模型挂了可以自动切fallback用LangfuseOTEL做全链路追踪方便问题排查用Celery做异步任务调度处理高并发场景。4.2 核心业务流程用户的一次咨询会走完这样的完整闭环请求接入新消息进来的时候我们会在Redis里写一个用户级的中断标记自动中断用户之前的旧任务避免旧回复覆盖新问题预处理先做短路判断比如黑名单、人工接管场景直接跳过然后把语音、图片这些多媒体消息通过ASR/OCR转成文本上下文注入把记忆中台的短/长期记忆、用户画像、渠道信息注入到上下文里三段Agent执行先做意图解析然后调度对应的技能执行最后生成结构化的回复后处理与任务触发把回复转成文本或者卡片下发同时自动触发业务动作比如给销售发跟进提醒、自动加企业微信好友记忆回写把这次的对话写回记忆中台供下一轮使用。4.3 我们解决了哪些落地的难点做行业Agent最大的挑战不是算法有多先进而是生产环境的稳定性我们在落地过程中解决了几个核心的痛点多技能调用失控早期Agent经常反复调用同一个技能陷入死循环我们设计了工具状态机把技能调用分成加载、执行、总结三个阶段限制每个阶段的调用行为把无效循环的概率降到了0.1%以下高并发的旧任务覆盖之前用户发了新消息旧的慢请求还在处理结果旧回复覆盖了新的我们做了用户级的Redis中断信号新消息进来直接终止旧任务彻底解决了这个问题依赖多导致的链路脆弱技能调用要依赖很多外部接口经常挂掉影响整个链路我们做了统一的降级策略短路、兜底文本、失败隔离哪怕某个技能挂了主链路也能正常运行可用性从95%提升到了99.5%问题难定位之前Agent出了问题根本不知道是哪一步错了我们引入了LangfuseOTEL的全链路追踪每个请求的每一步都有打点问题排查时间从2小时缩短到了5分钟。4.4 业务成果最终这个系统上线后取得了非常明显的业务效果复杂咨询的自动处理率提升到了70%人工坐席的处理成本降低了30%响应时效从平均15秒缩短到了2秒用户咨询的满意度提升了25%业务能力的扩展成本降低了60%新场景的上线周期从2周缩短到了1天。更重要的是这个系统不是只会回答问题的聊天机器人而是真正能执行业务动作的智能顾问它可以自动触发跟进任务、加微、甚至帮销售做客户的需求分析真正把Agent落地到了业务的流程里。五、行业Agent落地的4个核心经验过去一年的落地实践我总结了几个行业Agent落地的核心经验分享给大家分层解耦不要做大一统的Agent不要试图用一个通用Agent解决所有问题分层搭建底层基建、中间编排、上层应用每一层解耦既能保证稳定性又能快速扩展可控性比先进性重要生产环境的Agent首先要保证稳定、可解释、可控制不要盲目追最前沿的算法规则优先LLM兜底、工具状态机、降级策略这些看似不高端的设计才是落地的关键工程化比算法更重要很多人做Agent只关注Prompt和算法但是生产环境里异步处理、中断机制、可观测性、发布治理这些工程化的能力才是决定你的Agent能不能上线、能不能稳定运行的核心插件化沉淀能力把业务能力做成可插拔的插件而不是耦合在核心代码里这样才能快速响应业务的变化让你的系统可以持续迭代。六、未来展望目前我们的体系已经跑通了核心的咨询场景接下来我们还会在几个方向继续优化完善Sub-Agent的协作模式支持更复杂的多Agent协作场景把向量检索落地到记忆中台做语义化的记忆召回提升长周期记忆的准确性搭建编排策略的A/B实验框架持续优化路由和技能执行的效果提升成交转化。过去一年的实践让我深刻感受到行业Agent的核心不是把大模型套上去而是要结合行业的业务痛点搭建一套从底层基建到上层应用的完整体系让Agent真正能解决业务问题而不是实验室的玩具。希望这篇分享能给正在做行业Agent落地的同学一些参考。

Visual Syslog Server终极指南：Windows系统日志集中监控免费方案

Visual Syslog Server终极指南：Windows系统日志集中监控免费方案【免费下载链接】visualsyslog Syslog Server for Windows with a graphical user interface 项目地址: https://gitcode.com/gh_mirrors/vi/visualsyslog 还在为网络设备日志分散管理而烦恼吗…...

2026/4/25 22:35:54 阅读更多 →

iOS审核被拒？手把手教你搞定Guideline 1.2用户内容安全（附详细承诺信模板）

iOS应用审核实战：全面解决Guideline 1.2用户内容安全问题当你的iOS应用因为用户生成内容(UGC)安全问题被App Store审核拒绝时，那种挫败感我深有体会。去年我们团队的一款社交应用连续三次被拒，理由都是Guideline 1.2 - Safety - User Genera…...

2026/4/25 22:32:50 阅读更多 →

深度剖析Java高并发：从线程池到CAS原理，阿里面试必问系列

引言高并发是Java后端开发的核心能力，也是大厂面试的重灾区。本文将从线程池核心原理、CAS无锁机制、Synchronized优化、JUC并发工具类四个维度，深入剖析Java高并发的底层逻辑。一、线程池核心原理 1.1 线程池为什么要用直接创建线程的问题&#xff1a…...

2026/4/25 22:30:46 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/26 0:01:51 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/26 0:05:24 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/26 0:05:42 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →