番外篇第2集:混合模型架构!本地 Qwen + 云端 DeepSeek 智能路由与降级实战😫 用户痛点引入:本地模型便宜但不够聪明,云端模型聪明但要钱还要网兄弟们,上一集我们用 Ollama 把 Qwen2.5-7B 部署到了本地,实现了零成本、数据不出内网的 AI Agent。爽是爽了,但用了一段时间你会发现几个尴尬的问题:场景一:开发在群里 @机器人:“为什么 web-01 的 Nginx 一直报 502?上游 PHP-FPM 日志显示连接超时,Nginx 配置的 fastcgi_read_timeout 是 30 秒,但 PHP 处理某些请求需要 45 秒,请给出完整的排查报告和修复建议。”本地 Qwen-7B 吭哧吭哧推理了半天,最后给出的回答是这样的:“502 错误通常是上游服务问题,建议重启 PHP-FPM 和 Nginx。”你心里默念:这我也知道啊!我需要的是结合具体日志分析根因,比如建议把fastcgi_read_timeout调大到 60 秒。本地小模型虽然能处理简单巡检,但遇到需要深度推理、多步逻辑的复杂故障,就明显智商不够用了。场景二:公司最近在搞成本优化,CTO 发话:“AI 运维平台能不能再省点钱?DeepSeek API 一个月几百块虽然不多,但能省则省。”