Prompt缓存技术深度解析：让LLM调用成本降低90%的工程实践

张

张建站

2026/4/27 14:50:23

10分钟阅读

为什么Prompt缓存是2026年的必备技能一个不算秘密的事实在大规模AI应用中60-80%的LLM调用成本来自重复的系统提示词。每次调用API时你都在为相同的系统提示词反复付费相同的上下文被反复处理相同的token被反复计费。Prompt缓存Prompt Caching技术的出现让这个问题有了工程级的解法。Anthropic的Claude、OpenAI的GPT系列都已支持不同形式的提示词缓存。本文将深度解析其工作原理、适用场景以及如何在生产环境中最大化缓存命中率。—## Prompt缓存的工作原理### 基本概念传统的LLM调用中每次请求都需要从头处理所有输入token请求1: [系统提示(2000tokens)] [用户消息(100tokens)] → 处理2100tokens请求2: [系统提示(2000tokens)] [用户消息(80tokens)] → 处理2080tokens请求3: [系统提示(2000tokens)] [用户消息(120tokens)] → 处理2120tokens有了Prompt缓存后请求1: [系统提示(2000tokens, 计费)] [用户消息(100tokens)] → 处理2100tokens请求2: [系统提示(2000tokens, 缓存命中)] [用户消息(80tokens)] → 处理80tokens请求3: [系统提示(2000tokens, 缓存命中)] [用户消息(120tokens)] → 处理120tokens成本节省是显而易见的。Anthropic官方数据显示缓存命中的token价格是普通价格的10%即降低90%。### KV Cache的底层机制Prompt缓存本质上是服务端的KV键值缓存复用。在Transformer架构中注意力机制的计算结果K和V矩阵可以被缓存起来。当两个请求共享相同的前缀时模型可以复用之前计算好的KV矩阵只需要对新增部分进行计算缓存存储的KV矩阵├── 位置 0-1999系统提示的KV缓存有效期5分钟└── 位置 2000动态计算每次请求不同—## Anthropic Claude的Prompt缓存实践### 开启缓存的正确姿势pythonimport anthropicclient anthropic.Anthropic(api_keyYOUR_API_KEY)# 定义一个大型系统提示缓存效益最大LARGE_SYSTEM_PROMPT 你是一个专业的代码审查助手具备以下能力和规则## 代码质量标准1. 变量命名必须清晰表达意图避免单字母变量循环索引除外2. 函数长度不超过50行超过时建议拆分3. 每个函数必须有docstringPython或JSDoc注释JavaScript4. 避免深度嵌套最多3层if/for嵌套5. 魔法数字必须命名为常量## 安全检查清单- SQL注入风险检查所有数据库查询是否使用参数化- XSS风险检查所有用户输入是否经过转义- 敏感信息泄露检查日志、错误信息中是否包含密码、token等- 不安全的依赖标记已知CVE的第三方库版本- 身份验证漏洞检查API端点是否正确验证权限## 性能优化规则- N1查询问题检查循环中的数据库调用- 内存泄漏检查资源是否正确释放- 不必要的全局变量评估内存使用- 缓存机会识别可以缓存的计算结果## 输出格式每次审查必须按以下结构输出1. 总体评分1-10分2. 严重问题列表必须修复3. 建议优化列表应该修复4. 代码亮点值得保留和学习的部分5. 重构建议可选[此处省略更多规则实际生产中可达2000-5000 tokens] * 3 # 模拟较大的系统提示def review_code_with_caching(code: str) - str: 使用Prompt缓存进行代码审查 response client.messages.create( modelclaude-3-5-sonnet-20241022, max_tokens2048, system[ { type: text, text: LARGE_SYSTEM_PROMPT, cache_control: {type: ephemeral} # 标记为可缓存 } ], messages[ { role: user, content: f请审查以下代码\n\npython\n{code}\n } ] ) # 查看缓存使用情况 usage response.usage print(f输入tokens: {usage.input_tokens}) print(f缓存创建tokens: {getattr(usage, cache_creation_input_tokens, 0)}) print(f缓存读取tokens: {getattr(usage, cache_read_input_tokens, 0)}) return response.content[0].text# 第一次调用建立缓存result1 review_code_with_caching(def process_users(db, user_ids): results [] for id in user_ids: user db.query(fSELECT * FROM users WHERE id {id}) results.append(user) return results)# 第二次调用命中缓存成本降低90%result2 review_code_with_caching(def calculate_total(items): t 0 for i in items: t t i[price] * i[qty] return t)### 多轮对话中的缓存优化pythondef multi_turn_with_cache(conversation_history: list, new_message: str) - str: 多轮对话中最大化缓存效益 # 策略将稳定的历史对话标记为可缓存 # 只有最后一条用户消息是动态的 messages [] # 已确认的历史对话 → 标记缓存 for i, msg in enumerate(conversation_history[:-2]): # 保留最后2条不缓存 messages.append({ role: msg[role], content: [ { type: text, text: msg[content], cache_control: {type: ephemeral} if i len(conversation_history) - 3 else None } ] if i len(conversation_history) - 3 else msg[content] }) # 最新消息动态部分不缓存 messages.append({ role: user, content: new_message }) response client.messages.create( modelclaude-3-5-sonnet-20241022, max_tokens1024, system[{type: text, text: LARGE_SYSTEM_PROMPT, cache_control: {type: ephemeral}}], messagesmessages, ) return response.content[0].text—## OpenAI的自动Prompt缓存OpenAI的GPT-4o和o系列模型支持自动提示词缓存无需特别标记只要满足以下条件就会自动触发pythonfrom openai import OpenAIclient OpenAI(api_keyYOUR_API_KEY)# OpenAI的缓存是全自动的只需保证前缀相同SYSTEM_PROMPT 你是专业助手... * 50 # 至少1024 tokens才能触发缓存def call_with_auto_cache(user_message: str): response client.chat.completions.create( modelgpt-4o, messages[ {role: system, content: SYSTEM_PROMPT}, {role: user, content: user_message} ] ) # 查看缓存统计需要inspect usage对象 usage response.usage if hasattr(usage, prompt_tokens_details): cached usage.prompt_tokens_details.cached_tokens print(f缓存命中: {cached} tokens) return response.choices[0].message.content### OpenAI缓存的关键特性1.最小缓存单位1024 tokens短prompt无法缓存2.缓存有效期约5-10分钟空闲后过期3.前缀匹配必须是完全一致的前缀任何修改都会使缓存失效4.价格折扣缓存命中的token按50%价格计费—## 最大化缓存命中率的工程策略### 策略1稳定化系统提示的结构pythonclass CacheOptimizedPromptBuilder: 构建缓存友好的提示词 def __init__(self): # 第1层完全静态最高缓存价值 self.static_context [公司信息、产品手册、API文档等永远不变的内容] # 第2层会话级静态用户会话期间不变 self.session_context # 第3层动态内容每次请求不同 self.dynamic_content def set_session_context(self, user_profile: dict, preferences: dict): 设置会话级上下文尽量稳定化 # 关键对字段进行排序确保相同内容生成相同字符串 self.session_context f用户信息{json.dumps(user_profile, ensure_asciiFalse, sort_keysTrue)}偏好设置{json.dumps(preferences, ensure_asciiFalse, sort_keysTrue)} def build_messages(self, user_message: str) - list: 构建缓存友好的消息列表 system_parts [] # 静态部分标记缓存最高优先级 if self.static_context: system_parts.append({ type: text, text: self.static_context, cache_control: {type: ephemeral} }) # 会话级部分也标记缓存 if self.session_context: system_parts.append({ type: text, text: self.session_context, cache_control: {type: ephemeral} }) return { system: system_parts, messages: [{role: user, content: user_message}] }### 策略2缓存命中率监控pythonimport timefrom dataclasses import dataclass, fieldfrom collections import dequedataclassclass CacheMetrics: total_requests: int 0 cache_hits: int 0 total_input_tokens: int 0 cached_tokens: int 0 estimated_savings_usd: float 0.0 recent_hit_rates: deque field(default_factorylambda: deque(maxlen100)) property def hit_rate(self) - float: if self.total_requests 0: return 0.0 return self.cache_hits / self.total_requests property def token_cache_rate(self) - float: if self.total_input_tokens 0: return 0.0 return self.cached_tokens / self.total_input_tokensmetrics CacheMetrics()def tracked_llm_call(system_prompt: str, user_message: str) - str: 带缓存追踪的LLM调用 response client.messages.create( modelclaude-3-5-sonnet-20241022, max_tokens1024, system[{type: text, text: system_prompt, cache_control: {type: ephemeral}}], messages[{role: user, content: user_message}] ) usage response.usage cache_read getattr(usage, cache_read_input_tokens, 0) cache_write getattr(usage, cache_creation_input_tokens, 0) # 更新指标 metrics.total_requests 1 metrics.total_input_tokens usage.input_tokens metrics.cached_tokens cache_read if cache_read 0: metrics.cache_hits 1 # 估算节省缓存价格是普通价格的10% savings cache_read * 3e-6 * 0.9 # 假设输入$3/1M tokens metrics.estimated_savings_usd savings # 打印实时指标 if metrics.total_requests % 10 0: print(f缓存命中率: {metrics.hit_rate:.1%} | fToken缓存率: {metrics.token_cache_rate:.1%} | f预估节省: ${metrics.estimated_savings_usd:.4f}) return response.content[0].text—## 典型场景的缓存收益分析| 场景 | 系统提示大小 | 日调用量 | 月节省估算||------|------------|---------|------------|| 客服机器人 | 3000 tokens | 10000次 | ~$2,700 || 代码审查助手 | 5000 tokens | 5000次 | ~$2,250 || 文档问答系统 | 8000 tokens | 20000次 | ~$14,400 || RAG系统长上下文| 20000 tokens | 3000次 | ~$16,200 |—## 常见踩坑与解决方案坑1系统提示轻微变动导致缓存全部失效解决方案将动态内容如当前日期、用户ID移到用户消息中系统提示保持完全静态。坑2缓存在高并发下命中率反而降低原因多个worker之间的缓存不共享服务端缓存是per-session的。解决方案设计sticky session同一用户的请求路由到同一实例。坑3Anthropic缓存5分钟过期批处理任务中命中率低解决方案控制批处理速度保证同类任务在5分钟内处理完或使用预热缓存的虚拟请求。—## 总结Prompt缓存是AI工程中投入产出比最高的优化手段之一特别是对于- 具有大型系统提示的应用1000 tokens以上- 高频重复调用的场景- 多轮对话类应用2026年随着各大模型厂商对缓存机制的完善这项技术已经从高级技巧变成了标准配置。不使用Prompt缓存的AI应用就像不使用CDN的Web应用一样是对资源的不必要浪费。

Akagi麻将AI助手：5分钟从新手到高手的终极指南

Akagi麻将AI助手：5分钟从新手到高手的终极指南【免费下载链接】Akagi 支持雀魂、天鳳、麻雀一番街、天月麻將，能夠使用自定義的AI模型實時分析對局並給出建議，內建Mortal AI作為示例。 Supports Majsoul, Tenhou, Riichi City, Amatsuki, wi…...

2026/4/27 14:49:22 阅读更多 →

PowerToys中文版：解锁Windows效率的魔法钥匙

PowerToys中文版：解锁Windows效率的魔法钥匙【免费下载链接】PowerToys-CN PowerToys Simplified Chinese Translation 微软增强工具箱自制汉化项目地址: https://gitcode.com/gh_mirrors/po/PowerToys-CN 当我们面对一个充满潜力的工具箱，却因…...

2026/4/27 14:49:21 阅读更多 →

AUTOSAR启动流程调试避坑指南：EcuM与BswM初始化顺序引发的那些‘坑’

AUTOSAR启动流程深度调试：EcuM与BswM初始化顺序的典型故障与解决方案当ECU启动时突然卡死在某个状态，或者通信栈莫名其妙地无法收发数据，你是否曾怀疑过是AUTOSAR基础软件模块的初始化顺序出了问题？在真实的汽车电子项目中&#…...

2026/4/27 14:47:22 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/26 0:01:51 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/26 0:05:24 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/26 0:05:42 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →