目录写在前面一、为什么需要评测体系二、任务级评估指标2.1 分类任务的评估2.2 生成任务的评估三、对话级评估指标3.1 上下文相关指标3.2 自动化对话评估框架3.3 端到端对话评估指标四、实战:用 Python 构建轻量级评测框架五、延展阅读写在前面凌晨两点,某电商平台的 AI 客服系统突然收到大量用户投诉:“退货流程说不清楚”、“回答牛头不对马嘴”、“让我等了三分钟就说了句'请问还有什么可以帮您'”。技术团队连夜排查后发现,问题出在上周上线的模型微调版本上——它在标准测试集上的准确率明明高达92%,为什么到了真实用户场景就“水土不服”?这个真实发生的故事揭示了一个关键问题:LLM 应用的效果不能只看一个数字。我们需要一套完整的评测体系来回答“模型到底表现如何”、“哪里还有提升空间”、“上线前如何把关”这三个核心问题。今天,我们就来系统性地拆解 LLM 评测体系的构建方法。一、为什么需要评测体系让我们先理解评测的本质目的。LLM 应用评测不是为了让报告好看,而是为了回答三个关键问题:第一,模型在特定任务上的能力边界在哪里?第二,不同版本或不同模型之间的效果差异