人工智能实战:LLM-as-Judge 自动评测到底靠不靠谱?从评分漂移到人工校准的工程化实践一、问题场景:人工评测太慢,自动评测又不敢信大模型系统上线后,评测会变成一个长期工程。每次你改了:1. Prompt 2. 模型版本 3. RAG 召回策略 4. reranker 5. Agent 工具描述 6. 输出格式约束都要回答一个问题:效果到底有没有变好?最开始我们靠人工评测。几十条 case 时还可以。后来评测集变成几百条、几千条,人工评测就开始跟不上:1. 人工成本高 2. 不同评审标准不一致 3. 评测周期长 4. 无法每次发布都全量评测 5. 历史版本难以对比于是自然会想到:让一个更强的大模型来评估回答质量。也就是 LLM-as-Judge。但直接用后,问题也很明显:1. Judge 偏好长答案 2. Judge 容易被流畅表达欺骗 3. 不同时间评分不稳定 4