人工智能实战:LLM-as-Judge 自动评测到底靠不靠谱?从评分漂移到人工校准的工程化实践
一、问题场景:人工评测太慢,自动评测又不敢信
大模型系统上线后,评测会变成一个长期工程。
每次你改了:
1. Prompt 2. 模型版本 3. RAG 召回策略 4. reranker 5. Agent 工具描述 6. 输出格式约束都要回答一个问题:
效果到底有没有变好?最开始我们靠人工评测。
几十条 case 时还可以。
后来评测集变成几百条、几千条,人工评测就开始跟不上:
1. 人工成本高 2. 不同评审标准不一致 3. 评测周期长 4. 无法每次发布都全量评测 5. 历史版本难以对比于是自然会想到:
让一个更强的大模型来评估回答质量。也就是 LLM-as-Judge。
但直接用后,问题也很明显:
1. Judge 偏好长答案 2. Judge 容易被流畅表达欺骗 3. 不同时间评分不稳定 4