AI系统评测与基准方法
目录
为什么必须做评测
AI 系统迭代频繁,单靠人工体验很难发现性能退化。评测的价值在于把“感觉变好了”转化为“指标确实变好了”,并为发布提供客观门槛。
评测对象与范围
- 模型输出质量(正确性、完整性、可执行性)。
- 工具调用质量(参数正确率、成功率、重试率)。
- 检索质量(召回、相关性、引用有效性)。
- 运行指标(延迟、成本、稳定性)。
- 安全指标(越权率、违规率、敏感信息泄露率)。
核心指标体系
- 任务成功率:是否完成业务目标。
- 事实性指标:关键结论是否可被证据支持。
- 工具调用准确率:工具选择和参数是否正确。
- 端到端延迟:从请求到可用结果的时间。
- 单位任务成本:每次任务的平均 Token/算力成本。
评测集构建方法
- 从真实业务日志中抽样,覆盖高频、难例、失败案例。
- 每个样本至少包含:输入、期望输出、评分规则、风险等级。
- 样本要版本化管理,避免评测标准随意漂移。
- 评测集应包含“对抗样本”,检测注入和越权风险。
回归评测与发布门禁
- 每次模型、Prompt、工具链更新都必须触发回归评测。
- 建议设置红线指标,例如:
- 任务成功率不低于上版本。
- 高风险场景错误率不得上升。
- 单任务成本涨幅不超过设定阈值。
- 未达标版本自动阻断发布,并输出失败原因报告。
常见误区
- 只看通用 benchmark:忽视业务真实任务。
- 评测样本过少:结果波动大,无法指导发布。
- 仅测质量不测成本:上线后可能出现不可接受的费用。
- 不做失败复盘:无法形成持续改进闭环。