跳到主要内容

AI系统评测与基准方法

目录

为什么必须做评测
评测对象与范围
核心指标体系
评测集构建方法
回归评测与发布门禁
常见误区

为什么必须做评测

AI 系统迭代频繁，单靠人工体验很难发现性能退化。评测的价值在于把“感觉变好了”转化为“指标确实变好了”，并为发布提供客观门槛。

评测对象与范围

模型输出质量（正确性、完整性、可执行性）。
工具调用质量（参数正确率、成功率、重试率）。
检索质量（召回、相关性、引用有效性）。
运行指标（延迟、成本、稳定性）。
安全指标（越权率、违规率、敏感信息泄露率）。

核心指标体系

任务成功率：是否完成业务目标。
事实性指标：关键结论是否可被证据支持。
工具调用准确率：工具选择和参数是否正确。
端到端延迟：从请求到可用结果的时间。
单位任务成本：每次任务的平均 Token/算力成本。

评测集构建方法

从真实业务日志中抽样，覆盖高频、难例、失败案例。
每个样本至少包含：输入、期望输出、评分规则、风险等级。
样本要版本化管理，避免评测标准随意漂移。
评测集应包含“对抗样本”，检测注入和越权风险。

回归评测与发布门禁

每次模型、Prompt、工具链更新都必须触发回归评测。
建议设置红线指标，例如：
- 任务成功率不低于上版本。
- 高风险场景错误率不得上升。
- 单任务成本涨幅不超过设定阈值。
未达标版本自动阻断发布，并输出失败原因报告。

常见误区

只看通用 benchmark：忽视业务真实任务。
评测样本过少：结果波动大，无法指导发布。
仅测质量不测成本：上线后可能出现不可接受的费用。
不做失败复盘：无法形成持续改进闭环。

目录
为什么必须做评测
评测对象与范围
核心指标体系
评测集构建方法
回归评测与发布门禁
常见误区