跳到主要内容

AI系统评测与基准方法

目录

为什么必须做评测

AI 系统迭代频繁,单靠人工体验很难发现性能退化。评测的价值在于把“感觉变好了”转化为“指标确实变好了”,并为发布提供客观门槛。

评测对象与范围

  • 模型输出质量(正确性、完整性、可执行性)。
  • 工具调用质量(参数正确率、成功率、重试率)。
  • 检索质量(召回、相关性、引用有效性)。
  • 运行指标(延迟、成本、稳定性)。
  • 安全指标(越权率、违规率、敏感信息泄露率)。

核心指标体系

  1. 任务成功率:是否完成业务目标。
  2. 事实性指标:关键结论是否可被证据支持。
  3. 工具调用准确率:工具选择和参数是否正确。
  4. 端到端延迟:从请求到可用结果的时间。
  5. 单位任务成本:每次任务的平均 Token/算力成本。

评测集构建方法

  • 从真实业务日志中抽样,覆盖高频、难例、失败案例。
  • 每个样本至少包含:输入、期望输出、评分规则、风险等级。
  • 样本要版本化管理,避免评测标准随意漂移。
  • 评测集应包含“对抗样本”,检测注入和越权风险。

回归评测与发布门禁

  • 每次模型、Prompt、工具链更新都必须触发回归评测。
  • 建议设置红线指标,例如:
    • 任务成功率不低于上版本。
    • 高风险场景错误率不得上升。
    • 单任务成本涨幅不超过设定阈值。
  • 未达标版本自动阻断发布,并输出失败原因报告。

常见误区

  • 只看通用 benchmark:忽视业务真实任务。
  • 评测样本过少:结果波动大,无法指导发布。
  • 仅测质量不测成本:上线后可能出现不可接受的费用。
  • 不做失败复盘:无法形成持续改进闭环。