跳到主要内容

AI产品指标体系与实验方法

目录

为什么AI产品必须数据驱动

AI 产品迭代速度快、变量多(模型、Prompt、检索、工具链),不用指标就无法判断“变好了还是变坏了”。

指标分层模型

北极星指标

  • 反映核心价值被持续兑现,例如“每周完成有效任务的活跃用户数”。

价值指标

  • 时间节省比例(如从30分钟降到5分钟)。
  • 输出可用率(用户无需二次修改即可使用的比例)。
  • 业务结果提升(转化率、工单解决率等)。

体验指标

  • 首响应时间(TTFT)
  • 流式稳定性
  • 满意度评分(CSAT/NPS)

工程指标

  • 任务成功率
  • 幻觉率/事实错误率
  • 单任务成本(Token/算力)
  • 异常率与回退率

A/B实验与灰度发布

  1. 固定目标:本次只优化一个核心指标。
  2. 固定样本:实验组与对照组用户结构尽量一致。
  3. 固定窗口:至少观察 7-14 天,避免短期波动误判。
  4. 灰度上线:先小流量,达标后再全量。

AI场景特有指标

  • 检索命中率(RAG)
  • 工具调用正确率(Agent)
  • 引用覆盖率(关键结论是否带来源)
  • 人工接管率(系统无法自动完成任务时的比例)

一个可落地的指标看板模板

建议周维度维护:

维度指标当前值上周值目标值状态
北极星WAU有效任务用户
价值时间节省比例
质量任务成功率
风险幻觉率
成本单任务成本
体验首响应时间

常见误区

  • 只看活跃,不看任务成功率和价值兑现。
  • 只看质量,不看成本,导致规模化后不可持续。
  • 只做模型实验,不做检索/流程/交互协同优化。