AI产品指标体系与实验方法
目录
为什么AI产品必须数据驱动
AI 产品迭代速度快、变量多(模型、Prompt、检索、工具链),不用指标就无法判断“变好了还是变坏了”。
指标分层模型
北极星指标
- 反映核心价值被持续兑现,例如“每周完成有效任务的活跃用户数”。
价值指标
- 时间节省比例(如从30分钟降到5分钟)。
- 输出可用率(用户无需二次修改即可使用的比例)。
- 业务结果提升(转化率、工单解决率等)。
体验指标
- 首响应时间(TTFT)
- 流式稳定性
- 满意度评分(CSAT/NPS)
工程指标
- 任务成功率
- 幻觉率/事实错误率
- 单任务成本(Token/算力)
- 异常率与回退率
A/B实验与灰度发布
- 固定目标:本次只优化一个核心指标。
- 固定样本:实验组与对照组用户结构尽量一致。
- 固定窗口:至少观察 7-14 天,避免短期波动误判。
- 灰度上线:先小流量,达标后再全量。
AI场景特有指标
- 检索命中率(RAG)
- 工具调用正确率(Agent)
- 引用覆盖率(关键结论是否带来源)
- 人工接管率(系统无法自动完成任务时的比例)
一个可落地的指标看板模板
建议周维度维护:
| 维度 | 指标 | 当前值 | 上周值 | 目标值 | 状态 |
|---|---|---|---|---|---|
| 北极星 | WAU有效任务用户 | ||||
| 价值 | 时间节省比例 | ||||
| 质量 | 任务成功率 | ||||
| 风险 | 幻觉率 | ||||
| 成本 | 单任务成本 | ||||
| 体验 | 首响应时间 |
常见误区
- 只看活跃,不看任务成功率和价值兑现。
- 只看质量,不看成本,导致规模化后不可持续。
- 只做模型实验,不做检索/流程/交互协同优化。