多模态基础与模型能力地图
目录
为什么要做能力地图
同一个模型在不同模态下表现差异很大。没有能力地图,团队容易把“能用”误判成“好用”,最终造成成本上升和体验下降。
多模态输入输出类型
- 文本输入/输出:适合结构化问答与任务控制。
- 语音输入/输出:适合低门槛交互与移动场景。
- 图像输入:适合识别、描述、问答与审核。
- 视频输入:适合时序分析、事件识别和片段检索。
能力评估维度
- 准确性:识别和理解是否稳定可靠。
- 实时性:首响应和持续输出延迟是否可接受。
- 成本:单位任务 token、算力和带宽成本。
- 稳定性:高并发、弱网、长会话下的表现。
- 安全性:是否支持权限控制、审计和脱敏。
选型方法
- 先按任务拆分:识别类、生成类、推理类。
- 再按场景要求筛选:实时性、隐私、预算。
- 最后做 A/B 验证:同一任务跑 3-5 组代表样本。
常见误区
- 只看公开榜单,不看自有业务样本。
- 用高成本模型处理简单任务,造成浪费。
- 忽视语音/视频链路稳定性,只测文本效果。
实践清单
- 为每个核心场景建立“模型候选 + 指标 + 结论”表格。
- 每次模型升级都跑回归评测并记录差异。
- 保留路由层抽象,支持后续替换模型供应商。