多模态基础与模型能力地图
面试定位:当面试官问“原生多模态和级联有什么区别、怎么选模型、长视频怎么处理、文档怎么做视觉检索”,本篇给你:原生 vs 级联对比 → 2026 能力矩阵 → 选型决策树 → 视频理解 → 多模态 embedding(CLIP/ImageBind/ColPali)。
目录
- 为什么要做能力地图
- 原生多模态 vs 级联(核心对比)
- 2026 能力矩阵
- 多模态输入输出类型
- 选型决策树
- 视频理解
- 多模态 embedding(统一向量空间)
- 能力评估维度
- 常见误区
- 实践清单
- 相关阅读
为什么要做能力地图
同一个模型在不同模态下表现差异很大。没有能力地图,团队容易把“能用”误判成“好用”,最终造成成本上升和体验下降。能力地图回答三个问题:用原生多模态还是级联?哪个模型适合这个任务?延迟/成本/上下文够不够?
原生多模态 vs 级联(核心对比)
| 维度 | 原生多模态(统一模型) | 级联(专模型拼接) |
|---|---|---|
| 代表 | gpt-4o、Gemini 2.5、Claude(vision) | Whisper → LLM → TTS |
| 跨模态理解 | 强:图文音统一表征,理解上下文关系 | 弱:各段独立,跨模态信息易丢 |
| 延迟 | 低(一次推理) | 高(多段串联累加) |
| 副语言信息(语气/情绪) | 保留 | ASR 阶段丢失 |
| 可控性/可观测 | 中间状态不可见 | 强:每段有清晰输入输出可审计 |
| 单模态最优精度 | 综合好,单项未必最强 | 可选每个模态的最强专模型 |
| 成本 | 多模态 token 计价 | 按模型分段计价,可优化 |
| 适用 | 实时交互、跨模态推理 | 强业务可控、需审计/脱敏、单模态极致精度 |
2026 能力矩阵
| 模型 | 输入模态 | 实时语音 | 视频理解 | 上下文 | 工具调用 | 典型定位 |
|---|---|---|---|---|---|---|
| GPT-4o / GPT Realtime | 文/图/音 | ✅ Realtime API(~300ms) | 帧/Realtime vision | 长上下文 | ✅ | 实时语音、通用多模态 |
| Gemini 2.5(Pro/Flash) | 文/图/音/视频 | ✅ Gemini Live | ✅ 原生长视频(Files API) | 超长(~1M+ token) | ✅ | 长视频/长文档、超长上下文 |
| Claude(vision) | 文/图 | ❌(无原生实时语音) | 弱(按图) | 长上下文 | ✅ | 强推理、文档/图像理解、Agent |
视频帧率/采样:实时视频按 ~1fps 量级采样即可满足多数“边看边聊”,长视频离线分析靠关键帧 + Files API。
多模态输入输出类型
- 文本输入/输出:结构化问答与任务控制。
- 语音输入/输出:低门槛交互与移动场景(实时选 Realtime/Live,事后转写选 Whisper)。
- 图像输入:识别、描述、问答、审核、OCR。
- 视频输入:时序分析、事件识别、片段检索、屏幕理解。
选型决策树
- 先按任务拆分:识别类、生成类、推理类。
- 再按场景要求筛选:实时性、隐私、预算、上下文长度。
- 最后做 A/B 验证:同一任务跑 3-5 组代表样本,看自有业务集表现。
视频理解
- 帧采样:固定间隔(1fps)、场景变化触发(帧差/SSIM)、提问时抓当前帧;避免逐帧爆 token。
- 长视频 RAG:抽关键帧 + 音轨转写 + 时间戳,做成可检索片段,问答时按时间点召回相关帧与转写(“视频 RAG”)。Gemini Files API 可直接吃长视频做原生理解。
- 屏幕理解:屏幕共享帧 + OCR/VLM 理解界面元素,支撑“可视化操作助手”。
多模态 embedding(统一向量空间)
把不同模态映射到同一向量空间,实现“以文搜图/以图搜图/跨模态检索”:
| 方案 | 能力 | 适用 |
|---|---|---|
| CLIP | 图文对比学习,文本↔图像同空间 | 以文搜图、图像分类/检索 |
| ImageBind | 6 种模态(图/文/音/深度/热/IMU)绑定到统一空间 | 跨多模态检索 |
| ColPali | 直接对文档页面图像做视觉检索(基于 ColBERT 多向量 + VLM),无需先 OCR/版面解析 | 复杂版式文档/图表/扫描件的 RAG,规避 OCR 丢信息 |
面试一句话:纯图文检索用 CLIP;多模态统一检索看 ImageBind;带复杂版式/图表的文档 RAG 用 ColPali(页面当图直接检索,绕开 OCR/解析的信息损失)。
能力评估维度
- 准确性:识别和理解是否稳定可靠。
- 实时性:首响应和持续输出延迟是否可接受。
- 成本:单位任务 token、算力和带宽成本。
- 上下文:能否吃下长视频/长文档。
- 稳定性:高并发、弱网、长会话下的表现。
- 安全性:是否支持权限控制、审计、脱敏与内容审核。
常见误区
- 只看公开榜单,不看自有业务样本。
- 用原生多模态硬扛“需强可控/可审计”的业务(该用级联)。
- 视频逐帧送模型,成本爆炸(应做帧采样)。
- 复杂版式文档先 OCR 再检索丢失结构(可试 ColPali 视觉检索)。
- 忽视语音/视频链路稳定性,只测文本效果。
实践清单
- 为每个核心场景建立“模型候选 + 指标 + 结论”表格。
- 明确每个任务走原生还是级联,并记录理由。
- 每次模型升级都跑回归评测并记录差异(见 AI系统评测与基准方法)。
- 保留路由层抽象,支持后续替换模型供应商。