多模态基础与模型能力地图

面试定位：当面试官问“原生多模态和级联有什么区别、怎么选模型、长视频怎么处理、文档怎么做视觉检索”，本篇给你：原生 vs 级联对比 → 2026 能力矩阵 → 选型决策树 → 视频理解 → 多模态 embedding（CLIP/ImageBind/ColPali）。

为什么要做能力地图

同一个模型在不同模态下表现差异很大。没有能力地图，团队容易把“能用”误判成“好用”，最终造成成本上升和体验下降。能力地图回答三个问题：用原生多模态还是级联？哪个模型适合这个任务？延迟/成本/上下文够不够？

原生多模态 vs 级联（核心对比）

维度	原生多模态（统一模型）	级联（专模型拼接）
代表	gpt-4o、Gemini 2.5、Claude（vision）	Whisper → LLM → TTS
跨模态理解	强：图文音统一表征，理解上下文关系	弱：各段独立，跨模态信息易丢
延迟	低（一次推理）	高（多段串联累加）
副语言信息（语气/情绪）	保留	ASR 阶段丢失
可控性/可观测	中间状态不可见	强：每段有清晰输入输出可审计
单模态最优精度	综合好，单项未必最强	可选每个模态的最强专模型
成本	多模态 token 计价	按模型分段计价，可优化
适用	实时交互、跨模态推理	强业务可控、需审计/脱敏、单模态极致精度

2026 能力矩阵

模型	输入模态	实时语音	视频理解	上下文	工具调用	典型定位
GPT-4o / GPT Realtime	文/图/音	✅ Realtime API（~300ms）	帧/Realtime vision	长上下文	✅	实时语音、通用多模态
Gemini 2.5（Pro/Flash）	文/图/音/视频	✅ Gemini Live	✅ 原生长视频（Files API）	超长（~1M+ token）	✅	长视频/长文档、超长上下文
Claude（vision）	文/图	❌（无原生实时语音）	弱（按图）	长上下文	✅	强推理、文档/图像理解、Agent

视频帧率/采样：实时视频按 ~1fps 量级采样即可满足多数“边看边聊”，长视频离线分析靠关键帧 + Files API。

多模态输入输出类型

文本输入/输出：结构化问答与任务控制。
语音输入/输出：低门槛交互与移动场景（实时选 Realtime/Live，事后转写选 Whisper）。
图像输入：识别、描述、问答、审核、OCR。
视频输入：时序分析、事件识别、片段检索、屏幕理解。

选型决策树

先按任务拆分：识别类、生成类、推理类。
再按场景要求筛选：实时性、隐私、预算、上下文长度。
最后做 A/B 验证：同一任务跑 3-5 组代表样本，看自有业务集表现。

视频理解

帧采样：固定间隔（1fps）、场景变化触发（帧差/SSIM）、提问时抓当前帧；避免逐帧爆 token。
长视频 RAG：抽关键帧 + 音轨转写 + 时间戳，做成可检索片段，问答时按时间点召回相关帧与转写（“视频 RAG”）。Gemini Files API 可直接吃长视频做原生理解。
屏幕理解：屏幕共享帧 + OCR/VLM 理解界面元素，支撑“可视化操作助手”。

多模态 embedding（统一向量空间）

把不同模态映射到同一向量空间，实现“以文搜图/以图搜图/跨模态检索”：

方案	能力	适用
CLIP	图文对比学习，文本↔图像同空间	以文搜图、图像分类/检索
ImageBind	6 种模态（图/文/音/深度/热/IMU）绑定到统一空间	跨多模态检索
ColPali	直接对文档页面图像做视觉检索（基于 ColBERT 多向量 + VLM），无需先 OCR/版面解析	复杂版式文档/图表/扫描件的 RAG，规避 OCR 丢信息

面试一句话：纯图文检索用 CLIP；多模态统一检索看 ImageBind；带复杂版式/图表的文档 RAG 用 ColPali（页面当图直接检索，绕开 OCR/解析的信息损失）。

能力评估维度

准确性：识别和理解是否稳定可靠。
实时性：首响应和持续输出延迟是否可接受。
成本：单位任务 token、算力和带宽成本。
上下文：能否吃下长视频/长文档。
稳定性：高并发、弱网、长会话下的表现。
安全性：是否支持权限控制、审计、脱敏与内容审核。

常见误区

只看公开榜单，不看自有业务样本。
用原生多模态硬扛“需强可控/可审计”的业务（该用级联）。
视频逐帧送模型，成本爆炸（应做帧采样）。
复杂版式文档先 OCR 再检索丢失结构（可试 ColPali 视觉检索）。
忽视语音/视频链路稳定性，只测文本效果。

实践清单

为每个核心场景建立“模型候选 + 指标 + 结论”表格。
明确每个任务走原生还是级联，并记录理由。
每次模型升级都跑回归评测并记录差异（见 AI系统评测与基准方法）。
保留路由层抽象，支持后续替换模型供应商。

多模态基础与模型能力地图

目录

为什么要做能力地图

原生多模态 vs 级联（核心对比）

2026 能力矩阵

多模态输入输出类型

选型决策树

视频理解

多模态 embedding（统一向量空间）

能力评估维度

常见误区

实践清单

相关阅读

目录​

为什么要做能力地图​

原生多模态 vs 级联（核心对比）​

2026 能力矩阵​

多模态输入输出类型​

选型决策树​

视频理解​

多模态 embedding（统一向量空间）​

能力评估维度​

常见误区​

实践清单​

相关阅读​

目录

为什么要做能力地图

原生多模态 vs 级联（核心对比）

2026 能力矩阵

多模态输入输出类型

选型决策树

视频理解

多模态 embedding（统一向量空间）

能力评估维度

常见误区

实践清单

相关阅读