前端+AI08-实时多模态与Agent工作流本页总览实时多模态与 Agent 工作流 目标:补齐 2026 年前端 AI 应用的新主流能力:实时语音/视觉输入、工具调用、MCP 与工作流编排。 目录 为什么这个模块必须补 阅读顺序 完成后你将具备的能力 为什么这个模块必须补 传统“文本聊天 + RAG”已是标配,真正拉开差距的方向在于: 实时语音交互(边说边出结果) 图像/截图理解(多模态输入) Agent 化执行(工具调用 + 工作流) 阅读顺序 实时语音与视觉输入 Agent 工作流与 MCP 落地 完成后你将具备的能力 设计低延迟实时交互链路 组织多模态输入并做前端状态管理 实现工具调用与可观测的 Agent 执行面板