跳到主要内容

实时多模态与 Agent 工作流

目标：补齐 2026 年前端 AI 应用的新主流能力：实时语音/视觉输入、工具调用、MCP 与工作流编排。

目录

为什么这个模块必须补
阅读顺序
完成后你将具备的能力

为什么这个模块必须补

传统“文本聊天 + RAG”已是标配，真正拉开差距的方向在于：

实时语音交互（边说边出结果）
图像/截图理解（多模态输入）
Agent 化执行（工具调用 + 工作流）

阅读顺序

完成后你将具备的能力

设计低延迟实时交互链路
组织多模态输入并做前端状态管理
实现工具调用与可观测的 Agent 执行面板

目录
为什么这个模块必须补
阅读顺序
完成后你将具备的能力