跳到主要内容

实时多模态与 Agent 工作流

目标:补齐 2026 年前端 AI 应用的新主流能力:实时语音/视觉输入、工具调用、MCP 与工作流编排。

目录

为什么这个模块必须补

传统“文本聊天 + RAG”已是标配,真正拉开差距的方向在于:

  • 实时语音交互(边说边出结果)
  • 图像/截图理解(多模态输入)
  • Agent 化执行(工具调用 + 工作流)

阅读顺序

  1. 实时语音与视觉输入
  2. Agent 工作流与 MCP 落地

完成后你将具备的能力

  • 设计低延迟实时交互链路
  • 组织多模态输入并做前端状态管理
  • 实现工具调用与可观测的 Agent 执行面板