高频问答（精简版）

用“结论 -> 做法 -> 指标”三段式回答，避免空泛。

回答模板

结论：先给一句话判断
做法：给 2-3 个可落地动作
指标：给 1-2 个量化指标

高频 12 题（含要点）

为什么不能前端直连模型？
Key 安全、无法鉴权限流、无法统一日志与成本。
幻觉怎么处理？
强约束 Prompt + RAG 引用 + 输出校验 + 无证据拒答。
RAG 为什么会更准？
先检索证据再生成，减少无依据推断。
RAG 不准先改什么？
先改切分与元数据，再调 TopK/重排，最后改 Prompt。
如何控制成本？
模型路由（默认小模型）、限制输入长度与 max_tokens、历史摘要、Prompt 缓存（静态前缀放最前）、缓存热点问题。
如何做流式中断？
前端 AbortController，服务端监听 close 中止上游。
为什么要做 traceId？
让用户反馈和日志定位同一请求，缩短排障时间。
如何保证结构化输出稳定？
JSON Schema 校验，失败自动重试，超限降级文本。
如何做多模型策略？
按任务路由 + 主备切换 + 失败回退。
如何评估 Prompt 改动？
固定用例集回归，对比格式合格率与满意度。
限流/超时如何做兜底？
统一错误码 + 用户可操作文案（重试/稍后再试）。
你如何体现前端价值？
把模型能力转化为可感知、可控制、可恢复的产品体验。

2026 新增高频题（必备）

推理模型（o 系列 / R1 / thinking）和普通模型有什么区别？什么时候用？
推理模型先生成长思维链、用“推理时算力”换准确率，更慢更贵；适合数学/代码/多步规划，简单任务仍用普通小模型。前端要做“正在思考”提示和可折叠的思考过程面板。
怎么选模型？
三轴：能力档位（旗舰/小模型/推理）、部署方式（API/私有化）、单位成本；落地做模型路由——简单任务走小模型，复杂/高价值走旗舰或推理模型。型号会迭代，记分层逻辑。
MCP 是什么？和工具调用、Skill 有什么关系？
MCP 是“AI 应用接外部工具/数据的开放协议（USB-C 接口）”，把 M×N 适配变成 M+N；架构是 Host/Client/Server，走 stdio（本地）或 Streamable HTTP（远程）。MCP 解决“能连什么（工具）”，Skill 解决“会怎么做（方法）”，互补。
结构化输出怎么保证？（别只说重试）
用原生 Structured Outputs（JSON Schema strict）由受约束解码保证结构合法，配 zod 前后端共用类型；业务正确性仍需自校验；不支持时再回退“Prompt 约束 + 重试”。
RAG 不准，进阶怎么优化？
按便宜到贵：切分/元数据/上下文检索 → 混合检索(BM25+向量)+重排模型 → 查询改写/多查询 → 强约束引用 → 最后才上 GraphRAG / Agentic RAG。
实时语音两种架构？
级联（ASR→LLM→TTS，可控可接 RAG 但延迟高）vs 端到端语音（Realtime API，低延迟、可打断、走 WebRTC/WebSocket）。前端用 WebRTC + 临时密钥接入，绝不暴露真实 Key。
Vercel AI SDK 解决了什么？
统一多厂商、流式开箱即用（streamText + useChat）、内置工具调用与结构化输出、支持 Generative UI；治理（鉴权/限流/成本/日志）仍放自己服务端。
微调 vs RAG vs 长上下文怎么选？
缺知识用 RAG（知识会变，别微调进去）；缺风格/格式稳定性才微调；先把 Prompt/结构化输出/RAG 榨干再考虑微调。对齐方法了解 SFT→DPO/RLHF→GRPO（推理）。

目录​

回答模板​

高频 12 题（含要点）​

2026 新增高频题（必备）​

目录

回答模板

高频 12 题（含要点）

2026 新增高频题（必备）