高频问答(精简版)
用“结论 -> 做法 -> 指标”三段式回答,避免空泛。
目录
回答模板
- 结论:先给一句话判断
- 做法:给 2-3 个可落地动作
- 指标:给 1-2 个量化指标
高频 12 题(含要点)
-
为什么不能前端直连模型?
Key 安全、无法鉴权限流、无法统一日志与成本。 -
幻觉怎么处理?
强约束 Prompt + RAG 引用 + 输出校验 + 无证据拒答。 -
RAG 为什么会更准?
先检索证据再生成,减少无依据推断。 -
RAG 不准先改什么?
先改切分与元数据,再调 TopK/重排,最后改 Prompt。 -
如何控制成本?
模型路由(默认小模型)、限制输入长度与max_tokens、历史摘要、Prompt 缓存(静态前缀放最前)、缓存热点问题。 -
如何做流式中断?
前端AbortController,服务端监听close中止上游。 -
为什么要做 traceId?
让用户反馈和日志定位同一请求,缩短排障时间。 -
如何保证结构化输出稳定?
JSON Schema 校验,失败自动重试,超限降级文本。 -
如何做多模型策略?
按任务路由 + 主备切换 + 失败回退。 -
如何评估 Prompt 改动?
固定用例集回归,对比格式合格率与满意度。 -
限流/超时如何做兜底?
统一错误码 + 用户可操作文案(重试/稍后再试)。 -
你如何体现前端价值?
把模型能力转化为可感知、可控制、可恢复的产品体验。
2026 新增高频题(必备)
-
推理模型(o 系列 / R1 / thinking)和普通模型有什么区别?什么时候用?
推理模型先生成长思维链、用“推理时算力”换准确率,更慢更贵;适合数学/代码/多步规划,简单任务仍用普通小模型。前端要做“正在思考”提示和可折叠的思考过程面板。 -
怎么选模型?
三轴:能力档位(旗舰/小模型/推理)、部署方式(API/私有化)、单位成本;落地做模型路由——简单任务走小模型,复杂/高价值走旗舰或推理模型。型号会迭代,记分层逻辑。 -
MCP 是什么?和工具调用、Skill 有什么关系?
MCP 是“AI 应用接外部工具/数据的开放协议(USB-C 接口)”,把 M×N 适配变成 M+N;架构是 Host/Client/Server,走 stdio(本地)或 Streamable HTTP(远程)。MCP 解决“能连什么(工具)”,Skill 解决“会怎么做(方法)”,互补。 -
结构化输出怎么保证?(别只说重试)
用原生 Structured Outputs(JSON Schema strict)由受约束解码保证结构合法,配zod前后端共用类型;业务正确性仍需自校验;不支持时再回退“Prompt 约束 + 重试”。 -
RAG 不准,进阶怎么优化?
按便宜到贵:切分/元数据/上下文检索 → 混合检索(BM25+向量)+重排模型 → 查询改写/多查询 → 强约束引用 → 最后才上 GraphRAG / Agentic RAG。 -
实时语音两种架构?
级联(ASR→LLM→TTS,可控可接 RAG 但延迟高)vs 端到端语音(Realtime API,低延迟、可打断、走 WebRTC/WebSocket)。前端用 WebRTC + 临时密钥接入,绝不暴露真实 Key。 -
Vercel AI SDK 解决了什么?
统一多厂商、流式开箱即用(streamText+useChat)、内置工具调用与结构化输出、支持 Generative UI;治理(鉴权/限流/成本/日志)仍放自己服务端。 -
微调 vs RAG vs 长上下文怎么选?
缺知识用 RAG(知识会变,别微调进去);缺风格/格式稳定性才微调;先把 Prompt/结构化输出/RAG 榨干再考虑微调。对齐方法了解 SFT→DPO/RLHF→GRPO(推理)。