跳到主要内容

高频问答(精简版)

用“结论 -> 做法 -> 指标”三段式回答,避免空泛。

目录

回答模板

  • 结论:先给一句话判断
  • 做法:给 2-3 个可落地动作
  • 指标:给 1-2 个量化指标

高频 12 题(含要点)

  1. 为什么不能前端直连模型?
    Key 安全、无法鉴权限流、无法统一日志与成本。

  2. 幻觉怎么处理?
    强约束 Prompt + RAG 引用 + 输出校验 + 无证据拒答。

  3. RAG 为什么会更准?
    先检索证据再生成,减少无依据推断。

  4. RAG 不准先改什么?
    先改切分与元数据,再调 TopK/重排,最后改 Prompt。

  5. 如何控制成本?
    模型路由(默认小模型)、限制输入长度与 max_tokens、历史摘要、Prompt 缓存(静态前缀放最前)、缓存热点问题。

  6. 如何做流式中断?
    前端 AbortController,服务端监听 close 中止上游。

  7. 为什么要做 traceId?
    让用户反馈和日志定位同一请求,缩短排障时间。

  8. 如何保证结构化输出稳定?
    JSON Schema 校验,失败自动重试,超限降级文本。

  9. 如何做多模型策略?
    按任务路由 + 主备切换 + 失败回退。

  10. 如何评估 Prompt 改动?
    固定用例集回归,对比格式合格率与满意度。

  11. 限流/超时如何做兜底?
    统一错误码 + 用户可操作文案(重试/稍后再试)。

  12. 你如何体现前端价值?
    把模型能力转化为可感知、可控制、可恢复的产品体验。

2026 新增高频题(必备)

  1. 推理模型(o 系列 / R1 / thinking)和普通模型有什么区别?什么时候用?
    推理模型先生成长思维链、用“推理时算力”换准确率,更慢更贵;适合数学/代码/多步规划,简单任务仍用普通小模型。前端要做“正在思考”提示和可折叠的思考过程面板。

  2. 怎么选模型?
    三轴:能力档位(旗舰/小模型/推理)、部署方式(API/私有化)、单位成本;落地做模型路由——简单任务走小模型,复杂/高价值走旗舰或推理模型。型号会迭代,记分层逻辑。

  3. MCP 是什么?和工具调用、Skill 有什么关系?
    MCP 是“AI 应用接外部工具/数据的开放协议(USB-C 接口)”,把 M×N 适配变成 M+N;架构是 Host/Client/Server,走 stdio(本地)或 Streamable HTTP(远程)。MCP 解决“能连什么(工具)”,Skill 解决“会怎么做(方法)”,互补。

  4. 结构化输出怎么保证?(别只说重试)
    用原生 Structured Outputs(JSON Schema strict)由受约束解码保证结构合法,配 zod 前后端共用类型;业务正确性仍需自校验;不支持时再回退“Prompt 约束 + 重试”。

  5. RAG 不准,进阶怎么优化?
    按便宜到贵:切分/元数据/上下文检索 → 混合检索(BM25+向量)+重排模型 → 查询改写/多查询 → 强约束引用 → 最后才上 GraphRAG / Agentic RAG。

  6. 实时语音两种架构?
    级联(ASR→LLM→TTS,可控可接 RAG 但延迟高)vs 端到端语音(Realtime API,低延迟、可打断、走 WebRTC/WebSocket)。前端用 WebRTC + 临时密钥接入,绝不暴露真实 Key。

  7. Vercel AI SDK 解决了什么?
    统一多厂商、流式开箱即用(streamText + useChat)、内置工具调用与结构化输出、支持 Generative UI;治理(鉴权/限流/成本/日志)仍放自己服务端。

  8. 微调 vs RAG vs 长上下文怎么选?
    缺知识用 RAG(知识会变,别微调进去);缺风格/格式稳定性才微调;先把 Prompt/结构化输出/RAG 榨干再考虑微调。对齐方法了解 SFT→DPO/RLHF→GRPO(推理)。