高频问答(精简版)
用“结论 -> 做法 -> 指标”三段式回答,避免空泛。
目录
回答模板
- 结论:先给一句话判断
- 做法:给 2-3 个可落地动作
- 指标:给 1-2 个量化指标
高频 12 题(含要点)
-
为什么不能前端直连模型?
Key 安全、无法鉴权限流、无法统一日志与成本。 -
幻觉怎么处理?
强约束 Prompt + RAG 引用 + 输出校验 + 无证据拒答。 -
RAG 为什么会更准?
先检索证据再生成,减少无依据推断。 -
RAG 不准先改什么?
先改切分与元数据,再调 TopK/重排,最后改 Prompt。 -
如何控制成本?
限制输入长度、max_tokens、历史摘要、缓存热点问题。 -
如何做流式中断?
前端AbortController,服务端监听close中止上游。 -
为什么要做 traceId?
让用户反馈和日志定位同一请求,缩短排障时间。 -
如何保证结构化输出稳定?
JSON Schema 校验,失败自动重试,超限降级文本。 -
如何做多模型策略?
按任务路由 + 主备切换 + 失败回退。 -
如何评估 Prompt 改动?
固定用例集回归,对比格式合格率与满意度。 -
限流/超时如何做兜底?
统一错误码 + 用户可操作文案(重试/稍后再试)。 -
你如何体现前端价值?
把模型能力转化为可感知、可控制、可恢复的产品体验。