AI全链路核心概念地图:从底层到应用层
目录
- 为什么要看全链路
- 第1层:数据与训练层(底座)
- 第2层:模型能力层(推理与生成)
- 第3层:增强与编排层(把能力变成系统)
- 第4层:应用与产品层(价值交付)
- 第5层:评测、安全与治理层(可控落地)
- 必须掌握的关键概念清单
- 学习顺序建议
为什么要看全链路
很多人学 AI 会“点状理解”:知道 Prompt、知道 RAG、也知道 Agent,但不知道它们在系统里如何衔接。
全链路地图的目标是让你回答三个问题:
- 当前问题属于哪一层?
- 该优先优化模型、检索、工具还是产品流程?
- 出错时该从哪里排查?
第1层:数据与训练层(底座)
- 语料与数据集:模型能力的上限由数据质量决定。
- 预训练:学习通用语言与世界知识。
- 对齐/后训练:让模型可用、安全、会推理,主线为 SFT → DPO / RLHF(PPO) / GRPO / RLAIF。
- SFT:监督微调,用高质量问答对教模型"怎么答"。
- DPO:直接偏好优化,无需训练奖励模型,工程更简单,2026 主流对齐方法。
- RLHF(PPO):用人类偏好训练奖励模型再做强化学习,经典但复杂。
- GRPO:组相对策略优化,DeepSeek-R1 用于推理能力强化的 RL 算法。
- RLAIF:用 AI 反馈替代人类标注,降低对齐成本。
- 微调与蒸馏、量化:把大模型能力迁移到更低成本形态。
- QLoRA:4bit 量化 + LoRA,单卡微调大模型。
- 蒸馏:大模型教小模型(如 DeepSeek-R1 → R1-Distill 系列,把推理能力压进小模型)。
典型工具栈:预训练/微调(PyTorch、DeepSpeed、Megatron)、微调(LLaMA-Factory、PEFT/QLoRA)、数据(datasets、Spark)。
常见误区:只关注模型参数规模,忽略数据质量和评测反馈。
第2层:模型能力层(推理与生成)
- 结构直觉(自注意力、自回归、子词/Token):见 大语言模型工作原理;与「应用层速通」姊妹篇见同文顶部的 LLM 基础(前端+AI)、LLM 原理(Transformer 与工作机制)。
- Chat LLM vs Reasoning LLM(2026 关键区分):
- Chat LLM(GPT-5、Claude Sonnet):直接生成答案,快、省,适合对话/写作/总结。
- Reasoning LLM(o 系列、DeepSeek-R1):先输出"思考过程"(reasoning/thinking tokens)再答,靠 test-time compute 解决数学/代码/规划等难题;调
reasoning_effort控制思考力度。
- 多模态能力:文本、图像、语音、视频输入输出(2026 多为原生统一多模态)。
- 上下文窗口:从 128K 迈向 1M+(Gemini),影响长文档、整库代码、长会话质量。
- Prompt Cache(提示缓存):复用相同前缀(系统提示、长文档),降低重复请求成本与延迟。
- 原生结构化输出(JSON Schema):OpenAI Structured Outputs 的
json_schemastrict 模式可保证返回合法 JSON,替代脆弱的"提示模型输出 JSON"。 - 采样策略(temperature/top_p):影响稳定性与创造性(注意:多数推理模型不支持调 temperature)。
典型工具栈:推理部署(vLLM、SGLang、TensorRT-LLM、llama.cpp)、量化(GPTQ/AWQ/FP8)、网关(LiteLLM、OpenRouter)。
关键风险:幻觉(Hallucination)
定义:模型生成看似合理但未经证据支持的内容。
第3层:增强与编排层(把能力变成系统)
- RAG:通过检索私有知识增强回答准确性。
- Embedding:把文本映射到向量空间,用于语义检索。
- 重排序(Rerank):提升检索结果相关性。
- 工具调用/函数调用(Function Calling):让模型执行外部动作而非"口头承诺"。
- Agent 编排:规划 -> 执行 -> 反馈 -> 重试(ReAct / Plan-Execute / Reflection / Routing)。
- MCP(Model Context Protocol,模型上下文协议):
- 生态位:Anthropic 发起、2024 年 11 月开源,2025 年成为连接模型与工具/数据源的事实标准。
- 架构:Host(宿主,如 Claude Desktop/IDE)/ Client / Server,传输支持 stdio(本地)与 Streamable HTTP(2025 远程标准)。
- 与 Function Calling 的区别:Function Calling 是"模型决定调哪个函数"的模型能力;MCP 是"工具/数据如何被标准化暴露给任意模型"的协议规范——前者解决"会调用",后者解决"到处都能复用同一套工具"。
典型工具栈:Agent 编排(LangGraph、OpenAI Agents SDK、CrewAI、Vercel AI SDK)、RAG(LlamaIndex、LangChain)、向量库(Milvus、Qdrant、pgvector)、MCP(官方 SDK @modelcontextprotocol/sdk)。
这一层是"从 demo 到产品"的分水岭。
第4层:应用与产品层(价值交付)
- 场景选择:优先高频、高痛点、可量化收益。
- 工作流设计:输入、处理、输出、反馈闭环。
- 交互设计:流式响应、中断恢复、可追溯输出。
- 商业模型:订阅、按量、按结果混合计费。
典型工具栈:前端流式(Vercel AI SDK、SSE/WebSocket)、产品形态(Coding Agent、Copilot 侧边栏、工作流编排)。
核心判断标准:是否让用户"更快、更准、更省"。
第5层:评测、安全与治理层(可控落地)
- 评测:任务成功率、事实性、成本、延迟。
- 安全:提示注入、越权调用、数据泄露、内容风险。
- 治理:权限、审计、变更门禁、应急回滚。
- 合规:数据处理、日志保留、可解释与可追踪。
典型工具栈:可观测/评测(Langfuse、LangSmith、Phoenix)、评测框架(Ragas、promptfoo、OpenAI Evals)、护栏(Guardrails、NeMo Guardrails)。
没有这一层,应用通常无法稳定进入生产。
必须掌握的关键概念清单
每个概念配一句话定义,方便面试速答:
- 幻觉(Hallucination):模型生成看似合理但无证据支持的内容。
- RAG(检索增强生成):先检索私有知识再让模型基于检索结果作答,缓解幻觉与知识过期。
- Embedding / 向量检索:把文本映射成向量,用相似度做语义检索。
- Rerank(重排序):对初步检索结果用更精细模型重排,提升相关性。
- Tool Calling / Function Calling:模型输出结构化调用请求,执行外部动作。
- Agent / Multi-Agent:能自主规划-执行-反思的系统,多个 Agent 可协作分工。
- MoE(混合专家):用 router 在多专家中只激活 top-k,总参数大但每次只算少数,省算力不省显存(需加载全部专家)。
- Test-time compute(推理时计算):推理时多花算力"思考"以换更高准确率,是推理模型的核心范式。
- 推理模型(Reasoning LLM):经 RL(如 GRPO)训练、先输出思考 token 再答的模型(o 系列、DeepSeek-R1)。
- 蒸馏(Distillation):用大模型的输出训练小模型,把能力压缩进低成本模型。
- Prompt Injection(提示注入):攻击者用恶意输入劫持模型指令。
- Guardrails(护栏机制):对输入/输出做安全与格式约束。
- Eval(评测)与 Benchmark(基准):衡量任务成功率、事实性、成本、延迟。
- Routing(模型路由)与 Caching(缓存):按难度/成本路由到不同模型,并用 Prompt/语义缓存降本。
学习顺序建议
- 先掌握
01-03的底层与模型能力。 - 再学习
04-05的 RAG、工具调用、Agent 编排。 - 接着进入
07-08做场景落地与产品化。 - 最后用
10-11完成安全治理与实时多模态进阶。