AI全链路核心概念地图：从底层到应用层

为什么要看全链路
第1层：数据与训练层（底座）
第2层：模型能力层（推理与生成）
第3层：增强与编排层（把能力变成系统）
第4层：应用与产品层（价值交付）
第5层：评测、安全与治理层（可控落地）
必须掌握的关键概念清单
学习顺序建议

为什么要看全链路

很多人学 AI 会“点状理解”：知道 Prompt、知道 RAG、也知道 Agent，但不知道它们在系统里如何衔接。
全链路地图的目标是让你回答三个问题：

当前问题属于哪一层？
该优先优化模型、检索、工具还是产品流程？
出错时该从哪里排查？

第1层：数据与训练层（底座）

语料与数据集：模型能力的上限由数据质量决定。
预训练：学习通用语言与世界知识。
对齐/后训练：让模型可用、安全、会推理，主线为 SFT → DPO / RLHF(PPO) / GRPO / RLAIF。
- SFT：监督微调，用高质量问答对教模型"怎么答"。
- DPO：直接偏好优化，无需训练奖励模型，工程更简单，2026 主流对齐方法。
- RLHF（PPO）：用人类偏好训练奖励模型再做强化学习，经典但复杂。
- GRPO：组相对策略优化，DeepSeek-R1 用于推理能力强化的 RL 算法。
- RLAIF：用 AI 反馈替代人类标注，降低对齐成本。
微调与蒸馏、量化：把大模型能力迁移到更低成本形态。
- QLoRA：4bit 量化 + LoRA，单卡微调大模型。
- 蒸馏：大模型教小模型（如 DeepSeek-R1 → R1-Distill 系列，把推理能力压进小模型）。

典型工具栈：预训练/微调（PyTorch、DeepSpeed、Megatron）、微调（LLaMA-Factory、PEFT/QLoRA）、数据（datasets、Spark）。

常见误区：只关注模型参数规模，忽略数据质量和评测反馈。

第2层：模型能力层（推理与生成）

结构直觉（自注意力、自回归、子词/Token）：见大语言模型工作原理；与「应用层速通」姊妹篇见同文顶部的 LLM 基础（前端+AI）、LLM 原理（Transformer 与工作机制）。
Chat LLM vs Reasoning LLM（2026 关键区分）：
- Chat LLM（GPT-5、Claude Sonnet）：直接生成答案，快、省，适合对话/写作/总结。
- Reasoning LLM（o 系列、DeepSeek-R1）：先输出"思考过程"（reasoning/thinking tokens）再答，靠 test-time compute 解决数学/代码/规划等难题；调 reasoning_effort 控制思考力度。
多模态能力：文本、图像、语音、视频输入输出（2026 多为原生统一多模态）。
上下文窗口：从 128K 迈向 1M+（Gemini），影响长文档、整库代码、长会话质量。
Prompt Cache（提示缓存）：复用相同前缀（系统提示、长文档），降低重复请求成本与延迟。
原生结构化输出（JSON Schema）：OpenAI Structured Outputs 的 json_schema strict 模式可保证返回合法 JSON，替代脆弱的"提示模型输出 JSON"。
采样策略（temperature/top_p）：影响稳定性与创造性（注意：多数推理模型不支持调 temperature）。

典型工具栈：推理部署（vLLM、SGLang、TensorRT-LLM、llama.cpp）、量化（GPTQ/AWQ/FP8）、网关（LiteLLM、OpenRouter）。

关键风险：幻觉（Hallucination）
定义：模型生成看似合理但未经证据支持的内容。

第3层：增强与编排层（把能力变成系统）

RAG：通过检索私有知识增强回答准确性。
Embedding：把文本映射到向量空间，用于语义检索。
重排序（Rerank）：提升检索结果相关性。
工具调用/函数调用（Function Calling）：让模型执行外部动作而非"口头承诺"。
Agent 编排：规划 -> 执行 -> 反馈 -> 重试（ReAct / Plan-Execute / Reflection / Routing）。
MCP（Model Context Protocol，模型上下文协议）：
- 生态位：Anthropic 发起、2024 年 11 月开源，2025 年成为连接模型与工具/数据源的事实标准。
- 架构：Host（宿主，如 Claude Desktop/IDE）/ Client / Server，传输支持 stdio（本地）与 Streamable HTTP（2025 远程标准）。
- 与 Function Calling 的区别：Function Calling 是"模型决定调哪个函数"的模型能力；MCP 是"工具/数据如何被标准化暴露给任意模型"的协议规范——前者解决"会调用"，后者解决"到处都能复用同一套工具"。

典型工具栈：Agent 编排（LangGraph、OpenAI Agents SDK、CrewAI、Vercel AI SDK）、RAG（LlamaIndex、LangChain）、向量库（Milvus、Qdrant、pgvector）、MCP（官方 SDK @modelcontextprotocol/sdk）。

这一层是"从 demo 到产品"的分水岭。

第4层：应用与产品层（价值交付）

场景选择：优先高频、高痛点、可量化收益。
工作流设计：输入、处理、输出、反馈闭环。
交互设计：流式响应、中断恢复、可追溯输出。
商业模型：订阅、按量、按结果混合计费。

典型工具栈：前端流式（Vercel AI SDK、SSE/WebSocket）、产品形态（Coding Agent、Copilot 侧边栏、工作流编排）。

核心判断标准：是否让用户"更快、更准、更省"。

第5层：评测、安全与治理层（可控落地）

评测：任务成功率、事实性、成本、延迟。
安全：提示注入、越权调用、数据泄露、内容风险。
治理：权限、审计、变更门禁、应急回滚。
合规：数据处理、日志保留、可解释与可追踪。

典型工具栈：可观测/评测（Langfuse、LangSmith、Phoenix）、评测框架（Ragas、promptfoo、OpenAI Evals）、护栏（Guardrails、NeMo Guardrails）。

没有这一层，应用通常无法稳定进入生产。

必须掌握的关键概念清单

每个概念配一句话定义，方便面试速答：

幻觉（Hallucination）：模型生成看似合理但无证据支持的内容。
RAG（检索增强生成）：先检索私有知识再让模型基于检索结果作答，缓解幻觉与知识过期。
Embedding / 向量检索：把文本映射成向量，用相似度做语义检索。
Rerank（重排序）：对初步检索结果用更精细模型重排，提升相关性。
Tool Calling / Function Calling：模型输出结构化调用请求，执行外部动作。
Agent / Multi-Agent：能自主规划-执行-反思的系统，多个 Agent 可协作分工。
MoE（混合专家）：用 router 在多专家中只激活 top-k，总参数大但每次只算少数，省算力不省显存（需加载全部专家）。
Test-time compute（推理时计算）：推理时多花算力"思考"以换更高准确率，是推理模型的核心范式。
推理模型（Reasoning LLM）：经 RL（如 GRPO）训练、先输出思考 token 再答的模型（o 系列、DeepSeek-R1）。
蒸馏（Distillation）：用大模型的输出训练小模型，把能力压缩进低成本模型。
Prompt Injection（提示注入）：攻击者用恶意输入劫持模型指令。
Guardrails（护栏机制）：对输入/输出做安全与格式约束。
Eval（评测）与 Benchmark（基准）：衡量任务成功率、事实性、成本、延迟。
Routing（模型路由）与 Caching（缓存）：按难度/成本路由到不同模型，并用 Prompt/语义缓存降本。

学习顺序建议

先掌握 01-03 的底层与模型能力。
再学习 04-05 的 RAG、工具调用、Agent 编排。
接着进入 07-08 做场景落地与产品化。
最后用 10-11 完成安全治理与实时多模态进阶。

目录​

为什么要看全链路​

第1层：数据与训练层（底座）​

第2层：模型能力层（推理与生成）​

第3层：增强与编排层（把能力变成系统）​

第4层：应用与产品层（价值交付）​

第5层：评测、安全与治理层（可控落地）​

必须掌握的关键概念清单​

学习顺序建议​

目录