跳到主要内容

AI全链路核心概念地图:从底层到应用层

目录

为什么要看全链路

很多人学 AI 会“点状理解”:知道 Prompt、知道 RAG、也知道 Agent,但不知道它们在系统里如何衔接。
全链路地图的目标是让你回答三个问题:

  • 当前问题属于哪一层?
  • 该优先优化模型、检索、工具还是产品流程?
  • 出错时该从哪里排查?

第1层:数据与训练层(底座)

  • 语料与数据集:模型能力的上限由数据质量决定。
  • 预训练:学习通用语言与世界知识。
  • 对齐/后训练:让模型可用、安全、会推理,主线为 SFT → DPO / RLHF(PPO) / GRPO / RLAIF
    • SFT:监督微调,用高质量问答对教模型"怎么答"。
    • DPO:直接偏好优化,无需训练奖励模型,工程更简单,2026 主流对齐方法。
    • RLHF(PPO):用人类偏好训练奖励模型再做强化学习,经典但复杂。
    • GRPO:组相对策略优化,DeepSeek-R1 用于推理能力强化的 RL 算法。
    • RLAIF:用 AI 反馈替代人类标注,降低对齐成本。
  • 微调与蒸馏、量化:把大模型能力迁移到更低成本形态。
    • QLoRA:4bit 量化 + LoRA,单卡微调大模型。
    • 蒸馏:大模型教小模型(如 DeepSeek-R1 → R1-Distill 系列,把推理能力压进小模型)。

典型工具栈:预训练/微调(PyTorch、DeepSpeed、Megatron)、微调(LLaMA-Factory、PEFT/QLoRA)、数据(datasets、Spark)。

常见误区:只关注模型参数规模,忽略数据质量和评测反馈。

第2层:模型能力层(推理与生成)

  • 结构直觉(自注意力、自回归、子词/Token):见 大语言模型工作原理;与「应用层速通」姊妹篇见同文顶部的 LLM 基础(前端+AI)LLM 原理(Transformer 与工作机制)
  • Chat LLM vs Reasoning LLM(2026 关键区分)
    • Chat LLM(GPT-5、Claude Sonnet):直接生成答案,快、省,适合对话/写作/总结。
    • Reasoning LLM(o 系列、DeepSeek-R1):先输出"思考过程"(reasoning/thinking tokens)再答,靠 test-time compute 解决数学/代码/规划等难题;调 reasoning_effort 控制思考力度。
  • 多模态能力:文本、图像、语音、视频输入输出(2026 多为原生统一多模态)。
  • 上下文窗口:从 128K 迈向 1M+(Gemini),影响长文档、整库代码、长会话质量。
  • Prompt Cache(提示缓存):复用相同前缀(系统提示、长文档),降低重复请求成本与延迟。
  • 原生结构化输出(JSON Schema):OpenAI Structured Outputs 的 json_schema strict 模式可保证返回合法 JSON,替代脆弱的"提示模型输出 JSON"。
  • 采样策略(temperature/top_p):影响稳定性与创造性(注意:多数推理模型不支持调 temperature)。

典型工具栈:推理部署(vLLM、SGLang、TensorRT-LLM、llama.cpp)、量化(GPTQ/AWQ/FP8)、网关(LiteLLM、OpenRouter)。

关键风险:幻觉(Hallucination)
定义:模型生成看似合理但未经证据支持的内容。

第3层:增强与编排层(把能力变成系统)

  • RAG:通过检索私有知识增强回答准确性。
  • Embedding:把文本映射到向量空间,用于语义检索。
  • 重排序(Rerank):提升检索结果相关性。
  • 工具调用/函数调用(Function Calling):让模型执行外部动作而非"口头承诺"。
  • Agent 编排:规划 -> 执行 -> 反馈 -> 重试(ReAct / Plan-Execute / Reflection / Routing)。
  • MCP(Model Context Protocol,模型上下文协议)
    • 生态位:Anthropic 发起、2024 年 11 月开源,2025 年成为连接模型与工具/数据源的事实标准
    • 架构:Host(宿主,如 Claude Desktop/IDE)/ Client / Server,传输支持 stdio(本地)与 Streamable HTTP(2025 远程标准)。
    • 与 Function Calling 的区别:Function Calling 是"模型决定调哪个函数"的模型能力;MCP 是"工具/数据如何被标准化暴露给任意模型"的协议规范——前者解决"会调用",后者解决"到处都能复用同一套工具"。

典型工具栈:Agent 编排(LangGraph、OpenAI Agents SDK、CrewAI、Vercel AI SDK)、RAG(LlamaIndex、LangChain)、向量库(Milvus、Qdrant、pgvector)、MCP(官方 SDK @modelcontextprotocol/sdk)。

这一层是"从 demo 到产品"的分水岭。

第4层:应用与产品层(价值交付)

  • 场景选择:优先高频、高痛点、可量化收益。
  • 工作流设计:输入、处理、输出、反馈闭环。
  • 交互设计:流式响应、中断恢复、可追溯输出。
  • 商业模型:订阅、按量、按结果混合计费。

典型工具栈:前端流式(Vercel AI SDK、SSE/WebSocket)、产品形态(Coding Agent、Copilot 侧边栏、工作流编排)。

核心判断标准:是否让用户"更快、更准、更省"。

第5层:评测、安全与治理层(可控落地)

  • 评测:任务成功率、事实性、成本、延迟。
  • 安全:提示注入、越权调用、数据泄露、内容风险。
  • 治理:权限、审计、变更门禁、应急回滚。
  • 合规:数据处理、日志保留、可解释与可追踪。

典型工具栈:可观测/评测(Langfuse、LangSmith、Phoenix)、评测框架(Ragas、promptfoo、OpenAI Evals)、护栏(Guardrails、NeMo Guardrails)。

没有这一层,应用通常无法稳定进入生产。

必须掌握的关键概念清单

每个概念配一句话定义,方便面试速答:

  • 幻觉(Hallucination):模型生成看似合理但无证据支持的内容。
  • RAG(检索增强生成):先检索私有知识再让模型基于检索结果作答,缓解幻觉与知识过期。
  • Embedding / 向量检索:把文本映射成向量,用相似度做语义检索。
  • Rerank(重排序):对初步检索结果用更精细模型重排,提升相关性。
  • Tool Calling / Function Calling:模型输出结构化调用请求,执行外部动作。
  • Agent / Multi-Agent:能自主规划-执行-反思的系统,多个 Agent 可协作分工。
  • MoE(混合专家):用 router 在多专家中只激活 top-k,总参数大但每次只算少数,省算力不省显存(需加载全部专家)。
  • Test-time compute(推理时计算):推理时多花算力"思考"以换更高准确率,是推理模型的核心范式。
  • 推理模型(Reasoning LLM):经 RL(如 GRPO)训练、先输出思考 token 再答的模型(o 系列、DeepSeek-R1)。
  • 蒸馏(Distillation):用大模型的输出训练小模型,把能力压缩进低成本模型。
  • Prompt Injection(提示注入):攻击者用恶意输入劫持模型指令。
  • Guardrails(护栏机制):对输入/输出做安全与格式约束。
  • Eval(评测)与 Benchmark(基准):衡量任务成功率、事实性、成本、延迟。
  • Routing(模型路由)与 Caching(缓存):按难度/成本路由到不同模型,并用 Prompt/语义缓存降本。

学习顺序建议

  1. 先掌握 01-03 的底层与模型能力。
  2. 再学习 04-05 的 RAG、工具调用、Agent 编排。
  3. 接着进入 07-08 做场景落地与产品化。
  4. 最后用 10-11 完成安全治理与实时多模态进阶。