大模型训练与微调技术

深入理解大语言模型的训练流程、微调策略和优化技术

🎯 学习目标
🏗️ 大模型训练全流程
- 训练阶段概览
- 训练数据处理流水线
🎓 预训练技术深度解析
🎯 监督微调(SFT)技术
🔄 强化学习人类反馈(RLHF)
🔧 参数高效微调(PEFT)
💻 Node.js训练与微调实现
- 简化版训练流程实现
🎯 学习检验
- 理论理解检验
- 实践能力检验
🚀 实践项目建议
- 基础训练项目
- 高级优化项目
📚 延伸阅读

🎯 学习目标

通过本章学习，你将能够：

理解大模型预训练的完整流程和关键技术
掌握监督微调(SFT)和强化学习(RLHF)的原理和实践
了解参数高效微调(PEFT)技术如LoRA、Adapter等
理解分布式训练和优化策略
具备设计和实施大模型训练方案的能力

🏗️ 大模型训练全流程

训练阶段概览

大语言模型的训练通常分为三个主要阶段，每个阶段都有不同的目标和技术要求。

训练阶段	主要目标	数据类型	训练方法	计算资源需求	训练时长
预训练(Pre-training)	学习语言统计规律和世界知识	大规模无标注文本	自监督学习(下一词预测)	极高(数千GPU-月)	数周到数月
监督微调(SFT)	学习指令跟随和对话格式	指令-回答对	监督学习	中等(数十GPU-天)	数天到数周
强化学习(RLHF)	对齐人类价值观和偏好	人类反馈数据	强化学习(PPO)	高(数百GPU-天)	数天到数周

训练数据处理流水线

处理阶段	主要任务	技术方法	质量指标	工具示例
数据收集	获取大规模文本数据	网页爬取、API采集、数据购买	数据量、覆盖面	Common Crawl, C4
数据清洗	去除低质量和有害内容	规则过滤、模型过滤、去重	质量分数、重复率	CCNet, fastText
数据预处理	格式标准化和编码	文本规范化、分词、编码	一致性、完整性	SentencePiece, tiktoken
数据混合	平衡不同来源和类型	采样策略、权重分配	分布均衡性	自定义采样器
数据验证	确保数据质量和合规性	统计分析、人工审核	合规率、质量评分	数据质量检测工具

🎓 预训练技术深度解析

自监督学习原理

预训练阶段使用自监督学习，通过预测下一个词汇来学习语言模式和知识。

学习任务	输入格式	目标输出	学习内容	难点挑战
下一词预测(CLM)	[w1, w2, ..., wn]	wn+1	语言模式、语法结构	长距离依赖建模
掩码语言建模(MLM)	[w1, [MASK], w3, ...]	w2	双向上下文理解	预训练-微调差异
前缀语言建模(PLM)	prefix + [w1, w2, ...]	续写内容	条件生成能力	前缀选择策略
文档级建模	多段落文档	段落间关系	长文本理解	内存和计算限制

训练目标函数

目标函数类型	数学表达式	优化目标	适用场景	计算复杂度
交叉熵损失	`L = -∑log P(wi\|w<i)`	最大化下一词概率	标准语言建模	O(V×d)
对比学习损失	L = -log(exp(sim(h+,h))/∑exp(sim(h-,h)))	学习表示区分性	表示学习	O(B²×d)
知识蒸馏损失	L = KL(P_student, P_teacher)	知识传递	模型压缩	O(V×d)
多任务损失	L = ∑λi Li	多目标优化	多任务学习	各任务复杂度之和

大规模训练优化技术

优化技术	核心原理	性能提升	内存节省	实现复杂度
梯度累积	累积多个小批次梯度	模拟大批次训练	无	低
混合精度训练	FP16计算+FP32存储	2x速度提升	50%内存节省	中
梯度检查点	重计算激活值	无	80%内存节省	中
ZeRO优化器	分布式优化器状态	线性扩展	8x内存节省	高
模型并行	模型分片到多GPU	突破单卡限制	按分片比例	高
流水线并行	层级流水线执行	提高GPU利用率	无	高

🎯 监督微调(SFT)技术

SFT训练流程

监督微调是在预训练模型基础上，使用高质量的指令-回答对进行有监督训练。

训练步骤	具体操作	关键参数	注意事项	评估指标
数据准备	构建指令-回答数据集	数据量、质量、多样性	避免数据泄露	数据质量分数
模型初始化	加载预训练权重	模型架构匹配	权重冻结策略	初始性能基线
超参数设置	学习率、批次大小等	lr=1e-5, batch=32	避免灾难性遗忘	验证集性能
训练执行	梯度下降优化	训练轮数、早停	过拟合监控	训练损失曲线
模型评估	多维度性能测试	准确率、流畅度等	人工评估结合	综合评估分数

指令数据构建

数据类型	构建方法	质量特征	数量需求	应用效果
任务指令	人工编写+模板生成	清晰、具体、多样	10K-100K	提升任务执行能力
对话数据	人机对话收集	自然、连贯、有用	50K-500K	增强对话能力
推理链数据	步骤分解标注	逻辑清晰、完整	5K-50K	提升推理能力
代码数据	代码-注释对	正确、规范、实用	20K-200K	增强编程能力
多模态数据	图文配对标注	准确、相关、丰富	10K-100K	支持多模态理解

微调策略对比

微调策略	更新参数	计算开销	内存需求	效果保持	适用场景
全参数微调	所有参数	100%	100%	最佳	资源充足，追求最佳效果
冻结底层	顶层参数	30-50%	30-50%	良好	资源有限，任务相关性高
逐层解冻	渐进解冻	50-80%	50-80%	很好	平衡效果和效率
任务特定层	特定层参数	20-40%	20-40%	中等	特定任务优化

🔄 强化学习人类反馈(RLHF)

RLHF训练流程

RLHF通过人类反馈训练奖励模型，再用强化学习优化语言模型，使其输出更符合人类偏好。

训练阶段	主要任务	输入数据	输出结果	技术挑战
奖励模型训练	学习人类偏好	回答对比较数据	奖励分数预测器	偏好一致性建模
强化学习优化	最大化奖励分数	提示词集合	优化后的语言模型	训练稳定性
安全性过滤	确保输出安全	安全性检查数据	安全约束模型	平衡有用性和安全性

奖励模型设计

模型组件	设计选择	技术实现	性能指标	优化方向
基础架构	与语言模型相同	Transformer编码器	预测准确率	架构一致性
输出层	标量奖励预测	线性层+激活函数	分数分布合理性	数值稳定性
训练目标	排序损失函数	Bradley-Terry模型	排序一致性	偏好建模准确性
正则化	防止奖励黑客	KL散度约束	与原模型相似度	保持原有能力

PPO算法详解

近端策略优化(PPO)是RLHF中常用的强化学习算法。

PPO组件	数学表达式	作用机制	超参数	调优策略
策略比率	r(θ) = π_θ(a\|s) / π_θ_old(a\|s)	衡量策略变化	无	监控比率分布
裁剪目标	L^CLIP = min(r(θ)A, clip(r(θ), 1-ε, 1+ε)A)	限制更新幅度	ε=0.2	根据训练稳定性调整
价值函数	L^VF = (V_θ(s) - V^target)²	基线估计	无	提高估计准确性
熵正则	L^ENT = -H(π_θ(·\|s))	保持探索性	β=0.01	平衡探索和利用

🔧 参数高效微调(PEFT)

PEFT技术对比

参数高效微调技术通过只更新少量参数来实现模型适配，大大降低了计算和存储成本。

PEFT方法	核心思想	参数量	性能保持	实现复杂度	适用场景
LoRA	低秩矩阵分解	`0.1-1%`	`95-99%`	低	通用微调
Adapter	插入小型网络	`1-5%`	`90-95%`	中	多任务学习
Prefix Tuning	优化输入前缀	`0.1-0.5%`	`85-95%`	低	生成任务
P-Tuning v2	深度提示调优	`0.1-1%`	`90-98%`	中	理解任务
BitFit	只调优偏置项	`<0.1%`	`80-90%`	极低	资源极限场景

LoRA技术深度解析

低秩适应(LoRA)是最流行的PEFT技术之一。

LoRA特性	技术细节	数学表示	优势	局限性
低秩分解	W = W₀ + BA	W₀固定，优化B∈R^(d×r), A∈R^(r×k)	参数量大幅减少	表达能力受限
秩选择	通常r=8,16,32	rank越大表达能力越强	灵活的复杂度控制	需要任务特定调优
缩放因子	α/r缩放	控制LoRA贡献度	稳定训练过程	需要经验调参
模块选择	通常应用于注意力层	只对关键层应用LoRA	效率和效果平衡	可能错过重要参数

Adapter架构设计

Adapter类型	架构设计	插入位置	参数量	性能特点
串行Adapter	两层MLP	每层之后	2×d×bottleneck	简单有效
并行Adapter	与原层并行	与FFN并行	2×d×bottleneck	训练更稳定
混合Adapter	串行+并行结合	多个位置	更多参数	性能更好
条件Adapter	任务条件激活	动态选择	共享参数	多任务友好

💻 Node.js训练与微调实现

简化版训练流程实现

// 大模型训练和微调框架
const fs = require('fs');
const path = require('path');

class LLMTrainer {
  constructor(config) {
    this.config = {
      modelConfig: config.modelConfig || {},
      trainingConfig: config.trainingConfig || {},
      dataConfig: config.dataConfig || {}
    };
    
    this.model = null;
    this.optimizer = null;
    this.trainingHistory = [];
    
    console.log('LLM训练器初始化完成');
    this.printConfig();
  }

  printConfig() {
    console.log('\n=== 训练配置 ===');
    console.log('模型配置:', JSON.stringify(this.config.modelConfig, null, 2));
    console.log('训练配置:', JSON.stringify(this.config.trainingConfig, null, 2));
    console.log('数据配置:', JSON.stringify(this.config.dataConfig, null, 2));
  }

  // 数据预处理流水线
  preprocessData(rawData, stage = 'pretrain') {
    console.log(`\n=== ${stage}数据预处理 ===`);
    console.log(`原始数据量: ${rawData.length}`);
    
    let processedData = rawData;
    
    // 1. 数据清洗
    processedData = this.cleanData(processedData);
    console.log(`清洗后数据量: ${processedData.length}`);
    
    // 2. 数据格式化
    processedData = this.formatData(processedData, stage);
    console.log(`格式化后数据量: ${processedData.length}`);
    
    // 3. 数据分词
    processedData = this.tokenizeData(processedData);
    console.log(`分词后数据量: ${processedData.length}`);
    
    // 4. 数据统计
    const stats = this.computeDataStats(processedData);
    console.log('数据统计:', stats);
    
    return processedData;
  }

  cleanData(data) {
    console.log('执行数据清洗...');
    
    return data.filter(item => {
      // 过滤条件
      if (!item || typeof item !== 'string') return false;
      if (item.length < 10 || item.length > 2048) return false;
      if (this.containsHarmfulContent(item)) return false;
      if (this.isDuplicate(item)) return false;
      
      return true;
    });
  }

  containsHarmfulContent(text) {
    // 简化的有害内容检测
    const harmfulPatterns = [
      /\b(hate|violence|illegal)\b/i,
      /\b(spam|scam|fraud)\b/i
    ];
    
    return harmfulPatterns.some(pattern => pattern.test(text));
  }

  isDuplicate(text) {
    // 简化的去重逻辑
    if (!this.seenTexts) {
      this.seenTexts = new Set();
    }
    
    const hash = this.simpleHash(text);
    if (this.seenTexts.has(hash)) {
      return true;
    }
    
    this.seenTexts.add(hash);
    return false;
  }

  simpleHash(text) {
    let hash = 0;
    for (let i = 0; i < text.length; i++) {
      const char = text.charCodeAt(i);
      hash = ((hash << 5) - hash) + char;
      hash = hash & hash; // 转换为32位整数
    }
    return hash;
  }

  formatData(data, stage) {
    console.log(`格式化数据为${stage}格式...`);
    
    switch (stage) {
      case 'pretrain':
        return this.formatPretrainData(data);
      case 'sft':
        return this.formatSFTData(data);
      case 'rlhf':
        return this.formatRLHFData(data);
      default:
        return data;
    }
  }

  formatPretrainData(data) {
    // 预训练数据格式：纯文本
    return data.map(text => ({
      input: text,
      target: text, // 自监督学习
      type: 'pretrain'
    }));
  }

  formatSFTData(data) {
    // SFT数据格式：指令-回答对
    return data.map(item => {
      if (typeof item === 'string') {
        // 简单文本转换为指令格式
        return {
          instruction: '请继续以下文本：',
          input: item.substring(0, item.length / 2),
          output: item.substring(item.length / 2),
          type: 'sft'
        };
      }
      return item;
    });
  }

  formatRLHFData(data) {
    // RLHF数据格式：偏好对比
    return data.map(item => ({
      prompt: item.prompt || '',
      chosen: item.chosen || '',
      rejected: item.rejected || '',
      type: 'rlhf'
    }));
  }

  tokenizeData(data) {
    console.log('执行数据分词...');
    
    return data.map(item => {
      const tokenized = { ...item };
      
      if (item.input) {
        tokenized.input_tokens = this.tokenize(item.input);
      }
      if (item.target) {
        tokenized.target_tokens = this.tokenize(item.target);
      }
      if (item.output) {
        tokenized.output_tokens = this.tokenize(item.output);
      }
      
      return tokenized;
    });
  }

  tokenize(text) {
    // 简化的分词器
    return text.split('').map(char => 
      char.charCodeAt(0) % 1000
    );
  }

  computeDataStats(data) {
    const stats = {
      totalSamples: data.length,
      avgInputLength: 0,
      avgOutputLength: 0,
      maxLength: 0,
      minLength: Infinity,
      typeDistribution: {}
    };
    
    let totalInputLength = 0;
    let totalOutputLength = 0;
    
    data.forEach(item => {
      // 统计类型分布
      const type = item.type || 'unknown';
      stats.typeDistribution[type] = (stats.typeDistribution[type] || 0) + 1;
      
      // 统计长度
      if (item.input_tokens) {
        const length = item.input_tokens.length;
        totalInputLength += length;
        stats.maxLength = Math.max(stats.maxLength, length);
        stats.minLength = Math.min(stats.minLength, length);
      }
      
      if (item.output_tokens) {
        totalOutputLength += item.output_tokens.length;
      }
    });
    
    stats.avgInputLength = Math.round(totalInputLength / data.length);
    stats.avgOutputLength = Math.round(totalOutputLength / data.length);
    
    return stats;
  }

  // 预训练实现
  async pretrain(data, epochs = 1) {
    console.log('\n=== 开始预训练 ===');
    console.log(`数据量: ${data.length}, 训练轮数: ${epochs}`);
    
    const processedData = this.preprocessData(data, 'pretrain');
    
    for (let epoch = 0; epoch < epochs; epoch++) {
      console.log(`\n--- 预训练 Epoch ${epoch + 1}/${epochs} ---`);
      
      let totalLoss = 0;
      const batchSize = this.config.trainingConfig.batchSize || 32;
      const numBatches = Math.ceil(processedData.length / batchSize);
      
      for (let batchIdx = 0; batchIdx < numBatches; batchIdx++) {
        const batch = processedData.slice(
          batchIdx * batchSize,
          (batchIdx + 1) * batchSize
        );
        
        const batchLoss = this.trainBatch(batch, 'pretrain');
        totalLoss += batchLoss;
        
        if (batchIdx % 100 === 0) {
          console.log(`Batch ${batchIdx}/${numBatches}, Loss: ${batchLoss.toFixed(4)}`);
        }
      }
      
      const avgLoss = totalLoss / numBatches;
      console.log(`Epoch ${epoch + 1} 平均损失: ${avgLoss.toFixed(4)}`);
      
      this.trainingHistory.push({
        epoch: epoch + 1,
        stage: 'pretrain',
        loss: avgLoss,
        timestamp: new Date().toISOString()
      });
    }
    
    console.log('预训练完成');
  }

  // 监督微调实现
  async supervisedFineTune(data, epochs = 3) {
    console.log('\n=== 开始监督微调 ===');
    console.log(`数据量: ${data.length}, 训练轮数: ${epochs}`);
    
    const processedData = this.preprocessData(data, 'sft');
    
    // 降低学习率
    const originalLR = this.config.trainingConfig.learningRate || 1e-4;
    this.config.trainingConfig.learningRate = originalLR * 0.1;
    
    for (let epoch = 0; epoch < epochs; epoch++) {
      console.log(`\n--- SFT Epoch ${epoch + 1}/${epochs} ---`);
      
      let totalLoss = 0;
      const batchSize = this.config.trainingConfig.batchSize || 16;
      const numBatches = Math.ceil(processedData.length / batchSize);
      
      for (let batchIdx = 0; batchIdx < numBatches; batchIdx++) {
        const batch = processedData.slice(
          batchIdx * batchSize,
          (batchIdx + 1) * batchSize
        );
        
        const batchLoss = this.trainBatch(batch, 'sft');
        totalLoss += batchLoss;
        
        if (batchIdx % 50 === 0) {
          console.log(`Batch ${batchIdx}/${numBatches}, Loss: ${batchLoss.toFixed(4)}`);
        }
      }
      
      const avgLoss = totalLoss / numBatches;
      console.log(`Epoch ${epoch + 1} 平均损失: ${avgLoss.toFixed(4)}`);
      
      this.trainingHistory.push({
        epoch: epoch + 1,
        stage: 'sft',
        loss: avgLoss,
        timestamp: new Date().toISOString()
      });
      
      // 早停检查
      if (this.shouldEarlyStop()) {
        console.log('触发早停，结束训练');
        break;
      }
    }
    
    console.log('监督微调完成');
  }

  // 批次训练
  trainBatch(batch, stage) {
    // 简化的批次训练逻辑
    let batchLoss = 0;
    
    batch.forEach(item => {
      const loss = this.computeLoss(item, stage);
      batchLoss += loss;
      
      // 模拟梯度更新
      this.updateParameters(loss);
    });
    
    return batchLoss / batch.length;
  }

  computeLoss(item, stage) {
    // 简化的损失计算
    switch (stage) {
      case 'pretrain':
        return this.computeLanguageModelingLoss(item);
      case 'sft':
        return this.computeSupervisionLoss(item);
      case 'rlhf':
        return this.computeRLHFLoss(item);
      default:
        return Math.random(); // 随机损失用于演示
    }
  }

  computeLanguageModelingLoss(item) {
    // 语言建模损失（交叉熵）
    const inputTokens = item.input_tokens || [];
    const targetTokens = item.target_tokens || [];
    
    if (inputTokens.length === 0 || targetTokens.length === 0) {
      return 1.0;
    }
    
    // 简化的交叉熵计算
    let loss = 0;
    for (let i = 0; i < Math.min(inputTokens.length, targetTokens.length); i++) {
      const predicted = inputTokens[i];
      const target = targetTokens[i];
      
      // 简化的交叉熵
      loss += -Math.log(Math.max(0.001, 1 - Math.abs(predicted - target) / 1000));
    }
    
    return loss / Math.min(inputTokens.length, targetTokens.length);
  }

  computeSupervisionLoss(item) {
    // 监督学习损失
    const outputTokens = item.output_tokens || [];
    
    if (outputTokens.length === 0) {
      return 1.0;
    }
    
    // 简化的监督损失
    return Math.random() * 0.5 + 0.1; // 模拟较低的损失
  }

  computeRLHFLoss(item) {
    // RLHF损失（PPO）
    return Math.random() * 0.3 + 0.05; // 模拟RLHF损失
  }

  updateParameters(loss) {
    // 简化的参数更新
    const lr = this.config.trainingConfig.learningRate || 1e-4;
    
    // 模拟梯度下降
    // 在实际实现中，这里会更新模型参数
    
    return true;
  }

  shouldEarlyStop() {
    // 简化的早停逻辑
    if (this.trainingHistory.length < 3) return false;
    
    const recentLosses = this.trainingHistory.slice(-3).map(h => h.loss);
    const isIncreasing = recentLosses[1] > recentLosses[0] && recentLosses[2] > recentLosses[1];
    
    return isIncreasing;
  }

  // 保存训练历史
  saveTrainingHistory(filepath) {
    const historyData = {
      config: this.config,
      history: this.trainingHistory,
      timestamp: new Date().toISOString()
    };
    
    fs.writeFileSync(filepath, JSON.stringify(historyData, null, 2));
    console.log(`训练历史已保存到: ${filepath}`);
  }

  // 可视化训练过程
  visualizeTraining() {
    console.log('\n=== 训练过程可视化 ===');
    
    if (this.trainingHistory.length === 0) {
      console.log('没有训练历史数据');
      return;
    }
    
    // 按阶段分组
    const stageGroups = {};
    this.trainingHistory.forEach(record => {
      if (!stageGroups[record.stage]) {
        stageGroups[record.stage] = [];
      }
      stageGroups[record.stage].push(record);
    });
    
    // 显示每个阶段的损失曲线
    Object.entries(stageGroups).forEach(([stage, records]) => {
      console.log(`\n${stage.toUpperCase()}阶段损失曲线:`);
      console.log('Epoch\tLoss\t\tTrend');
      console.log(''.padEnd(30, '-'));
      
      records.forEach((record, idx) => {
        const trend = idx > 0 ? 
          (record.loss < records[idx - 1].loss ? '↓' : '↑') : '-';
        
        console.log(`${record.epoch}\t${record.loss.toFixed(4)}\t\t${trend}`);
      });
    });
    
    // 总体统计
    const allLosses = this.trainingHistory.map(h => h.loss);
    const minLoss = Math.min(...allLosses);
    const maxLoss = Math.max(...allLosses);
    const finalLoss = allLosses[allLosses.length - 1];
    
    console.log('\n=== 训练统计 ===');
    console.log(`总训练轮数: ${this.trainingHistory.length}`);
    console.log(`最低损失: ${minLoss.toFixed(4)}`);
    console.log(`最高损失: ${maxLoss.toFixed(4)}`);
    console.log(`最终损失: ${finalLoss.toFixed(4)}`);
    console.log(`损失改善: ${((maxLoss - finalLoss) / maxLoss * 100).toFixed(2)}%`);
  }
}

// LoRA微调实现
class LoRATrainer {
  constructor(baseModel, config) {
    this.baseModel = baseModel;
    this.config = {
      rank: config.rank || 16,
      alpha: config.alpha || 32,
      dropout: config.dropout || 0.1,
      targetModules: config.targetModules || ['q_proj', 'v_proj']
    };
    
    this.loraLayers = {};
    this.initializeLoRALayers();
    
    console.log('LoRA训练器初始化完成');
    this.printLoRAInfo();
  }

  initializeLoRALayers() {
    console.log('初始化LoRA层...');
    
    this.config.targetModules.forEach(moduleName => {
      this.loraLayers[moduleName] = {
        A: this.initializeMatrix(this.config.rank, 768), // 假设hidden_size=768
        B: this.initializeMatrix(768, this.config.rank),
        scaling: this.config.alpha / this.config.rank
      };
    });
  }

  initializeMatrix(rows, cols) {
    const matrix = [];
    const scale = Math.sqrt(2 / (rows + cols));
    
    for (let i = 0; i < rows; i++) {
      const row = [];
      for (let j = 0; j < cols; j++) {
        row.push((Math.random() - 0.5) * 2 * scale);
      }
      matrix.push(row);
    }
    
    return matrix;
  }

  printLoRAInfo() {
    console.log('\n=== LoRA配置信息 ===');
    console.log(`秩(Rank): ${this.config.rank}`);
    console.log(`缩放因子(Alpha): ${this.config.alpha}`);
    console.log(`Dropout: ${this.config.dropout}`);
    console.log(`目标模块: [${this.config.targetModules.join(', ')}]`);
    
    // 计算参数量
    const originalParams = 768 * 768 * this.config.targetModules.length; // 假设
    const loraParams = (768 + 768) * this.config.rank * this.config.targetModules.length;
    const reduction = ((originalParams - loraParams) / originalParams * 100).toFixed(2);
    
    console.log(`\n参数量对比:`);
    console.log(`原始参数: ${originalParams.toLocaleString()}`);
    console.log(`LoRA参数: ${loraParams.toLocaleString()}`);
    console.log(`参数减少: ${reduction}%`);
  }

  // LoRA前向传播
  loraForward(x, moduleName) {
    if (!this.loraLayers[moduleName]) {
      return x; // 如果没有LoRA层，直接返回
    }
    
    const lora = this.loraLayers[moduleName];
    
    // LoRA计算: x + (xA)B * scaling
    const xA = this.matmul(x, lora.A);
    const xAB = this.matmul(xA, lora.B);
    const loraOutput = xAB.map(row => 
      row.map(val => val * lora.scaling)
    );
    
    // 与原始输出相加
    return this.addMatrices(x, loraOutput);
  }

  matmul(a, b) {
    const result = [];
    for (let i = 0; i < a.length; i++) {
      const row = [];
      for (let j = 0; j < b[0].length; j++) {
        let sum = 0;
        for (let k = 0; k < b.length; k++) {
          sum += a[i][k] * b[k][j];
        }
        row.push(sum);
      }
      result.push(row);
    }
    return result;
  }

  addMatrices(a, b) {
    return a.map((row, i) => 
      row.map((val, j) => val + (b[i] ? b[i][j] || 0 : 0))
    );
  }

  // LoRA微调
  async fineTune(data, epochs = 5) {
    console.log('\n=== 开始LoRA微调 ===');
    console.log(`数据量: ${data.length}, 训练轮数: ${epochs}`);
    
    for (let epoch = 0; epoch < epochs; epoch++) {
      console.log(`\n--- LoRA Epoch ${epoch + 1}/${epochs} ---`);
      
      let totalLoss = 0;
      
      for (let i = 0; i < data.length; i++) {
        const item = data[i];
        
        // 前向传播（只更新LoRA参数）
        const loss = this.computeLoRALoss(item);
        totalLoss += loss;
        
        // 更新LoRA参数
        this.updateLoRAParameters(loss);
        
        if (i % 100 === 0) {
          console.log(`Sample ${i}/${data.length}, Loss: ${loss.toFixed(4)}`);
        }
      }
      
      const avgLoss = totalLoss / data.length;
      console.log(`Epoch ${epoch + 1} 平均损失: ${avgLoss.toFixed(4)}`);
    }
    
    console.log('LoRA微调完成');
  }

  computeLoRALoss(item) {
    // 简化的LoRA损失计算
    return Math.random() * 0.5 + 0.1;
  }

  updateLoRAParameters(loss) {
    // 简化的LoRA参数更新
    const lr = 1e-4;
    
    Object.values(this.loraLayers).forEach(lora => {
      // 更新A和B矩阵（简化版）
      lora.A = lora.A.map(row => 
        row.map(val => val - lr * (Math.random() - 0.5) * loss)
      );
      
      lora.B = lora.B.map(row => 
        row.map(val => val - lr * (Math.random() - 0.5) * loss)
      );
    });
  }

  // 保存LoRA权重
  saveLoRAWeights(filepath) {
    const loraData = {
      config: this.config,
      weights: this.loraLayers,
      timestamp: new Date().toISOString()
    };
    
    fs.writeFileSync(filepath, JSON.stringify(loraData, null, 2));
    console.log(`LoRA权重已保存到: ${filepath}`);
  }
}

// 使用示例
const trainingConfig = {
  modelConfig: {
    vocabSize: 50000,
    hiddenSize: 768,
    numLayers: 12,
    numHeads: 12
  },
  trainingConfig: {
    batchSize: 32,
    learningRate: 1e-4,
    maxSteps: 10000
  },
  dataConfig: {
    maxLength: 512,
    dataPath: './training_data'
  }
};

// 创建训练器
const trainer = new LLMTrainer(trainingConfig);

// 模拟训练数据
const pretrainData = [
  '这是一个用于预训练的文本示例。',
  '大语言模型需要大量的文本数据进行训练。',
  '预训练阶段学习语言的统计规律和知识。'
];

const sftData = [
  {
    instruction: '请解释什么是机器学习',
    input: '',
    output: '机器学习是人工智能的一个分支，通过算法让计算机从数据中学习模式。'
  },
  {
    instruction: '写一首关于春天的诗',
    input: '',
    output: '春风吹绿柳，花开满枝头。鸟儿歌声美，大地换新装。'
  }
];

// 执行训练
async function runTraining() {
  try {
    // 预训练
    await trainer.pretrain(pretrainData, 2);
    
    // 监督微调
    await trainer.supervisedFineTune(sftData, 3);
    
    // 可视化训练过程
    trainer.visualizeTraining();
    
    // 保存训练历史
    trainer.saveTrainingHistory('./training_history.json');
    
    // LoRA微调示例
    const loraConfig = {
      rank: 16,
      alpha: 32,
      dropout: 0.1,
      targetModules: ['q_proj', 'v_proj', 'k_proj', 'o_proj']
    };
    
    const loraTrainer = new LoRATrainer(null, loraConfig);
    await loraTrainer.fineTune(sftData, 3);
    loraTrainer.saveLoRAWeights('./lora_weights.json');
    
  } catch (error) {
    console.error('训练过程中出现错误:', error);
  }
}

// 运行训练
runTraining();

🎯 学习检验

理论理解检验

训练流程：能否解释预训练、SFT、RLHF三个阶段的目标和方法？
优化技术：能否说明各种训练优化技术的原理和适用场景？
PEFT方法：能否比较不同PEFT技术的优劣和选择标准？
数据处理：能否设计完整的训练数据处理流水线？

实践能力检验

训练实现：能否实现简化版的训练流程？
参数调优：能否根据任务特点调整训练超参数？
问题诊断：能否识别和解决训练中的常见问题？
效果评估：能否设计合理的训练效果评估方案？

🚀 实践项目建议

基础训练项目

Mini训练框架：实现简化版的大模型训练框架
数据处理流水线：构建完整的训练数据预处理系统
LoRA微调工具：开发易用的LoRA微调工具
训练监控系统：实现训练过程的可视化监控

高级优化项目

分布式训练：实现多GPU/多节点训练
混合精度优化：集成自动混合精度训练
梯度检查点：实现内存优化的梯度检查点
自适应学习率：开发智能的学习率调度策略

📚 延伸阅读

核心论文

"Training language models to follow instructions" - InstructGPT论文
"Constitutional AI: Harmlessness from AI Feedback" - Constitutional AI
"LoRA: Low-Rank Adaptation of Large Language Models" - LoRA原始论文
"Parameter-Efficient Transfer Learning" - PEFT综述

技术博客

OpenAI Blog - GPT系列模型训练经验
Anthropic Research - Constitutional AI和RLHF研究
Hugging Face Blog - PEFT技术实践分享
DeepSpeed Blog - 大规模训练优化技术

开源工具

DeepSpeed - 微软的大规模训练框架
FairScale - Facebook的分布式训练工具
PEFT - Hugging Face的参数高效微调库
Transformers - 预训练模型和微调工具

💡 学习提示：大模型训练是一个复杂的工程问题，需要理论知识和实践经验的结合。建议从小规模实验开始，逐步理解各个组件的作用，然后扩展到更大规模的训练。关注最新的优化技术和工具，因为这个领域发展很快。

目录​

🎯 学习目标​

🏗️ 大模型训练全流程​

训练阶段概览​

训练数据处理流水线​

🎓 预训练技术深度解析​

自监督学习原理​

训练目标函数​

大规模训练优化技术​

🎯 监督微调(SFT)技术​

SFT训练流程​

指令数据构建​

微调策略对比​

🔄 强化学习人类反馈(RLHF)​

RLHF训练流程​

奖励模型设计​

PPO算法详解​

🔧 参数高效微调(PEFT)​

PEFT技术对比​

LoRA技术深度解析​

Adapter架构设计​

💻 Node.js训练与微调实现​

简化版训练流程实现​

🎯 学习检验​

理论理解检验​

实践能力检验​

🚀 实践项目建议​

基础训练项目​

高级优化项目​

📚 延伸阅读​

核心论文​

技术博客​

开源工具​

目录