大模型是怎么预训练出来的?
很多人觉得大模型最核心的是算法。但真正训练过模型的人会发现大模型本质上是在用海量数据和海量算力训练一个超大规模的预测系统。算法重要但真正烧钱、烧时间的往往是数据处理和GPU算力。我们从宏观角度走一遍大语言模型的预训练流程。这里以GPT类模型常见的自回归Auto-Regressive训练为例。1、准备训练数据大模型最先需要的不是GPU而是数据。而且是海量数据。像GPT、LLaMA、Qwen这类模型训练数据通常来自网页书籍论文代码问答社区WikiGitHub最终数据规模往往是数TB数十TB甚至PB级真正的大模型训练常常会使用数万亿Token。为什么数据这么重要因为模型本质上是从数据里学习规律。如果数据质量差模型就会学歪。所以正式训练前通常还要做大量数据工程去重去乱码删除广告过滤低质量文本去除非法内容清洗重复网页很多团队真正最耗时间的其实是数据清洗。大模型本质上是在用海量数据和海量算力训练一个超大规模的预测系统。2、文本处理TokenizationEmbedding模型其实不认识文字。一句话进入模型前会先被切成Token。例如人工智能改变世界可能会被切成人工 智能 改变 世界然后每个Token都会对应一个Token ID。这个ID可以理解为Token在词表中的索引。模型看到的并不是人工、智能这样的文字而是一串数字ID。例如人工 → 2331 智能 → 5168但数字ID还不能直接计算。所以模型还会进一步把Token映射成向量。例如苹果 → [0.21, -0.53, 1.42, ...]这一步叫Embedding向量化后面Transformer或者其魔改架构才能真正开始计算。3、Transformer真正的核心计算Transformer及其他魔改架构是大模型真正的核心。它重要的能力是计算Token和Token之间的关系。例如苹果发布了新手机这里“苹果”和“手机”关系更强。而在苹果很好吃这里“苹果”和“好吃”关系更强。这就是Attention注意力机制。模型会动态判断谁更重要该关注谁信息如何融合然后经过很多层Transformer Block不断提取更复杂的语言规律。4、训练目标预测下一个TokenGPT类模型的训练目标其实很简单就是预测下一个Token。例如我喜欢人工____模型需要预测智能模型会输出很多候选词的概率智能0.60 科学0.20 技术0.10如果预测错了模型就会计算损失反向传播更新参数这个过程会重复几百亿次、几千亿次甚至上万亿次。模型就是这样一点点学会语言规律的。5、大规模分布式训练海量GPU真正烧钱的其实是GPU。因为模型参数太大。例如7B 70亿参数70B 700亿参数GPT-4、5 级别更大每次训练都需要前向计算Attention计算反向传播参数更新参数越多计算量越恐怖。为什么一定需要很多GPU因为一张GPU根本放不下。比如一个70B模型采用bf16版精度仅参数就需要数百GB显存。所以训练时通常会使用数据并行DDP模型并行Pipeline并行DeepSpeedZeROFlashAttention本质目标只有一个就是让很多GPU一起训练。真正的大模型训练常见规模可能是8卡64卡256卡上千卡同时运行。为什么训练这么慢因为数据量太大。例如如果训练10万亿tokens即使使用128张H100BF16FlashAttention训练也可能持续几周几个月所以从工程角度看大模型训练很大程度上就是“数据规模 × 训练时间 × GPU算力”的综合投入。参数越大、数据越多、上下文长度越长训练成本就越高。尤其是上下文长度增加时Attention计算量会明显上升显存占用和训练时间都会随之增加。因此很多研究并不只是追求把模型做得更大而是在思考另一个问题如何在支持更长上下文的同时尽可能降低训练和推理成本也正是在这个背景下各种改进架构和训练策略不断出现比如更高效的Attention机制稀疏注意力滑动窗口注意力状态空间模型MoE架构FlashAttention序列并行上下文扩展训练等它们的目标本质上都是在性能、上下文长度和计算成本之间找到更好的平衡。6、训练完成得到基座模型经过长时间训练后最终得到的其实是一个会续写的模型。它学会了语言规律上下文预测一部分知识一部分推理能力但这时候它还不一定会聊天。所以后面通常还会继续指令微调SFT人类反馈强化学习RLHF对齐训练最后才变成我们现在看到的大语言模型。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】