一、大模型整体结构一个大模型其实就是文本 - tokenizer(分词器) - embedding变成向量 - Transformer核心大脑 - 输出二、具体步骤1、文本输入比如输入This Paper is interesting2、分词器tokenizer[“This” , “paper” , “is” , “interest” , “ing”]再变成Token ID每个大模型的Token ID是不一样的[101,2023,20021,…]3、Embedding模型不会直接用数字ID会变成“向量”一小串数字101 - [0.12, -0.98, 0.33, …]可以简单的理解为token - 坐标点语义空间4、Transformer核心大脑这是大模型最重要的部分它让每个词互相理解对方核心机制Self-Attention(自注意力)比如The paper is not good模型会学“good”要注意“not”“paper”和“good”有关系所以每个token都会看其他token**Transformer结构**一个Transformer层大概是Self-Attention - Feed Forward小神经网络 - 重复很多层比如12层/32层/96层GPT-4这种几十到上百层Transformer5、输出不同模型输出不同GPT生成模型输入This paper is 输出interesting**BERT分类模型**输入This paper is interesting 输出accept / reject三、总结成一个流程图文本↓tokenizer↓token IDs↓embedding变向量↓Transformer理解语义↓输出预测 / 生成四、可以这样理解整个模型把它想成一个“超级读书人”1、tokenizer - 切词2、embeding - 理解词的含义3、attention - 看上下文4、多层网络 - 深度思考5、输出 - 给答案五、BERT vs GPTBERTGPT方向双向看前后单向只看前用途分类/理解生成例子accept/reject写review