如大家所了解的自从2020年降噪扩散概率模型DDPM火爆开始到2022年底ChatGPT横空出世。生成式人工智能AIGC几乎是近几年来最火爆的技术方向没有之一。从建模思路上看目前的各类 AIGC 算法可以大致分为两大类一是 “扩散模型”diffusion model二是 “下一个token预测”next token prediction。前者的代表性产品是文生图模型例如midjourney。后者的代表性产品是大语言模型例如 ChatGPT。以下是 MNIST 数据集中数字 0 的矩阵表示实际上下一个 token 预测不仅仅适用于生成文本我们同样可以利用它来生成图像。我们可以将像素值范围 [0, 255] 视为一个包含 256 个不同 “token” 的表。因此图像生成可以被看作是对下一个像素点token的预测过程。