从单模态到多模态:大模型架构演进与技术介绍
前言1. ResNet — 残差神经网络背景核心问题与解决方案原理模型架构ResNet 系列变体技术创新与影响2. ViT — Vision Transformer背景核心思想发展历程Transformer的起源ViT的出现ViT的进一步发展模型架构技术创新与影响3. Swin Transformer背景核心思想模型架构技术创新与影响4.CLIP — Contrastive Language-Image Pre-training背景CLIP 核心思想模型架构训练方法零样本推理Zero-Shot Prediction关键实验结果技术创新与影响5. ViLT — Vision-and-Language Transformer背景ViLT 的核心特点模型架构技术创新与影响6. ViViTVideo Vision Transformer**1. 背景与核心思想****2. 模型架构****3. 关键技术细节****4. 训练与预训练策略****5. 应用场景****6. 性能与优缺点****8. 后续改进与变体**7. DITDiffusion-based Image Transformer**技术发展脉络****扩散模型的崛起****Transformer的视觉革命****DIT的诞生动机****为什么结合扩散模型与Transformer****1. 核心概念****2. 工作原理****3. 架构设计****4. 关键优势****5. 应用场景****6. 挑战与优化****总结**人工智能领域的模型架构经历了从单模态专注于单一数据类型到多模态融合多种数据类型的跨越式发展。这一过程中残差学习、注意力机制、对比学习等技术的突破推动了模型的性能提升和应用场景扩展。本文将深入解析五个里程碑模型——ResNet、ViT、Swin Transformer、CLIP、ViLT探讨其核心架构与技术创新并梳理从单模态到多模态的技术演进路径。1. ResNet — 残差神经网络背景2015年何恺明团队提出的深度残差网络ResNet解决了深度卷积神经网络训练中的梯度消失/爆炸问题使得构建和训练超深网络成为可能。ResNet在ImageNet竞赛中取得当时最先进的性能并获得了2015年CVPR最佳论文奖。核心问题与解决方案传统CNN模型在层数增加时会遇到退化问题degradation problem随着网络深度增加准确率开始饱和然后迅速下降。ResNet通过引入残差学习框架解决了这一问题。原理残差学习Residual Learning随着网络深度的增加传统的深层网络面临着梯度消失或梯度爆炸的问题使得网络难以训练。ResNet通过引入“残差块”Residual Block让网络可以轻松地学习恒等映射Identity Mapping。这意味着在深层次网络中如果某一层没有对特征提取有帮助则该层可以学为零从而不会对最终结果造成负面影响。模型架构ResNet的架构 ResNet34 使用的受 VGG-19 启发的 34 层普通网络架构随后添加了快捷连接。随后通过这些快捷连接将该架构转变为残差网络如下图所示ResNet的核心是残差块Residual Block其结构如下残差连接Skip Connection将输入信号直接添加到层的输出残差学习网络不直接学习原始映射H(x)而是学习残差F ( x ) H ( x ) − x F(x) H(x) - xF(x)H(x)−x一个基本的残差块可以表示为y F ( x , W i ) x y F(x, {Wi}) xyF(x,Wi)x其中F(x, {Wi})表示残差映射可以是多层堆叠的卷积操作。ResNet的完整架构包括初始卷积层7×7卷积步长2最大池化层3×3步长24组残差块堆叠每组有不同数量的残差块全局平均池化全连接层SoftmaxResNet有多种变体包括ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152数字表示网络深度。ResNet 系列变体模型层数参数量结构说明ResNet-181811M基础残差块ResNet-343421M基础残差块ResNet-505025MBottleneck 残差块ResNet-10110144MBottleneck 残差块ResNet-15215260MBottleneck 残差块技术创新与影响解决深度网络训练问题残差连接使得信息可以直接从浅层传递到深层梯度流动改善短路连接有助于梯度在反向传播中更好地流动表示能力增强更深的网络具有更强的特征提取能力训练稳定性残差学习框架使训练更加稳定2. ViT — Vision Transformer背景2020年10月谷歌研究团队发布了论文An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale首次将自然语言处理领域的Transformer架构直接应用于计算机视觉任务但是因为其模型“简单”且效果好可扩展性强scalable模型越大效果越好成为了transformer在CV领域应用的里程碑著作也引爆了后续相关研究。核心思想ViT的核心思想是将图像视为单词序列摒弃了CNN中的归纳偏置如平移不变性、局部连接等完全依赖自注意力机制处理视觉信息。发展历程Transformer的起源2017年Google提出了Transformer模型这是一种基于Seq2Seq结构的语言模型它首次引入了Self-Attention机制取代了基于RNN的模型结构。Transformer的架构包括Encoder和Decoder两部分通过Self-Attention机制实现了对全局信息的建模从而能够解决RNN中的长距离依赖问题。ViT的出现ViT采用了Transformer模型中的自注意力机制来建模图像的特征这与CNN通过卷积层和池化层来提取图像的局部特征的方式有所不同。ViT模型主体的Block结构基于Transformer的Encoder结构包含Multi-head Attention结构。ViT的进一步发展随着研究的深入ViT的架构和训练策略得到了进一步的优化和改进使其在多个计算机视觉任务中都取得了与CNN相当甚至更好的性能。目前ViT已经成为计算机视觉领域的一个重要研究方向并有望在未来进一步替代CNN成为主流方法。模型架构ViT将输入图片分为多个patch16x16再将每个patch投影为固定长度的向量送入Transformer后续encoder的操作和原始Transformer中完全相同。但是因为对图片分类因此在输入序列中加入一个特殊的token该token对应的输出即为最后的类别预测ViT的处理流程如下图像分块与线性投影将输入图像划分为固定尺寸的方形区域如16×16像素生成二维网格序列。每个图像块经全连接层进行线性投影转化为768维特征向量。此时视觉数据完成形态转换形成类序列结构。类别标记注入在序列首部插入可学习的分类标识向量该特殊标记贯穿整个网络运算最终作为图像表征的聚合载体。此操作使序列长度由N增至N1同时保持特征维度一致性。位置编码融合通过可训练的位置嵌入表为每个序列元素注入空间信息。采用向量相加方式而非拼接在保留原始特征维度的前提下使模型感知元素的相对位置关系。Transformer编码架构由多层相同结构模块堆叠组成每个模块包含层归一化处理的多头注意力机制将特征拆分为多个子空间如12个64维头部并行捕获异构关联模式输出重聚合后维持768维多层感知机扩展层先进行4倍维度扩展768→3072增强表征能力再投影回原维度保证结构统一性特征演化与输出所有编码模块保持输入输出同维度197×768实现深度堆叠。最终提取首位的类别标记向量作为全局图像描述符或采用全序列均值池化策略接入分类器完成视觉任务。这种架构通过序列化处理实现了视觉与语言模型的范式统一。ViT的公式表示z 0 [ x c l a s s ; x 1 E ; x 2 E ; . . . ; x N E ] E p o s z_0 [x_class; x_1^E; x_2^E; ...; x_N^E] E_posz0[xclass;x1E;x2E;...;xNE]Eposz l M S A ( L N ( z l − 1 ) ) z l − 1 z_l MSA(LN(z_{l-1})) z_{l-1}zlMSA(LN(zl−1))zl−1z l M L P ( L N ( z l ) ) z l z_l MLP(LN(z_l)) z_lzlMLP(LN(zl))zly L N ( z L 0 ) y LN(z_L^0)yLN(zL0)技术创新与影响打破CNN垄断ViT证明了纯Transformer架构在视觉任务上的可行性缩小模态差距为视觉和语言任务提供了统一的架构基础全局感受野自注意力机制天然具有全局视野不同于CNN的局部感受野数据效率权衡需要大量数据预训练才能超越CNN模型ViT的出现标志着计算机视觉领域的范式转变开启了Transformer时代大大推动了视觉-语言多模态模型的发展。3. Swin Transformer背景微软研究院于2021年3月发表Swin Transformer试图解决ViT在计算效率和细粒度特征提取方面的局限性尤其是针对密集预测任务如目标检测、分割。核心思想Swin Transformer的核心思想在于利用窗口内的自注意力机制同时通过层级结构实现跨窗口的信息交互从而实现了高效的视觉特征提取和表达。具体来说窗口化自注意力Window-based Self-Attention, W-MSA将图像划分为不重叠的窗口仅在每个窗口内进行自注意力计算。移位窗口Shifted Windows, SW-MSA通过在相邻层之间移动窗口位置实现窗口间的交互弥补W-MSA缺乏跨窗口连接的不足。层次化结构借鉴CNN的多尺度设计Swin Transformer通过逐步合并patch降低分辨率扩大感受野形成类似金字塔的特征提取过程模型架构Swin Transformer的关键设计包括层级结构类似CNN的层级特征图分辨率逐层下降窗口自注意力将自注意力计算限制在局部窗口内如7×7大小窗口移位操作在连续层之间交替使用常规窗口和移位窗口使得不同窗口之间可以交换信息相对位置编码在窗口内使用相对位置偏置而非绝对位置编码Swin Transformer包含4个阶段Swin Transformer的整体架构包括Patch Embedding、多个Swin Transformer Block以及分类头。下面逐步介绍其主要组成部分Patch Partition这是模型对输入图像进行预处理的一种重要操作。该操作的主要目的是将原始的连续像素图像分割成一系列固定大小的图像块patches以便进一步转化为Transformer可以处理的序列数据 2。Swin Transformer Block是模型的核心单元每个block包含以下步骤Layer NormalizationW-MSA或SW-MSA残差连接再次Layer Normalization前馈网络FFN残差连接Patch Merging为了实现层次化特征提取Swin Transformer在每个stage结束后通过Patch Merging合并相邻patch。这一步骤类似于卷积神经网络中的池化操作但采用的是线性变换而不是简单的最大值或平均值操作 5。输出模块包括一个LayerNorm层、一个AdaptiveAvgPool1d层和一个全连接层用于最终的分类或其他任务 4技术创新与影响线性计算复杂度窗口注意力使得计算复杂度与图像大小成线性关系而非ViT的二次关系层级表示生成多尺度特征适合各种视觉任务跨窗口连接移位窗口机制允许信息在不同窗口间流动通用视觉骨干网成为视觉领域的通用主干网络用于分类、检测和分割等多种任务Swin Transformer成功地将Transformer的优势与CNN的层级结构相结合为后续多模态模型提供了更高效的视觉特征提取器。4.CLIP — Contrastive Language-Image Pre-training背景CLIPContrastive Language-Image Pretraining是 OpenAI 在 2021 年提出的 多模态预训练模型通过对比学习将图像和文本映射到同一语义空间实现 零样本Zero-Shot分类、跨模态检索等任务。它彻底改变了传统视觉模型的训练方式成为多模态领域的里程碑工作。CLIP 核心思想(1) 核心目标学习图像和文本的联合表示使匹配的图文对在特征空间中靠近不匹配的远离。无需人工标注的类别标签直接利用自然语言描述如“一只猫在沙发上”作为监督信号。(2) 关键创新对比学习Contrastive Learning通过大规模图文对训练拉近正样本对匹配图文推开负样本对不匹配图文。自然语言作为监督信号摆脱固定类别标签的限制支持开放词汇Open-Vocabulary任务。零样本迁移能力预训练后可直接用于下游任务如分类、检索无需微调。模型架构CLIP 包含两个独立的编码器图像编码器Image Encoder可选架构ViTVision Transformer 或 ResNet如 ResNet-50。输入图像 → 输出图像特征向量如 512 维。文本编码器Text Encoder基于 Transformer类似 GPT-2。输入文本描述 → 输出文本特征向量与图像特征同维度。训练方法1. 对比损失Contrastive Loss对一个 batch 中的 N 个图文对计算图像特征 Ii 和文本特征 Tj的余弦相似度矩阵S i , j I i ⋅ T j S i , j I i ⋅ T j Si,jIi⋅TjS i,j I i ⋅T jSi,jIi⋅TjSi,jIi⋅Tj损失函数对称交叉熵损失其中τ 是温度系数可学习参数。(2) 训练数据数据集4 亿个互联网公开图文对WebImageText。数据增强随机裁剪、颜色抖动等。零样本推理Zero-Shot Prediction(1) 分类任务流程构建文本模板将类别名称如“dog”填入提示模板Prompt Template例如“a photo of a {dog}”生成所有类别的文本描述并编码为文本特征 T1,T2,…,T K 。编码待分类图像得到图像特征 I计算相似度图像特征与所有文本特征计算余弦相似度。选择相似度最高的文本对应的类别作为预测结果。(2) 优势无需微调直接利用预训练模型。支持开放词汇新增类别只需修改文本描述无需重新训练。关键实验结果(1) 零样本分类性能技术创新与影响零样本迁移学习无需针对特定任务微调即可应用于新类别大规模预训练在4亿图像-文本对上训练多模态理解构建图像和文本的联合表示空间灵活性可用于图像分类、图像检索、文本检索等多种任务减少标注依赖利用互联网上自然存在的图像-文本对训练CLIP开创了视觉-语言预训练的新范式证明了通过自然语言监督可以学习到强大且通用的视觉表示奠定了多模态AI系统的基础。5. ViLT — Vision-and-Language Transformer背景ViLTVision-and-Language Transformer是 2021 年提出的一种 纯 Transformer 架构的视觉-语言多模态模型其核心思想是 用统一的 Transformer 同时处理图像和文本无需卷积网络CNN或区域特征提取如 Faster R-CNN极大简化了多模态模型的复杂度。ViLT 的核心特点(1) 极简架构设计完全基于 Transformer传统多模态模型如 LXMERT、UNITER依赖 CNN 提取图像特征 或 Faster R-CNN 提取区域特征计算成本高。ViLT 直接对原始图像像素进行 Patch Embedding类似 ViT文本则通过 Token Embedding 输入两者共享同一 Transformer 编码器。(2) 模态交互方式单流架构Single-Stream图像和文本的嵌入向量拼接后输入同一 Transformer通过自注意力机制直接交互。对比双流架构如 CLIP计算更高效模态融合更彻底。(3) 轻量高效参数量仅为传统模型的 1/10ViLT-Base 参数量约 110M而类似功能的 UNITER 需 1B 参数。训练速度提升 2-10 倍适合低资源场景。模型架构文本经过pre-trained BERT tokenizer得到word embedding前面有CLS token图中*表示图片经过ViT patch projection层得到patch embedding也是用*表示CLS token文本特征文本位置编码模态嵌入得到最终的text embedding图像这边也是类似的操作得到image embedding二者concat拼接之后一起输入transformer layer然后做MSA交互多头自注意力(1) 输入表示图像输入将图像分割为 N×N 的 Patches如 32×32。线性投影为 Patch Embeddings并添加位置编码Position Embedding。文本输入使用 WordPiece 分词生成 Token Embeddings。添加位置编码和模态类型编码Modality-Type Embedding。(2) 共享 Transformer 编码器图像和文本的 Embeddings 拼接后输入 TransformerI n p u t [ I m a g e E m b ; T e x t E m b ] P o s i t i o n E m b M o d a l i t y E m b Input[Image_Emb;Text_Emb]Position_EmbModality_EmbInput[ImageEmb;TextEmb]PositionEmbModalityEmb通过多层 Transformer Blocks 进行跨模态交互自注意力机制图像 Patch 和文本 Token 互相计算注意力权重。模态无关性不预设图像/文本的优先级完全依赖数据驱动学习。(3) 预训练任务图像-文本匹配ITM二分类任务判断图像和文本是否匹配。掩码语言建模MLM随机掩盖文本 Token预测被掩盖的词类似 BERT。掩码图像建模MIM随机掩盖图像 Patches预测被掩盖的像素类似 MAE。技术创新与影响简化流程移除了预提取的视觉特征大大简化了处理流程计算效率比之前的视觉-语言模型快10-100倍端到端训练整个模型可以从头到尾联合优化性能与效率平衡虽然性能可能略低于最先进模型但效率大幅提升资源友好降低了计算和存储需求使多模态模型更易于部署ViLT代表了多模态模型架构简化的重要趋势表明有效的模态融合不一定需要复杂的特征提取步骤为后续更高效的多模态系统铺平了道路。6. ViViTVideo Vision Transformer1. 背景与核心思想背景ViViTVideo Vision Transformer是一种基于Transformer架构的视频理解模型扩展自Vision TransformerViT专门用于处理视频数据。通过将视频分解为时空块并利用自注意力机制ViViT能够有效捕捉视频中的时空特征在多项视频任务中表现优异。核心思想将视频划分为时空块序列每个块作为Token输入Transformer通过自注意力机制学习时空特征。关键挑战在于高效处理高维视频数据并降低计算复杂度。2. 模型架构ViViT的设计围绕如何分解或联合建模时空信息常见变体包括时空联合编码Joint Space-Time Model将视频划分为时空立方体如T×H×W展平为Token序列。添加时空位置编码输入Transformer编码器。自注意力同时作用于时间和空间维度。分解式编码Factorized Encoder空间编码层独立处理每帧图像提取空间特征类似ViT。时间编码层在时间维度聚合各帧特征捕捉时序关系。优势降低计算量适合长视频。分层时空注意力Hierarchical Attention交替使用空间注意力和时间注意力层。例如先进行空间局部注意力再在时间维度全局聚合。3. 关键技术细节输入处理视频分割为T个片段每片段采样N帧。每帧切割为P×P图像块展平为向量形成T×N×P²的Token序列。位置编码结合空间x, y和时间t坐标通常使用可学习编码。计算优化局部注意力限制注意力范围如局部时间窗口减少计算量。模型蒸馏用预训练ViT初始化空间层加速训练。4. 训练与预训练策略数据集常用Kinetics-400/600、Something-Something V2、HMDB-51等。预训练图像预训练空间层继承ViT权重如ImageNet预训练。视频微调在目标视频数据集上微调时空层。训练技巧混合精度训练、梯度检查点降低显存占用。数据增强时间裁剪、帧随机采样、空间翻转等。5. 应用场景视频分类识别动作类别如“跑步”、“开门”。时序动作定位检测视频中动作的起止时间。视频分割逐帧像素级预测需解码器配合。多模态任务结合音频、文本进行跨模态学习。6. 性能与优缺点优势长距离依赖建模能力强适合复杂时序关系。参数量低于3D CNN如I3D部分场景更高效。在Kinetics-400等基准上达到SOTA如ViViT-L/16x2精度达84.9%。局限性计算复杂度高序列长度随帧数增长呈平方级增加。需要大规模数据小数据集易过拟合。8. 后续改进与变体TimeSformer提出“分治”注意力Divided Space-Time Attention时空注意力分离显著降低计算量。MViTMultiscale Vision Transformer引入多尺度特征金字塔提升细粒度理解。X-ViT结合可变形注意力动态聚焦关键时空区域。ViViT通过将Transformer引入视频领域为视频理解任务提供了新范式。其核心在于时空Token化与自注意力机制的灵活结合尽管面临计算复杂度挑战但通过结构优化如分解注意力、分层处理和预训练策略已在多个任务中证明有效性。未来方向可能包括轻量化设计、多模态融合及高效注意力机制的进一步探索。7. DITDiffusion-based Image Transformer技术发展脉络扩散模型的崛起2015年扩散模型Diffusion Models首次提出但早期受限于训练效率和生成质量。2020年DDPMDenoising Diffusion Probabilistic Models通过改进训练目标显著提升生成效果成为主流框架。2021年OpenAI的GLIDE和DALL·E 2、Google的Imagen等模型将扩散模型与大规模预训练结合实现高质量文本到图像生成。核心架构早期扩散模型多基于U-Net卷积神经网络擅长局部特征提取但全局建模能力有限。Transformer的视觉革命2017年Transformer在NLP领域如BERT、GPT大获成功。2020年Vision TransformerViT证明Transformer可直接处理图像分块替代CNN。优势自注意力机制捕捉全局依赖模型扩展性强参数量越大性能越好。DIT的诞生动机为什么结合扩散模型与TransformerU-Net的局限性依赖局部卷积操作难以建模图像全局结构如对称性、长距离关系。参数量扩展性差难以通过单纯增加深度提升效果。Transformer的潜力自注意力机制天然适合处理图像分块间的全局关系。模型规模与生成质量正相关如Meta的DiT证明参数量越大FID指标越好。扩散模型的精细化需求扩散过程需要逐步细化图像细节而Transformer的并行处理能力可加速去噪过程。在多模态任务如文本图像生成中Transformer更易融合跨模态信息。1. 核心概念扩散模型通过逐步添加噪声破坏数据再学习逆向去噪过程生成数据。Transformer架构利用自注意力机制捕捉全局依赖关系擅长处理长序列数据如图像分块。结合优势扩散模型生成细节丰富Transformer增强全局结构一致性。2. 工作原理前向扩散逐步向图像添加噪声直至变为纯高斯噪声。逆向去噪输入噪声图像 时间步嵌入处理Transformer预测当前噪声输出逐步去噪生成清晰图像训练目标最小化预测噪声与真实噪声的均方误差MSE。3. 架构设计图像分块将图像分割为固定大小块如16×16像素。位置编码保留空间位置信息嵌入至分块向量。Transformer Encoder多层自注意力机制 前馈网络。时间步融合将扩散过程的时间步信息嵌入到注意力层。4. 关键优势✅高质量生成扩散过程细化细节Transformer保证全局结构✅灵活扩展支持动态调整模型深度与宽度✅多任务适配可用于生成、修复、超分辨率等任务5. 应用场景文本到图像生成结合CLIP等模型图像修复与编辑局部/全局修改视频生成扩展至时序数据6. 挑战与优化挑战解决方案高计算复杂度稀疏注意力、分块并行计算长序列训练不稳定渐进式训练、梯度裁剪生成速度慢多步迭代蒸馏技术、确定性采样加速总结DIT通过扩散模型与Transformer的深度融合在生成质量与灵活性上取得突破未来可能成为多模态生成任务的通用架构范式。