一、从多模态到世界模型我为啥把“多模态”和“世界模型”为啥放一起看谢赛宁的采访他把数字空间LLM和真实空间robotics放在智能光谱的两端那么从LLM推演到robotics这恰恰是视觉智能和多模态要解决的问题以不做机器人的方式这非常make sence我之前也发了类似的朋友圈观点VQA、VLA是远不够的具身智能需要解决多模态理解的瓶颈。数字空间LLM经过推理优化reasonning、工具增强OpenClaw/harness、自进化机制已经快接近AGI了但是真实空间robotics领域从fundamental research角度尚处早期[这波具身智能仅适合早期投资]。那么多模态方向就正处于瓶颈同时又中心的位置。世界模型则是相对综合的从古早的DreamerV12020模型就能看出来编解码框架融合了动力学模型Planet首次提出了循环状态空间模型RSSM结合CNN和VAE实现隐空间预测。在此基础上也可以引入更复杂的MPC、Actor-Critic策略方法。Dreamer系列作为一大分支、后面的很多世界模型研究也类似自动驾驶的朋友应该比较熟悉。另一大分支就是Muzero和JEPA了2025年JEPA在多模态方向成果密集且显著比如V-JEPA225.06、LeJEPA25.11、VL-JEPA25.12以及最新的LeWorldModel26.03。由于与生成式模型技术显著不同年初我花了很多时间来系统学习JEPA的底层数学原理那些痛苦的动力学知识。有很多人把Sora也作为世界模型的一大分支我不太认可哈我个人偏好认为理解生成目前的Sora作为生成模型其表征能力还远远达不到。太多公司押注视频路线了数据多、落地更加pragmatic。而且就最近的成果来看视频预测和动作预测的融合有很多惊艳的表现了这点以后再讲。有篇文章《关于世界模型的一切全在这三万字里了》相信挺多人看过算是挺好的世界模型综述作者明显的游戏|视频|智驾视角虽然有点抬高自己的视频生成技术路线和自己的创业公司General Intuition给自己PR如他所说游戏场景是最能扩展|迁移|泛化到真实世界的世界模型场景有点道理。但是各个“世界模型”和“世界模型”之间无论技术RSSM/VLAs/JEPA/扩散还是应用游戏仿真/自动驾驶/机器人操作差别很大可能在较长时间内各走各路。去2025至今视频模型中把video prediction和action prediction结合的WM模型成果比较多当然更早的话从谷歌Genie24.02就可以算起。Video模型真正成为backbone了从预测下一帧到“预测下一个状态最优动作”这是个需要高度关注的确定性技术趋势。也许未来还有更好的视频预训练模型非传统的latent patchify、自监督视觉基础模型下如DINOJEPA、SSM框架下的潜世界模型、或者视频扩散世界动作模型WAM、或者结合仿真物理引擎的RL或者其他什么新的架构。以后再写篇关于世界模型的长文。回到多模态技术。二、早期理解、早期生成如果从多模态生成模型来看这些技术方向都不算新鲜已经发展好几年了相对LLM的宏大成果而言显得很“陈旧”。比如突破性的扩散模型论文去噪扩散概率模型DDPMU-Net像素空间是2020年发表的已经好几年了。如果从理解模型来看对比学习的CLIP也是2021年发表的也已经好几年了。早期文图生成在国内创业和投资圈2021年前后text2image的 AIGC也比ChatGPT的LLM更早受到关注从DALL-E到数字人架构比如GANs到扩散模型。这些古老成果咱就不深入了。更宽泛、更早一点讲在国内Ai1.0时代搞Vision的那批人要比搞NLP的那批人更受关注也更容易获得商业成功。早期理解模型多模态理解往前溯的话在ChatGPT引爆的2023年多模态大语言模型MLLM的成果非常多那个时候的成果试图利用这些模型的理解能力和强大的LLM结合以理解图片内容。典型的这些“表征编码器”Flamingo22.04交叉注意力、BLIP-223.01Q-Former和InstructBLIP23.05Q-Former、MiniGPT-423.04Q-Former、learnable query典型如SEED、MetaQueries、LLaVA23.04线性投影、指令微调、DINO系列等。我还梳理了不少但发现早期效果表现都很一般。表现一般体现在原因还是在于架构比较简单使用交叉注意力、query、adapter或MLP来转换图像嵌入LLM典型如Q-Former的桥梁对齐机制视觉模型和LLM通常是冻结的。比如开源的MiniGPT-42023.04注意虽然也叫“GPT”但跟OpenAI没关系通过Q-Former将视觉编码器EVA-CLIP与一个冻结的 LLMVicuna对齐。再比如InstructBLIP都已经指令调优了幻觉依然很严重复杂任务不忠实描述高达30%。原理上讲一定有人好奇模态之间究竟是如何对齐的我们都知道是在大规模文本图像对上训练“强制”对齐的但内部机制其实难被理解。有一研究参考原文《LLM为什么能看懂图秘密不在Projector残差结构才是跨模态理解的关键》发现即便模态特征空间对齐之后仍然存在模态gap图像embedding后语义信息薄弱。既然如此LLM对图像的理解能力从何而来研究表明三点LLM随着层数加深而对齐LLM中的残差结构起到refine作用LLM天然存在大量“模型无关”神经元。提一下2023年H2闭源成果。2023年9月OpenAI GPT-4V和2023年12月Google Gemini 1.0发布在视觉推理、OCR和少样本学习任务上很强。闭源模型远比之前基于Meta LLaMA构建的模型比如LLaVA 1.0、MiniGPT-4强太多了。两者比较也差不多但有人评测Gemini对多图像和时间的感知能力相比GPT-4V差一点。三、DiT范式与扩散模型生成模型从GANs快速转向到扩散模型从DDPM和DDIM算起。扩散原本结合主干UNet将主干换成transformer就是著名的DiT生成模型22.12论文曾被CVPR2023拒收也是Sora24.02的技术基础目前看依然是生成模型的事实标准我觉得以后也将长期作为生成“组件”继续存在。DiT技术DiT大范围也归属于潜Latent 扩散模型、作为其网络主干用SD的VAE将像素空间压缩到潜在空间backbone用到transformer架构替代UNet从而把“理解侧”和“生成侧”组合在一起。另外通过改进的adaLN-Zero实现更好的条件注入除了γ、β引入回归缩放α初始化为0以实现稳定训练。这里面没有涉及自回归损失损失依然是噪声预测损失MSE所以还是生成模型。更详细解释transformer的输出与输入形状相同、都是带噪潜变量输出是噪声预测张量并与真实噪声计算MSE损失然后反向传播更新参数、并迭代数十到上千步。后面Sora推出的时空patches设计也是关键创新用到了Google NaViT的Patch n’ Pack实现了视频分辨率和高宽比的统一表征。在2022-2023的那个时间点DiT和Sora的确是最好的成果。受DiT影响SD3.024.06也从U-Net转移到了transformer并且用了三个文本编码器CLIP-vit-L、CLIP-G、T5。横向对比同期国内成果理解侧和生成侧的组合就要差点意思了1我注意到国内某司的U-ViT22.09宣称是类似DiT的PR往上面去靠拢。我翻了一下原论文U-ViT是网络架构可以对应到DiT论文中的一部分但是比DiT先发出来还是很厉害的。U-ViT更多还是与CNN-based U-Net进行比较引入ViT骨干输入包括时间、类别/文本条件和噪声图像块token空间是拼接的但有长跳跃连接设计。跟DiT比较的话需要加上团队后续的工作Unidiffuser23.03采用的骨干网络是U-ViT并且可通过Stable Diffusion将图像拼接CLIP图像和文本特征编码到latent space。Unidiffuser可以处理无条件生成、条件生成、联合生成、模态转换等不同任务从应用多样性上有价值。2还有另一个某司理解和生成模型更加松耦合在图文对和视频文本对上训练生成模型侧重视频但没有类似spacetime patch设计可能也更加垂直应用吧。应该也是成本太高了现在已经没有声音了。对扩散模型的评价仅从生成角度来看近几年都收敛到了扩散/流匹配模型。它的优点太多比如稳定尤其相对GANs、灵活可控适应各种条件采样、计算高效加速采样目前来看也没有新的技术东东能真正取代它。扩散模型的缺点也明显1速度快了好多但依然应用受限。它毕竟只是条件概率下的噪声预测回归模型固定序列长度输出、没有好的衡量标准、缓存不复用、推理效率低等。最早的时候扩散模型需要反复去噪甚至几十上百次耗时长不足以支撑高质量视频。当然后来由于LCM-LoRA23.11等步数蒸馏技术的发展已经不需要那么多步数4-8步就行。尤其是25年许多几步甚至一步采样的流模型流匹配和整流流对于加速扩散生成也有极大的推动作用。这方面的Infra技术一直在加强比如生数和清华的视频生成加速框架TurboDiffusion25.12生成5秒720视频 on 消费级RTX 5090用时38秒。用的技术注意力层用清华的低比特量化SageAttention稀疏计算方案、线性层W8A8的INT8量化、rCM步数蒸馏。但是38秒我觉得还是慢应用受限。2Scalling是最大问题【这点仍然存在争议后面会提到】。与LLM的分类模型相比、扩散模型没法scale纯粹的扩散模型没法scale之前已经被证明参考《Bigger is not Always Better: Scaling Properties of LDMs》https://arxiv.org/abs/2404.01367由于扩散模型一直没法自己真正成为主干模型所以后面大部分的研究都嫁接了自回归主干架构Diffusion Transformers可以scale但是仅Diffusion不行。虽有争议我个人倾向认为如果仅扩散模型的确没法scale但作为生成组件是合适的。3本质解构。何恺明和谢赛宁两位大神共同有篇文章I-DAE24.01https://arxiv.org/pdf/2401.14404.pdf认真剖析解构了扩散模型发现去噪过程远比扩散过程更加重要拆解之后发现扩散模型的本质依然是经典DAE2008年即噪声调度策略如线性或余弦或Sigmoid本身并不重要扩散模型越来越复杂结果没什么卵用啊。4数学本质分析。从数学原理有人也分析过扩散模型是数据流形和隐空间拓扑映射微分同胚但是只反应概率相关性、无因果关系比如造成稳恒态和临界态混淆——Sora的“幻觉”问题如物体穿透、违反物理规律、六根手指头即来源于此。我早之前就从数学上系统学习过从VAE-扩散-流匹配的知识从数学上理解是很直观的。下图是扩散模型和流匹配的预测目标和MSE损失函数。【P.S.我喜欢从数学上去理解原理这是个学了又忘、忘了又学的过程】这里我觉得还可以加上何恺明团队的MeanFlow的损失函数建模平均速度可以一步生成见下图综上我不看好Sora的DiT路线[早说过不要尬吹SoraDiT技术也是原因之一]。大公司是两头押注的LLM路线和扩散路线都有产品比如谷歌曾有VideoPoet23.12自回归也有W.A.L.T23.12扩散transformer现在大一统的Gemini是自回归实为混合OpenAI除了后面的Sora24.02diffusion之前DALL·E21.01也是自回归、更早有基于GPT2的iGPT20.06自回归现在也算是公开放弃Sora路线了。目前来看这些大厂都在聚焦自回归或者自回归扩散混合路线了。一些离散扩散研究需观察上述的DDPM、Stable Diffusion、Sora都是连续扩散模型也有一些有意义的离散扩散研究。比如完全离散的的文本图像双向掩码扩散生成Muddit25.05与MMaDA25.05追求并行效率。【题外话在语言模型领域也有很多掩码扩散的研究成果如LLaDA在受限数据场景下甚至性能更优因为随机掩码具备数据增强的作用。最新LLaDA2.0-flash已经达到100B了。】其实我觉得这类早期的掩码离散扩散确实没啥意思左右都比不上。离散扩散的视觉质量比连续扩散要差另外掩码的优势就是比“下一token生成”快很多嘛但既然都离散了应该彻底拥抱自回归框架才是cache推理的效率和scale的能力都要强很多。连续扩散模型线性注意力比如SANA-Video25.09是典型代表线性扩散transformer模型Linear DiT可以兼顾生成速度和生成质量。早期的Minimax在线性注意力方面也是典型企业但公开信息好像没有桥接到扩散模型。海螺产品采取的是典型的DiT架构。为了提升模型表达能力MiniMax M225.10转变采用了全注意力机制Full Attention当然这是另一个话题了。扩散模型应用到世界动作模型WAM从内容生成到世界模拟与决策扩散模型利用大规模视频数据如网络视频、机器人操作视频等训练扩散模型学习视频的时空动态特征显著优于VLAs。如DreamZero26.02基于WAN 2.1扩散模型通过流匹配Flow Matching目标联合预测未来视频帧和机器人动作使模型学习到物理世界的先验知识。重要成果以后“世界模型”篇再讲四、自回归生成离散、连续上述基于扩散的模型由于缺乏键值缓存支持、扩展性差还是适合生成重建任务现在的统一多模态大都基于自回归统一模型无论离散token还是连续latent。下面分几类典型的因果注意力自回归生成离散token因果AR这就是GPT系列。但是由于多模态是连续的所以不能直接套用GPT范式一开始都是先将多模态信息像素进行离散化处理用以结合transformer架构。VQ家族/离散Codebook自回归生成VQ量化因果AR为了适应transformer模型需对连续图像进行离散化同时压缩长序列。因此很容易想到的就是先AE压缩、然后在离散生成。这里面离散化过程即VQ化比如VQ-VAE、VQ-GAN需要学习码本codebook。我认为可以分为大码本和小码本。大码本的优势是重建保真度高但是开销大速度慢小码本反之。1MAGVIT-v223.10就属于超大码本达到2^18。增加词汇表大小同时减少编码嵌入维度它直接把维度降低为 0并假设码本维度独立、且 latent 变量为二进制那么潜在空间就被分解为单维变量的笛卡尔积相当于映射到一个超球体空间。输出为二进制token索引。MAGVIT-v2最大优势是lookup-free Quantization到索引、0维度不需要查表避免了码本坍缩的问题。Google的VideoPoet23.12就用到了MAGVIT-v2使用3D因果卷积casual 3D CNN实现图片和视频的视觉编码MAGVIT-v2 的LFQ会将其转化为离散token。然后自回归预测token序列。最后经过MAGVIT-v2解码器转回连续的图片或视频。所以这是一个完全跟扩散模型无关的自回归模型。李飞飞团队W.A.L.T也借鉴了基于MAGVIT-v2的因果3D CNN编码器不过没有VQ操作而是编码为连续latent后面还会提到。2另一个超大码本的代表就是字节的Infinity24.12字节也同样采用了采用了LFQ这种量化方式与MAGVIT-v2类似的二进制编码达到2^32大小。【题外话字节InfinityStar25.11还用了Wan 2.1 VAE25.05这是阿里通义的扩散模型编码器作为编码器编码器量化器及正则化再加上在主干transformer的稀疏注意力改进使得字节的生成模型的质量和速度都大幅提升5秒720P视频仅需58秒并在26年让字节的多模态大模型SEES2.0大放异彩。】3字节提出的TiTok24.06就是极致压缩的小码本将图像表示为仅需32个离散token这是很高的压缩比。论文里说这些压缩竟然提高了生成质量[doge]俺也不晓得。VQ是发展比较早的压缩技术但是是有损压缩的当然可以技术改善。第一VQ 自编码器训练难度比较大codebook只有一部分参与计算就像字节的量化器为了提升利用率有做熵正则化处理第二在利用decoder进行重构的时候离散token的重构效果不是特别好这可以通过层次化残差量化RQV改善后面还会提到该技术。掩码双向注意力自回归生成离散/连续token双向AR比如典型的MaskGIT22.04用VQ-GAN学习tokenizer然后双向掩码注意力自回归损失函数为负对数似然。优势可以并行decoding不足是这类方法更关注图片邻近空间长距离依赖的语义一致性较差。由于MaskGIT在解码时采用余弦掩码调度、而非Bert一样的固定掩码率所以准确来讲我觉得应该算是离散扩散模型。——算是比较特殊的情况典型成果还有何恺明的MAR24.06模型直接省去了VQVQ需要STE梯度估计将输入视为连续分布用以结合掩码双向注意力自回归建模其核心创新是用BERT式双向注意力替代传统GPT式的因果单向注意力支持随机顺序的并行解码生成。MAR引入扩散机制但主体仍是自回归框架这是可改用扩散损失MSE来取代交叉熵损失。既然可对应两种不同损失那我们就可以进行比较。何恺明推出的Fluid24.10就是这样的实验。连续token or离散token、random-order即随机掩码自回归可以生成多token生成 or raster-order即逐一自回归生成两两组合一共四种情况。参数扩展并评估性能实验发现连续 token 的 Random-Order 模型表现最佳这可以看成是何恺明MAR的文生图版本。MAR和Fluid都是开创性的成果在业界影响大“连续token 掩码自回归”的架构这也对我们下面的连续token的混合架构提供了实质意义上的参考。MAR比逐一自回归生成肯定快了但是相对扩散模型还是慢的。何恺明团队后来推出了分形生成模型Fractal Generative Models25.02引入了递归策略将高分辨率图像分解为多个小块进行逐像素建模显著降低了计算成本效率提升4000倍。原理比较简单读者自行去查看。业界还有类似的方案ARINAR25.03双层自回归逐特征生成区别在于前者是像素空间后者应用到潜在特征空间都是利用多层递归提升效率。混合架构用以处理连续latent用“非自回归扩散”连续建模生成很明显连续latent的好处是没有离散化处理、没有牺牲连续性利用扩散/流匹配生成的质量高、效果好。混合架构里面比较复杂先讲非自回归的包括编码器和主干都没有自回归比如比如利用CNN架构比如李飞飞团队的W.A.L.T23.12W.A.L.T是一种基于因果3D CNN编码器和窗口注意力的扩散模型它在共享的潜在空间中训练图像和视频生成。W.A.L.T借鉴了MAGVIT-v2的因果3D CNN编码器与MAGVIT-v2不同的是无VQ编码为连续latent图中我红色标出来的部分latent送入DiT并在窗口注意力内双向并行去噪生成。虽然用到DiT得transformer但是窗口注意力所以不算典型的自回归。混合架构用以处理连续latent用“自回归扩散”连续建模生成对于“自回归扩散连续”的混合架构而言自回归预测在什么level上、以及该level的采样效率以及总体架构的生成质量需要模型开发者自己去平衡设计。我找了几个典型的1自回归是token层面的自回归预测每个token的向量再用扩散建模向量分布每个token内部用扩散模型连续采样。比如前述的Masked AR何恺明24.06、Fluid何恺明24.10。上述的MaskGIT22.04连续diffusion生成可以认为也是这类因为是在token层面且结合双向的attention掩码自回归所以我前面单独拎了出来。还有智源Emu3.525.10在token层面的DiDA离散扩散自适应机制它将扩散模型的并行去噪思想引入到了离散token空间并且巧妙地适配到自回归架构上速度可以大幅提升。噪声token以因果自回归关注之前的干净图像token同时噪声token之前双向关注并行去噪去噪过程多步扩散迭代20倍图像生成加速。2自回归是在scale层面的通过预测scale条件即引入Next-Scale PredictionNSP进行视觉图像生成然后在sacle层面用扩散flow连续生成。sacle层面一次预测一批就比逐token预测快多了不是么。比如VAR24.05)这篇是字节的成果也是字节后面的Infinity、InfinityStar模型的理论基础。多尺度VQ-VAE11*11到256*256的5个尺度用下一scale预测替代下一token预测InfinityStar每步可以并行预测数千个token。再比如FlowAR24.12。3自回归是在block 层面的还有一个类似的成果Block Diffusion25.03 这个块是“token块”每块16个token它缝合为块之间AR自回归block 内部使用 discrete并行去噪建模条件分布。也是相似的混合架构思路。4自回归是在图像patch层面的阶跃星辰也出过一个NextStep-125.08它的image tokenizer是基于Flux VAE微调的CNN架构直接在连续的视觉潜在空间中16通道float值以自回归transformer方式逐一预测图像patches。patch内会搭配一个流匹配头作为轻量级采样器以流匹配生成损失函数用到速度场MSE。还有个学术成果我不得不提就是何恺明团队的JiT25.11自回归预测在像素的不同patch层面意味着就是像素预测跟古早的DDPM一样不需要到编码至潜空间用大的patch处理高维像素。这种“原始”好处是很多的不需要VAE、不需要latent tokenizer、不需要自监督的特征对齐、不需要预训练用ViTadaLN-zero条件注入。回顾前面扩散模型数学本质的图像素x、噪声ε、速度场v三种不同的扩散损失函数相互可以公式跳转熟悉扩散到流匹配原理的会更理解这点。x、ε、v三个预测空间可以分别对应x、ε、v三种损失空间共9种情形。JiT对9种都做了实验实验证明预测x的FID最低而且自回归直接预测x对后面的x、ε、v损失都是有效的预测ε、v对于后面的损失则崩溃。并且证明了“预测x v损失”就是最优选择。这也太神奇了如果在技术上跑通那太好了但是技术落地有待探究哈比如如何效率上自回归预测像素patch这类高维信息。还记得前面何恺明团队的MeanFlow吗建模平均速度、可以一步生成的单步采样。这与JiT可以相结合pMF26.01就是这样的探讨——单步、无潜空间生成FID2.22验证了可行性。5自回归是在帧级frame层面的自回归预测每帧然后每帧内的token双向掩码连续扩散生成。比如VideoMAR25.06。上面这些是我归纳总结[累死doge]的当然肯定不止这些读者还可以继续列举下去但正如上面讲的无非就是在什么level预测token、在质量和效率之间如何平衡取舍想必读者也明白了就是用什么样的tokenizer压缩的嘛、backbone怎么有效率的预测和生成、以及如何维持视觉的保真度。其实生成模型就是这么点东西也不复杂。对自回归路线的评价在生成模型中把自回归路线与扩散模型进行比较这个在业界已经吵了好几年了。目前来看“自回归扩散”的混合结构是要总体占优的。比如用A100生成5秒720视频扩散模型Wan 2.1需要用时30分钟而字节InfinityStar仅用时58秒只比上文的清华生数的TurboDiffusion慢一点。但这些先进模型本身呢其实也都是混合模型大部分都需要加上扩散步骤作为生成组件。所以不需要再分为自回归路线与扩散路线意义也不大了。所以多模态一直还在演变也意味着还有投资机会。前面我分别讲到了理解模型、讲到了生成模型下面我们希望实现真正的“统一理解与生成”看能否抓住各自的优势。五、统一理解与生成很难在2024年的一大努力工作是统一理解与生成但貌似并不如人意。貌似理解任务是简单一点的比如从一张猫的图片中识别出猫生成模型则复杂比如从简单的噪声分布映射到复杂多变的真实数据分布。统一理解与生成的目的是从两类截然不同的任务实现112的统一。类似GPT-4o的“统一理解与生成”并不完美且归因于LLM推理能力大厂一直都在努力。比如GPT-4o2024.05实时视觉语音技术直接引爆了行业。GPT-4o第二天Google就发布了Gemini Project Astra和Gemini 1.5 FlashGoogle数月前还有原生多模态Gemini 1系列。在此前后开源模型也出现类似的成果比如Meta Chameleon2024.06紧随其后但貌似大家的认可度很低哦甚至没有融合音频Qwen2-VL2024.08也表现出较强的视觉理解能力DeepSeek的Janus24.10的理解与生成解耦的双路径的编码器也算是成果之一。这个阶段普通C端玩家都明显感觉到多模态理解能力的提升相比23年H2的GPT-4V和Gemini而言效果提升了很多GPT-4o已经出圈了“统一”二字体现的是扩展能力的提升GPT-4o用“o”替代“V”也是这个含义。这些闭源成果我的个人感觉是LLM推理在其中的作用很大侧重“理解”但貌似也仅限于此因为从demo来看依然在“文本引导下的图片识别与理解”只是表现出来模态交互效果。我个人认为这波多模态模型的能力90%归功于LLM推理模型而本身的架构范式级创新很有限——虽然GPT-4o在行业内第一次集成了众多模态文本、视觉、音频。之前有团队“反向破解”基本识别为“扩散风格”。后面我会提到“统一理解与生成”应有的落地效果。【歪题提一下GPT-4o音频的处理因为闭源技术不知道。可以参考开源的Moshi它对音频的处理通过4个步幅为(4/5/6/8)的卷积块和步幅为2的1D卷积将音频投影到latent8级残差矢量量化RVQ离散化——第一级将WavLM高级语义信息蒸馏进离散化token中后面7级量化声音细节。另外美团的龙猫LongCat-Next对音频的离散化也是采取了残差矢量量化RVQ离散化方案。另外有某国内音频AI新创团队也是用到了RVQ。RVQ有助于缓解VQ离散化的信息损失算是业界共识吧。】统一理解与生成重新从表征出发统一理解与生成的多模态模型研究历来已久成果较多了。早期强行的多模态对齐或融合是很简单的比如早期的NExT-GPT23.09用ImageBind23.05统一多模态编码器、生成用不同的图像/声音/视频扩散模型编码-LLM和LLM-解码之间仅用投影层projection layers支持any2any但自然效果就很差啦。早期成果还有Uni-Perceiver21.12、OFA(One For All22.03)不逐一而论。统一理解与生成的多模态有很多分类比如如上的基于扩散如上“三、DiT范式与扩散模型”部分所述、自回归transformer如上“四、自回归生成离散、连续”所述、还是还是自回归和扩散两者融合的如上第四节中的“混合架构”所述。但是上面那些还是从“生成”的角度出发这次我的分类要换个思路我侧重embedding端的不同。我觉得表征学习才是重点如何将特征融合是建模这个世界的本真问题如何表征比主干网络LLMs/MAR/DiT/JEPA等更加重要。从表示学习来看多模态。【这里表征与表示视为同义词、不做区分。表示学习是指自动从数据如图像、文本等中提取特征或表示的方法转化为向量表征学习更强调对特征空间的构造关注结构性信息并支持下游任务】。因果自回归LLMs范式、掩码自回归如MAR、DiT扩散模型、Yann LeCun的JEPA等都是模型主干可以看成是在表示学习之后。那么对应到多模态的视觉token比如像素空间latent空间三维渲染的网格、体素自驾中的BEV都是表示/表征学习。这些表征可以通过自监督学习Clip、Blip、Dino等、或自监督预训练获得可以作为表征学习的一大类方法服务于下游理解与生成任务。在现在以transformer自回归为主干的当下是侧重VAE或VQ-VAE处理图像还是侧重语义编码器自监督学习还有图像是离散还是连续处理。第一在潜空间融合的VAE或VQ-VAE、或连续latent空间。又可以分几个方向1下游是扩散损失的即扩散模型。这个方向依然还是以DiT框架为最佳实践其他的新成果也有很多进步但也没那么重要可以关注与之相关的效率提升方面技术比如稀疏化、高效采样、流匹配、多token生成等。2下游是自回归扩散上述token/scale/patch/frame之类的同时又在潜空间融合的部分并不在潜空间比如何恺明团队的JiT是像素空间。3下游是自回归与扩散双向两个损失都有的。比如Transfusion2024.08。Transfusion在 50% 文本和 50% 图像数据上预训练 Transformer 模型。最终序列的样子是包含了离散元素 (表示文本 token 的整数) 和连续元素 (表示图像 patch 的向量)序列都进入transformer预测序列中token并扩散图像。注意力上将causal attention应用于序列中的每个元素、以及每个单独图像元素之间bi-directional attention结合这两种注意力模式。所以每个图像元素可以关注同一图像patch中的其他元素但只能关注序列中先前出现的文本或其他图像patch。在训练的每一步Transfusion都使用两种模态的LM损失和Diffusion损失通过λ平衡相加就行。Transfusion是将两模态比较粗暴的“拼接”在一起的对于实验性项目比较友好。Transfusion编码器用的CNN 编码器和解码器也可以换为VQ-VAE添加量化层并且将KL损失替换为码本损失。腾讯UniCom就是在Transfusion之上的应用完全抛弃了VAE编码器。第二潜空间和视觉编码器都有的解耦架构比如之前提到的DeepSeek的Janus根据理解和生成任务的不同将视觉编码内部解耦了。第三自监督预训练的文本对齐视觉编码器。这是重点方向咱们又回到了“统一理解与生成”的理解端并且已经出现了RAE这样优秀的学术成果。由于VAE相关技术的语义理解能力跟不上用自监督学习的encoder去取代VAE是相对比较自然的想法老的自监督学习的encoder有的CLIP、FLIP、MAE等新的有用SigLip系列、Dino系列等等。很多都是“语义编码器MLLM扩散解码器”的结构非常典型的成果有Emu系列语义编码器EVA-CLIP、BEiT、BEVT。这里面的编码器能力不一自回归损失和扩散损失组合监督。据说GPT-4o大概率就是使用的这种方法用到了SigLip表现出语义识别与理解的能力。迄今为止GPT-4o仍然是很厉害的前沿多模态生成模型GPT5出来后试图拿掉GPT-4o结果被“粉丝”讨伐引发一波闹剧。再比如RAE25.10我之前就挺关注的就是因为谢赛宁。RAE使用预训练冻结Encoder (比如 DINOv2)加上可训练Decoder。用这样得到的Encoder Decoder组合替代了VAE配合Diffusion Model完成图像生成任务。但是替代了VAE那么高维度空间怎么训练呢谢赛宁做了三点改进宽扩散头、噪声调度平移、噪声增强解码但206年的新论文中《Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders》26.01又承认是随着规模扩展“宽扩散头”和“噪声增强解码”成了冗余设计。去掉冗余设计后论文中RAE的效果明显改善在从 5 亿到近百亿参数的多个尺度上RAE 不仅在预训练阶段全面优于当前最强的 VAE 方案还在高质量数据微调时展现出惊人的稳定性而 VAE 模型却在短短 64 个 epoch 后出现灾难性过拟合。第一次在“理解侧”的自监督模型应用到生成模型并超过了原来的VAE生成范式目前看来类似RAE这样的成果落地也还是有希望的。回到基础技术上。之前表征编码器应用到生成任务有什么技术困难吗之前有些用生成模型的文生图任务来测试发现直接使用表征编码器的效果并不佳。表征编码器是从高维空间到“理解语义”内在信息的低维度有极大冗余传统思路认为扩散模型解码器无法有效探索高维空间易造成生成结构错误和伪影产生流形外的样本、或者重建中错误丢弃信息比如对生成重要、但对理解不重要的几何纹理。有些简单的工程方法可以改善分别对“语义保持”和“视觉重建”提升性能。比如语义上比如用语义蒸馏的方法。纹理色彩之类的通过通道拼接残差分支。再比如引入细化模型类似SDXL中的refiner model在解码至像素空间之前添加细节实现更好的视觉重建。也有一种比较前沿的语义保持的技术方向比如利用归一化流NFs理论构建语义和像素的可逆神经网络比如何恺明团队的双向归一化流BiFlow25.12这个细分方向可以关注但主要是采样速度方面而非语义-像素问题。还有Uniflow25.10层级自适应语义蒸馏、分块像素流解码器通过流匹配直接将高层语义转为像素空间、无需预训练VAE。但这些工程方法都指标不治本需要更“本真”的方法。RAE怎么解决的呢谢赛宁的论文显示这个“扩散模型解码器无法有效探索高维空间”的传统看法是错的只是因为数据不够丰富、规模不够大而已。目前来看之前的维度感知噪声调度依然是重要的另外关键还是数据质量与规模。这也是bitter lesson的体现我觉得未来视频、物理simulator也会类似scaling up。“统一理解与生成”应有的落地效果RAE取消了VAE传统生成路径我觉得这第一次有了统一理解与生成模型成功的先兆。统一理解与生成模型在落地效果上将会是1理解多模态指令与意图并即时生成并有编辑、改动、操纵等改变生成效果的能力后文会看到这远非GPT-4o所能比较的。2模型前后架构进一步改进。比如前端更好的自监督表征和tokenizer后端更好的并行预测、快速解码更健壮的主干模型。3如果模型处理多模态的上下文能力进一步提升、下游任务的推理速度也提上来就能支持与用户交互的速度就有了跨模态交互的能力这正是GPT5当时落空的地方。4融入更多能力比如考虑时空分布和动态信息还得融合其他技术方法比如内置的微分物理引擎、显式/隐式的3D结构表征。比如MIT的新成果PhysiOpt首次实现了在不破坏生成模型原生表示的情况下直接在潜空间中进行可微分物理优化。5那么这类多模态能力落地后Twelve Labs这样视频搜索与生成的初创公司将失去价值。这也算得上是新的技术范式。RAE模型目前看对数据和规模比较考究落地效果和实际任务中后续还需要再观察。毕竟从论文到生产环境是有一段路要走的而且业界也可能出现替代的技术方案。考虑到谢赛宁加入了杨立昆的新公司AMI长远来看他们也许真能跑通从多模态到世界模型从自监督视觉如同更早的DINO-WM24.11、DINO-world25.07到世界模型当然只是迈向世界模型的其中一条技术路线而已。六、前沿模型已经开始体现“统一理解与生成”的前瞻能力步入2026年上述我们期待的“统一多模态理解与生成”在前沿模型中开始展现出来。我看到有几个好的迹象A. RAE表明自监督学习框架也许可以落地高维视觉表示在生成任务上并不比VAE差B. 随着Agent的发展模态从交互到操控变得可控、可落地C. 统一多模态可以预训练并且可以扩展到世界模型。前沿闭源模型成果GPT-4o什么时候被谁超越呢谷歌的系列产品开始大幅发力Gemini2.5 Pro25.03、Gemini2 .0 Flash Exp25.03、Veo325.05、Nano Banana25.08官方为gemini-2.5-flash-image-preview、Genie325.08。Gemini2.0 Flash Exp实现了“用嘴改图”的能力****Nano Banana实现了更强的“物体替换”可编辑能力进一步提升Veo3更强用grounded帧链数据集视频、问答、关键帧引用与理由进行训练感知-建模-操纵-推理实现音视频环境同步不仅可编辑、还有物体操纵如开罐子和帧链CoF推理的涌现能力视频模型第一次具备了进入生产流程的能力之前Sora并没有官方强调了提示工程的重要性。从******Veo3开始已经有些世界模型的感觉了我们可以从《Video models are zero-shot learners and reasoners》窥见这一点。**Genie3明确为世界模型突出交互性、可操控性它使用时空tokenizer、自回归动力学模型、潜在动作模型可以实现约1分钟视觉记忆和数分钟连续交互。说起“交互”随后两月还有李飞飞的成果RTFM25.10、Marble25.11。以谷歌系列为例的上述模型比较GPT-4o和同期的Gemini的提升在于已经不限于“理解”了。已经有了统一多模态理解与生成、甚至世界模型的感觉了。世界模型我暂不说明以后再说它们的模型架构比如状态模型之类的智能体与视觉推理Runway推出的GWM-125.12定位为它首款通用世界模型能够理解物理规律、几何结构及环境动态的模拟系统用户可以实时改变镜头视角、环境条件或物体状态其核心突破在于“连贯性”与“交互性”。****Google ****DeepMind在Gemini 3 Flash基础上提出了一项技术叫“Agentic Vision”26.01引入了“Think-Act-Observe”的循环Think制定多步计划Act生成代码分析图像如计数/计算或操纵图像如裁剪/旋转/标注Observe将变化后的图像追加上下文记忆。Google DeepMind的SIMA226.01在Genie3中表现出类似的能力可以响应用户指令采取行动、实时生成新的事物并且表现出前所未有的适应能力。虽然闭源我们不知道内部的架构和原理。但我们可以从同期的分割模型SAM32025.11中看出一点也许类似的技术。SAM3采用双编码器架构编码器和解码器之间还有负责文本和图像的检测器、视频跟踪器含提示下的检测器发现新目标第t帧会融合跟踪器的上一帧信息t-1存进记忆模块。这可以瞥见编辑能力的技术展示。基准与评估这些视频模型是不是很优秀那在我们希望的世界模型、空间推理能力如何呢谢赛宁在Cambrian-S25.11论文中来对surprise[惊讶度]进行评估建立了一个关于Visual-Spatial Intelligence的基准VSI-Super包括VSI-Super Recall长时程空间观察与回忆比如通过编辑模型插入视频帧内令人惊讶的物体比如一只泰迪熊VSI-Super Count变化视角和场景下的累计计数一段视频中给不同场景的椅子数数。G**emini-2.5-flash在这些基准测试中表现就一般般了。**我们希望的多模态模型是类似人的认知能力的提升比如如何预测“惊讶”信息、如何驱动注意力、如何记忆编码等等。我们不希望得到的是一个侧重LLM能力的MLLM我们希望得到的是一个世界模型。****Cambrian-S的方案是训练了一个潜变量帧预测头LFP来评估“惊讶度”这是一个自监督模块读者自己去研究吧。强化学习也可以用于构建类似的数据集进行评估比如智源的Reason-RFT25.3用于评估类似物体计数、空间关系判断、操作序列规划等场景任务。还有比如Physion-Eval26.03评测视频生成看起来视觉真实的物理真实程度。从多模态到世界模型那么在好的表征能力之下多模态生成模型未来一定会支持用户编辑指令遵循、实时交互类动作反馈、并体现因果关系和规则的能力。当然还有很多挑战需要解决比如相机位姿第一视角的动作可以生成但是真实世界却有很多非第一视角的动作。这后面大概率还会涉及到智能体行动、强化学习以及reward设计等许多其他技术。等这些能力一一满足了也就从多模态到了世界模型的范畴了。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】