深度探索：直接预测多个token可行吗？

张

张建站

2026/5/1 22:52:37

10分钟阅读

为了尽量减少像素之间的相关性我们可以在整个图像上均匀地选择问号像素如下图所示在上图中我们随机地遮盖mask一些像素点即问号像素然后利用其余的像素点一次性预测被遮盖的像素点。现在我们希望将这种方法推广到极限即一次性预测所有像素点但需要确保所有预测的像素点彼此不相关。那么如何解决呢首先我们可以将之前的硬遮盖hard mask变为软遮盖soft mask即不是直接从无预测到有而是预测像素值的 “变化”。其次回顾自回归生成图像时的第三个缺点即缺乏有序性。我们不再将像素值预测视为分类问题而是视为回归问题然后预测每个像素值的 “增量”“增量” 代表的是对目前像素值的改进将多次的改进都 “加起来“就得到了最终的图像的像素值。最终我们的模型被改造成下面的样子我们输入一个 “近似” 图像然后神经网络根据该 “近似” 图像一次性预测出对整个图像像素值的 “增量”每个位置的像素值增量是不一样的。这些增量代表了对近似图像的改进通过应用这些预测的增量来改进近似图像最终得到一个更好的图像。不断重复上面的过程最终生成一个高质量的图像。整个过程可以用下图形象的描述我们在第 t-1 步利用带有噪声的图像通过神经网络预测其噪声分布然后从图像中减去这个噪声这里的增量是负的噪声得到改进后的图像即下一步的输入不断重复这个过程多次最终生成了一个清晰的图像。显而易见这种方法也算是一种自回归模型它正是著名的 DDPM 扩散模型。当然DDPM 在具体的实现上和上述过程略有差异但这些差异并不影响其本质。扩散模型diffusion model成功地规避了前文提到的几个缺陷。首先生成效率得到了显著提升。在扩散模型中我们一次性可以预测所有像素的增量。相比于 next token prediction 逐像素预测的方式扩散模型的生成速度更快。其次模型对样本的利用效率更高。在下一个 token 预测中理论上需要个模型每个模型输入的 token 长度不同。实际应用中我们用一个模型代替了这个模型。但在扩散模型中我们只需 T 个模型其中 T 是扩散模型的步数实际应用中我们用一个模型代替了这 T 个模型。通常情况下DDPM 在 1000 到 4000 步之间就能取得良好的效果远少于的数量。最后扩散模型天然考虑了像素值的有序性。因为它是基于回归而非分类。此外它避免了下一个 token 预测中的就近偏差问题因为它每次预测的是整体像素的 “增量”。

wechatapi iPad协议：私域API底层优化实录

兄弟们，今天不整虚的，直接聊干货。最近搞微信私域自动化，用 wechatapi 的 iPad 协议接口对接 OpenClaw 智能体，结果发现个诡异现象：同样的用户请求，在 OpenClaw 前端响应只要8-10秒，但通过 CLI …...

2026/5/1 22:51:37 阅读更多 →

Fan Control终极指南：轻松掌控电脑风扇，告别噪音烦恼

Fan Control终极指南：轻松掌控电脑风扇，告别噪音烦恼【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_T…...

2026/5/1 22:45:56 阅读更多 →

第 1 篇：Codex App 是什么？从安装环境到第一次打开

第 1 篇：Codex App 是什么？从安装环境到第一次打开本篇目录 Codex App 到底是什么使用 Codex 前要准备什么安装 Node.js安装 Git安装 VS Code下载并启动 Codex App登录 ChatGPT 账户完成首次初始化看懂 Codex App 的三栏布局本篇小结与检查清单 1. Code…...

2026/5/1 22:45:13 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/5/1 20:48:08 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →