UnifoLM-VLA vs LingBot-VA：动作输出方式对比

张

张建站

2026/4/17 13:44:31

10分钟阅读

name: Act chunk comparisonoverview: 对比 UnifoLM-VLA 和 LingBot-VA 两个模型的 server 出动作方式分析 LingBot-VA 是否必须逐步吐动作以及如何让真机一次拿到整 chunk。todos: []isProject: falseUnifoLM-VLA vs LingBot-VA动作输出方式对比架构本质差异两个模型的架构完全不同导致它们出动作的方式有根本区别UnifoLM-VLA无状态每次全量推理POST /act(图state)Qwen-VL 全量编码DiT Action Head(flow-matching)actions: (T, D)一次性返回整个 horizonPOST /act(新图state)重新全量编码DiT Action Headactions: (T, D)无 KV cache / 无状态每次请求都是独立的VLM 全量编码图像 text一次返回整个 action_horizon比如(16, action_dim)就是 16 步动作不需要 bufferserver 没有任何跨请求的状态没有/act_chunk因为/act本身就返回多步LingBot-VA有状态自回归 chunk 推理 KV cacheChunk 2: 后续推理compute_kv_cache(key_frames 上次 action)更新 Transformer KV cacheTransformer 去噪(利用 KV cache)生成下一 chunkaction bufferF*H 步消费 bufferPOST /act → pop 1步POST /act → pop 1步每 H 步存 key_frame... 直到 buffer 空Chunk 1: 首次推理POST /act (图)VAE 编码图像→ latentTransformer 去噪生成 video latent actionaction buffer(F-1)*H 步有状态 KV cacheTransformer 在 chunk 间保持 KV cache后续 chunk 的推理依赖前面所有 chunk 的 key_frames 和 predicted actions一次推理产出一个 chunkframe_chunk_size4, action_per_frame8→ 一个 chunk 32 步首次 24 步关键约束后续 chunk 推理前必须先用中间的观测图像key_frames更新 KV cache这些 key_frames 是在执行动作过程中采集的真实图像核心问题解答LingBot-VA 是否必须一个一个吐不是。模型本身一次推理就产出一整个 chunk24/32 步。当前/act接口设计成逐步返回只是为了在每action_per_frame8步时用当时的真实图像记录 key_frame这些 key_frames 用于下一 chunk 推理前的 KV cache 更新但/act_chunk接口已经支持一次性返回整个 chunk。问题在于真机端需要自己在执行过程中采集 key_frames然后在下一次请求时带上。推荐方案真机用/act_chunk 自行采集 key_frames真机客户端的工作流ServerRobotServerRobotloop[每执行 8 步]loop[每执行 8 步]以此类推...POST /act_chunk {image, instruction, state}{actions: [24步], action_per_frame: 8}执行 action[0..7]拍照存为 key_framePOST /act_chunk {image, instruction, state, key_frames: [3张图]}{actions: [32步], action_per_frame: 8}执行 action[0..7]拍照存为 key_framePOST /act_chunk {key_frames: [4张图]}需要修改的内容很少只需要确保/act_chunk的key_frames处理逻辑正确即可当前已实现。对比总结UnifoLM-VLA: 无状态每次/act 全量推理 → 返回完整 horizon。简单但每次都要重新编码LingBot-VA: 有状态KV cache每次/act_chunk 用 cache 加速推理 → 返回完整 chunk。更快后续 chunk 不用重新编码历史但需要 key_frames 回传结论LingBot-VA 完全可以一次吐出整个 chunk用/act_chunk就行。逐步吐只是为了在 server 端自动收集 key_frames如果真机端自己收集并传回来就可以直接用/act_chunk。

地平线DiffusionDrive v1和v2的细节对比解读

点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线作者 | 三两声知乎编辑 | 自动驾驶之心原文链接：https://zhuanlan.zhihu.com/p/2023721669739430016本文只做学术分享，如有侵权，联系删文>&g…...

2026/4/17 13:41:13 阅读更多 →

BUUCTF [HITCON 2017]SSRFme 1 深度解析：从代码审计到命令执行的完整攻击链

1. 代码审计：从沙盒逃逸到命令执行的突破口拿到这道题目的源码时，我第一眼看到shell_exec和GET的组合就意识到事情不简单。先来看关键代码段： $sandbox "sandbox/" . md5("orange" . $_SERVER["REMOTE_ADDR"…...

2026/4/17 13:37:13 阅读更多 →

告别Cursor限制：3步解锁Pro功能的终极指南

告别Cursor限制：3步解锁Pro功能的终极指南【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached your trial request …...

2026/4/17 13:34:13 阅读更多 →

终极AssetStudio指南：轻松提取Unity游戏资源的完整教程

终极AssetStudio指南：轻松提取Unity游戏资源的完整教程【免费下载链接】AssetStudio AssetStudio is an independent tool for exploring, extracting and exporting assets. 项目地址: https://gitcode.com/gh_mirrors/ass/AssetStudio 🚀 你是…...

2026/4/16 10:26:51 阅读更多 →

Spring with AI (): 定制对话——Prompt模板引入技

插件化架构 v3 版本最大的变化是引入了模块化插件系统。此前版本中集成在核心包里的原生功能，现在被拆分成独立的插件。每个插件都是一个独立的 Composer 包，包含 Swift 和 Kotlin 代码、权限清单以及原生依赖。开发者只需安装实际用到的插件&#xff0…...

2026/4/13 13:59:31 阅读更多 →

终极指南：如何让微信网页版重新可用？wechat-need-web插件全面解析

终极指南：如何让微信网页版重新可用？wechat-need-web插件全面解析【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网…...

2026/4/15 22:38:10 阅读更多 →