Soul App发布SoulX-LiveAct，推动数字人生成技术升级

张

张建站

2026/5/8 16:55:12

10分钟阅读

随着数字人技术在直播、播客和实时互动场景中的应用不断扩大行业对数字人长时稳定生成的需求日益突出。近期Soul App AI团队Soul AI Lab正式对外发布开源模型SoulX-LiveAct。通过引入Neighbor Forcing与ConvKV Memory等机制SoulX-LiveAct在自回归扩散框架下完成优化使流式视频生成从“可运行”迈向“可持续稳定运行”为行业提供了一种更具可行性的技术路径。在实际落地的过程中视频生成时长一旦延伸到分钟乃至更长时间往往会出现身份漂移、细节缺失、画面闪烁等问题同时推理成本也会随时间增加。针对上述问题Soul App AI团队在机制设计上进行了系统优化旨在解决长时生成过程中稳定性与效率的双重挑战。在核心能力方面SoulX-LiveAct首先实现了显存使用的稳定控制。传统自回归扩散模型依赖KV cache记录历史信息随着视频时长增长缓存规模不断扩大容易导致资源压力上升。该模型通过改造条件传播方式并结合记忆压缩机制使历史信息在被有效保留的同时不再线性膨胀从而支持更长时间的连续生成。Soul App AI团队这一设计为小时级甚至更长时长的实时生成提供了基础条件。在实时性能方面SoulX-LiveAct在512×512分辨率下仅需2张H100或H200显卡即可实现20FPS的流式推理端到端延迟约为0.94秒单帧计算成本控制在27.2 TFLOPs。相比传统方案其在保证生成质量的同时降低了算力消耗使得模型更接近实际部署需求也为在线应用提供了更具可行性的成本结构。在技术原理方面SoulX-LiveAct基于AR Diffusion范式通过分块自回归生成实现流式推理。Neighbor Forcing机制在同一扩散步内传递相邻帧的latent信息使上下文处于一致的噪声语义空间从而减少训练与推理之间的不一致问题。与此同时ConvKV Memory通过“短期窗口长期压缩”的结合将历史信息压缩为固定长度表示使显存占用保持稳定。配合RoPE Reset进行位置编码对齐有效缓解长序列中的位置漂移现象。在训练策略上Soul App AI团队强调与推理过程的一致性。训练数据以连续帧块形式组织使模型在训练阶段就接触到长时误差积累与修正过程从而提升其在实际运行中的稳定性。同时模型在训练中引入与推理一致的记忆压缩方式使其能够在压缩信息条件下仍保持身份与细节的一致表达。这种“面向长时场景”的训练方法有助于减少实际部署中的性能波动。在性能评估方面SoulX-LiveAct在HDTF与EMTD数据集上均表现出较为均衡的结果。在HDTF测试中模型在口型同步指标上达到9.40的Sync-C与6.76的Sync-D同时在分布相似性方面取得10.05 FID与69.43 FVD并在VBench评测中获得97.6的Temporal Quality和63.0的Image QualityVBench-2.0的Human Fidelity达到99.9。在EMTD数据集上模型同样保持同步表现领先8.61 Sync-C / 7.29 Sync-D并且在VBench上的Temporal Quality与Image Quality指标分别达到97.3与65.7Human Fidelity为98.9。这些结果体现出其在长时序稳定性与人体一致性方面的综合能力。基于上述能力SoulX-LiveAct可应用于多种需要长时间稳定输出的场景例如数字人直播、AI教育、智能客服及虚拟互动环境等。近年来Soul App AI团队持续推进实时数字人方向的技术演进先后开源了SoulX-FlashTalk与SoulX-FlashHead等模型分别在低延时、高帧率与轻量化等方面实现突破。与此同时团队还在语音合成与交互模块方面推出SoulX-Podcast、SoulX-Singer及SoulX-Duplug等方案逐步完善多模态实时交互技术体系。Soul App发布的SoulX-LiveAct在长时稳定生成、实时推理效率与工程可落地性之间建立了一种新的平衡路径。通过对关键机制的重构与训练方式的调整模型在实际应用场景中展现出更稳定的表现也为实时数字人技术的进一步发展提供了参考方向。

云原生测试的终极形态：Serverless架构下的质量保障变革

在云原生技术浪潮的席卷下，软件架构正经历着前所未有的变革，Serverless架构作为云原生的核心范式之一，凭借其按需付费、自动扩缩容、运维成本极低等特性，正逐渐成为构建现代应用的首选模式。对于软件测试从业者而言，Se…...

2026/5/8 16:54:59 阅读更多 →

苹果Vision Pro R1芯片深度解析：空间计算的专用硬件设计

1. 项目概述：从R1芯片看空间计算平台的硬件基石最近拆解和分析了苹果Vision Pro头显里的R1芯片，这确实是个很有意思的案例。对于从事硬件设计、嵌入式系统，特别是对AI和SoC（片上系统）集成感兴趣的朋友来说，…...

2026/5/8 16:54:52 阅读更多 →

高效学术翻译方案：Zotero PDF Translate的5个实用配置技巧

高效学术翻译方案：Zotero PDF Translate的5个实用配置技巧【免费下载链接】zotero-pdf-translate Translate PDF, EPub, webpage, metadata, annotations, notes to the target language. Support 20 translate services. 项目地址: https://gitcode.com/gh_mirr…...

2026/5/8 16:54:36 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →