你敢信吗一个0.1B参数的TTS模型能在CPU上跑实时语音合成MacBook Air单核就能流畅运行。更离谱的是同一个团队还搞了个8B的音频理解模型在通用音频理解榜单上直接把一众30B的模型按在地上摩擦。OpenMOSS团队这一波一个负责说一个负责听配合得也太默契了。先说说的这个MOSS-TTS-Nano0.1B参数是什么概念你手机上的一个App可能都比它大。但就这么个小东西它能干的事一点不少48kHz立体声输出音质不是玩具级别的支持20种语言中文英文日语韩语法语德语……基本主流语言全覆盖零样本语音克隆给一段参考音频就能用那个人的声音说话流式推理边生成边播放延迟低到可以实时对话长文本自动分块不会说着说着就断了最让我觉得有意思的是它的ONNX CPU版本。4月17号刚发布的推理效率比原版翻了一倍MacBook Air M4上单核CPU就能跑。不需要GPU不需要PyTorchONNX Runtime直接上。你说这意味着什么意味着你可以在浏览器插件里跑TTS了。他们真的做了个Chrome扩展——MOSS-TTS-Nano-Reader直接在浏览器里朗读网页不需要本地部署推理服务。这在以前是不可想象的TTS这种东西哪有不上GPU的但MOSS-TTS-Nano就是做到了。它的底层是一个纯自回归的Audio Tokenizer LLM管线。音频先用MOSS-Audio-Tokenizer-Nano压缩成12.5Hz的token流再用0.1B的LLM自回归生成。简单粗暴但管用。这个Tokenizer也值得多说两句。它只有20M参数但能把48kHz立体声音频压缩到0.125kbps到2kbps的可变码率用的16个码本的RVQ。在同参数量120M以内的开源音频tokenizer里它的重建质量是最好的。说白了这个小Tokenizer是整个MOSS-TTS家族的共享底座不管你是旗舰级的8B模型还是这个0.1B的Nano都用同一套音频表示。保证了家族一致性也降低了部署门槛。再说听的这个MOSS-Audio如果TTS-Nano是会说那MOSS-Audio就是会听。而且它听的能力说实话超出了我的预期。MOSS-Audio不是简单的语音转文字。它是一个统一的音频理解模型能做的事包括语音理解转写、说话人识别、情绪分析环境声理解听到背景里的雨声、车流声、键盘声能推断你在什么场景音乐理解分析风格、情绪走向、配器特征音频问答给一段播客直接回答你关于内容的问题时间感知QA知道什么时间说了什么支持词级和句级时间戳复杂推理多跳推理不是简单的信息提取架构上有两个我觉得特别值得关注的设计第一个是DeepStack跨层特征注入。传统的做法是把编码器的顶层特征直接丢给LLM。但问题来了——顶层特征虽然语义丰富底层韵律、瞬态事件、局部时频结构就丢了。MOSS-Audio的解法是把编码器各层的特征都挑一些出来分别投影后注入LLM的前几层。这样从低层声学细节到高层语义抽象一个都不落。这就像你听一个人说话不光听说了什么语义还听怎么说的语气、节奏、情绪才能完整理解。第二个是时间感知表示。在音频帧之间按照固定间隔插入显式的时间token。这样模型在预训练阶段就学会了什么发生在什么时候——时间戳ASR、事件定位、基于时间的问答都能在统一的文本生成框架里完成不需要额外的对齐模块。这招的效果有多猛看数据就知道了。数据说话MOSS-Audio到底有多强通用音频理解MOSS-Audio-8B-Thinking平均准确率71.08MMAU 77.33MMAU-Pro 64.92MMAR 66.53MMSU 75.52。超过所有开源模型包括30B的Qwen3-Omni和33B的Step-Audio。你没看错8B参数打30B、打33B。甚至在MMSU上8B-Thinking的75.52比33B的Step-Audio-R175.18还高。语音描述Speech Captioning13个细粒度维度里MOSS-Audio-8B-Instruct在11个上领先总平均分3.7252超过Gemini-3-Pro和Qwen3-Omni-30B。ASR语音识别综合CER 11.30全场最低。在方言8.76和歌唱9.81场景下更是遥遥领先。你想想看唱歌的语音都能识别好这声学建模能力不是一般强。时间戳ASR这是最炸裂的。AISHELL-1上AAS 35.77LibriSpeech上131.61。作为对比Qwen3-Omni是833.66Gemini-3.1-Pro是708.24。差了一个数量级。这意味MOSS-Audio在时间对齐上比这些大模型精确得多。说和听的组合拳现在你把这两个模型放在一起看会发现一个有意思的事情MOSS-TTS-Nano负责说——0.1B参数CPU可跑实时语音生成20种语言零样本克隆。MOSS-Audio负责听——8B参数音频理解全栈通用理解超30B模型时间戳精度碾压级。而它们共享同一套音频Tokenizer——MOSS-Audio-Tokenizer-Nano。这意味着什么说出来的声音听的人能完美理解。因为生成端和理解端用的是同一套音频表示体系。不存在我说了你听不懂的问题。这对于语音对话系统、实时语音助手这种需要边听边说的场景来说是巨大的优势。而且别忘了MOSS-TTS家族还有更多模型MOSS-TTS8B旗舰高保真零样本克隆细粒度控制MOSS-TTSD多说话人对话生成超长对话音频MOSS-VoiceGenerator文字描述直接生成音色不需要参考音频MOSS-SoundEffect可控音效生成环境声、城市场景、短音乐MOSS-TTS-Realtime低延迟实时语音面向语音智能体从说到听从单人到多人从语音到音效从离线到实时——MOSS正在搭一个完整的音频AI基础设施。我的看法说真的OpenMOSS这波操作让我挺感慨的。国内做音频AI的团队不少但大多数要么只做TTS要么只做ASR要么只做音频理解。能把生成和理解两条线都做起来还能共享底层Tokenizer的真不多。更关键的是他们在小而精这条路上走得非常坚决。0.1B的TTS-Nano敢往CPU上推20M的Tokenizer敢跟大模型比重建质量8B的Audio理解敢跟30B的模型对打。这不是靠堆资源堆出来的是真的在架构设计和训练策略上下了功夫。对普通开发者来说这两款模型意味着TTS不再是GPU专属浏览器插件就能跑的语音合成部署成本几乎为零音频理解不再是闭源专属8B参数的模型单卡就能跑效果还比大模型好生成理解一体化共享Tokenizer带来的生态一致性让组合使用变得异常自然我觉得这才是开源的意义——不是把模型往HuggingFace上一扔就完事了而是让普通人真的能用起来。代码和模型都已经开源了感兴趣的可以直接去试试MOSS-TTS-Nanogithub.com/OpenMOSS/MOSS-TTS-NanoMOSS-Audiogithub.com/OpenMOSS/MOSS-Audio