Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音分词 #扩散模型 #流匹配 #语音大模型 #语音识别 ✅ 7.5/10 | 前25% | #语音分词 | #扩散模型 | #流匹配 #语音大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Wang(Meta超级智能实验室、香港中文大学(深圳)) 通讯作者:未明确说明(论文中提供了第一作者的邮箱地址 yuanchengwang@link.cuhk.edu.cn) 作者列表:Yuancheng Wang(Meta超级智能实验室、香港中文大学(深圳))、Zhenyu Tang(Meta超级智能实验室)、Yun Wang(Meta超级智能实验室)、Arthur Hinsvark(Meta超级智能实验室)、Yingru Liu(Meta超级智能实验室)、Yinghao Li(Meta超级智能实验室)、Kainan Peng(Meta超级智能实验室)、Junyi Ao(Meta超级智能实验室、香港中文大学(深圳))、Mingbo Ma(Meta超级智能实验室)、Mike Seltzer(Meta超级智能实验室)、Qing He(Meta超级智能实验室)、Xubo Liu(Meta超级智能实验室) 💡 毒舌点评 亮点:论文提出的SiTok在极低比特率(0.2 kbps)和极低帧率(12.5 Hz)下实现了领先的语音重建质量和下游任务性能,为语音大模型提供了高效的离散化接口,技术路径清晰且实验全面。短板:模型规模巨大(1.6B参数)且依赖未公开的200万小时内部数据进行训练,这对于大多数研究团队而言复现门槛极高,其性能是否完全来自架构创新还是数据规模红利需要进一步厘清。 🔗 开源详情 代码:论文附录D提供了详细的伪代码,且承诺将在论文正式发表后发布完整的推理代码和预训练模型检查点至公共、仅限研究使用的数据集。但未提供当前可用的代码仓库链接。 模型权重:未提及当前是否提供公开的预训练权重。承诺未来发布。 数据集:训练数据为200万小时内部数据,未公开,无法获取。 Demo:提供了在线演示网站链接:https://sitok-demo.github.io/。 复现材料:提供了非常详细的模型架构(附录A)、伪代码(附录D.1, D.2)、训练超参数(附录D.3)和消融研究配置,复现信息(除数据和硬件外)较充分。 论文中引用的开源项目:主要引用了Llama系列模型架构、RoPE位置编码、Vocos声码器、AdamW优化器��通用组件。未提及依赖其他特定的开源语音分词或扩散模型工具。 📌 核心摘要 问题:现有语音分词器在平衡语义理解(需要压缩)与声学保真(需要细节)方面存在根本矛盾,尤其在极低比特率/帧率设置下,传统基于向量量化和回归损失的优化方式存在结构性瓶颈。 方法核心:提出SiTok,一种基于扩散自编码器的语音分词器。其核心是端到端地联合优化离散量化与生成式重建,并引入一个基于CTC损失的辅助解码器对量化后的离散潜空间进行语义正则化,以学习同时具备高保真度和丰富语义的离散表示。 创新点:a) 采用流匹配(扩散模型的一种)作为解码目标,替代传统回归损失或GAN,更有效地从激进压缩的离散码中恢复语音;b) 端到端联合训练量化器与扩散解码器,避免了两阶段训练导致的次优离散码;c) 直接对离散潜变量施加CTC语言监督,确保令牌的语义一致性;d) 探索了快捷微调等高效解码策略,将扩散推理步数大幅减少至2-4步。 主要实验结果:SiTok在0.2 kbps和12.5 Hz的极端压缩设置下,重建WER为3.34(使用Classifier-Free Guidance),说话人相似度(SIM)达0.682(使用解码器微调),在语音重建和多项理解任务(ASR、情感识别、说话人验证、关键词检测)上均显著优于所有对比的强基线模型(见下表关键数据)。消融研究验证了扩散损失、语义正则化、模型缩放等关键设计的有效性。 模型 比特率(kbps) WER (↓) SIM (↑) UTMOS (↑) LLM ASR (↓) Ground Truth - 2.14 0.730 3.53 - Mimi (Baseline) 0.825 4.51 0.527 3.09 23.1 StableCodec (Baseline) 0.40 11.1 0.410 3.87 28.0 SiTok (CN=1, 基础) 0.20 4.06 0.641 3.44 4.95 SiTok (CN=1, +解码器微调) 0.20 3.79 0.682 3.48 - SiTok (CN=1, +Token CFG) 0.20 3.34 0.635 3.60 - 实际意义:为构建统一的、高效的语音大模型(同时处理理解和生成)提供了关键的离散化接口。其极低的令牌速率能显著缩短序列长度,提升语言模型的推理效率。 主要局限性:a) 性能仍低于连续特征表示;b) 扩散解码器本身对流式生成不友好;c) 训练依赖大规模内部数据集,可获取性未说明。 🏗️ 模型架构 SiTok是一个基于扩散自编码器的语音分词系统,整体流程为:梅尔频谱图 -> 下采样 -> 编码器 -> 向量量化 -> 离散令牌 -> 扩散解码器 -> 重建梅尔频谱图。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 282 words

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #信号处理 #时频分析 🔥 8.5/10 | 前25% | #音频生成 | #信号处理 | #时频分析 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music) 通讯作者:未说明(从邮箱推测可能与通讯作者单位一致,但未在文中明确标注) 作者列表:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music)、Vincent Lostanlen(Nantes Université, LS2N)、Emmanouil Benetos(Queen Mary University of London, Centre for Digital Music)、Mathieu Lagrange(Nantes Université, LS2N) 💡 毒舌点评 亮点:本文提出SCRAPL算法,巧妙地利用散射变换的树状结构,通过随机路径采样和定制化优化器(P-Adam, P-SAGA),将计算成本高昂的全树散射变换损失,成功转化为一种高效且无偏的随机近似,为在大规模神经网络训练中使用复杂感知损失扫清了障碍。 短板:该方法本质上是一种采样近似,在最终精度上(如表1所示)依然无法超越计算成本高得多的全树散射变换(JTFS),且在处理信号衰减部分(如表9所示)时表现不佳,表明其对稀疏低频路径的捕捉能力有待加强。 ...

2026-05-02 · 更新于 2026-05-22 · 3 min · 487 words

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #音频问答 #强化学习 #长期记忆 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #强化学习 #长期记忆 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lin Long(浙江大学) 通讯作者:Yuan Lin(字节跳动Seed) 作者列表: Lin Long(浙江大学), Yichen He(字节跳动Seed), Wentao Ye(浙江大学), Yiyuan Pan(卡内基梅隆大学Robotics Institute), Yuan Lin(字节跳动Seed,通讯作者), Hang Li(字节跳动Seed), Junbo Zhao(浙江大学), Wei Li(字节跳动Seed) 💡 毒舌点评 亮点: 该工作构建了一个从“感知(看/听)”到“记忆(构建实体中心图谱)”再到“推理(多轮检索与回答)”的完整类人闭环框架,并为此贡献了首个侧重记忆推理能力的长视频问答基准(M3-Bench),系统性很强。短板: 记忆构建模块严重依赖外部的人脸识别、说话人分离等工具,其鲁棒性和端到端的可训练性未充分探讨;此外,所采用的DAPO强化学习训练需要极高的计算资源(未说明具体成本),可能限制其广泛复现。 🔗 开源详情 代码:论文中提到代码将开源,提供了GitHub仓库链接:https://github.com/ByteDance-Seed/m3-agent。 模型权重:承诺发布记忆化模型(memory-7b-sft)和控制模型(control-32b-rl)的检查点。 数据集:承诺发布完整的M3-Bench基准,包括视频和问答标注。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供训练数据、代码、训练细节(包括超参数表)和附录说明。附录中详细列出了记忆节点的数据结构、工具实现、示范数据合成流程等关键复现信息。 引用的开源项目:论文中引用的依赖项目包括InsightFace(人脸识别)、ERes2NetV2(说话人验证模型)、OpenAI的文本嵌入模型(text-embedding-3-large),以及作为基础模型的Qwen2.5-Omni和Qwen3。 📌 核心摘要 问题:现有长视频理解方法多为离线处理有限长视频,且关注低层感知而非高层知识积累;智能体缺乏像人类一样在持续交互中构建和利用长期记忆进行推理的能力。 方法:提出M3-Agent框架,包含并行工作的记忆化与控制流程。记忆化流程持续处理视频流,生成情景记忆(具体事件)和语义记忆(如人物身份、属性、关系),并以实体为中心的图谱进行组织。控制流程根据指令,通过强化学习(DAPO)训练的策略模型,自主进行多轮推理并检索记忆图谱来完成任务。 新意:1) 提出模拟人类记忆机制的、实体中心化的多模态长期记忆架构;2) 设计基于强化学习的多轮检索推理控制策略;3) 构建首个评估记忆能力的多模态智能体基准M3-Bench。 结果:在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上,M3-Agent均优于最强基线。例如,在M3-Bench-robot上比最强基线(MA-LMM)高6.3%,在M3-Bench-web上比Gemini-GPT4o-Hybrid高7.7%。消融实验证明了长期记忆(尤其是语义记忆)和强化学习训练的关键作用。 方法 M3-Bench-robot M3-Bench-web VideoMME-Long MA-LMM (在线视频理解最佳) 24.4 24.3 17.3 Gemini-GPT4o-Hybrid (混合Agent最佳) 24.0 41.2 56.5 M3-Agent 30.7 48.9 61.8 意义:为构建具备长期记忆和推理能力的多模态智能体提供了新的框架思路和评估标准,推动智能体从“单次感知”向“经验积累”进化。 局限:记忆模块依赖外部预训练工具(人脸识别、说话人分离);强化学习训练成本高昂;记忆图谱的规模化管理和高效检索策略有待进一步研究。 🏗️ 模型架构 M3-Agent的整体架构如图1所示,由多模态大语言模型(MLLM)和多模态长期记忆两大核心部分组成,并支持两个并行的工作流程:记忆化流程与控制流程。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 347 words

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频生成 #扩散模型 #大语言模型 #空间音频 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #空间音频 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Zitong Lan(宾夕法尼亚大学WAVES实验室) 通讯作者:未说明 作者列表:Zitong Lan(宾夕法尼亚大学WAVES实验室)、Yiduo Hao(宾夕法尼亚大学)、Mingmin Zhao(宾夕法尼亚大学) 💡 毒舌点评 论文最大的亮点是巧妙地将“声明式”这一更高阶的交互范式引入音频编辑,通过ALM作为“导演”将抽象指令拆解为具体“剧本”(原子操作),再由LDM作为“演员”执行,思路清晰且解决了实际痛点。然而,其评估完全依赖于一个精心设计但规模有限的合成数据集(240k训练对),这种“温室里的花朵”能否在真实世界杂乱、多变、充满语义歧义的音频场景中保持同样表现,要打一个大大的问号。 🔗 开源详情 代码:论文中提供了项目主页链接(https://waves.seas.upenn.edu/projects/smartdj),并声明代码将在论文被接收后公开。论文中未提及具体的代码仓库链接(如GitHub)。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:论文中详细描述了数据合成管道,并声明将公开合成的数据集。 Demo:论文中未提及在线演示。 复现材料:论文附录中包含了极其详细的训练细节、超参数配置、数据合成提示词、基线实现细节等,复现材料充分。 论文中引用的开源项目:PyRoomAcoustics(声学模拟)、Audio Flamingo 2(ALM基础)、Stable-Audio-Open(部分基线生成器)、Diffusion Transformer架构等。 📌 核心摘要 问题:现有的音频编辑方法依赖于模板化的低级指令(如“添加鸟鸣”),无法处理用户更高级、更抽象的“声明式”指令(如“让这个声音像晴朗的森林”),且绝大多数仅支持单声道音频,缺乏空间沉浸感。 核心方法:提出SmartDJ框架,由两个核心组件构成:a) 音频语言模型(ALM)作为规划器,理解原始音频和声明式指令,将其分解为一系列原子编辑操作序列(如添加、移除、调整音量、改变方向等);b) 潜在扩散模型(LDM)作为编辑器,按顺序执行这些原子操作,对立体声音频进行精确编辑。 创新点:a) 首次实现支持声明式指令的立体声音频编辑;b) 设计了一个可扩展的数据合成管道,利用LLM生成指令和操作,并基于规则化音频合成生成成对的训练数据。 主要实验结果:在自建的合成测试集上,SmartDJ在多项客观指标(FD、FAD、KL、LSD、CLAP)和主观用户研究中均显著优于多种基线方法(包括端到端Audit、SDEdit、AudioEditor等)。例如,在声明式编辑任务上,SmartDJ的CLAP分数(0.21)和LSD(1.40)均优于最强基线(CLAP 0.20, LSD 1.49)。用户研究显示,在音频质量和指令对齐度上,SmartDJ的胜率均超过87%。 实际意义:该框架有望降低音频创作和编辑的门槛,使非专业用户能通过自然语言快速实现复杂的音频场景转换,对VR/AR、游戏、影视后期制作等领域具有应用价值。 主要局限性:a) 训练和评估完全依赖于合成数据,其与真实世界录音在复杂性、噪声和语义丰富度上可能存在差距;b) 多步顺序编辑累积误差的可能性未深入探讨(论文通过“往返编辑”实验部分缓解);c) 系统需要ALM和LDM分别训练和推理,整体延迟(约13秒)高于端到端方法。 🏗️ 模型架构 图1展示了SmartDJ的整体工作流程:用户输入声明式指令(如“让这段音频听起来像晴朗的森林”)和原始立体声音频。ALM(规划器) 首先感知原始音频中的事件(如猫叫、下雨),并推理出一系列原子编辑步骤(如步骤1:移除下雨;步骤2:添加树叶沙沙声…)。这些步骤被送入LDM(编辑器),逐步对音频进行修改,最终输出编辑后的立体声音频。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 328 words

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #鲁棒性 #模型评估 #实时处理 #低资源 ✅ 7.0/10 | 前25% | #音频分类 | #自监督学习 | #鲁棒性 #模型评估 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ismail Lamaakal(Mohammed First University, Multidisciplinary Faculty of Nador, Oujda, Morocco)、Chaymae Yahyati(同上,标注为共同第一作者并主导项目) 通讯作者:未说明 作者列表:Ismail Lamaakal(Mohammed First University, Multidisciplinary Faculty of Nador, Oujda 60000, Morocco)、Chaymae Yahyati(同上)、Khalid El Makkaoui(同上)、Ibrahim Ouahbi(同上)、Yassine Maleh(Sultan Moulay Slimane University, Laboratory LaSTI, ENSAK, Khouribga 54000, Morocco) 💡 毒舌点评 亮点:在毫瓦级MCU的严苛约束下,这篇论文找到了一条不依赖多次推理或复杂状态的确定性不确定性计算路径——用“层间预测误差”这个巧妙的代理指标,这比死磕softmax置信度或堆叠模型要聪明得多。短板:虽然实验做得很全面,但核心的“深度方向惊奇信号”是否比其他轻量方法(如能量分数、Mahalanobis距离)真的优越,似乎更多体现在工程可行性上,理论深度和普适性说服力略显不足,更像是一个为特定场景优化的“补丁”方案。 ...

2026-05-02 · 更新于 2026-05-22 · 3 min · 494 words

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #条件生成 #数据集 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #条件生成 #数据集 学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/lsfhuihuiff/SongEcho_ICLR2026 模型权重:论文未直接提及是否公开预训练好的SongEcho模型权重,但承诺开源代码。基于代码仓库,用户可能可以自行训练获得模型。 数据集:公开了新构建的Suno70k数据集,通过论文提供的Hugging Face数据集链接(https://huggingface.co/datasets/nyuuzyou/suno)可获取元数据,音频需根据链接下载。 Demo:提供在线演示页面:https://vvanonymousvv.github.io/SongEcho_updated/ 复现材料:论文在附录中提供了极其详尽的复现信息,包括:ACE-Step+SA ControlNet和ACE-Step+MuseControlLite两种基线的具体实现方式(LoRA秩、克隆模块数量)、训练设置(优化器参数、学习率、步数)、推理设置(CFG引导强度)等。 论文中引用的开源项目:ACE-Step(基础生成模型)、RVMPE(F0提取)、mir_eval(旋律指标计算)、Whisper(歌词转录)、Qwen2-audio(标签生成)、SongEval(美学评估与数据集)、OpenL3, PANNs (用于FD和KL计算)、CLAP(音频文本一致性评估)。 📌 核心摘要 这篇论文针对“翻唱歌曲生成”(Cover Song Generation)任务,即在保留原曲主旋律的同时,根据新的文本提示生成全新的演唱和伴奏,提出了一个名为SongEcho的轻量级框架。其核心是实例自适应逐元素线性调制(IA-EiLM),该方法包含两个创新组件:1)逐元素线性调制(EiLM),它扩展了特征线性调制(FiLM),通过生成与隐藏状态维度匹配的调制参数(γ, β),实现了旋律条件的时序对齐精确注入;2)实例自适应条件精炼(IACR),它通过门控机制使条件特征与生成模型的隐藏状态动态交互,从而让条件特征自适应于当前生成实例,避免了静态条件注入导致的不兼容问题。为解决该领域缺乏大规模开源数据集的问题,论文构建并发布了Suno70k数据集。实验表明,SongEcho在Suno70k和SongEval数据集上,仅使用不到基线30%的可训练参数,在旋律保真度(如RPA, RCA)和音频质量(如FD, KL)等所有评估指标上均超越了现有最先进的旋律可控音乐生成方法(如SA ControlNet, MuseControlLite)。该工作的意义在于为歌曲的再创作提供了一种高效、可控的技术路径,但其局限在于对演唱音色等更细粒度风格的控制能力有限,且依赖于特定的文本到歌曲基础模型(ACE-Step)的文本控制能力。 实验结果表格 表1:在Suno70k测试集上的定量评估结果 方法 RPA ↑ RCA ↑ OA ↑ CLAP ↑ FD ↓ KL ↓ PER ↓ TP ↓ ACE-Step (Gong et al., 2025) - - - 0.2930 73.53 0.2670 0.4168 - ACE-Step+SA ControlNet (Hou et al., 2025) 0.6209 0.6440 0.6858 0.2875 105.95 0.2019 0.3714 1.6B ACE-Step+SA ControlNet+LoRA (Hou et al., 2025) 0.6214 0.6431 0.6833 0.2892 99.19 0.1850 0.3734 331M ACE-Step+MuseControlLite (Tsai et al., 2025) 0.5205 0.5346 0.5940 0.2977 72.04 0.2151 0.4194 189M SongEcho (Ours) 0.7080 0.7339 0.6952 0.3243 42.06 0.1123 0.2951 49.1M 表2:在Suno70k测试集上(交换文本标签后)的定量评估结果 ...

2026-05-02 · 更新于 2026-05-22 · 3 min · 518 words

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Youliang Zhang(清华大学,邮箱:zhangyou24@mails.tsinghua.edu.cn) 通讯作者:Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) (论文中标注了†和‡,通常表示通讯作者) 作者列表: Youliang Zhang(清华大学) Zhaoyang Li(StepFun) Duomin Wang†(StepFun) Jiahe Zhang(未说明) Deyu Zhou(StepFun;香港科技大学(广州)) Zixin Yin(StepFun;香港科技大学) Xili Dai(StepFun;香港科技大学) Gang Yu(StepFun) Xiu Li‡(清华大学(深圳)) 💡 毒舌点评 本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白,以工业级的系统性和透明度构建了一个规模(520万片段)和质量(1080P+)俱佳的专用数据集,为后续研究铺平了道路。然而,其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新,且在绝对视频生成质量上并未超越更庞大的级联扩散模型(如Hallo3),其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 387 words

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #语音对话系统 #大语言模型 #多任务学习 #语音大模型 🔥 9.0/10 | 前25% | #语音情感识别 #语音对话系统 | #多任务学习 #大语言模型 | #语音情感识别 #语音对话系统 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xuanru Zhou(Zhejiang University, 浙江大学) 通讯作者:未说明 作者列表:Xuanru Zhou(Zhejiang University)、Jiachen Lian(UC Berkeley, 加州大学伯克利分校)、Henry Hong(UC Berkeley)、Xinyi Yang(Zhejiang University)、Gopala Anumanchipalli(UC Berkeley) 💡 毒舌点评 亮点在于其将认知科学的世界模型概念和模块化思维(如心智理论ToM、言语行为SA)严谨地工程化为一个可学习的因果图结构,为语音模型提供了迄今最清晰、最可解释的“思考路径”,这比无脑堆数据和参数要高级得多。短板则是在“标签生成”环节重度依赖LLM(Vicuna-13b)作为教师模型,这不可避免地会引入教师模型的偏差和错误,论文中对此风险的缓解措施描述有限。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/eureka235/eureka235.github.io。承诺开源实现、训练和评估脚本。 模型权重:论文中提到“we will open source the model”,承诺开源模型权重。 数据集:论文使用了四个公开数据集(MELD, IEMOCAP, SLURP, VoxCeleb),未提供新数据集。未提及是否提供经过处理的特定数据版本。 Demo:提供了演示音频链接:http://bit.ly/4pBJuWP。 复现材料:论文提供了极其详尽的复现材料,包括:模型架构细节(A.7)、训练设置与超参数(A.5)、评估指标计算方法(A.8)、用于标签生成和指令微调的完整系统提示(A.4.2, A.5.2)、以及所有消融实验的结果(A.6)。 引用的开源项目:论文中引用并依赖的主要开源项目/工具包括:DistilBERT、WavLM、opensmile、Vicuna-13b(用于标签生成)、Llama-3.1-8B、Qwen2-Audio、LoRA。 开源计划:论文明确表述了开源意图,并提供了代码链接和详尽的复现文档。 📌 核心摘要 解决的问题:当前语音语言模型(SLMs)在语音理解上表现良好,但在需要深层推理(如情感归因、意图推断、反事实分析)的任务上表现薄弱,尤其在监督数据稀疏时,其推理过程不透明且易产生幻觉。 方法核心:提出语音世界模型(SWM),其核心是一个预定义的因果图,将语音理解分解为四个认知模块:场景激活(WMA)、心智理论(ToM)、言语行为(SA)和语用意图(Prag)。该图建模了模块间的因果依赖关系。训练分两阶段:1)训练因果图以学习稳定的结构化状态表示;2)将图的输出作为显式提示,用于指令微调大语言模型(LLM或SLM),生成推理链和响应。 创新之处:首次将基于认知科学的因果图结构作为语音理解的先验框架,取代了传统黑盒编码器或启发式CoT。它实现了模块化、可解释的推理,并利用因果结构实现了高效的半监督学习和更紧凑的搜索空间。 主要实验结果: 因果图验证:所提出的因果图比随机连接图收敛快约5倍,且在半监督设置下能有效推断未标注模块(如在无WMA标签时,其下游SA模块准确率仍达70.7%)。 推理性能对比:在基于GPT-4o的模型评分中,SWM(Llama3.1-8B)的总体得分(7.81)大幅超越Qwen2-Audio-CoT基线(5.18),并在情感提及率(EM)和情感分类准确率(EA)上超越所有基线,包括GPT-4o(EM: 68.20%, EA: 45.16%),EA达66.26%。 训练效率:整个训练过程仅需约20 GPU小时,远低于训练大型商业模型。 实际意义:为构建可解释、高效且推理能力强的语音理解系统提供了新范式。该框架降低了训练成本,并为在部分标注数据下进行有效学习提供了解决方案,有望加速语音AI在需要复杂理解的交互场景(如智能助手、情感计算)中的应用。 主要局限性:当前仅使用了四个预定义的认知模块,可能无法涵盖所有复杂的语音动态;因果图结构是预定义的,缺乏对新依赖关系的自适应学习能力;模型性能在一定程度上受限于其依赖的LLM生成的训练数据的质量。 🏗️ 模型架构 SWM的架构分为两个主要阶段:因果图训练与指令微调。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 351 words

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #多模态模型 #数据集 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音识别 | #多模态模型 | #数据集 #多语言 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Dmitrii Korzh (1 AXXX, Moscow, Russia; 2 MTUCI, Moscow, Russia) 通讯作者:未说明 作者列表: Dmitrii Korzh (AXXX, MTUCI) Dmitrii Tarasov (FusionBrain Lab, AXXX; HSE University) Artyom Iudin (AXXX, MTUCI) Elvir Karimov (AXXX, MTUCI; Applied AI Institute) Matvey Skripkin (FusionBrain Lab, AXXX; Applied AI Institute) Nikita Kuzmin (AXXX, MTUCI; Applied AI Institute) Andrey Kuznetsov (FusionBrain Lab, AXXX; Innopolis University) Oleg Y. Rogov (AXXX, MTUCI; Applied AI Institute) Ivan Oseledets (AXXX, MTUCI; Applied AI Institute; Moscow State University) 💡 毒舌点评 这篇论文的最大亮点在于“基建狂魔”式的工作——用超过63万个人工/合成音频样本,硬生生为一个垂直领域(语音转LaTeX)打造了首个大规模开源数据集和完整的方法论基准,其数据构建的严谨性和开源精神值得称赞。但短板也很明显:号称“端到端”的SALMONN模型(图1b)其实只是在现有音频LLM上微调,且其对复杂数学语句(Table 3)的预测仍显示模型对深层语义理解有限,多数时候只是在做更精准的“符号匹配”。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 334 words

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(字节跳动 Seed) Yuanzhe Chen(字节跳动 Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(字节跳动 Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd) 💡 毒舌点评 亮点:工作非常“接地气”且系统,从最基础的“数据集-基准-模型”三位一体入手,解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈,且承诺全部开源,这对领域发展是扎实的贡献。 短板:核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”,其“教学”质量直接决定了“学生”GRM的上限,这使得方法的独立性和可复现性打了点折扣;同时,数据集的语言(中英)和风格覆盖仍有明显局限。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 349 words