Iclr-2026

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #鲁棒性 #模型评估 #实时处理 #低资源 ✅ 7.0/10 | 前25% | #音频分类 | #自监督学习 | #鲁棒性 #模型评估学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador, Oujda, Morocco）、Chaymae Yahyati（同上，标注为共同第一作者并主导项目）通讯作者：未说明作者列表：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador, Oujda 60000, Morocco）、Chaymae Yahyati（同上）、Khalid El Makkaoui（同上）、Ibrahim Ouahbi（同上）、Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI, ENSAK, Khouribga 54000, Morocco） 💡 毒舌点评亮点：在毫瓦级MCU的严苛约束下，这篇论文找到了一条不依赖多次推理或复杂状态的确定性不确定性计算路径——用“层间预测误差”这个巧妙的代理指标，这比死磕softmax置信度或堆叠模型要聪明得多。短板：虽然实验做得很全面，但核心的“深度方向惊奇信号”是否比其他轻量方法（如能量分数、Mahalanobis距离）真的优越，似乎更多体现在工程可行性上，理论深度和普适性说服力略显不足，更像是一个为特定场景优化的“补丁”方案。 ...

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #条件生成 #数据集 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #条件生成 #数据集学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/lsfhuihuiff/SongEcho_ICLR2026 模型权重：论文未直接提及是否公开预训练好的SongEcho模型权重，但承诺开源代码。基于代码仓库，用户可能可以自行训练获得模型。数据集：公开了新构建的Suno70k数据集，通过论文提供的Hugging Face数据集链接（https://huggingface.co/datasets/nyuuzyou/suno）可获取元数据，音频需根据链接下载。 Demo：提供在线演示页面：https://vvanonymousvv.github.io/SongEcho_updated/ 复现材料：论文在附录中提供了极其详尽的复现信息，包括：ACE-Step+SA ControlNet和ACE-Step+MuseControlLite两种基线的具体实现方式（LoRA秩、克隆模块数量）、训练设置（优化器参数、学习率、步数）、推理设置（CFG引导强度）等。论文中引用的开源项目：ACE-Step（基础生成模型）、RVMPE（F0提取）、mir_eval（旋律指标计算）、Whisper（歌词转录）、Qwen2-audio（标签生成）、SongEval（美学评估与数据集）、OpenL3, PANNs (用于FD和KL计算)、CLAP（音频文本一致性评估）。 📌 核心摘要这篇论文针对“翻唱歌曲生成”（Cover Song Generation）任务，即在保留原曲主旋律的同时，根据新的文本提示生成全新的演唱和伴奏，提出了一个名为SongEcho的轻量级框架。其核心是实例自适应逐元素线性调制（IA-EiLM），该方法包含两个创新组件：1）逐元素线性调制（EiLM），它扩展了特征线性调制（FiLM），通过生成与隐藏状态维度匹配的调制参数（γ， β），实现了旋律条件的时序对齐精确注入；2）实例自适应条件精炼（IACR），它通过门控机制使条件特征与生成模型的隐藏状态动态交互，从而让条件特征自适应于当前生成实例，避免了静态条件注入导致的不兼容问题。为解决该领域缺乏大规模开源数据集的问题，论文构建并发布了Suno70k数据集。实验表明，SongEcho在Suno70k和SongEval数据集上，仅使用不到基线30%的可训练参数，在旋律保真度（如RPA, RCA）和音频质量（如FD， KL）等所有评估指标上均超越了现有最先进的旋律可控音乐生成方法（如SA ControlNet， MuseControlLite）。该工作的意义在于为歌曲的再创作提供了一种高效、可控的技术路径，但其局限在于对演唱音色等更细粒度风格的控制能力有限，且依赖于特定的文本到歌曲基础模型（ACE-Step）的文本控制能力。实验结果表格表1：在Suno70k测试集上的定量评估结果方法 RPA ↑ RCA ↑ OA ↑ CLAP ↑ FD ↓ KL ↓ PER ↓ TP ↓ ACE-Step (Gong et al., 2025) - - - 0.2930 73.53 0.2670 0.4168 - ACE-Step+SA ControlNet (Hou et al., 2025) 0.6209 0.6440 0.6858 0.2875 105.95 0.2019 0.3714 1.6B ACE-Step+SA ControlNet+LoRA (Hou et al., 2025) 0.6214 0.6431 0.6833 0.2892 99.19 0.1850 0.3734 331M ACE-Step+MuseControlLite (Tsai et al., 2025) 0.5205 0.5346 0.5940 0.2977 72.04 0.2151 0.4194 189M SongEcho (Ours) 0.7080 0.7339 0.6952 0.3243 42.06 0.1123 0.2951 49.1M 表2：在Suno70k测试集上（交换文本标签后）的定量评估结果 ...

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Youliang Zhang（清华大学，邮箱：zhangyou24@mails.tsinghua.edu.cn）通讯作者：Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) （论文中标注了†和‡，通常表示通讯作者）作者列表： Youliang Zhang（清华大学） Zhaoyang Li（StepFun） Duomin Wang†（StepFun） Jiahe Zhang（未说明） Deyu Zhou（StepFun；香港科技大学（广州）） Zixin Yin（StepFun；香港科技大学） Xili Dai（StepFun；香港科技大学） Gang Yu（StepFun） Xiu Li‡（清华大学（深圳）） 💡 毒舌点评本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白，以工业级的系统性和透明度构建了一个规模（520万片段）和质量（1080P+）俱佳的专用数据集，为后续研究铺平了道路。然而，其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新，且在绝对视频生成质量上并未超越更庞大的级联扩散模型（如Hallo3），其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #语音对话系统 #大语言模型 #多任务学习 #语音大模型 🔥 9.0/10 | 前25% | #语音情感识别 #语音对话系统 | #多任务学习 #大语言模型 | #语音情感识别 #语音对话系统学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xuanru Zhou（Zhejiang University，浙江大学）通讯作者：未说明作者列表：Xuanru Zhou（Zhejiang University）、Jiachen Lian（UC Berkeley，加州大学伯克利分校）、Henry Hong（UC Berkeley）、Xinyi Yang（Zhejiang University）、Gopala Anumanchipalli（UC Berkeley） 💡 毒舌点评亮点在于其将认知科学的世界模型概念和模块化思维（如心智理论ToM、言语行为SA）严谨地工程化为一个可学习的因果图结构，为语音模型提供了迄今最清晰、最可解释的“思考路径”，这比无脑堆数据和参数要高级得多。短板则是在“标签生成”环节重度依赖LLM（Vicuna-13b）作为教师模型，这不可避免地会引入教师模型的偏差和错误，论文中对此风险的缓解措施描述有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/eureka235/eureka235.github.io。承诺开源实现、训练和评估脚本。模型权重：论文中提到“we will open source the model”，承诺开源模型权重。数据集：论文使用了四个公开数据集（MELD, IEMOCAP, SLURP, VoxCeleb），未提供新数据集。未提及是否提供经过处理的特定数据版本。 Demo：提供了演示音频链接：http://bit.ly/4pBJuWP。复现材料：论文提供了极其详尽的复现材料，包括：模型架构细节（A.7）、训练设置与超参数（A.5）、评估指标计算方法（A.8）、用于标签生成和指令微调的完整系统提示（A.4.2, A.5.2）、以及所有消融实验的结果（A.6）。引用的开源项目：论文中引用并依赖的主要开源项目/工具包括：DistilBERT、WavLM、opensmile、Vicuna-13b（用于标签生成）、Llama-3.1-8B、Qwen2-Audio、LoRA。开源计划：论文明确表述了开源意图，并提供了代码链接和详尽的复现文档。 📌 核心摘要解决的问题：当前语音语言模型（SLMs）在语音理解上表现良好，但在需要深层推理（如情感归因、意图推断、反事实分析）的任务上表现薄弱，尤其在监督数据稀疏时，其推理过程不透明且易产生幻觉。方法核心：提出语音世界模型（SWM），其核心是一个预定义的因果图，将语音理解分解为四个认知模块：场景激活（WMA）、心智理论（ToM）、言语行为（SA）和语用意图（Prag）。该图建模了模块间的因果依赖关系。训练分两阶段：1）训练因果图以学习稳定的结构化状态表示；2）将图的输出作为显式提示，用于指令微调大语言模型（LLM或SLM），生成推理链和响应。创新之处：首次将基于认知科学的因果图结构作为语音理解的先验框架，取代了传统黑盒编码器或启发式CoT。它实现了模块化、可解释的推理，并利用因果结构实现了高效的半监督学习和更紧凑的搜索空间。主要实验结果：因果图验证：所提出的因果图比随机连接图收敛快约5倍，且在半监督设置下能有效推断未标注模块（如在无WMA标签时，其下游SA模块准确率仍达70.7%）。推理性能对比：在基于GPT-4o的模型评分中，SWM（Llama3.1-8B）的总体得分（7.81）大幅超越Qwen2-Audio-CoT基线（5.18），并在情感提及率（EM）和情感分类准确率（EA）上超越所有基线，包括GPT-4o（EM: 68.20%， EA: 45.16%），EA达66.26%。训练效率：整个训练过程仅需约20 GPU小时，远低于训练大型商业模型。实际意义：为构建可解释、高效且推理能力强的语音理解系统提供了新范式。该框架降低了训练成本，并为在部分标注数据下进行有效学习提供了解决方案，有望加速语音AI在需要复杂理解的交互场景（如智能助手、情感计算）中的应用。主要局限性：当前仅使用了四个预定义的认知模块，可能无法涵盖所有复杂的语音动态；因果图结构是预定义的，缺乏对新依赖关系的自适应学习能力；模型性能在一定程度上受限于其依赖的LLM生成的训练数据的质量。 🏗️ 模型架构 SWM的架构分为两个主要阶段：因果图训练与指令微调。 ...

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #多模态模型 #数据集 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音识别 | #多模态模型 | #数据集 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh (1 AXXX, Moscow, Russia; 2 MTUCI, Moscow, Russia) 通讯作者：未说明作者列表： Dmitrii Korzh (AXXX, MTUCI) Dmitrii Tarasov (FusionBrain Lab, AXXX; HSE University) Artyom Iudin (AXXX, MTUCI) Elvir Karimov (AXXX, MTUCI; Applied AI Institute) Matvey Skripkin (FusionBrain Lab, AXXX; Applied AI Institute) Nikita Kuzmin (AXXX, MTUCI; Applied AI Institute) Andrey Kuznetsov (FusionBrain Lab, AXXX; Innopolis University) Oleg Y. Rogov (AXXX, MTUCI; Applied AI Institute) Ivan Oseledets (AXXX, MTUCI; Applied AI Institute; Moscow State University) 💡 毒舌点评这篇论文的最大亮点在于“基建狂魔”式的工作——用超过63万个人工/合成音频样本，硬生生为一个垂直领域（语音转LaTeX）打造了首个大规模开源数据集和完整的方法论基准，其数据构建的严谨性和开源精神值得称赞。但短板也很明显：号称“端到端”的SALMONN模型（图1b）其实只是在现有音频LLM上微调，且其对复杂数学语句（Table 3）的预测仍显示模型对深层语义理解有限，多数时候只是在做更精准的“符号匹配”。 ...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（字节跳动 Seed） Yuanzhe Chen（字节跳动 Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（字节跳动 Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd） 💡 毒舌点评亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。 ...

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

📄 SpeechOp: Inference-Time Task Composition for Generative Speech Processing #语音增强 #语音分离 #扩散模型 #多任务学习 #语音合成 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Justin Lovelace（Cornell University）通讯作者：未明确说明，但Zeyu Jin（Adobe Research）和Kilian Q. Weinberger（Cornell University）可能为共同通讯作者（论文未明确标注）。作者列表： Justin Lovelace（Cornell University） Rithesh Kumar（Adobe Research） Jiaqi Su（Adobe Research） Ke Chen（Adobe Research） Kilian Q. Weinberger（Cornell University） Zeyu Jin（Adobe Research） 💡 毒舌点评亮点在于将预训练TTS模型“逆向适配”为通用语音处理器，并提出了一种理论上更严谨的推理时任务组合方法（TC-CFG），为融合生成模型和判别模型知识提供了新思路。短板是，在作为核心评估场景的语音增强任务上，其使用Whisper转录本引导的ITC管线在内容保持（WER）上确实优异，但感知质量（MOS）与HiFi-GAN-2等强基线持平，并未形成决定性优势，且在一些客观信号保真度指标上表现平平。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了多个公开数据集（MLS, Libri-TTS, LibriTTS-R, WHAMR!, WSJ0-2Mix, DNS Challenge, EchoThief等），并提供了详细的模拟退化流程描述。 Demo：未提供在线演示链接。复现材料：论文在附录和正文中提供了非常详细的模型架构（表8）、训练配置（超参数、优化器、两阶段训练细节）、采样配置和评估方法，复现指引充分。论文中引用的开源项目：DAC (Kumar et al., 2023), ByT5, WhisperX, SDE-DPM-Solver++ (Lu et al., 2022), HiFi-GAN-2, SGMSE+, StoRm, SepFormer等。 📌 核心摘要解决的问题：文本到语音（TTS）模型因使用海量“野外”数据而性能优越，但语音到语音（S2S）处理任务（如增强、分离）受限于配对数据稀缺，导致生成式方法易扭曲语音内容和说话人身份。方法核心：提出SpeechOp，一个基于潜在扩散的多任务模型。它通过适配一个预训练的TTS模型，并在其上进行多任务微调（包括TTS、增强、分离等），将其转化为一个通用语音处理器。核心创新是提出任务组合分类器自由引导（TC-CFG），用于在推理时原则性地组合不同任务（如增强+文本引导），以及隐式任务组合（ITC）管线，利用ASR模型（如Whisper）的转录本指导增强过程。新在哪里：不同于直接从头训练多任务模型，SpeechOp充分利用了TTS预训练中学习到的丰富语音表示。TC-CFG方法避免了传统得分平均混合生成先验的缺陷，而是将TTS模型用作判别引导。ITC管线无需配对转录数据，即可在推理时利用ASR知识提升内容保持。主要实验结果：SpeechOp在零样本TTS和语音编辑上表现与当前SOTA相当或更优。在语音增强上，使用Whisper转录本的ITC管线将WER从基线的5.4-8.1%大幅降低至2.9%，实现SOTA内容保持，同时主观质量（MOS）与HiFi-GAN-2相当。在说话人分离上，其MOS显著优于SepFormer基线，但信号失真指标（如SI-SDRi）较低。消融实验证明TC-CFG在组合任务时优于得分平均方法。关键结果见下表：表3: 语音增强结果（部分）模型 PESQ ↑ WER ↓ MOS ↑ HiFi-GAN-2 2.23 5.4 3.90 ± 0.04 SpeechOp (无转录本) 2.00 8.1 3.93 ± 0.04 SpeechOp-ITC (WhisperX) 2.05 2.9 3.89 ± 0.04 表6: 任务组合消融（使用黄金转录本）模型 PESQ ↑ WER ↓ :— :— :— SpeechOp (无转录本) 2.00 8.1 SpeechOp (TC-Avg) 1.88 3.4 SpeechOp (TC-CFG) 2.06 2.1 实际意义：该工作为利用丰富的TTS数据解决数据受限的S2S任务提供了有效范式，并为需要同时考虑声学质量和内容恢复的场景（如嘈杂录音修复）提供了灵活可控的解决方案。主要局限性：1) 在信号保真度指标上，尤其在语音分离任务中，与专门优化这些指标的传统方法存在差距。2) ITC管线依赖外部ASR模型的质量和鲁棒性。3) 论文未明确提供代码和模型，限制了直接复现与应用。 🏗️ 模型架构 SpeechOp是一个基于潜在扩散模型的多任务模型，其架构如图3所示。整体包含两个主要输入路径和核心生成组件。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #流匹配 #数据增强 #多模态模型 🔥 8.8/10 | 前10% | #视频生成 | #数据增强 | #流匹配 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li（EPFL VITA实验室）通讯作者：Alexandre Alahi（EPFL VITA实验室）作者列表：Wuyang Li（EPFL VITA实验室）、Wentao Pan（EPFL VITA实验室）、Po-Chien Luan（EPFL VITA实验室）、Yang Gao（EPFL VITA实验室）、Alexandre Alahi（EPFL VITA实验室） 💡 毒舌点评亮点：论文将长视频生成的“误差累积”问题从现象层面（如何缓解）深刻剖析到根源层面（训练与推理的假设鸿沟），并巧妙地将模型的“弱点”（自身错误）转化为训练的“资源”（监督信号），这种“以毒攻毒”的闭环反馈思想极具启发性和理论美感。短板：论文的方法高度依赖于自回归的片段式生成范式，尽管声称“无限”，但其生成质量的长期稳定性（如分钟级甚至小时级）仍需更严苛的验证；此外，误差银行的记忆管理策略（如仅用L2距离替换）可能过于简单，或难以捕捉复杂多样的错误模式。 🔗 开源详情代码：论文中未提及代码链接，但承��将公开“full codebase”。模型权重：论文中提到将公开模型，但未提供具体链接或平台。数据集：论文构建了新的基准数据集（一致、创造性、条件生成），并承诺将开源所有“benchmark datasets”。 Demo：未提及在线演示。复现材料：提供了非常详细的训练超参数（Tab. 12）、数据集描述、架构修改说明和消融实验设置，复现指南较为充分。论文中引用的开源项目：依赖的基础模型为Wan 2.1，以及Kong et al. (2025)的音频交叉注意力、Wang et al. (2025b)的骨架注入方法。 📌 核心摘要问题：现有长视频生成方法受限于误差累积（漂移），生成长度通常在10秒到1分钟左右。根本原因在于训练时假设历史轨迹无误差（误差自由假设），但自回归推理时却依赖自身含有误差的输出，造成训练-测试的假设鸿沟。核心方法：提出Stable Video Infinity (SVI)，其核心是误差回收微调（ERFT）。该方法打破误差自由假设，主动将模型自身生成的错误（误差）注入到干净输入中，训练模型预测一个指向干净目标的“误差回收速度”，从而让模型学会识别和纠正自身错误。创新与差异：不同于以往通过修改噪声调度器、锚定参考帧或改进采样策略来缓解误差，SVI通过误差回收机制主动纠正误差本身。具体包括：(i) 在流匹配的起始、中间、终点注入三类误差来模拟累积退化；(ii) 通过单步双向积分高效计算误差；(iii) 设计误差重放缓存池，根据时间步动态存取和采样误差。主要结果：在三个基准（一致性、创造性、条件生成）上均达到SOTA。在250秒超长一致性视频生成中，SVI-Shot的主体一致性达到97.89%，仅比短设置下降0.63%，而基线方法下降显著（如FramePack降13.71%）。在创造性视频生成中，SVI-Film能根据文本流生成平滑的场景切换，而基线方法失败。具体实验结果见下表：模型场景主体一致性背景一致性美学质量图像质量一致视频生成 (50秒) Wan 2.1 单一 92.45% 56.40% 65.70% 12.68% FramePack 单一 94.72% 63.57% 66.72% 7.75% SVI-Shot (Ours) 单一 98.19% 63.84% 71.88% 17.61% 超长一致视频生成 (250秒) Wan 2.1 单一 87.27% 56.19% 65.37% 14.29% FramePack 单一 86.64% 55.66% 57.61% 0.00% SVI-Shot (Ours) 单一 97.89% 65.75% 71.54% 21.43% 实际意义：首次实现了从“秒”到“无限”的非循环超长视频生成，突破了现有长度限制，为端到端长片创作、互动叙事和世界模型模拟开辟了新可能。主要局限：当测试时图像风格与训练分布不符时，模型可能误将风格差异当作“错误”进行“纠正”，导致相邻片段颜色偏移；目前模型基于并行生成，尚未实现实时流式输出；在复杂多镜头创意生成中，长期身份一致性仍有挑战。 🏗️ 模型架构 SVI的核心架构是基于视频扩散Transformer (DiT)，并通过误差回收微调（ERFT）进行增强，其主要流程如下： ...

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

📄 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs #语音分词 #量化 #鲁棒性 #语音识别 #语音合成 🔥 9.0/10 | 前10% | #语音分词 | #量化 | #鲁棒性 #语音识别学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhan Song（北京大学计算机科学技术学院，多媒体信息处理国家重点实验室）通讯作者：Linhao Zhang（微信AI，腾讯基础模型技术中心）；Houfeng Wang（北京大学计算机科学技术学院，多媒体信息处理国家重点实验室）作者列表：Yuhan Song（北京大学）、Linhao Zhang（腾讯微信AI）、Chuhan Wu（腾讯微信AI）、Aiwei Liu（腾讯微信AI）、Wei Jia（腾讯微信AI）、Houfeng Wang（北京大学）、Xiao Zhou（腾讯微信AI） 💡 毒舌点评亮点在于将“集成学习”的思想巧妙应用于单模型的量化过程，通过比特级别的投票实现了强纠错能力，设计非常聪明。短板在于虽然实验全面，但对多分支架构如何影响所学语义表征的内在可解释性探讨不足，更多是经验性的验证。 🔗 开源详情代码：论文明确提供了公开代码仓库链接：https://github.com/Tencent/StableToken。模型权重：论文声明“We will release our model checkpoint upon acceptance”，表明计划开源模型权重。数据集：训练使用了多个公开数据集（如LibriSpeech, GigaSpeech等），列表见附录B.1。论文本身未创建或要求下载新的非公开数据集。 Demo：论文未提及在线演示。复现材料：提供了极其详细的训练细节、配置、超参数（见附录B）以及下游任务评估设置（见附录F），复现指引非常充分。论文中引用的开源项目：主要依赖Whisper (OpenAI), Qwen2.5 (Alibaba), HiFi-GAN等开源模型或框架作为基础组件。 📌 核心摘要要解决什么问题：现有的监督式语义语音分词器（如S3 Tokenizer， CosyVoice）虽然在无噪声条件下效果良好，但对微小的声学扰动（噪声）极其敏感。即使在高信噪比（SNR）下，输出的离散语音标记序列也可能发生剧烈变化，这大大增加了下游语音大模型（SpeechLLM）的学习负担，是导致其在现实噪声场景中性能下降的关键原因。方法核心是什么：提出StableToken，通过架构与训练的协同设计来解决上述问题。其核心是：投票-LFQ模块：用多个并行的线性投影分支（“投票者”）替代传统的单一量化路径，每个分支独立生成一个二进制表示。在推理时，对所有分支在每个比特位上进行多数投票，形成最终稳定的标记序列。噪声感知共识训练：在训练时，将纯净音频输入给多数分支，将添加扰动的音频输入给少数分支，并设计一个共识损失，强迫所有分支（尤其是受噪声干扰的分支）输出的预量化表征向全体分支的平均值对齐，从而显式地学习噪声不变性。与已有方法相比新在哪里：不同于以往试图通过单路径架构或设计鲁棒损失（如NAST， R-Spin）的方法，StableToken首次引入了多分支比特级投票的量化范式。这提供了更细粒度的纠错机制，即使多个分支在标记级别出错，只要比特级别的错误是稀疏的，仍可能恢复出正确标记。同时，其训练策略将噪声鲁棒性直接作为优化目标，而非仅依赖最终的ASR损失。主要实验结果如何：分词器级别：在FLEURS基准测试的多种合成噪声和真实噪声下，StableToken的单元编辑距离（UED）平均降至10.17%，相比最强监督基线（S3 Tokenizer的26.17%）相对降低了61.1%，是新的SOTA（见表1）。同时，在LibriSpeech和SEED-TTS上的重建质量（WER和MOS）也达到或超过了SOTA水平（见表2）。下游任务级别：集成StableToken的SpeechLLM在ASR（CHiME-4基准测试WER降低约30%）、语音情感识别（SER）和文本到语音（TTS）任务上均表现出显著更强的噪声鲁棒性，尤其在低SNR条件下优势更为明显（图3）。实际意义是什么：该工作为构建更鲁棒、可靠的端到端语音大模型提供了关键的基础组件。稳定的语音标记是连接连续语音信号与离散文本空间（LLM）的可靠桥梁，有助于提升语音理解与生成系统在真实世界复杂噪声环境下的性能与可用性。主要局限性是什么：1) 多分支架构虽计算开销小，但仍增加了少量参数和前向计算；2) 论文未深入探讨其生成的标记表征在语义或声学特性上的具体变化与可解释性；3) 虽然实验覆盖了多种噪声，但对极端未见过的噪声类型或复杂声学场景的泛化能力仍需更多验证。 🏗️ 模型架构 StableToken的整体架构建立在经典的“编码器-解码器”语音识别模型（初始化自Whisper-large-v3）之上，并在编码器中点插入核心创新模块。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #音频问答 #模型评估 #基准测试 #多模态模型 #时空推理 🔥 8.5/10 | 前25% | #音频问答 | #基准测试 | #模型评估 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zihan Liu（北京航空航天大学、上海AI实验室）通讯作者：Yuhang Zang（上海AI实验室）、Jiaqi Wang（上海AI实验室）作者列表：Zihan Liu（北京航空航天大学、上海AI实验室）， Zhikang Niu（上海交通大学、上海创新研究院）， Qiuyang Xiao（上海交通大学）， Zhisheng Zheng（上海交通大学）， Ruoqi Yuan（北京航空航天大学）， Yuhang Zang（上海AI实验室）， Yuhang Cao（上海AI实验室）， Xiaoyi Dong（上海AI实验室、香港中文大学）， Jianze Liang（上海AI实验室）， Xie Chen（上海交通大学、上海创新研究院）， Leilei Sun（北京航空航天大学）， Dahua Lin（上海AI实验室、香港中文大学）， Jiaqi Wang（上海AI实验室、上海创新研究院） 💡 毒舌点评这篇论文精准地抓住了当前音频大模型“懂语义、不懂物理”的痛点，用一套精心设计的“体检套餐”（STAR-Bench）让模型们在感知灵敏度和物理推理能力上露了怯。它最大的亮点是为社区立了一个更严格的标杆，指明了从“能说会道”到“耳听八方”的进阶之路。短板则在于它主要是一份“诊断书”而非“药方”，对于如何让模型真正“听懂”多普勒效应和倒水声的变化，给出的解决方案线索有限。 ...