论文速递 | 语音/音乐/音频论文速递

An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization

📄 An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization #语音合成 #低资源 7.7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #低资源 | arxiv 👥 作者与机构 Xiao-Hang Yang, Fei Liu, Rui-Chen Jiang, Jian-Qing Gao, Zhen-Hua Ling, Ji Wu 机构：中国科学技术大学 (1), 科大讯飞 (2), 清华大学 (3) 💡 毒舌点评这篇论文解决的是一个真实且重要的问题：如何在比特率压到极限（0.5 kbps）时还能保持语音质量。P2PSVQ的思路——用预测来模拟量化——确实巧妙，相当于“脑补”出了额外的细节，且不花带宽。这比单纯堆大模型（如BigCodec）要优雅。然而，论文的软肋在于“验证”部分。主观测试样本量小，难以服众；对比FSQ方法（SQCodec）时，对方官方代码不支持0.5 kbps，这成了一个无法验证的“借口”。更关键的是，伪VQ的引入让模型复杂度（参数量）翻了三倍多，虽然FLOPs增长不多，但推理时的内存占用和延迟可能是个隐患，论文却对此轻描淡写。消融实验揭示了一个尴尬事实：伪VQ加多了，基本token信息变少，预测反而变难，质量会掉。这使得核心设计（伪VQ数量）的选择更像是在走钢丝。总体而言，一个不错的idea，但支撑它的实验和分析还不够扎实，像是匆忙毕业的作品。 ...

Audio Interaction Model

📄 Audio Interaction Model #流式处理 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.8/10 | 前50% | #流式处理 | #流式处理 | arxiv 👥 作者与机构 11位作者。机构包括南洋理工大学(NTU)、新加坡国立大学(NUS)、香港中文大学(CUHK)。 💡 毒舌点评这篇论文的动机确实抓住了当前音频大模型的一个痛点：离线、单任务、不实时。提出的“音频交互模型”概念听起来很前沿，也构建了听起来很宏大的SoundFlow框架和庞大的数据集StreamAudio-2M。但仔细审视，有几个问题让它离顶尖工作有些距离：1) “交互”的定义过于狭窄，本质上是决定“何时说话”，缺乏真正的对话协商或情感反馈循环。与Moshi等全双工系统的对比不够深入。2) 数据集完全合成，其合成流水线（尤其是LLM规划场景）引入的分布偏见和现实性未得到充分验证，附录的2小时真实数据验证规模太小。3) 关键评估指标（如主动响应基准）过于粗糙，仅用准确率，未评估响应质量或时机恰当性。4) 论文声称的部分开源（提供项目页和数据集）与完全开源（代码、模型权重）有差距，影响了可复现性评分。总体而言，这是一篇扎实的工程与系统构建工作，在特定任务（如流式训练）上显示了有效性，但理论深度和对“交互”本质的探索不足，更像一个针对特定问题的精巧解决方案，而非一个具有深远影响力的新范式。 📌 核心摘要本文针对当前大型音频语言模型（LALMs）离线、单任务的局限，提出了“音频交互模型”这一新范式，并设计了SoundFlow框架予以实现。Audio-Interaction模型能够以流式方式持续监听音频流，并实时决定是保持沉默还是进行响应，从而在统一框架下融合了传统音频理解任务（如对话、ASR）和流式原生能力（如同声传译、主动帮助）。核心贡献包括：1）提出SoundFlow框架，涵盖从数据构建、流式训练到异步推理的全流程；2）构建了大规模流式音频数据集StreamAudio-2M（2.6M项，302k小时）；3）提出了评估主动响应能力的Proactive-Sound-Bench。实验表明，Audio-Interaction在主流音频基准上保持了竞争力，同时解锁了离线模型无法实现的流式能力。 🔗 开源详情代码：论文中未提及明确的代码仓库链接。论文提供了项目主页：https://xzf-thu.github.io/Audio-Interaction。模型权重：论文中未提及模型权重的直接下载链接或开源仓库。模型基于Qwen2.5-Omni-3B初始化。数据集：论文明确提供了StreamAudio-2M数据集的链接：https://huggingface.co/datasets/zhifeixie/StreamAudio-2M。 Demo：论文中未提及在线演示链接。复现材料：论文在附录中提供了详细的训练超参数配置（附录E，表11）、算法伪代码（算法1-4）、数据集构建流程（附录B.4）以及评估基准定义（附录D），为复现提供了重要信息。 🏗️ 方法概述和架构 SoundFlow是一个端到端的框架，旨在实现“感知-决策-响应”循环。其核心架构包含三大组件，协同工作以支持流式交互：交互数据合成：时频联合预处理模块 (TFJP)：一个轻量级的预处理流水线，用于将短音频片段拼接成长流前进行平滑处理，使其更自然、更适合下游训练。该模块通过迭代执行静音裁剪(silence_cut)、噪声估计与去除(denoise)、核心信息定位(core_locate)、边界对齐(boundary_norm)和频谱平滑(spec_smooth)等操作来实现。其中，boundary_norm使用半个音频块的对齐步长 δ = 1/2，spec_smooth使用长度为 ω 的短窗进行平滑。该过程由算法1详细描述。分层音频事件选择：为解决简单随机拼接导致的事件冲突和语境不连贯问题，采用层次化的事件策划流水线：(i) 场景规划：使用LLM从随机匹配的音频标注中规划一个完整的高级场景，包含多个主题或子事件；(ii) 事件细化：将每个主题细化为具体的音频事件序列，并为每个事件分配一个音频片段；(iii) 片段落地：通过检索或生成两种机制获取最终音频片段。该设计旨在生成语义连贯性和环境合理性的长流音频。流式训练：流式建模：模型以增量方式处理固定长度的音频块（本实现中为400ms）。在每个时间步，模型预测一个特殊的控制令牌 \(d_t \in \{\texttt{<silent>}, \texttt{}\}\) 来决定是继续监听还是开始响应。这形成了统一的“感知-决策-响应”序列过程。上下文记忆与理解感知静音训练：为解决训练中观察到的两个关键失败模式：(1) 上下文保留不足（模型容易忽略早期上下文），引入历史回顾训练，在序列后期插入关于前面内容的问题；(2) 误触发（模型容易对交互无关的声学事件做出响应），在训练中加入大量经由智能体验证的静音音频，要求模型在这些情况下保持沉默。双损失多步流式转换：模型从Qwen2.5-Omni-3B初始化。训练损失包含两个部分：标准语言建模损失 \(\mathcal{L}_{\text{LM}}\) 和流式控制令牌预测损失 \(\mathcal{L}_{\text{stream}}\)，由权重 \(\lambda\) 平衡。整个训练包含四个阶段：(1) 格式训练：使用离线数据教模型目标序列格式和<Spe_token>的使用；(2) 适配器训练：训练适配器将分块的声学表示映射到语言模型空间；(3) 大规模流式监督训练：在核心能力（音频理解、ASR、口语对话）上联合优化适配器和语言模型；(4) 指令微调：在复杂流式行为（持续辅助、理解感知干预、主动响应）上进一步训练模型，使用交错序列数据。异步交互推理：采用FIFO调度的异步推理方案以实现实时稳定交互。编码器作为纯生产者，持续处理音频流块并将其声学表示追加到时间有序队�� \(\mathcal{Q}\)。解码器作为事件驱动的消费者，其触发逻辑基于上一个生成的令牌 \(r_{t-1}\)：如果 \(r_{t-1} \in \{\texttt{<eos>}, \texttt{<silent>}\}\)，解码器会清空队列 \(\mathcal{Q}\) 并将其特征吸入KV缓存，然后生成一个控制令牌；否则，解码器执行自回归文本生成步骤，不触碰队列。这种“触发时清空”的机制消除了推理停顿，并将响应完成后恢复监听的首帧延迟降低了4.5倍。该过程由算法3详细描述。 ...

Automatic Labelling of Speech Translation Errors

📄 Automatic Labelling of Speech Translation Errors #语音识别 #多模态模型 #模型评估 #低资源 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #多模态模型 | #模型评估 #低资源 | arxiv 👥 作者与机构 Dominik Macháček (Charles University, University of Edinburgh), Maike Züfle (Karlsruhe Institute of Technology), Ondrej Klejch (University of Edinburgh) 💡 毒舌点评这篇工作像一个精心准备的“开胃菜”：它正确地识别了ST评估领域一个鲜有人触碰的细分方向（错误跨度标注），并为此设计了一套完整的“菜单”（标注协议、数据集、基准系统）。然而，这终究不是一场盛宴。其核心贡献在于定义问题和提供初步基线，而非给出强有力的解决方案。数据集规模极小（仅约30分钟音频），且仅来自两个文档，这严重限制了结论的普适性。所谓的“自动化系统”评估，本质上只是对XCOMET和Qwen两个现有模型进行了非常浅层的“试用”，缺乏针对性的优化或深入的架构分析。最令人失望的是，论文虽然指出了语音处理的重要性，但并未真正提出或评估一个端到端的、为STEL任务设计的新模型。它更像是一份“可行性报告”或“任务说明书”，离解决所提出的问题还有很长的路要走。其最大的价值在于为后续研究铺平了道路并设立了基础基准，但就其自身而言，贡献的深度和广度有限。 ...

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis

📄 Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis #多模态模型 #参数高效微调 #低资源 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #多模态模型 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构作者：Bin Wen, Tien-Ping Tan。机构：School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia。 ...

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

📄 Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models #音频问答 #多模态模型 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频问答 | #多模态模型 | arxiv 👥 作者与机构 Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang 东北大学（Northeastern University, China）；上海人工智能实验室（Shanghai Artificial Intelligence Laboratory, China） ...

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition

📄 Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition #语音识别 #鲁棒性 #自监督学习 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #生成对抗网络 | #鲁棒性 #自监督学习 | arxiv 👥 作者与机构第一作者：Yifan Liao（香港科技大学（广州）及武汉大学）共同作者：Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng（香港科技大学（广州））通讯作者：Xinlei He（武汉大学） 💡 毒舌点评论文提出了一个巧妙的想法，即利用SSL特征和声码器构建对抗样本，确实在特定实验设置下取得了惊人的攻击效果和迁移性。然而，实验设计存在明显局限性：将所有攻击方法的超参数调优限制在验证集上，并要求其DNSMOS/NISQA/UTMOS >2.5，这实际上为依赖声码器重构的方法提供了不公平的优势，因为其他纯波形扰动攻击在此约束下能力被严重削弱。此外，论文对方法本身的理论分析（如为何特征空间扰动能更好迁移）深度不足，更多是经验性的展示。物理世界实验过于初步，无法有力支撑其鲁棒性声称。代码未开源，严重阻碍了可复现性和社区验证。整体而言，是一篇在特定框架下效果显著但存在方法论偏见和验证不足的论文。 ...

Beyond WER: A Paired Acoustic Stress Test for Ambient Clinical Scribes

📄 Beyond WER: A Paired Acoustic Stress Test for Ambient Clinical Scribes #语音识别 #鲁棒性 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #鲁棒性 | arxiv 👥 作者与机构作者： Xiao-Hang Jiang, Han-Jie Guo, Ying-Si Liang, Yang Ai, Zhen-Hua Ling, Lei Jiang, Zhi-Yang He 机构： University of Science and Technology of China, iFLYTEK Co., Ltd. 💡 毒舌点评这篇论文的切入点确实刁钻——在临床AI安全评估的红海里，找到了WER这个“皇帝的新衣”。动机堪比发现了ASR界的“皇帝没穿衣服”。实验设计堪称“控制变量法”的典范，用配对设计把锅精准地甩给了声学噪声。然而，亮点之下暗藏隐忧：用272个模拟对话就敢下“临床安全”的结论，这胆子比急诊科的实习生还大。更绝的是，评估的“黄金标准”居然依赖一个连代码都没公开的GPT-5.2模型和语焉不详的“医师审核”，这操作的可信度，堪比用算命来评审顶会论文。总结就是：好想法，弱证据，急需更多“临床实战”的洗礼。 ...

CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection

📄 CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection #语音合成 #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yin-Long Liu, Yuanchao Li, Yiming Wang, Yue Li, Rui Feng, Jiaxin Chen, Shaobo Liu, Liu He, Yuang Chen, Jiahong Yuan, Zhen-Hua Ling 机构：中国科学技术大学，爱丁堡大学 ...

DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Complexity Monaural Speech Enhancement

📄 DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Complexity Monaural Speech Enhancement #语音增强 5.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.4/10 | 前25% | #语音增强 | #语音增强 | arxiv 👥 作者与机构论文通讯作者为Enrui Liu和Xuelong Li。作者及机构如下： Cunhang Fan, Enrui Liu, Jian Zhou, Zhao Lv：安徽大学计算机科学与技术学院（州电信息获取与保护技术国家重点实验室）。 Jing Zhou, Jian Kang, Jie Li：中国电信人工智能科技（北京）有限公司。 Andong Li：中国科学院大学声学研究所。 Xuelong Li：中国电信人工智能研究院（TeleAI）。 💡 毒舌点评这篇论文的核心思想——用ANN分支的性能来“拯救”SNN分支因脉冲二值化导致的信息损失，同时借助SNN降低功耗——逻辑清晰且实用价值明确。实验对比了众多基线，数据集选择和指标评估都较为全面，工作量扎实。然而，作为一篇目标顶会的论文，其严谨性存在明显短板。最令人诟病的是技术细节描述的粗糙和部分公式的明显错误，例如TF-Cross Attention Fusion模块的最终输出公式(37)存在笔误，将FCA函数重复相加，这不应出现在投稿版本中。论文在阐述设计动机时，对ANN与SNN各自瓶颈的理论剖析深度不足，更像是一种“组合式创新”而非“机理式创新”。实验部分虽然广泛，但缺失了模型参数量这一关键对比指标，使得其“低复杂度”的宣称不完整。总体而言，这是一项有效且具有工程吸引力的应用研究，但若以顶会的理论深度和写作严谨性标准衡量，尚显不足。 ...

Do speech foundation models perceive speaker similarity as humans do?

📄 Do speech foundation models perceive speaker similarity as humans do? #说话人识别 #自监督学习 6.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0/0.5 | 工程 0/1.5 ✅ 6.3/10 | 前50% | #说话人识别 | #自监督学习 | arxiv 👥 作者与机构作者: Minoru Kishi, Hayato Yagi, Shinnosuke Takamichi, Yuki Saito 机构: Keio University, Japan; The University of Tokyo, Japan 💡 毒舌点评这篇论文试图回答一个有趣但根本性的问题：模型“看”到的说话人相似性，和我们人耳“听”到的是同一回事吗？研究规模值得肯定，43个模型拉出来遛遛，气魄不小。但问题是，方法论有点“糙”——用最简单的帧平均来提取说话人嵌入，这就像用一杯水的平均温度来判断整个海洋的生态多样性，忽略了太多动态和结构信息。回归分析也流于表面，列出几个宏观配置变量，结论基本是“编码器比解码器好”、“监督比自监督好”，这洞察力比模型界的常识强多少？更关键的是，作者自己都没提这项研究的局限性，这在顶会审稿人眼里可不算加分项。整篇工作更像一次大规模的“体检报告”，罗列了数据和相关性，但对“为什么”和“怎么改进”的深入手术刀还没动呢。 ...