论文速递 | 语音/音乐/音频论文速递

ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traffic Control Recognition

📄 ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traffic Control Recognition #语音识别 #语音增强 #数据集 #低资源 8.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #语音增强 | #数据集 #低资源 | arxiv 👥 作者与机构作者：Dongdong Li, Jianwei Song, Jianwei Wang, Zhe Wang 机构：华东理工大学计算机科学与技术系通信作者：Dongdong Li 💡 毒舌点评数据集的价值与新颖性的平衡：这篇论文的核心贡献是构建了一个“大而全”的空管数据集，并为其贴上了“呼号感知”的标签。这确实填补了社区的一个空白，但创新性更多体现在工程集成和管道设计上，而非提出全新的算法或理论。对于顶会而言，纯粹的数据集论文需要更强的动机和更深入的验证来证明其不可或缺性。 “LLM增强”的风险被低估：论文虽然承认了LLM生成描述中呼号和数字的保真度问题（71.34%，51.59%），但这恰恰是该数据集“音频-文本对齐监督”主张的阿喀琉斯之踵。在安全关键的空管领域，这种不可靠性是致命弱点。论文仅做了小样本定性分析，却没有提出或尝试任何系统性的检测、过滤或修正机制来确保生成内容的可靠性，这削弱了该部分工作的严谨性。评估任务的深度与广度不足：提供的基线评估（Whisper零样本、CLAP微调）更像是“演示”而非“基准”。缺乏对数据集核心价值（呼号感知）的针对性深度评估，例如：使用呼号实体识别指标、对长尾呼号的识别分析、或将数据集用于训练一个强大的上下文感知ASR模型来展示其威力。当前的评估无法充分证明该数据集能带来何种质的飞跃。 📌 核心摘要本文介绍了ATCCaps，一个针对空管通信的、呼号感知的语音数据集。ATCCaps包含202.94小时经过精心筛选的真实空管音频，共170,385条话语和922个唯一规范化呼号。数据集构建管道融合了置信度感知的机器转录解析、ADS-B导出的元数据、呼号规范化、基于规则的音频质量过滤以及大型语言模型（LLM）辅助的描述生成。每条保留的数据都配有转录文本、呼号描述和空管风格的描述，支持语音识别、呼号匹配和呼号感知的音频-文本检索等任务。论文对数据集进行了全面的统计分析，包括划分统计、呼号覆盖分析、过滤效果审计以及生成描述的质量评估，并提供了上述任务的基线结果。 ...

Audio Editing in the Era of Foundation Models: A Survey

📄 Audio Editing in the Era of Foundation Models: A Survey 7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前25% | arxiv 👥 作者与机构作者：Changhao Pan, Yifei Fan, Fan Zhuo, Yifu Chen, Wenxiang Guo, Yu Zhang, Ruiqi Li, Zhiyuan Zhu, Rui Yang, Shengpeng Ji, Chenyuhao Wen, Jiayang Xu, Ke Lei, Xiaoda Yang, Jingyu Lu, Zhou Zhao 机构：浙江大学，字节跳动，腾讯混元团队 ...

AudioCALM: Continuous Autoregressive Language Modeling for Universal Audio Generation

📄 AudioCALM: Continuous Autoregressive Language Modeling for Universal Audio Generation #语音合成 #音频生成 #音乐生成 #自回归模型 #流匹配 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #音频生成 | #音乐生成 #自回归模型 | arxiv 👥 作者与机构作者：Huadai Liu, Kaicheng Luo, Wen Wang, Qian Chen, Bin Ma, Xiangang Li, Wei Xue 机构：香港科技大学 (HKUST), 通义团队, 阿里巴巴集团 (Tongyi Fun Team, Alibaba Group) ...

AugCodec: A Low-Bitrate Disentangled Neural Speech Codec via Data Augmentation

📄 AugCodec: A Low-Bitrate Disentangled Neural Speech Codec via Data Augmentation #数据增强 #低资源 6.7/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #数据增强 | #数据增强 | #低资源 | arxiv 👥 作者与机构作者：Dongmei Wang, Xiaohang Sun, Yang Liu, Fanjie Kong, Abhishek Yanamandra, Abhinav Jain, Daniel Tompkins, Woohyun Kang, Najmeh Sadoughi, Sunil Hadap, Xiang Hao, Zhu Liu, Caren Chen 机构：Amazon, USA 💡 毒舌点评论文的“低比特率”宣称有点取巧——它通过大幅降低帧率（12.5Hz甚至6.25Hz）来实现，而非真正高效的信息编码。核心的数据增强思路虽然直观有效，但严重依赖一个外部且固定的语音转换模型（Seed-VC），这引入了不可控的域偏移风险和系统复杂度。实验部分最大的硬伤是评估完全局限于干净的英文朗读数据集（LibriSpeech test-clean），对于一个声称有广泛应用前景的编解码器而言，这说服力远远不够，连点背景噪声都没见过，怎能谈鲁棒性？作者自己都在结论里提到了未来要做TTS和语音翻译，却连这些下游任务的初步验证都没做，使得贡献看起来更像一个有趣的玩具，而非能落地的解决方案。此外，论文完全缺乏计算开销分析（参数量、推理延迟），这对于实时通信场景至关重要，是一个显著的遗漏。 ...

Backdoor Attacks on Speech Emotion Recognition via TTS-Generated Poisoning

📄 Backdoor Attacks on Speech Emotion Recognition via TTS-Generated Poisoning #语音情感识别 #语音合成 #自监督学习 7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音情感识别 | #自监督学习 | #语音合成 | arxiv 👥 作者与机构作者：Yongbin Huang, Xihao Xie, Jia Zhang 机构：未在提供的论文片段中明确说明。 💡 毒舌点评这篇论文精准地戳中了当前语音情感识别（SER）系统，尤其是基于自监督预训练模型的流水线，在数据供应链上的一个致命软肋：对TTS生成投毒样本的毫无防备。作者们的工作动机非常清晰且现实，指出了TTS技术如何极大降低了发起高效后门攻击的门槛。实验设计也比较扎实，覆盖了多语言数据集和多种主流自监督模型，验证了攻击的普遍脆弱性。然而，论文的“系统性”研究在深度上仍有欠缺：对触发器的声学特性、为何TTS合成的特定片段（一个“标准中性TTS语音”）能成为有效触发器，缺乏更底层的分析。此外，威胁模型过于理想化（“能注入TTS样本”），对攻击在现实数据收集流程中如何实施的讨论几乎为空白。最后，讨论部分草草收场，面对已证实的严重漏洞，却没有提供任何有意义的防御思路或后续研究方向，这极大地削弱了工作的完整性。总的来说，一篇合格的、指明了问题的工作，但离一篇令人印象深刻、引领方向的顶会论文还有距离。 📌 核心摘要本文首次系统性地研究了针对语音情感识别（SER）系统的、基于文本转语音（TTS）生成投毒样本的后门攻击。作者提出了一种隐蔽的低能量声学触发器，并构建了包含触发器生成、后门注入（波形域叠加）和推理阶段激活的攻击框架。通过在四个公开情感语音数据集（ANAD, CaFE, CASIA, JL Corpus）上对四种自监督语音模型（wav2vec2-base, wavlm-base, data2vec-base, unispeech-sat-base）进行广泛实验，证明了该攻击的有效性（高攻击成功率）、隐蔽性（干净准确率下降小）和跨模型/跨数据集迁移性。研究揭示了现代SER流水线的关键安全漏洞，并表明TTS技术显著降低了发起此类攻击的门槛，亟需开发专门的防御机制。 ...

Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via Rich-Caption

📄 Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via Rich-Caption #语音合成 7.6/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #语音合成 | #自监督学习 | arxiv 👥 作者与机构作者：Xun Gong, Tian Wang, Jinchuan Chen, Haoran Watanabe, Shinji Qian, Yanmin 机构：1 上海交通大学听觉认知与计算声学实验室，中国上海；2 卡内基梅隆大学语言技术研究�� 💡 毒舌点评论文想法不错，把复杂的音频编辑问题转化为文本空间的改写问题，是个巧妙的“曲线救国”策略。但是，论文在自我吹嘘“性能与专家模型相当”时，有点避重就轻。在语音转录编辑这个最核心的任务上，WER和编辑准确率都明显落后于CosyVoice-3，却在情感和风格编辑上挽回了一些颜面，这能叫“大多数情况”吗？另外，整个评估体系严重依赖自动指标和另一个AI的打分（LLM score），就是不肯做点真正的人工听测，这让“性能相当”的结论显得底气不足。最后，论文宣称“零样本”，但训练数据里塞了YODAS、AudioSet等好几个大公开数据集，虽然不是配对编辑数据，但这“零样本”的含金量需要打个问号。 📌 核心摘要本文提出了Bagpiper-Edit，一个用于开放式音频编辑的零样本框架。其核心思想是将编辑任务重新定义为基于“富文本描述”的文本空间改写任务。方法首先从原始音频中提取一个详细的文本描述（rich caption），然后利用一个强大的文本大语言模型（LLM）根据用户的自由形式编辑请求，将这个原始描述改写为目标描述。最后，以前者作为“声学锚点”，根据目标描述生成编辑后的音频。为使模型学会在生成时保持原始音频的声学一致性（如背景音、音色），论文提出了一种新颖的自监督训练范式：通过将连续音频分割为相邻片段或重复同一音频，构建无需人工标注的训练对。在语音、音效和自由形式编辑的评估中，该方法展示了其在保持原始音频一致性的同时，实现复杂编辑的能力，其多轮（MT）训练模式的性能在多项指标上优于单轮（ST）模式。 🔗 开源详情代码：论文中未提及代码链接（论文中提到“We will release the code and evaluation scripts upon acceptance”）。 ...

Bagpiper-TTS: Natural Language Guided Universal Speech Synthesis

📄 Bagpiper-TTS: Natural Language Guided Universal Speech Synthesis #语音合成 #大语言模型 #数据增强 8.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #语音合成 | #数据增强 | #大语言模型 | arxiv 👥 作者与机构 Jinchuan Tian (卡内基梅隆大学), Haoran Wang (LY Corporation), Siddhant Arora (卡内基梅隆大学), Takashi Maekaku (LY Corporation), Keita Goto (NVIDIA Research), Jin Sakuma (NVIDIA Research), Yusuke Shinohara (NVIDIA Research), Chao-Han Huck Yang (NVIDIA Research), Shinji Watanabe (卡内基梅隆大学)。 ...

Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study

📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study #大语言模型 #基准测试 #语音合成 8.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #语音合成 | #大语言模型 | #基准测试 | arxiv 👥 作者与机构 Koriyama, Tomoki. CyberAgent, Japan. 💡 毒舌点评这篇论文是一篇扎实的工程性基准测试研究，对日语G2P这个具体任务的LLM应用进行了迄今为止最全面的评估。实验设计合理，覆盖了30+模型，分析维度（模型规模、版本、专门化训练、提示模式）清晰。作为一篇面向应用的实证论文，其价值在于为日语TTS领域的从业者提供了明确的模型选择参考和性能基线。然而，其核心贡献是“评估”而非“提出”新方法，创新性相对有限，更像是一篇详尽的系统报告而非顶会级别的理论或方法突破。论文对错误模式的分析不够深入，对“为什么”某些模式有效或失败的探讨可以更进一步。TTS对比实验虽然实用，但对比系统的选择（如使用未提及的CosyVoice 2作为E2E代表）和实验设置（仅微调一个模型）的说服力可以更强。总体而言，这是一篇合格的、有用的工作，但可能更适合作为领域内的技术报告或会议短文，而非顶会主会场论文。 📌 核心摘要本文首次对超过30种大型语言模型（LLM）在日语字形到音素（G2P）转换任务上的性能进行了大规模基准测试。研究提出并比较了两种LLM应用策略：解析模式（LLM执行形态分析，规则后处理负责发音规则）和直接模式（LLM直接预测假名）。实验使用包含3000句手动标注假名的JVS语料库子集，以假名字符错误率（CER）为指标。结果显示，模型规模、版本更新以及针对日语的专门化训练是提升准确率的关键因素。最优的专有模型（如Claude Opus，解析模式CER 0.52%）超越了最佳传统工具OpenJTalk（CER 1.03%）。解析模式在绝大多数模型上优于直接模式，因其减轻了LLM处理复杂发音规则的负担。此外，研究将LLM预测的假名输入一个微调的假名输入TTS模型（CosyVoice 2），其发音准确度优于多个端到端（E2E）TTS系统（如Gemini 2.5 Flash TTS, Qwen 3 TTS），同时保持了可比的自然度，证明了显式G2P模块在可控发音方面的实用价值。 ...

Beyond ROC-AUC: Operating-Point Performance Reporting for Biometric Verification

📄 Beyond ROC-AUC: Operating-Point Performance Reporting for Biometric Verification 6.6/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.6/10 | 前50% | arxiv 👥 作者与机构作者：Ajan Ahmed, Masudul H. Imtiaz 机构：论文中未明确说明作者所属机构。 💡 毒舌点评这篇论文像一个严谨的“数据合规审计员”，而不是一个技术创新的先锋。它用七个“老古董”匹配器和四个经典数据集，雄辩地证明了一个大家（或者至少是标准制定者）早就该知道的事实：用一个全程平均分（AUC）来评价一个只在及格线附近运行的系统，是极其危险的。它的价值在于把ISO标准里落满灰尘的条文，用实验数据拍在了习惯性使用AUC的脸上。但创新性？约等于零。它没有提出任何新的算法或模型，甚至没有用最新的SOTA系统来证明自己的观点。其“排名翻转”的核心案例，更像是一个精心挑选的、用于教学的“彩蛋”，而非普适性的发现。论文最大的风险在于，它可能让读者误以为，只要报告了DET和置信区间，一个表现平平的系统就能变得优秀——事实上，它只是让平庸变得更透明了。 📌 核心摘要本文旨在纠正生物识别验证领域性能报告的实践偏差。核心论点是，广泛使用的全局指标（如完整ROC-AUC和EER）无法准确反映系统在实际部署所要求的低假匹配率（FMR）操作点（如\(FMR \leq 10^{-2}\)）的性能，甚至可能导致对系统优劣排序的误判。论文通过回顾ISO/IEC 19795-1标准，并在人脸、语音、虹膜和指纹四个模态上，使用七个预训练匹配器进行实证分析，验证了这一观点。实验表明，完整ROC-AUC会显著高估系统在严格操作点（如\(FMR=10^{-3}\)）的性能。在人脸模态中，甚至出现了排名翻转：FaceNet在完整ROC-AUC上优于ArcFace，但在\(TMR@10^{-3}\)、低FMR部分AUC和minDCF等操作点指标上，ArcFace显著优于FaceNet。此外，PR-AUC与ROC-AUC的差距揭示了类别不平衡下全局指标的过度乐观。论文最终倡导以检测错误权衡曲线和固定FMR下的假非匹配率作为核心报告指标，并辅以置信区间，而将ROC-AUC和EER降级为补充上下文。 🔗 开源详情代码：论文中未提及提供代码。模型权重：论文中未提及提供预训练模型权重。数据集：人脸：Labeled Faces in the Wild (LFW)，公开数据集，可通过其官网 (http://vis-www.cs.umass.edu/lfw/) 获取。语音：VoxCeleb1，公开数据集，可通过其官网 (http://www.robots.ox.ac.uk/~vgg/data/voxceleb/) 获取。虹膜：CASIA-Iris-Thousand，来自中科院自动化所，论文中提到是公开发布。指纹：FVC2002 Set B，来自第二次指纹验证竞赛，论文中提到是公开数据。 Demo：论文中未提及。复现材料：论文中未提及提供额外的复现脚本或环境配置文件。论文中引用的开源项目： SpeechBrain Toolkit：用于获取x-vector和ECAPA-TDNN系统。链接：https://speechbrain.github.io/ SourceAFIS：开源的指纹匹配系统。论文中引用了其GitHub仓库，但未在正文中直接给出链接。根据引用[44]推断，链接为：https://github.com/zheng-ningxin/SourceAFIS 🏗️ 方法概述和架构本文的研究方法是实证分析与比较，其核心架构可视为一个围绕“性能指标评估”构建的实验框架，而非一个包含多个子模块的算法架构。具体流程和组件如下： ...

Bridging Self-Supervised Learning and Speech Enhancement: A Wav2Vec2-Conditioned Framework

📄 Bridging Self-Supervised Learning and Speech Enhancement: A Wav2Vec2-Conditioned Framework #语音增强 #自监督学习 #扩散模型 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音增强 | #自监督学习 | #扩散模型 | arxiv 👥 作者与机构作者：Shubham Ojha, Carol Espy-Wilson 机构：Institute for Systems Research, University of Maryland, College Park 💡 毒舌点评这篇工作像个精心包装的“拼盘”：拿现成的扩散模型（StoRM）和自监督特征（Wav2Vec2.0），用一层简单的FiLM胶水粘起来。作者声称的“理论推导”更像是给一个简单的指数平滑操作找了个高大上的借口——最终α还是得靠经验选定（α=1）。实验设计存在明显短板：与表1中其他SOTA（如UNIVERSE++）的对比避重就轻，只强调PESQ的提升而淡化其他指标的劣势或持平。消融实验不够深入，例如仅探讨了FiLM位置，却未深入分析Wav2Vec不同层特征或不同SSL模型的影响。最要命的是完全封闭，不提供代码，让“可复现性”沦为一句空话。整体来看，想法直接，工程上有一定价值，但学术贡献的深度和完整性堪忧。 📌 核心摘要本文提出了一种将冻结的Wav2Vec 2.0自监督语音特征注入扩散语音增强模型（StoRM）的新框架。核心是在U-Net的瓶颈层使用特征线性调制（FiLM），用从含噪语音提取的语音特征来调制扩散过程的中间表示。为了在有限的内存开销下处理时间序列特征，作者基于线性高斯状态空间模型的最优贝叶斯因果估计器推导出指数平滑策略来聚合FiLM系数。在VoiceBank-DEMAND和LibriMix基准测试上，该方法相比于未使用条件化的StoRM基线，在PESQ等感知指标上取得了显著提升（最高+0.4），证明了自监督特征对扩散语音增强的有效引导作用，但SI-SDR指标有轻微下降，计算开销略有增加。 ...