论文速递 | 语音/音乐/音频论文速递

It's Complicated: On the Design and Evaluation of AI-Powered AAC Interfaces

📄 It's Complicated: On the Design and Evaluation of AI-Powered AAC Interfaces #大语言模型 5.5/10 | 创新 1.5/2 | 严谨 0.8/1.5 | 实验 0.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 📝 5.5/10 | 前50% | #大语言模型 | #大语言模型 | arxiv 👥 作者与机构 Blade Frisch (Michigan Technological University), Will Wade (Smartbox Assistive Technology Ltd), Dylan Gaines (Kennesaw State University), Michelle Kinsella (Oregon Health & Science University), Betts Peters (Oregon Health & Science University), Tamara Broderick (Massachusetts Institute of Technology), Keith Vertanen (Michigan Technological University)。 ...

Joint Learning of Covariance Estimation and White Noise Gain for Robust MVDR Beamforming

📄 Joint Learning of Covariance Estimation and White Noise Gain for Robust MVDR Beamforming #语音增强 5.8/10 📝 5.8/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构作者：Yongyi Deng, Hanchen Pei, Jianbo Ma, Gongping Huang, Jingdong Chen, Jacob Benesty 机构： 1 School of Electronic Information, Wuhan University, Wuhan, Hubei, China 2 Dolby Laboratories 3 CIAIC, Northwestern Polytechnical University, Xi’an, Shaanxi, China 4 INRS-EMT, University of Quebec, Montreal, QC, Canada 💡 毒舌点评论文的动机无可指摘，直指MVDR波束成形中一个长期存在但被简化的“黑箱”——WNG阈值。提出将其作为可学习变量进行联合优化，想法确实巧妙且实用。然而，论文在支撑其核心主张（联合学习优于固定值）最关键的实验上出现了巨大漏洞：完全没有消融实验。这使得论文的贡献声明变得空洞，我们无法知道性能提升究竟来自更优的掩模估计、更优的WNG预测，还是两者联合优化的“协同效应”。此外，论文对自身最核心的创新模块——WNG预测分支的分析近乎于无，其预测值的分布、物理意义以及与输入信号的关系完全是一片黑箱。技术细节（如可微分层的反向传播实现）描述模糊，影响了工作的可复现性和技术深度。整体而言，这篇论文提供了一个不错的Idea，但未能提供足够扎实的证据来充分论证其优越性，其深度和严谨性与顶会标准存在明显差距。 ...

Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English

📄 Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English #语音识别 #低资源 9.5/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.5/10 | 前50% | #语音识别 | #低资源 | arxiv 👥 作者与机构 Hamid Mojarad, Kevin Tang 1 Department of English Language and Linguistics, Institute of English and American Studies, Faculty of Arts and Humanities, Heinrich Heine University Düsseldorf, Germany 2 Department of Linguistics, University of Florida, United States of America ...

Measuring User's Mental Models of Speech Translation in Human-AI Collaboration

📄 Measuring User's Mental Models of Speech Translation in Human-AI Collaboration #语音翻译 6.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.6/10 | 前50% | #语音翻译 | #语音翻译 | arxiv 👥 作者与机构 HyoJung Han, Nishant Balepur, Jordan Boyd-Graber, Marine Carpuat University of Maryland, College Park, USA 💡 毒舌点评这篇论文的工作就像在一个精心设计的游戏里，测量玩家对游戏规则的理解深度。想法（基于QA的心智模型测量）有一定新意，把翻译质量评估拉到了“有用性”层面。但整个用户研究的规模（45人，16题）更像是一个本科生课程大作业，而不是一篇旨在建立通用框架的顶会论文。最大的亮点是发现中级用户学习最快，而错误高亮反而导致了“过度操作”这种反直觉结果。然而，论文的结论在很多地方显得过于自信，比如将“不完整/不自然”标记为最显著特征，却忽略了其在现实场景中可能本身就是最明显的错误，这几乎是句废话。实验设计本身（奖励机制、错误类别划分）足够细致，但样本的限制使得所有结论都蒙上了一层“偶然性”的阴影。最后，没有代码开源，让这个“可复现的框架”大打折扣。 📌 核心摘要本文提出了一种基于跨语言问答（QA）的新型框架，用于衡量和理解用户对语音翻译（MT）系统的心智模型（Mental Model）。在该框架中，用户需决定对机器翻译的哪些句子请求专业重译，以最大化最终QA任务得分，这个过程自然地揭示了用户对MT系统错误模式的理解与预测能力。通过对45名不同法语熟练度用户的研究，论文发现：1）用户的心智模型随交互实践而增强，表现为奖励和准确率上升；2）中等语言熟练度的用户学习效果最显著，而基础水平用户进步困难；3）用户主要依赖翻译输出的表面特征（如不完整性、语音噪声）来更新心智模型，而对主题相关错误最不敏感；4）在三种解释条件中，提供ASR转录最能有效辅助用户（尤其是中级用户）构建心智模型，而提供错误高亮虽然提高了准确率，却导致用户过度重译，反而降低了任务得分。 🔗 开源详情代码：论文未提供。模型权重：论文未提供。数据集：使用了公开数据集 2M-BELEBELE。论文提供了引用信息，但未给出直接下载链接。 Demo：论文未提供。复现材料：论文未提供完整的实验代码或筛选后的问答集数据。 🏗️ 方法概述和架构论文的核心贡献是提出一个用于测量MT心智模型的交互式框架。该框架包含一个定制的用户研究界面，其工作流程和关键组件如下： ...

Neuromorphic Speech Enhancement with Dual-Branch Spiking Neural Networks

📄 Neuromorphic Speech Enhancement with Dual-Branch Spiking Neural Networks #语音增强 #模型压缩 7.0/10 ✅ 7.0/10 | 前50% | #语音增强 | #模型压缩 | arxiv 👥 作者与机构作者：Taiyu Meng, Wenbin Jiang, Haoyi Zhang, Yuhan Zhou, Haibing Yin 机构：杭州电子科技大学通信工程学院 💡 毒舌点评这篇工作像一篇扎实的“工程优化”报告，而非一个足以震撼顶会的“科学突破”。GSU-DBNet的设计逻辑清晰，就像一个精心组装的乐高模型，每个积木（双分支、双路径、GSU）都有其已知的出处和用途。其最大的亮点可能在于“消融实验”对GSU单元的深入探讨，这在SNN设计中确实有价值。然而，论文的野心似乎止步于此：它满足于在单一标准数据集（VoiceBank+DEMAND）上刷出一个不错的SOTA，并用“参数量低”来包装“低功耗”的愿景，却从未在神经形态硬件或真实功耗数据上迈出哪怕一步。这种“口头神经形态”在顶会审稿人看来是可疑的。论文反复强调的“二进制输出瓶颈”理论，更像是一个事后总结的观察，而非一个有坚实信息论或动力学系统分析支撑的创新理论贡献。总之，这是一篇完成度较高、但创新天花板明显的工作。 📌 核心摘要本文针对SNN在语音增强任务中性能不及ANN的问题，提出了一种名为GSU-DBNet的双分支脉冲神经网络架构。该架构的核心是采用了参数高效的门控脉冲单元（GSU）作为基础循环单元。GSU-DBNet遵循编码器-分离器-解码器范式：编码器提取特征；分离器通过双路径GSU模块（频率路径使用双向GSU捕捉全局频谱依赖，时间路径使用单向GSU建模因果时序）进行时空特征增强；解码器采用双分支结构，一个分支估计复数掩码并结合DeepFilter进行相位感知重建，另一个分支估计幅度掩码。两个分支的输出通过加权平均融合。在VoiceBank+DEMAND基准测试中，GSU-DBNet仅用394K参数即达到了3.04的PESQ分数，在多个指标上超越了现有SNN方法，并显著减少了与代表性ANN模型相比的参数量。消融实验验证了双分支和双路径设计的必要性，并发现二进制输出的瓶颈使得简单的单门GSU设计优于多门变体。 🔗 开源详情代码仓库：未提供。模型权重：未提供。数据集：未提供（实验使用公开的VoiceBank+DEMAND数据集）。在线演示：提供了音频样本的在线演示链接（https://meng-taiyu.github.io/dpnet-demo/），但此链接不包含可复现训练过程的代码或模型。 🏗️ 方法概述和架构 GSU-DBNet的整体架构如图1所示，遵循编码器-分离器-解码器范式，旨在联合建模语音的幅度谱和复数谱。编码器：首先对带噪语音进行短时傅里叶变换（STFT），取其实部、虚部和幅度谱，拼接成3通道的频谱输入。编码器包含三个卷积块，每个块由Conv2d、GroupNorm、PReLU和CBAM注意力模块组成。前两个块通过步长卷积逐步压缩频率维度并增加通道数，第三个块使用 \(1 \times 1\) 卷积将通道数提升至64，生成一个64通道的潜在特征图。双路径GSU分离器：这是模型的核心时空建模部分，由两个堆叠的双路径GSU块（DP-GSU）组成（图2b）。每个DP-GSU块对输入特征沿频率和时间两个维度交替进行建模：频率路径：将特征沿时间维度折叠，使用双向门控脉冲单元（BiGSU）处理，以捕捉跨频率的全局依赖关系。BiGSU能够同时利用过去和未来的上下文信息。时间路径：将特征沿频率维度折叠，使用单向门控脉冲单元（GSU）进行处理，以建模因果的时间依赖关系，确保实时性。每条路径处理后都接有一个线性投影层、GroupNorm层，并通过残差连接将输出与路径输入相加，以稳定训练。门控脉冲单元（GSU）： GSU是基本的循环单元（图2a）。它受LIF神经元启发，通过一个门控机制更新膜电位 \(c_t\)，并通过阶跃函数 \(\Theta\) 产生二进制脉冲输出 \(h_t\)。具体而言，给定当前输入 \(x_t\) 和上一时刻输出 \(h_{t-1}\)，GSU先计算一个联合线性投影 \(\mathbf{g}_t\)，并将其拆分为两部分。第一部分用于计算遗忘门 \(f_t = \sigma(\mathbf{g}_t^{(1)})\)。膜电位更新为 \(c_t = f_t \odot c_{t-1} + (1-f_t) \odot \mathbf{g}_t^{(2)}\)。这里，\((1-f_t)\) 充当隐式输入门，这种单门设计使得GSU的循环层参数量约为LSTM的一半。最终输出为二进制脉冲 \(h_t = \Theta(c_t)\)。这种二进制输出特性是SNN低功耗的关键，但也构成了信息瓶颈。论文还定义了多门变体SLSTM-2G（解耦遗忘门和输入门）和SLSTM-3G（额外加入输出门），用于消融研究。 ...

NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction

📄 NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction #条件流匹配 #Transformer #多模态模型 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7/10 | 前50% | #语音生成 | #条件流匹配 | #Transformer #多模态模型 | arxiv 👥 作者与机构 Wenhao Gao (Equal contribution)， Stony Brook University Yifan Wang (Equal contribution)， University of Texas Health Center at Houston Yijia Ma, Carl Yang, Wen Li, Chenyu You (Corresponding author)， Emory University ...

ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge

📄 ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge #语音质量评估 #基准测试 8.2/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.2/10 | 前50% | #语音质量评估 | #基准测试 | arxiv 👥 作者与机构 Jisu Jeon (Hongik University, Seoul National University), Seungyeon Jwa (Seoul National University), Joosung Lee (NAVER Cloud, Seoul National University), Jinhyeon Kim (NAVER Cloud, KAIST), Woojin Chung (Hongik University), Hwiyeol Jo (Seoul National University), Jeonghoon Kim (NAVER Cloud, Seoul National University), Jonghyun Choi (Seoul National University), Soyoon Kim (NAVER Cloud, Seoul National University) ...

Perceptual Evaluation of Higher-Order Ambisonic Codecs on Both Synthetic Mixing and Native Recordings

📄 Perceptual Evaluation of Higher-Order Ambisonic Codecs on Both Synthetic Mixing and Native Recordings #音频编码 #空间音频 #信号处理基础 8/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 前50% | #音频编码 | #空间音频 | #信号处理基础 | arxiv 👥 作者与机构作者：Adrien Llave, Grégory Pallone, Jérôme Daniel 单位：Orange Research, 法国 💡 毒舌点评这篇论文的“顶会”野心有点撑不住其“工作汇报”的内核。它本质上是对一个已标准化的工业编解码器（IVAS）在特定场景（HOA）下的性能评测报告，而非提出一种新方法或揭示全新原理。其核心价值在于“系统性测试”和“工程观察”，对于推动HOA编解码器实际应用有参考价值，但在理论或方法论创新上乏善可陈。作者试图通过四个假设的验证来构建故事线，但这更像是对已知现象的确认性实验，而非探索性研究。最大的遗憾是，方法部分（Section V）对SPAR和DirAC如何协同工作、特别是“去相关滤波器”的具体实现和局限性缺乏技术细节，使得后续的性能分析和归因显得根基不稳。 📌 核心摘要本文系统评估了3GPP新近标准化的IVAS编解码器在场景音频（SBA）模式下，对采用不同空间化方法生成的三阶Ambisonics（HOA）内容的感知编码性能。研究通过两个主观MUSHRA实验，将IVAS与一种简单但常用的多单声道基线方法（EVSx16）进行比较。实验覆盖了13种多样化的音频内容，包括由理想平面波编码、空间房间脉冲响应卷积及球形麦克风阵列原生录制三种方式生成。主要发现是：在相似比特率（~256 kbps）下，IVAS整体性能优于EVSx16。IVAS的性能高度依赖于内容的空间特性，尤其擅长处理通道间相关性强的信号（如平面波合成内容），在低比特率下表现依然稳健；但其性能在包含空间扩散混响的自然录音上显著下降。相反，EVSx16在混响内容上的表现相对更好。研究证实了IVAS偏好无扩散混响的内容，且该偏好随比特率降低而增强；而EVSx16偏好扩散内容，且该偏好与比特率无关。 ...

Poster: Exploring the Limits of Audio-Based Detection of Turkish Phone Call Scams

📄 Poster: Exploring the Limits of Audio-Based Detection of Turkish Phone Call Scams 6.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.2/10 | 前50% | arxiv 👥 作者与机构 Arda Eren¹, Micheal Cheeng¹, Youqian Zhang¹, Grace Ngai¹, Eugene Yujun Fu² 香港理工大学计算机系未明确机构（原文仅列出姓名） 💡 毒舌点评这篇Poster的工作像个精巧的“小测验”：它敏锐地抓住了“低资源语言+真实威胁”这个好问题，并贡献了一个虽小但公开的土耳其语数据集，这值得肯定。然而，其方法论堪称“极致简约”——直接丢给商业LLM跑个零样本，连提示词优化都省了，这与其宣称的“探索极限”标题相比，更像是验证了一个常识（文本比嘈杂的音频好处理）。最讽刺的是，论文一边抱怨模型安全过滤导致音频检测失败，一边自己也没有提供绕过或缓解这一工程障碍的任何实质性方案。对于一篇探讨“极限”的论文，它自身的方法似乎在挑战“低投入产出论文”的极限。 📌 核心摘要本研究针对土耳其语电话诈骗检测这一低资源问题，构建了首个公开的多模态数据集（100对音频-转录）。作者评估了七种主流商业LLM在直接处理原始音频、自动转录文本以及人工校正文本三种输入条件下的零样本二元分类性能。实验发现，所有模型的文本输入性能（F1≈0.99）均优于音频输入（F1≈0.97），且人工校正带来的收益微乎其微。音频输入的性能瓶颈主要源于模型对包含脏话、威胁等敏感内容的音频文件触发了安全过滤机制而拒绝处理。研究强调了在对抗性检测任务中，模型安全策略与实际效用之间的张力。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及具体模型权重链接（论文中评估了Gemini 2.5、GPT-4o和Qwen系列模型，但未提供其开源权重获取方式）数据集：论文中引入了名为“the first public multi-modal dataset of Turkish scam and benign calls”的数据集，包含100个对齐的土耳其语音频-转录对（50个诈骗电话，50个良性电话），但论文中未提及具体获取链接（如GitHub、HuggingFace等地址）或开源协议。 Demo：论文中未提及复现材料：论文中未提及训练配置、检查点等复现材料的具体信息。论文中引用的开源项目：论文中引用的参考文献（如 [1] Shen et al., [2] Turkish challenges ASR, [3] Zhao et al.）属于学术文献引用，未明确提及这些是开源项目并提供链接。论文本身也未提及使用了其他具体的开源工具或项目。作者与机构 Arda Eren¹, Micheal Cheeng¹, Youqian Zhang¹, Grace Ngai¹, Eugene Yujun Fu² ...

Progressive Alignment Objectives for Aligner-Encoder based ASR

📄 Progressive Alignment Objectives for Aligner-Encoder based ASR #语音识别 #Transformer 7.5/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #Transformer | arxiv 👥 作者与机构 Jaeyoung Lee, Masato Mimura, Takafumi Moriya. 机构：NTT, Inc., Japan. 💡 毒舌点评这篇工作切入了一个具体且实际的问题——Aligner-Encoder中对齐信息的“突然形成”导致训练不稳定和长语音性能下降。方法上，InterAligner和InterCTC的思路清晰，符合渐进式学习的直觉，消融实验也做得比较细致，能说明中间目标和损失权重的重要性。但问题在于，第一，贡献边界有些模糊，InterCTC本身是已有技术，本文的贡献在于将其引入并验证其在新框架下的有效性，以及提出InterAligner，但后者与多粒度/层级监督的区别需要更清晰的阐述。第二，实验虽然充分，但主要在两个英语数据集上进行，且与最强的外部基线（Stooke et al.）相比仍有差距，普适性有待验证。第三，完全不开源代码和模型，对于顶会论文而言是显著的扣分项，严重影响了可复现性和社区贡献。总的来说，是一篇扎实的、解决了特定痛点的系统改进工作，但创新幅度和影响力未达到最高水平。 📌 核心摘要研究问题：针对Aligner-Encoder ASR模型中清晰的对齐信息在编码器高层突然形成，导致训练敏感、不稳定且在长语音上性能显著下降的问题。核心方法：提出InterAligner，通过在模型中间层（如第15层）引入一个针对更长、更细粒度序列（BPE词汇量256）的辅助对齐损失，以及一个更早的中间CTC损失（InterCTC，第12层），鼓励对齐信息在模型深度上渐进式形成，从而构建一个从简单到复杂的对齐学习课程。主要贡献：1) 将InterCTC引入Aligner-Encoder框架并验证其作为优化辅助的有效性；2) 提出InterAligner，这是一种新颖的中间对齐监督方法，通过更细粒度的目标来缓解“对齐瓶颈”；3) 通过系统的实验和分析，证明了所提方法在主流数据集上，尤其是长语音场景下的性能提升。关键结果：在LibriSpeech test-clean/other上，WER从基线（仅最终对齐）的5.0/7.8%经InterCTC降至3.4/6.0%，再经InterAligner进一步降至3.1/5.6%。在CommonVoice test集上，WER从12.4%降至10.9%。性能提升在长语音（>21秒）上尤为显著，例如在test-clean上WER从23.4%降至11.6%。实验设置：使用约1.18亿参数的17层Conformer-L编码器。在LibriSpeech 960h和CommonVoice 16.1英语数据集上进行评估。基线为Aligner-Encoder最终层对齐目标。InterCTC设置在第12层，InterAligner设置在第15层。使用BPE分词，最终目标词汇量1024，中间目标词汇量256。优化器采用标准Transformer预热/衰减策略，峰值学习率0.0020-0.0025，有效批大小约2小时音频。解码束宽为6。局限性/未来工作：论文未明确量化增加中间头带来的额外计算开销（参数量、训练时间）。方法对中间层的选择（第15层）敏感，且需要在设计时预先确定。未来工作将研究该方法在流式和长上下文识别中的应用及其与语言模型的整合。代码可用性：论文未提供代码、模型权重或训练脚本的链接。训练细节：提供了详细的超参数配置，包括模型架构、训练轮数（LibriSpeech 100 epoch, CommonVoice 50 epoch）、检查点平均策略（前10个）、批大小、学习率调度（20k预热步）、CTC损失权重固定为0.1，以及InterAligner损失权重通过调优选择。论文声明使用了生成式AI工具辅助代码开发和论文编辑，但内容已由作者审核验证。 ...