论文速递 | 语音/音乐/音频论文速递

QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement

📄 QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement #生成对抗网络 #语音增强 #Conformer 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #生成对抗网络 | #Conformer | arxiv 👥 作者与机构作者：Shogo Yamauchi, Hideaki Tamori, Makoto Sakai, Yosuke Yamano, Tohru Nitta 机构：The Asahi Shimbun Company, Japan; Tokyo Woman’s Christian University, Japan ...

Reference-Based Recursive Least-Squares Mitigation of Real Interference in Stereo Audio Recordings

📄 Reference-Based Recursive Least-Squares Mitigation of Real Interference in Stereo Audio Recordings 6.6/10 | 创新 0.8/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 6.6/10 | 前50% | #自适应滤波 | arxiv 👥 作者与机构 Necati Kagan Erkek, Y. Ugur Ozcan。机构未说明。 💡 毒舌点评这篇论文就像是用一把经典的螺丝刀（RLS）去拧一颗特殊的螺丝（真实火车噪声消除）。作者诚实地展示了这把螺丝刀确实能拧动，并且在没有“标准答案”（干净参考真值）的情况下，通过一些间接测量证明了螺丝被拧紧了。然而，它没有告诉你这把螺丝刀是不是最合适的，或者有没有更酷的电动工具（SOTA方法）能做得更好。更关键的是，它不给你看螺丝和工具本身（数据和代码），只让你看操作录像（论文描述），这对于想复现或改进的人来说，实在不够友好。总的来说，这是一份扎实但缺乏惊喜的应用报告，其价值更多在于证明了特定场景下的可行性，而非推动方法学的前沿。 📌 核心摘要本文评估了基于参考信号的递归最小二乘（RLS）自适应滤波方法，用于消除受真实火车噪声和环境背景污染的立体声音频干扰。研究基于一个清晰的物理信号模型，将主要录音和参考录音视为同一外部噪声源经过不同未知声学路径的滤波观测。算法通过一个双参考/双输出的RLS估计器，预测并从含噪音频中减去与参考信号相关的干扰成分，随后应用一个低通FIR后置滤波器以平滑残差。实验在三个时长为74.01秒、采样率11.025 kHz的真实立体声录音片段上进行，所有算法参数保持一致。由于缺乏干净的参考真值，评估完全基于无参考指标，包括残差与参考信号的最大归一化相关性（η）、其相对于处理前的降低比（C）以及RMS变化。结果显示，η从处理前的0.386–0.832降至处理后的0.011–0.016，对应约30.6–34.1 dB的干扰抑制；输出RMS降低了1.8–4.8 dB。波形和频谱分析进一步支持了该方法能有效衰减真实环境中的参考相关性火车噪声成分的结论。 🔗 开源详情代码：论文中未提供代码链接。模型权重：不适用。本文使用传统自适应滤波算法（RLS），非神经网络模型。数据集：论文提及数据集由三个MATLAB文件（A, B, C）组成，但未提供公开下载链接或开源协议。 Demo：未提及。复现材料：论文提供了详细的复现材料，包括：完整的处理参数表（Table I）。完整的算法流程描述（IV-B节）。完整的评估指标定义（IV-C节）。核心算法（RLS）的完整数学公式（式11-14）。论文明确指出，利用上述信息、数据集（A, B, C）以及标准的MATLAB环境，即可复现实验。论文中引用的开源项目：未提及。 🏗️ 方法概述和架构本文提出的方法架构基于经典的参考信号自适应噪声消除框架，并针对立体声录音和真实声学场景进行了具体设计。其核心思想是利用一个与噪声源相关但与期望音频不相关的参考信号，通过自适应滤波器学习从参考到主通道中噪声成分的传递函数，从而估计并减去噪声。 ...

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

📄 Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors #语音合成 #语音生成 7.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #语音生成 | arxiv 👥 作者与机构作者：Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen 机构：Lightricks, Tel Aviv University (特拉维夫大学) ...

Reliable Neural-Codec Text-to-Speech by ASR Self-Verification and Distillation: Near-Zero Catastrophic Failures Across Models and Codecs

📄 Reliable Neural-Codec Text-to-Speech by ASR Self-Verification and Distillation: Near-Zero Catastrophic Failures Across Models and Codecs #语音合成 #自监督学习 #正则化微调 #强化学习 #知识蒸馏 #低资源 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #语音合成 | #自监督学习 | #正则化微调 #强化学习 | arxiv 👥 作者与机构作者：Ali Asaria, Tony Salomone, Deep Gandhi 机构：Transformer Lab 通讯作者：deep@lab.cloud ...

Responsible ASR: Overcoming Challenges of Foundational Models in Narrow-Band and Low-Resource Settings

📄 Responsible ASR: Overcoming Challenges of Foundational Models in Narrow-Band and Low-Resource Settings #低资源 #自监督学习 #语音识别 6.5/10 | 清晰 3/1 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Tejas Godambe, Nutan Choudhary, Sanket Shah, Nagaraj Adiga, Sharath Adavanne. Krutrim India Applied AI. 💡 毒舌点评这是一篇典型的“工业界问题定义，学术界方法组合”的论文。作者诚实地展示了在真实、未公开数据上的挣扎，这比在完美干净数据集上刷点更有价值。但审稿人（我）的怀疑点在于：你所有的提升都建立在无法复现的数据和未公开的模型细节上（比如那个“商业”对比）。论文像一份优秀的内部技术报告，但离顶会标准还有距离——它缺少对方法选择背后的深入分析，以及更公平、更可复现的实验设计。那些“显著提升”的数字，在无法复现的条件下，说服力打了折扣。 📌 核心摘要本文针对电话客服场景中窄带语音和低资源语言（印地语、印度口音英语）的ASR挑战，系统评估了主流开源（Whisper, NeMo, MMS等）及商业基础模型。零样本评估显示性能不佳。作者随后探索了在仅50小时标注数据下的多种适配策略：1) 在开源ASR模型（NeMo）上微调；2) 微调开源基础语音编码器（MMS）；3) 利用10万小时未标注域内数据，从头预训练一个基于BEST-RQ的语音编码器。实验表明，基于域内数据从头预训练的编码器性能显著优于微调通用编码器。最终，通过结合从头训练的编码器与伪标签增强技术，将英语和印地语的WER分别降至12.3%和16.6%，达到了可商用水平。 🔗 开源详情代码：论文实验基于SpeechBrain框架，但未提供针对本研究的完整代码仓库。引用了Data2Vec_AQC的代码库：https://github.com/Speech-Lab-IITM/data2vec-aqc/tree/master。模型权重：论文引用了以下开源预训练模型的权重：Whisper-Large v3 (https://huggingface.co/openai/whisper-large-v3)， MMS (1B) (https://huggingface.co/facebook/mms-1b)， MMS Adapters (https://huggingface.co/blog/mms_adapters)。��者自训练的语音编码器（In-house SE）及微调后的最终模型权重未公开。数据集：论文中使用的100K小时未标注预训练数据、50小时标注微调/测试数据均为公司内部数据集，未提供公开获取链接。 Demo：论文未提及。复现材料：论文详细描述了BEST-RQ和Transducer模型的架构参数、训练超参数、数据增强策略等，这些信息构成了复现其方法的核心细节。但由于核心数据集和模型权重未开源，仅凭这些信息无法完整复现实验结果。 🏗️ 方法概述和架构本文的研究方法分为评估和改进两个主要阶段，核心架构基于开源的SpeechBrain框架实现。 ...

Risk Stratification for ICU Delirium using Pervasive Ambient Sensing Information

📄 Risk Stratification for ICU Delirium using Pervasive Ambient Sensing Information #多模态模型 6.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构论文作者为Jiaqing Zhang， Sabyasachi Bandyopadhyay， Miguel Contreras， Jessica Sena， Yuanfang Ren， Andrea Davidson， Ziyuan Guan， Tezcan Ozrazgat-Baslanti， Subhash Nerella， Azra Bihorac， Parisa Rashidi。主要机构为美国佛罗里达大学（University of Florida）。 ...

Scoring Backends Matter More Than Pooling: A Systematic Study of Training-Free Anomalous Sound Detection under Domain Shift

📄 Scoring Backends Matter More Than Pooling: A Systematic Study of Training-Free Anomalous Sound Detection under Domain Shift 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.4/10 | 前50% | arxiv 👥 作者与机构论文未在提供的文本中明确作者及所属机构信息。 💡 毒舌点评这篇论文做了一件很基础但容易被忽视的工作：在固定的冻结编码器（BEATs）下，系统比较了几种传统的异常评分方法（如kNN、马氏距离）在面对域偏移时的表现差异。主要结论是评分后端的选择比时间池化（平均池化等）对性能的影响大得多（4-6倍），并提出了一个无需标签的融合方法。论文的动机清晰，实验设计控制得当，得出了明确且有趣的结论（如fan机器的极端案例分析）。然而，其创新性有限，本质上是将传统机器学习异常检测方法应用到预训练音频特征上，缺乏核心算法或框架的突破。实验数据集（DCASE 2023 & 2025开发集）规模和机器种类有限，且未提供代码，严重削弱了可复现性和实用价值。结论的普适性受限于仅使用了BEATs这一种编码器。总体而言，这是一篇扎实的分析性工作，但离顶级会议（如NeurIPS/ICML）的创新性要求有距离，更适合音频领域的专门会议（如ICASSP， INTERSPEECH）。 📌 核心摘要本文对免训练异常声音检测（ASD）框架下的关键设计选择进行了系统研究。在冻结预训练BEATs编码器和固定时间池化的条件下，论文聚焦于被忽视的评分后端（scoring backend）对域偏移鲁棒性的影响。通过控制变量实验，比较了四种经典后端（kkNN、马氏距离、局部密度归一化kkNN、PCA子空间残差）在DCASE 2023 Task 2全部七类机器上的性能。研究发现，评分后端的选择对目标域AUC的移动幅度（平均13.8点）远大于时间池化的选择（平均3.2点），即在此框架下，后端是主导域鲁棒性的核心杠杆。论文还发现没有单一后端在所有机器上最优，但存在稳定可重复的机器依赖模式（如fan机器上密度归一化kkNN与PCA残差的极端反差），该模式在DCASE 2025开发数据（fan, bearing）上得到复现。基于此，提出了一种无需标签的z-min分数融合方法，其性能接近于为每台机器事后选择最佳后端的“oracle”基准。此外，论文报告了一个负面结果：基于源域伪验证的后端选择方法因所有后端在该任务上性能饱和而失败。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中提及使用 BEATs_iter3+ (AS2M, self-supervised) 编码器，但未提供其权重的具体托管链接。数据集：使用了DCASE 2023 Task 2 开发集（包含 ToyADMOS2 和 MIMII DG 录音）和DCASE 2025 开发数据（fan, bearing）。论文中未提供直接下载链接，需通过 DCASE 官方渠道获取。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目： BEATs: https://github.com/microsoft/unilm/tree/master/beats wav2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec HuBERT: https://github.com/facebookresearch/fairseq/tree/main/examples/hubert AST (Audio Spectrogram Transformer): https://github.com/YuanGongND/ast PANNs: https://github.com/qiuqiangkong/panns_inference PatchCore: https://github.com/amazon-science/patchcore-inspection DCASE Challenge Task 2 (系列): https://dcase.community/challenge2023/task-unsupervised-detection-of-anomalous-sounds 🏗️ 方法概述和架构本文研究的框架是“免训练异常声音检测”。其核心流程如下： ...

SingFox: A Multi-Lingual Singfake Detection Corpus

📄 SingFox: A Multi-Lingual Singfake Detection Corpus #语音伪造检测 #多语言 #数据集 5.4/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.5/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 📝 5.4/10 | 后50% | #语音伪造检测 | #多语言 | #数据集 | arxiv 👥 作者与机构 Arth J. Shah, Devanshi K. Trivedi, Himanshi U. Borad, Hemant A. Patil Dhirubhai Ambani University (DAU), Gandhinagar, India; Sarvajanik College of Engineering & Technology, Surat, India ...

Speech-Driven End-to-End Language Discrimination towards Chinese Dialects

📄 Speech-Driven End-to-End Language Discrimination towards Chinese Dialects #语音识别 5.8/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 📝 5.8/10 | 前50% | #语音识别 | #语音识别 | arxiv 👥 作者与机构作者：FAN XU, JIAN LUO, MINGWEN WANG (江西师范大学)，GUODONG ZH�OU (苏州大学，通讯作者)。均为中国高校研究人员。 💡 毒舌点评一篇想法直白、工程痕迹明显的论文。其核心主张是“语音驱动”比“文本驱动”更适合方言识别，这本身是个合理且值得探索的方向。然而，实现路径相当保守：用一个不算先进的HMM-DNN模型做ASR生成带��误的文本，然后用最基础的word2vec和CNN做融合。所谓“端到端”其实是个伪命题，因为中间的ASR和后面的分类器是脱节的。论文最大的亮点在于实验上对“语音驱动”有效性的验证，但受限于数据集规模（尤其是非重复说话人场景下样本极少）和ASR的高错误率，其声称的“有效性”说服力大打折扣。更像是一篇数据集验证和初步方法探索的报告，技术深度和创新性均不足以达到顶级会议的标准。 📌 核心摘要本文探索了语音驱动特征在细粒度中文方言识别任务上的有效性，以应对传统文本驱动方法因词汇歧义而效果不佳的问题。作者首先系统性地验证了基于MFCC的声学特征在卷积神经网络(CNN)框架下的适用性。接着，设计了一个基于HMM-DNN的语音识别模块，用于预测方言文本。然后，采用注意力机制对预测出的文本进行加权，以提取判别性词汇的向量表示。最终，通过一个共享的CNN框架，将语音驱动的MFCC特征与文本驱动的词向量特征进行拼接输入和联合学习，以实现分类。在两个中文方言基准数据集上的评估表明，所提出的语音驱动方法是合适且有效的，结合特征的模型在多数设置下优于单一模态基线。 🔗 开源详情代码：未提供。论文引用了第三方开源项目代码（如Coltekin的DNN模型），但未公开本研究自身的代码实现。模型权重：未提供。数据集： Gan Chinese Dialect Corpus：论文中引用自Xu et al. [35]，但未提供直接下载链接。 iFLYTEK Chinese Dialect Corpus：论文中提及来自iFLYTEK 2018竞赛，但未提供公开下载链接。 DSLCC v4.0：http://ttg.uni-saarland.de/resources/DSLCC (此数据集在本文中未直接使用，仅在相关工作中提及)。 Demo：未提及。复现材料：论文中提及使用以下工具和设置，但未提供具体的配置文件或检查点下载链接。语音识别工具包：Kaldi (http://www.kaldi-asr.org/) 中文分词工具：jieba (https://pypi.org/project/jieba/)、ICTCLAS (http://ictclas.nlpir.org/downloads) 语言模型工具：SRILM (http://www.speech.sri.com/projects/srilm/) 词向量模型：word2vec (http://code.google.com/p/word2vec/) 分类器工具：Scikit-learn (https://scikit-learn.org/) 关键训练参数：嵌入维度156，MFCC维度39，卷积层数2，学习率0.008，小批量大小64。论文中引用的开源项目（用于基线对比或工具，非本文核心代码）： Coltekin & Rama (2016) DNN模型: https://github.com/coltekin/dsl2016-source jieba中文分词: https://pypi.org/project/jieba/ ELAN语言标注工具: https://tla.mpi.nl/tools/tla-tools/elan/ SRILM语言模型工具: http://www.speech.sri.com/projects/srilm/ word2vec: http://code.google.com/p/word2vec/ Kaldi语音识别工具包: http://www.kaldi-asr.org/ Scikit-learn机器学习库: https://scikit-learn.org/ ICTCLAS分词系统: http://ictclas.nlpir.org/downloads 🏗️ 方法概述和架构本文提出一个由四个模块组成的框架，用于语音驱动的方言识别，其核心思想是利用语音直接产生的声学特征，并辅以由语音间接产生的文本特征进行联合分类。具体架构如下： ...

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

📄 ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection #强化学习 #课程学习 #多模态模型 #大语言模型 6.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.3/10 | 前50% | #强化学习 | #强化学习 | #课程学习 #多模态模型 | arxiv 👥 作者与机构论文作者为 Jinhao Song, Shan Liang, Yiqun Yue, Zhuohuayang Zhang, Tianqi Gao，均隶属于西安交通大学利物浦大学（Xi’an Jiaotong-Liverpool University, Suzhou, China）。 ...