论文速递 | 语音/音乐/音频论文速递

Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction

📄 Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction #语音识别 #低资源 #语音增强 6.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #低资源 | #语音增强 | arxiv 👥 作者与机构 Mohammad Aref Jafari-Raddani。作者隶属于伊朗库姆的库姆科技大学计算机工程系，以及伊朗伊斯法罕的Asa Electronic Akhtaran公司。通讯邮箱为 raddaniaref@gmail.com。 💡 毒舌点评这篇论文的工作像是在给一个经典的检索增强生成（RAG）流水线做一次非常针对性的“微调”，而非提出新的架构。其核心贡献——修改TF-IDF以赋予错误词项更高权重——虽然在工程上直接且有效，但在方法论上缺乏足够的新颖性和理论深度，更像是一种启发式的技巧。论文在实验验证上显得非常单薄：仅在一个数据集（FLEURS波斯语子集）上评估，模型组合固定（Whisper + Gemini），完全缺乏与其他SOTA纠错方法的对比，也缺少关键的消融研究来证明每个组件（如对称归一化、权重公式）的独立贡献。将错误感知命中率（EA-HR）作为主要贡献之一提出，但其评估范围局限于Top-3检索结果，说服力有限。论文在“未来工作”中提到的计划（如扩展知识库、领域迁移）恰恰点明了当前工作的天花板。整体感觉是一篇扎实但缺乏野心和深度的系统微调报告。 📌 核心摘要本文针对低资源语言（以波斯语为例）的端到端ASR系统频繁产生的音似和循环幻觉问题，提出了一种高效的检索增强生成（RAG）纠错框架。该框架包含两个主要组件：1）一个对称应用的文本归一化模块，用于处理格式差异和循环幻觉；2）一种新颖的错误感知TF-IDF检索算法，通过构建基于历史错误概率的稀疏对角惩罚矩阵，动态提升高频错误词项的检索权重。在FLEURS波斯语子集上的实验表明，该方法将错误感知命中率从53.7%显著提升至90.9%，并将端到端词错误率从基线23.06%降低至18.83%，且在推理阶段几乎不引入额外延迟。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重链接（论文使用了 Whisper large-v3-turbo 和 Google Gemini 2.0 Flash-Lite 模型，但未提供其权重的具体下载地址）数据集：论文中未提及数据集链接（论文明确使用了 Google FLEURS 数据集的波斯语子集，但未给出具体下载地址） Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 🏗️ 方法概述和架构本文提出的框架整体架构如图1所示，旨在通过轻量级修改增强标准的ASR-RAG流水线。核心流程分为离线知识库构建和在线推理两个阶段，两者共享对称的预处理模块。 ...

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

📄 Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models #语音识别 #语音翻译 #参数高效微调 #多模态模型 #低资源 5.8/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #语音翻译 #多模态模型 | arxiv 👥 作者与机构 Tomoya Mizumoto, Yusuke Fujita, Hao Shi, Lianbo Liu, Atsushi Kojima, Yui Sudo. （作者所属机构未在提供的原文片段中明确提及） 💡 毒舌点评这篇文章就像一个精心设计的“方言压力测试”。它思路清晰，实验控制得当，像个规规矩矩的优等生作业，把“SLM继承LLM能力”和“数据/微调有用”这两个直觉验证得漂漂亮亮。但问题在于，这个“压力测试”的跑道（翻译任务）太窄，沙坑（CPJD数据集）太小，连计时器（TTS标准语音）都可能不准。结果就是，你得到了一份关于“如何在特定小跑道上跑得更稳”的精致报告，但对于“方言问题到底有多复杂、在真实世界中如何解决”的宏大命题，贡献就比较有限了。它证明了一些常识，但缺乏让人“Wow”的突破或深刻的洞见。分数给高了对不起那些真正硬核的创新，给低了又委屈了它的严谨和工整，所以卡在中间。 ...

FoleySet: A Multi-Level Human-Annotated Foley Sound Dataset

📄 FoleySet: A Multi-Level Human-Annotated Foley Sound Dataset #音频分类 #数据集 #迁移学习 7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7/10 | 前50% | #音频分类 | #迁移学习 | #数据集 | arxiv 👥 作者与机构未明确列出 💡 毒舌点评这篇论文像一份工整的“产品说明书”，而不是一篇充满惊喜的科研报告。它清晰地定义并打包了一个“Foley声音零件箱”，分类详尽，标签规范，甚至附上了质检报告（基线实验）。然而，对于NeurIPS/ICLR这类顶会而言，这更像是在展示一个精心准备好的“材料”，而不是用这些材料做出了“惊人的菜肴”。它的核心贡献是“构建了什么”，而非“发现了什么新知识或新方法”。分类法的构建过程描述详尽，但缺乏对分类法本身有效性的实证评估（如人机一致性验证）。实验部分只展示了最基础的“线性探针”性能，如同只测试了零件的尺寸是否合规，却没组装成原型机看看跑起来怎么样，更别提和现有的“竞品”（其他Foley数据集）在核心任务上真刀真枪地比一场了。作者诚实地指出了单一标注员、长尾分布等局限，这很好，但“诚实”不能完全弥补“深度”的不足。它是一份扎实的基础工作，但距离一篇能激发领域广泛讨论、带来方法论或洞察突破的顶会论文，还有距离。 📌 核心摘要本文提出了FoleySet，一个公开的、专注于Foley（拟音）声音的数据集。该数据集包含10,000个经过人类标注的音频片段，来源于Freesound平台，并采用了一个为Foley任务设计的双层分类体系（9个主类别，73个子类别）。论文详细阐述了该分类体系的构建过程，并描述了从数据收集、筛选、标注到归一化的完整数据集构建流程。作为基准，论文使用预训练的PaSST模型对主要类别和子类别分类任务进行了评估，分别为82%和64%的准确率，为后续研究提供了可比较的起点。 🔗 开源详情代码：论文中未提及代码仓库或代码链接。模型权重：论文中未提及在FoleySet上训练好的模型权重。基准实验中使用的预训练模型为PaSST（来自hear21passt包），其链接为：https://github.com/kwatcharasakorn/hear21passt。数据集：FoleySet 数据集（10,000个音频片段，CC0许可证）。主要链接：https://zenodo.org/records/20735877 开源协议：Creative Commons Zero (CC0) 许可。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的分类基准实验设置，可用于复现实验部分：特征提取器：PaSST (Patchout Spectrogram Transformer)，使用hear21passt包。分类器：线性探针（Linear Probe）分类器。训练配置：使用AdamW优化器；采用类别加权交叉熵损失（权重为 \(N / (K \cdot n_k)\)）；监控验证集准确率进行早停（patience=10个epoch）。评估数据：测试集包含1000个样本。附录材料：包含完整的关键词到类别映射表（表6）和73类子类别分类的完整结果表（表7）。论文中引用的开源项目： PaSST / hear21passt：作为预训练特征提取器使用。链接：https://github.com/kwatcharasakorn/hear21passt HEAR 2021 NeurIPS Challenge API：hear21passt遵循此API。链接：https://hearing.ai/ DCASE 2023 Task 7：引用了其挑战赛和提供的Foley声音合成数据集。链接：https://dcase.community/challenge2023/task-foley-sound-synthesis FoleyBench：作为相关数据集被引用。链接：论文中未提供具体仓库链接。 MINT：作为相关数据集被引用。链接：论文中未提供具体仓库链接。 6KSFx：作为相关数据集被引用。链接：论文中未提供具体仓库链接。 AudioSet：作为通用音频数据集被详细对比和引用。链接：https://research.google.com/audioset/ FSD50K：作为开源声音事件数据集被详细对比和引用。链接：https://zenodo.org/record/4060432 ESC-50：作为环境声数据集被引用。链接：https://github.com/karolpiczak/ESC-50 UrbanSound8K：作为城市声数据集被引用。链接：http://urbansounddataset.weebly.com/urbansound8k.html Universal Category System (UCS)：作为音效分类体系被引用。链接：论文中未提供具体项目链接。 🏗️ 方法概述和架构本论文的核心方法分为两部分：Foley专用分类法的构建与FoleySet数据集的构建。 ...

Frequency-Aware Self-Supervised Music Representation Learning

📄 Frequency-Aware Self-Supervised Music Representation Learning #自监督学习 #音乐信息检索 #计算机视觉 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #音乐信息检索 | #自监督学习 | #计算机视觉 | arxiv 👥 作者与机构作者：Yicheng Gu (学生会员，IEEE), Junan Zhang, Jerry Li, Zhizheng Wu (高级会员，IEEE), Lauri Juvela (会员，IEEE)。机构：Jerry Li, Yicheng Gu 与 Spellbrush (东京)；Lauri Juvela 与阿尔托大学声学实验室；Junan Zhang, Zhizheng Wu 与香港中文大学（深圳）数据科学学院；Yicheng Gu 同时隶属以上三个机构。 ...

From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models

📄 From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models #语音识别 #基准测试 #模型评估 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #基准测试 | #模型评估 | arxiv 👥 作者与机构第一作者：Pengfei Zhang (University of California Irvine) 其他作者：Hoang H Nguyen (University of Illinois Chicago), Kazi Shaharair Sharif (Kennesaw State University), Yutong Song (University of California Irvine), Wenjun Huang (University of California Irvine), Henry Peng Zou (University of Illinois Chicago), Pinxin Liu (未注明机构), Honghui Xu (Kennesaw State University), Amir M. Rahmani (University of California Irvine) 通讯机构：University of California Irvine ...

Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming

📄 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前25% | arxiv 👥 作者与机构作者：Rotem Rousso, Eyal Cohen, Joseph Keshet。机构：The Open University of Israel（根据论文信息推断）。 💡 毒舌点评这篇论文试图解决语音处理中一个经典但被低估的问题——强制对齐，其核心动机（摆脱对G2P词典的依赖、实现端到端可微）是扎实的。作者提出的软动态规划解码器和MNCE损失是有价值的贡献。然而，论文存在一个核心矛盾：它大力宣传“无需发音词典”和“跨语言泛化”，但在其最重要的跨语言评估（表II和IV）中，却大量依赖MFA的G2P和词典来生成测试用的音素序列。这严重削弱了其“端到端”和“无词典”声明的说服力。实验部分的消融研究（表V和VI）虽然必要，但深度不足，未能充分剖析架构各部分的贡献。此外，对关键的时域分辨率限制（10ms）讨论不足，这直接影响了在严格阈值下的性能。总的来说，这是一个技术上有一定新意的工作，但在实验设计和结果论证上存在明显的漏洞，使得其 claims 与其实际表现之间存在一定落差。 📌 核心摘要本文提出一种用于音素级强制对齐（FA）的端到端、完全可微神经系统。传统FA系统（如MFA）依赖G2P词典，而现代ASR模型（如Whisper）的时间戳精度不足。本文方法包含三个模块：1）表示编码器，通过新型对比损失（MNCE）学习区分音素内部稳态帧与边界过渡帧的特征；2）上下文编码器，生成帧级音素后验概率；3）基于软动态规划（Soft-DP）的解码器，实现对齐过程的端到端训练。实验表明，该方法在英语音素对齐上优于MFA，且在无训练的情况下对荷兰语、德语展现出强泛化能力，在词级对齐上也超越了现有神经对齐基线。 🔗 开源详情代码：https://github.com/MLSpeech/FALCON/ 模型权重：未提及开源链接。数据集：论文中提及使用了TIMIT、Buckeye、IFA Dutch Corpus、PHONDAT German Corpus以及希伯来语广播新闻数据集，但未提供这些数据集的下载链接或具体开源协议信息。 Demo：https://github.com/MLSpeech/FALCON/（项目主页包含演示示例）。复现材料：论文提供了模型架构和训练过程的详细描述，但未提供独立的训练配置文件、检查点下载或附录等具体复现材料。 🏗️ 方法概述和架构该系统（命名为FALCON）由三个核心模块串联而成，端到端训练目标为组合损失函数。 ...

Graph-Based Phonetic Error Correction of Noisy ASR

📄 Graph-Based Phonetic Error Correction of Noisy ASR #图神经网络 #大语言模型 6.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #语音识别 | #图神经网络 | #大语言模型 | arxiv 👥 作者与机构 Pratik Rakesh Singh, Mohammadi Zaki, Aneesh Mukkamala, Pankaj Wasnik，均来自 Sony Research India。 💡 毒舌点评论文解决了一个实际问题（ASR后处理），动机清晰：ASR错误，尤其是对语义关键的实体、否定词等，并非随机，而是具有语音相似性的结构化错误。作者提出的方法（G-SPIN）逻辑链条是完整的：先用MLM（XLM-RoBERTa）做上下文异常检测找出疑似错误词，然后用一个在语音相似性上训练的图神经网络（GraphSAGE）生成候选词，再结合MLM打分进行Beam Search，最后让指令微调的大模型（Gemma-3-4b-it）在候选集里做最终选择。这个“先限制搜索空间，再在其中做精细选择”的思路本身是合理且符合直觉的。论文在四种语言（英、西、印地、泰卢固）上做了实验，显示WER等指标优于基线，这部分工作量是实打实的。附录还提供了一些理论分析和伪代码，体现了工作的完整性。然而，最大的问题在于开源和可复现性。论文声称方法“即插即用、无需重训练”，但没有提供代码、训练好的GNN权重、甚至完整的数据集链接。这使得“plug-and-play”的宣称大打折扣，读者无法验证或直接应用。实验对比的基线中，RLLM-CF作为最近的工作，其描述略显单薄，且图表（图2、图3）的绘制比较粗糙，缺乏清晰的图例和误差线。此外，方法在处理插入和删除错误上的效果有限，这在论文中承认了，但也暗示了该方法更适用于特定类型的ASR错误（语音混淆导致的替换）。总体而言，这是一篇方法设计有一定巧劲、实验尚可、但因开源缺失而显得“不够透明、难以检验”的工作，适合顶会中的“技术展示”类别，但离“必读”或“高影响力”尚有距离。 📌 核心摘要论文针对自动语音识别（ASR）输出中残留的、具有语音相似性结构的错误，提出了一种基于图神经网络的结构化纠错框架G-SPIN。该框架包含三个主要阶段：1）使用掩码语言模型（MLM）进行上下文异常检测，以识别疑似错误词；2）利用在词汇表的音素相似性图上训练的图神经网络（GNN），为每个疑似错误词检索一组语音上合理的候选词；3）通过MLM打分进行Beam Search生成候选集，并最终由一个指令微调的大语言模型（LLM）在上下文约束下选出最佳纠正词。该方法的核心在于先利用语音结构约束候选空间，再依赖LLM进行上下文选择，从而避免无约束生成带来的幻觉和过度纠正。论文在英语、西班牙语、印地语和泰卢固语的Loquacious-Set数据集上进行了实验，结果表明G-SPIN在WER等指标上优于DoCIA、RLLM-CF等基线方法。理论分析（附录）表明，将纠正操作限制在语音邻域内可以提高冻结LLM的局部稳定性。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供训练好的GNN或其他模型的权重下载链接。数据集：论文使用了Loquacious-Set (Parcollet et al., 2025)，但未在论文中提供获取该数据集的具体链接或说明。 Demo：论文中未提及。复现材料：论文附录提供了GNN架构配置（表4）、ASR纠错伪代码（算法1）以及LLM提示模板（图4），这些信息为复现提供了重要参考，但不足以完全复现实验。论文中引用的开源项目： XLM-RoBERTa：https://huggingface.co/facebook/xlm-roberta-large Gemma-3-4b-it：https://huggingface.co/google/gemma-3-4b-it seamless-m4t-v2-large：https://huggingface.co/facebook/seamless-m4t-v2-large GraphSAGE：论文引用了Hamilton et al. (2017)，原始论文链接为 https://arxiv.org/abs/1706.02216。 BERTScore：论文引用了Zhang et al. (2020)，其官方GitHub仓库为 https://github.com/Tiiiger/bert_score。 SeMaScore：论文引用了 Sasindran et al. (2024)，但未提供具体链接。 🏗️ 方法概述和架构论文提出的G-SPIN框架将ASR纠错任务分解为三个顺序执行的推理时阶段，其整体架构如图1所示（Phase II）。核心组件与流程如下： ...

Joint Residual Reweighting for Classifier Free Guidance in Flow-Matching Zero-Shot TTS

📄 Joint Residual Reweighting for Classifier Free Guidance in Flow-Matching Zero-Shot TTS #语音合成 #语音增强 #生成对抗网络 #自监督学习 #生成模型 #多模态模型 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音增强 #自监督学习 | arxiv 👥 作者与机构作者：Runwu Shi, Yujin Wang, Hongjin Song, Chunxiang Jin 机构：Institute of Science Tokyo, Wuhan University, Beijing Institute of Technology, Ant Group ...

MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning

📄 MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning #自监督学习 7.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.4/10 | 前25% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Meta FAIR (Revant Teotia, Adrien Bardes, Michael Rabbat, Sumit Chopra, Matthew Muckley, Nicolas Ballas), New York University (Revant Teotia) 💡 毒舌点评论文提出了一个“简单”的框架，但其消融实验和超参数配置可一点也不简单。将一个巨大的ViT-g模型（1B参数）在混合数据集上训练，本身就需要巨大的计算资源，这与“简单”的宣称形成微妙对比。虽然结果不错，但将成功很大程度归功于“跨模态预测”这一简单机制，可能忽略了精心设计的训练技巧（如多阶段学习率、损失缩放）和规模化数据本身带来的红利。此外，结论中称该方法为“模态无关的统一架构”，但目前只在音频-视频这对相对规整的共现模态上验证，距离真正通用的多模态框架还有距离。未来工作部分提到的医学影像、机器人学等更多是画饼，缺乏初步论证。 ...

One Model, Many Latencies: Universal Speech Enhancement for Diverse Real-Time Applications

📄 One Model, Many Latencies: Universal Speech Enhancement for Diverse Real-Time Applications #实时处理 #多语言 #语音增强 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #实时处理 | #多语言 | arxiv 👥 作者与机构作者：Szu-Wei Fu, Rong Chao, Xuesong Yang, Sung-Feng Huang, Ante Jukić, Yu Tsao, Yu-Chiang Frank Wang 机构：1. 台湾大学电机工程系；2. 中央研究院资讯科技创新研究中心。机构信息在论文作者名字的上标中标明。 💡 毒舌点评这篇论文试图解决一个很实际的问题：用一个模型应对不同延迟要求的实时语音增强。想法很酷，但实现细节经不起推敲。并行卷积层（类似MoE）和早退机制的组合听起来很灵活，但所谓的“通用性”是建立在一个巨大的前提之下的——你得在部署时针对每个硬件和延迟预算重新测试并剪枝模型，这在实际应用中可能并不“通用”。所谓的“两阶段训练”本质上是个后处理的补丁，用来弥补早退机制带来的性能损失。实验数据虽多，但大部分是URGENT Challenge这个特定竞赛的数据集和设定，模型在VoiceBank-DEMAND上跑出的数字（PESQ 2.76）看着不错，但别忘了它可是用了3倍于DeepFilterNet3的参数量（2.9M vs 2.14M）才达到的，性价比存疑。最让人不安的是关于实时性的讨论：作者在论文里都承认12层模型在A100上RTF>1，不满足实时要求，却依然把它纳入“30种配置”中来宣传，这有点自欺欺人。总的来说，这是一篇工程整合度高于学术创新性的论文。 ...