论文速递 | 语音/音乐/音频论文速递

Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs

📄 Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs #图神经网络 #自监督学习 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.6/10 | 前50% | #图神经网络 | #图神经网络 | #自监督学习 | arxiv 👥 作者与机构 Huu Tuong Tu (1), Hanh Nguyen (1), Thien Van Luong (2), Nguyen Tien Cuong (1), Vu Huan (1), Nguyen Thi Thu Trang (3) ...

Efficient Punctuation Restoration via Weighted Lookahead Scoring Method for Streaming ASR Systems

📄 Efficient Punctuation Restoration via Weighted Lookahead Scoring Method for Streaming ASR Systems #大语言模型 6.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.3/10 | 前50% | #大语言模型 | #大语言模型 | arxiv 👥 作者与机构论文作者为Sungmook Woo, Hyunku Kang, Chanwoo Kim。其中Chanwoo Kim为通讯作者，邮箱为chanwcom@korea.ac.kr。所属机构为韩国大学（Korea University）。 💡 毒舌点评这篇论文巧妙地将LLM的用途从“生成”扭转为“评分”，解决了一个流式处理中真实存在的“对齐”痛点，动机值得肯定。但作为一篇瞄准顶会的论文，其“贡献”的成色需要仔细掂量。核心方法——在固定候选集上计算一个加权得分——本质上是一个带先验的判别模型，并无深奥的理论突破。实验设计存在明显的“温室”问题：只在一个规范的会议演讲数据集上测试，且依赖“oracle segmentation”（理想句子分割），这就像在无菌实验室里宣称药物包治百病，到了真实世界（有噪声、有识别错误、句子边界模糊）可能立刻失灵。更致命的是，论文一边大谈“效率”和“流式兼容”，实验部分却对推理延迟、内存消耗等关键部署指标只字不提，这种“报喜不报忧”在严谨的评审看来是重大缺陷。总体而言，这是一篇工整的应用性工作，但距离证明其“普遍价值”和“工程严谨性”以冲击顶级会议，还有相当距离。 📌 核心摘要本文针对流式自动语音识别（ASR）后处理中，基于提示的LLM生成方法在边界评估下易出现转录漂移和对齐失败的问题，提出了一种非自回归的评分方法。该方法将LLM作为评分器，在固定的候选标点（逗号、句号、问号、无插入）上进行评分，而非生成新文本。核心是加权前瞻评分函数，结合了基于前文的局部先验概率和基于有限未来上下文（K个子词令牌）的似然概率，并通过校准的权重α和阈值τ进行决策。该方法在IWSLT 2017英语数据集上，无需微调即可达到0.893的4类宏平均F1（K=2），微调后达到0.937，超越了提示生成基线和微调的ELECTRA基线。 🔗 开源详情代码：是。提供了GitHub仓库链接：https://github.com/woomook0524/LLM-Scoring。模型权重：未明确提供。论文使用了Meta的Llama-3.2-1B模型，但未给出其HuggingFace或其他下载地址。微调后的LoRA权重也未提及是否公开。数据集：未明确提供。论文描述了从HuggingFace IWSLT 2017语料库构建数据集的过程，但未提供最终构建数据集的具体下载链接或独立数据仓库。 Demo：未提及。复现材料：论文提供了详细的训练配置（如LoRA参数：r=16, α=32, dropout=0.05；学习率2e-4；批量大小4；梯度累积4步；硬件：单块A100 GPU），但未提及是否提供预训练检查点或完整的数据预处理脚本。论文中引用的开源项目： Llama-3.2-1B & Llama-3.2-1B-Instruct：使用的语言模型，可从HuggingFace Hub获取（如 https://huggingface.co/meta-llama/Llama-3.2-1B 和 https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct）。 ELECTRA-Small：基线判别模型，可从HuggingFace Hub获取（如 https://huggingface.co/google/electra-small-discriminator）。 HuggingFace Transformers：用于模型推理的库（https://github.com/huggingface/transformers）。 🏗️ 方法概述和架构本文提出的方法名为“加权前瞻评分”（Weighted Lookahead Scoring），其核心思想是将流式标点恢复重新定义为一个有界前瞻假设检验问题。方法避免生成新文本，而是将预训练的LLM（本文使用Llama-3.2-1B）用作一个在封闭候选动作集上的评分引擎，从而保持输入转录不变并在每个词边界进行在线决策。整个架构分为三个阶段：上下文构建、LLM评分和阈值化边界决策。 ...

Enhancing Audio Captioning with Auxiliary AudioSet Semantics

📄 Enhancing Audio Captioning with Auxiliary AudioSet Semantics 6.3/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.3/10 | 前50% | arxiv 👥 作者与机构 Shubham Gupta, Adarsh Arigala, Sri Rama Murty Kodukula Speech Information and Processing Lab, Indian Institute of Technology Hyderabad, India 💡 毒舌点评这篇论文就像一个“优等生的规整笔记”：结构清晰、实验齐全、结论稳健，但缺乏让人眼前一亮的“灵光一闪”。其核心“创新”在于将已有技术（ConvNeXt、AudioSet标签、轻量Transformer）进行了工程化的“最佳实践”整合，并专注于效率-质量的权衡分析。这种扎实但保守的工作，对于追求方法新颖性的顶会而言，就像一道用料普通但火候精准的家常菜，好吃但难称惊艳。审稿人最想看到的是对“简单拼接融合”为何有效的深层机理剖析，或是对“为何是六层”这类设计选择的严谨论证，而非仅仅展示结果。 📌 核心摘要本文针对自动音频描述（AAC）任务中词汇选择不确定性以及主流大模型方法计算成本高的问题，提出了一种资源高效的框架。该框架通过一个冻结的ConvNeXt分类器预测音频的Top-K AudioSet关键词，并将其嵌入向量与另一个ConvNeXt音频编码器提取的帧级特征在时间维度上拼接，形成联合的声学-语义表示。这个表示被输入到一个自定义的、仅有六层（3层编码器+3层解码器）的BART风格Transformer解码器中，以自回归方式生成描述文本。论文的主要贡献在于验证了这种显式语义引导能够提升模型性能，并允许使用更紧凑的解码器达到更优的效率-质量平衡。在Clotho V2和AudioCaps数据集上的实验，包括跨数据集评估，表明该模型在多项指标上取得了具有竞争力的结果，尤其是在资源受限的部署场景下。 🔗 开源详情代码：论文中未提供作者自己模型的代码仓库链接。模型权重：论文中未提供。数据集：论文中未提供具体主页或下载链接。 Demo：论文中未提及。复现材料：论文在“3.2 Implementation Details”中提供了详细的训练配置参数，但未提供打包的配置文件或实验附录。论文中引用的开源项目：论文引用了ConvNeXt、AudioSet、PANNs、YAMNet、Pengi、LLaMA-2-7B、DistilBERT等项目，但均未在文中提供其GitHub或主页链接。 🏗️ 方法概述和架构本文提出的自动音频描述（AAC）框架旨在平衡描述质量与计算效率，其架构由三个核心模块串联构成，如图1所示。 ...

Exploring LLMs for South Asian Music Understanding and Generation

📄 Exploring LLMs for South Asian Music Understanding and Generation #音乐理解 #音乐生成 #低资源 #大语言模型 7.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前50% | #音乐生成 | #音乐理解 | #低资源 #大语言模型 | arxiv 👥 作者与机构 Faria Binte Kader, Mohtasim Hadi Rafi, Shah Wasif Sazzad, Santu Karmaker University of Central Florida, Auburn University ...

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

📄 F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation #语音合成 #音频生成 #语音识别 #自监督学习 #多任务学习 7.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #自监督学习 | #音频生成 #语音识别 | arxiv 👥 作者与机构 Dinghao Zhou, Xingchen Song, Di Wu, Pengyu Cheng, Shengfan Shen, Sixiang Lv。第一作者单位为南京大学，第二作者单位为WeNet开源社区。论文标注作者贡献相等。 💡 毒舌点评这篇论文的工作量扎实，试图解决音频标记器在“理解”与“生成”目标间的固有矛盾，技术路线清晰。但“新颖性”的成色需要仔细考量，其核心组件（归一化瓶颈、RQ-MTP、流匹配头）均为已有技术的组合与适配，缺少原理层面的根本性突破。更令人皱眉的是，作为一篇顶会论文，在“开源”和“可复现性”上的表现堪称“裸奔”——不提供代码、模型权重或详细的训练配置，这让所有令人印象深刻的实验结果都成了“黑箱表演”，极大地削弱了其可验证性和社区贡献度。实验部分虽然全面，但在生成任务上与最新SOTA（如Qwen3-TTS、Ming-Omni系列）的比较略显取巧，Token Rate不统一且SIM分数缺失，难以进行公平对比。总体来说，这是一篇完成度不错、但“诚意”不足的“应用整合式”论文。 ...

FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

📄 FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition #语音识别 #参数高效微调 #低资源 #语音问答 8.0/10 | 创新 6/2 | 严谨 7/1.5 | 实验 6/1.5 | 清晰 8/1 | 影响 5/1.5 | 开源 7/1.5 | 复现 7/0.5 | 工程 6/1.5 🔥 8.0/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #语音问答 | arxiv 👥 作者与机构 Fernando López, Santosh Kesiraju, Jordi Luque Telefónica Innovación Digital Spain, Universidad Autónoma de Madrid Spain, Brno University of Technology Czech Republic ...

FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors

📄 FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors #大语言模型 #音频生成 #语音合成 #数据增强 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #音频生成 | #数据增强 | #大语言模型 #语音合成 | arxiv 👥 作者与机构作者：Sepehr Dehdashtian, Jacob H. Seidman, Vishnu Naresh Boddeti, Gaurav Bharaj 机构：未明确说明作者所属机构。 💡 毒舌点评优点： ...

Forgive or forget: Understanding the context of hate in audio retrieval systems

📄 Forgive or forget: Understanding the context of hate in audio retrieval systems #多模态模型 7.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #多模态模型 | arxiv 👥 作者与机构论文未在提供的正文中明确提及作者及机构信息。根据arXiv元数据，需查阅论文首页确认。 💡 毒舌点评这篇论文处理了一个重要但尴尬的问题：你正用音频检索系统找个安静的雨声白噪音助眠，结果它热情地给你推送了一段充满人身攻击的“雨声”——因为那音频里恰好有人在暴雨中激烈争吵。文章提出的“忘掉”（Forget）和“原谅”（Forgive）双管齐下的后处理框架，试图让检索系统在“记住”语义的同时“忘掉”毒性，思路清晰且有实用价值。然而，正如审稿人总会怀疑“后处理是不是万能膏药”一样，其因果框架的简化（假设模型M是唯一混杂因子）和依赖第三方组件（LLM生成提示、ASR转录、毒性分类器）的鲁棒性，在当前实验中未得到充分压力测试。更关键的是，论文如同“自产自销”的闭环：用自己的新指标，在有限的两个数据集上，评估自己提出的方法。虽然结果“一致提升”，但缺乏在更复杂、更真实的有毒音频场景（如隐蔽的讽刺、跨语言仇恨）下的验证。对于一篇旨在解决实际安全问题的论文，这种实验的“温室”感，让人对其声称的广泛影响力打个问号。总分给到7.0，因为它确实提出了解决新问题的完整框架，但距离经得起推敲的顶会标准论文，实验的硬度和理论的深度还需捶打。 📌 核心摘要本文针对文本到音频检索系统中可能无意返回有害/仇恨音频的问题，提出了一个新颖的后处理因果去偏框架。该框架包含两个互补策略：“Forget”策略通过生成六类反事实有毒提示并应用基于Noise2Noise原理的对数平均，从模型层面系统性抑制有毒偏置；“Forgive”策略则对检索到的音频进行转录和毒性分类，通过softmax重新归一化对有毒音频进行降级，同时保留语义相关但无害的内容。为评估效果，论文提出了成功率（Success Rate）、准确性（Accuracy）和敏感度（Sensitivity）三个新指标。在AUDIOCAPS和CLOTHO数据集上，针对ATNLL、TUAR和WavCaps三个基线模型的实验表明，结合“Forget+Forgive”的方法在所有评估设置下均显著提升了成功率（即毒性抑制效果），同时保持了较高的检索准确性和敏感性。论文的消融研究显示，“Forget”在抑制毒性方面更强，而“Forgive”在保持准确性上更优。此外，音频质量分析表明处理后音频与原始参考高度相似。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： AUDIOCAPS: 论文使用了AUDIOCAPS的测试集。该数据集由一篇论文介绍，可通过其官方渠道获取。获取详情请参考原始论文：AUDIOCAPS: Creating a Data Set for Descriptive Video Description and Training。 CLOTHO: 论文使用了CLOTHO的测试集。该数据集的获取方式请参考其论文及官方发布渠道：CLOTHO: An Audio Captioning Dataset。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目： Silero Speech-to-Text (ASR) Model: 用于将检索到的音频转换为文本。项目地址：https://github.com/snakers4/silero-vad (论文中引用为 [14])。 Detoxify: 用于对转录文本进行毒性分类。项目地址：https://github.com/unitaryai/detoxify (论文中引用为 [6])。 Noise2Noise: 论文中的Forget策略应用了其原理来平均化对数概率。相关论文：Image-to-Image Translation via Conditional Adversarial Networks (Noise2Noise) (论文中引用为 [8])。 NOMAD (Non-Matching Audio Distance): 用于评估过滤后音频质量的指标。相关论文：NOMAD: A Metric for Evaluating Generative Audio Models (论文中引用为 [12])。基准模型 (论文中作为对比基线，但未提供其官方代码链接): ATNLL: 引用文献 [15]。 TUAR: 引用文献 [11]。 WavCaps: 引用文献 [9]。 🏗️ 方法概述和架构本文提出一个后处理（post hoc）因果去偏框架，旨在不修改原有检索模型参数的前提下，集成到任何文本到音频检索系统中，以抑制有害音频的返回。该框架的核心是应用“前门调整”（front-door adjustment）来处理未观测的混杂因子（即检索模型M）。框架包含两个互补的策略模块：“Forget”和“Forgive”，其整体架构如论文图1所示。 ...

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval

📄 FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval #参数高效微调 #对比学习 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前25% | #参数高效微调 | #参数高效微调 | #对比学习 | arxiv 👥 作者与机构作者：Arghya Pal, Sailaja Rajanala 机构：Monash University 💡 毒舌点评这篇工作试图用一阶逻辑（FOL）给跨模态检索注入“形式化理性”，想法很有野心，像是要给充满直觉的深度学习模型戴上一副逻辑眼镜。其核心流程（FOL精炼 -> 投影对齐 -> 谓词重排）设计得相当工整，消融实验也做得扎实，证明了每一环都不是摆设。但问题在于，这副“眼镜”太重且太挑剔：FOL解析器的性能直接决定了上限，对音频本体的覆盖（642个谓词）依然有限，遇到“electrical interference”这种词就趴窝了。更关键的是，论文在展示结果时，对绝对数值的解读有些过于乐观，比如在Clotho上R@1从16.75%提到20.4%是显著进步，但离真正“解决”细粒度检索还很远。总的来说，这是一个有价值的、工程上颇为完整的尝试，展示了符号推理的潜力，但距离成为通用、鲁棒的解决方案还有明显差距。 📌 核心摘要本文提出了FORTE（FOL-guided Optimal Refinement for Text-audio rEtrieval），一个用于改进文本到音频检索的三阶段统一框架。其核心思想是将自然语言查询转化为形式化的一阶逻辑表示，并通过结构化搜索进行精炼，以引入更具区分性的声学属性，同时保持核心语义不变。精炼后的查询通过一个轻量级投影模块与音频嵌入进行参数高效对齐，最后在推理时应用一个基于谓词重叠的重排序步骤，以进一步提升语义一致性。在AudioCaps和Clotho数据集上的实验表明，FORTE在多个骨干网络（CLAP, LAION-CLAP, Pengi）上均能带来一致的性能提升，尤其在细粒度检索场景下。 ...

GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech

📄 GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech #语音合成 #强化学习 #参数高效微调 8.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前25% | #语音合成 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构作者：Jaehoon Kang, Yejin Lee, Kyuhong Shim 单位：Department of Artificial Intelligence, Sungkyunkwan University, Korea 联系邮箱：{morateng, yj.lee, khshim}@skku.edu 💡 毒舌点评 “这篇工作就像给一个功能完备的智能音箱装上了几个精心调校的‘情绪旋钮’。思路清晰、模块化做得不错，实验也扎实地证明了‘旋钮’拧得动。但旋钮种类目前只有两个（语速和音高），且背后的‘电机’（奖励函数）设计得有点简陋——主要靠查字数（WER）和量音调（F0），这让‘情绪’的丰富性大打折扣。最大的槽点在于，作者自己都承认在组合多个旋钮时可能会‘翻车’（过冲），这使得其宣称的‘可组合性’打了折扣。整体而言，是一篇合格的工程优化论文，离‘优雅的学术突破’还差那么点意思。” ...