论文速递 | 语音/音乐/音频论文速递

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构作者：Qixu Chen，Satoshi Nakamura 机构：School of Data Science 和 School of Artificial Intelligence，The Chinese University of Hong Kong, Shenzhen, China ...

Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation

📄 Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation #语音合成 #音频生成 7.9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #音频生成 | arxiv 👥 作者与机构 Ryota Kawamatsu (东京大学, 产业技术综合研究所) Anum Afzal (产业技术综合研究所, 慕尼黑工业大学) Yuki Saito (东京大学) Shinnosuke Takamichi (庆应义塾大学, 东京大学) Graham Neubig (卡内基梅隆大学) Katsuhito Sudoh (奈良女子大学) Hiroya Takamura (产业技术综合研究所) Tatsuya Ishigaki (产业技术综合研究所) ...

M*: A Modular, Extensible, Serving System for Multimodal Models

📄 M*: A Modular, Extensible, Serving System for Multimodal Models #多模态模型 8.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前25% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Atindra Jha1, Naomi Sagan1, Keisuke Kamahori2†, Irmak Sivgin1†, Rohan Sanda1, Steven Gao2, Mark Horowitz1, Luke Zettlemoyer2, Olivia Hsu1,3, Jure Leskovec1‡, Baris Kasikci2‡, Stephanie Wang2‡ 1 Stanford University 2 University of Washington 3 Carnegie Mellon University *共同第一作者，†第二作者，‡同等指导 ...

MiniMax Sparse Attention

📄 MiniMax Sparse Attention #高效推理 #多模态模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #高效推理 | #多模态模型 | arxiv 👥 作者与机构 Xunhao Lai (MiniMax, Peking University), Weiqi Xu (MiniMax), Yufeng Yang (MiniMax), Qiaorui Chen (NVIDIA), Yang Xu (MiniMax, Zhejiang University), Lunbin Zeng (MiniMax, Huazhong University of Science and Technology), Xiaolong Li (MiniMax, Zhejiang University), Haohai Sun (MiniMax), Haichao Zhu (MiniMax), Vito Zhang (MiniMax, Peking University), Pengyu Zhao (MiniMax) ...

Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification

📄 Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification #多模态模型 #说话人识别 #知识蒸馏 8.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #说话人识别 | #知识蒸馏 | #多模态模型 | arxiv 👥 作者与机构 Peng Jia, Li Dai, Jia Li, Zhenzhen Hu, Ye Zhao, Richang Hong Hefei University of Technology 💡 毒舌点评这篇论文就像一份精心包装的竞赛技术报告。它准确地解决了POLY-SIM 2026挑战赛中定义明确的工程问题——在特定数据集上处理面部缺失的多语言说话人识别，并取得了优秀的竞赛成绩（第二名）。然而，从顶级学术会议的视角审视，其学术贡献显得相当单薄。所谓的“核心创新”——可学习的缺失token和可靠性感知融合——在更广泛的多模态学习文献中已非新鲜事，论文未能提供足够的理论深度来证明其在该任务上优于这些通用方法的原理。关键模块（如可靠性评分器）的设计和监督方式含糊不清，实验评估完全局限于单一竞赛数据集，且基线设置过于简单，使得“有效性”的证明力度大打折扣。论文更像是一份成功的工程优化总结，而非一篇提出具有广泛启发性的新原理或新技术的学术论文。 ...

NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

📄 NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation #语音翻译 #语音合成 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 7/10 | 前50% | #语音翻译 | #语音合成 | arxiv 👥 作者与机构作者：Dongwook Lee, Youngho Cho, Sangkwon Park, Heeseung Kim†, Sungroh Yoon† 机构：首尔大学 (1IPAI, 2ECE), 首尔市立大学 (3Department of AI) 💡 毒舌点评这篇论文精准地指出了同传S2ST领域一个被长期忽视但至关重要的问题：过度优化延迟导致的输出“结巴”。其“银牌偏好”策略在理论上是巧妙的“安全带”，能有效防止模型为了追求“丝滑”而彻底放弃“信达雅”。然而，审稿人必须指出，所谓的“显著改善”在某些场景下略显“雷声大雨点小”，比如在最短的CVSS-C数据集上，SR的绝对值本身就极低，从0.24降到0.11（高SR子集）的统计意义需结合实际听感判断。此外，论文将自身定位为通用优化框架，但所有实验仅限于法英对，结尾却轻率地展望“广泛语言对扩展”，这种“画饼”行为在顶会审稿人看来是典型的过度推断，缺乏严谨性。最后，开源信息的全面缺失（无代码、无权重）让其“可复现性”大打折扣，对于一篇强调方法论普适性的工作而言，这是一个明显的短板。 ...

Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

📄 Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations #提示学习 #大语言模型 9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.6/10 | 前25% | #语音识别 | #提示学习 | #大语言模型 | arxiv 👥 作者与机构作者：Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong, Baotian Hu, Min Zhang 机构：哈尔滨工业大学（深圳）计算与智能研究所深圳环岛研究院 💡 毒舌点评这篇论文的出发点不错，将“本体”和“记忆”这两个概念塞进ASR后纠正任务里，试图解决长上下文对话中信息稀疏和噪声干扰的问题。想法算是有点新意，但读下来总觉得哪里差点意思。方法上，所谓的“本体工作记忆”本质上是个动态更新的实体/术语库加检索，没什么理论深度。最让人困惑的是，论文声称提出一个“框架”，但很多关键组件（如本体提取器 E_ϕ、检索器 Retrieve_η）的实现细节完全黑箱，就用个“实现无关”一笔带过，这到底是框架还是个实验性pipeline？实验部分倒是铺得挺开，用了不少模型，但Baseline的选择有点迷惑。那个用Gemma-4-26B做的“Full-History”baseline，直接把所有历史文本塞给模型，这不就等于验证了“塞太长上下文对LLM也没用”这个大家都知道的结论吗？这对验证你本体记忆的有效性有什么帮助？最实在的贡献可能还是那个RAMC-Corr数据集，流程说得很细，是个不错的评测基准。总而言之，想法可取，工程实现有待商榷，论证不够严密，像一篇做了很多实验但没想透彻的早期工作。 ...

PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation

📄 PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation 6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | arxiv 👥 作者与机构作者：Giang Son Nguyen, Tung X. Nguyen, Hieu Minh Truong, Nhu Vo, Wray Buntine, Dung D. Le。机构：越南VinUniversity，澳大利亚University of Technology Sydney，澳大利亚Monash University。 💡 毒舌点评这篇论文像一个精心打磨的“单线程”应用题：针对越南语翻译中一个具体痛点（ASR错误传播），提出了一个巧妙且相对完整的技术解决方案（基于音素嵌入的错误模拟）。优点是问题定义清晰，实验对比充分，方法有一定启发性。但作为一篇顶会论文，它的“格局”打开了吗？并未。所有实验都绑定在越南语和FLEURS这一个“小池塘”里，方法核心局限于“音节内替换错误”这一种错误类型，像是给一座特定的房子换了一把好锁，却声称解决了整个社区的安防问题。创新性受限于语言和任务的具体性，难以直接泛化。更关键的是，声称解决了级联系统的鲁棒性问题，却回避了与端到端模型的正面交锋，说服力打了折扣。总体而言，这是一篇扎实的“领域适配”工作，但距离定义新方向的开创性研究还有明显距离。 📌 核心摘要本文针对越南语级联语音翻译中ASR错误传播导致性能下降的问题，进行了首次系统性研究。通过对ASR替换错误进行音素层面的分类，并利用线性混合效应模型量化其对翻译的影响，证实了大多数错误源于系统性的音素混淆。基于此发现，提出了音素感知数据增强方法（PiDA）。该方法利用预训练的音素嵌入模型（XPhoneBERT）计算音节间的音素相似度，在训练数据中合成与真实ASR错误分布相似的替换错误。在FLEURS数据集上的实验表明，使用PiDA增强数据微调的NMT模型，在翻译带有错误的ASR输出时，BLEU分数显著优于基线方法，并且保持了对干净文本的翻译性能。 🔗 开源详情代码：论文未提供PiDA方法本身的代码仓库链接。模型权重： ASR模型: PhoWhisper-large: 论文中提及，但未给出具体模型权重链接。 wav2vec2-base-vietnamese-250h: 论文中提及，并提供了其GitHub仓库链接：https://github.com/vietai/ASR。 NMT模型: VinAI-Translate (vinai-translate-vi2en-v2): 论文中提及，但未给出具体模型权重链接。语音嵌入模型: XPhoneBERT (xphonebert-base): 论文中提及，但未给出具体模型权重链接。数据集： FLEURS (越南语-英语子集): 论文中作为主要评估和实验数据集。链接：https://google.github.io/fleurs/。 MultiMed-ST: 论文中提及并评估，但指出其质量存在问题。链接：论文中未直接提供，但引用了相关论文。 Demo：论文中未提及。复现材料：论文中提供了详细的实验设置、超参数（如表4所示的k和τ）和训练协议，但未提供具体的训练脚本、配置文件或预训练检查点链接。论文中引用的开源项目： PhoWhisper (ASR模型): 论文中引用，链接：https://openreview.net/forum?id=x3c3MkJfpG。 wav2vec 2.0: 论文中引用，链接：https://arxiv.org/abs/2006.11477。 Whisper: 论文中引用，链接：https://proceedings.mlr.press/v202/radford23a.html。 XPhoneBERT: 论文中引用，链接：https://doi.org/10.48550/arXiv.2306.12258 (根据引用信息推断)。 CharsiuG2P (G2P工具): 论文中提及，引用了相关论文。 FAISS (索引库): 论文中提及，引用了相关论文。 wordfreq (词频库): 论文中提及，链接：https://doi.org/10.5281/zenodo.7199437。 Gemini 2.5 Flash (LLM): 论文中提及，引用了相关报告。 Llama-SEA-LION-v3.5-8B-R: 论文中提及，链接：https://huggingface.co/aisingapore/Llama-SEA-LION-v3.5-8B-R。 Vistral-7B-Chat: 论文中提及，引用了相关论文。 FLEURS (数据集): 论文中引用，链接：https://google.github.io/fleurs/。 MultiMed-ST (数据集): 论文中引用，链接：论文中未直接提供，但引用了相关论文。 PWESuite / PSET (评估基准): 论文中引用，链接：分别为https://aclanthology.org/2024.lrec-main.1168/ 和 https://aclanthology.org/2025.emnlp-main.373/。 PanPhon: 论文中引用，链接：https://aclanthology.org/C16-1328/。 Phoneme2Vec: 论文中引用，链接：https://doi.org/10.1145/3397271.3401050。作者与机构作者：Giang Son Nguyen, Tung X. Nguyen, Hieu Minh Truong, Nhu Vo, Wray Buntine, Dung D. Le。机构：越南VinUniversity，澳大利亚University of Technology Sydney，澳大利亚Monash University。 ...

Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition

📄 Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition #语音识别 #低资源 #模型压缩 8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #模型压缩 | #低资源 | arxiv 👥 作者与机构作者：Benedikt Hilmes, Nick Rossenbach, Ralf Schlüter 机构：RWTH Aachen University 机器学习与人类语言技术组, Apptek GmbH (德国亚琛) 💡 毒舌点评这篇论文精准地切入了一个“硬件-算法协同设计”的细分痛点：在忆阻器这种新兴模拟计算硬件上，一个原本能提升性能的常规组件（相对位置编码）反而成了性能毒药。文章的价值在于揭示了这种“水土不服”的现象并给出了工程上的补救方案。然而，作为一篇投向顶会的论文，其贡献的“宽度”和“深度”略显不足。它更像一份扎实的硬件部署问题诊断报告，而非一篇提出全新算法或深刻理论洞察的论文。问题本身有趣，但解决方案（调整ADC位数、移除线性层）相对直接，缺乏令人眼前一亮的创新。此外，结论中“∼50%”和“∼30%”的表述需要更精确的定义和基准，否则容易产生误导。 ...

Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations

📄 Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations #语音情感识别 6.7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.7/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Tahiya Chowdhury，Department of Computer Science, Colby College, Waterville, Maine, USA。 💡 毒舌点评论文试图在“自然对话”和“认知负荷”这个有点棘手的交叉点上做点事，动机值得肯定，特别是在远程协作普及的当下。但坦白说，整体感觉像是用一套相对标准、甚至略显保守的方法（eGeMAPS + GRU + RF）去验证一个假设。交互特征的引入算是个亮点，但“基于VAD的说话时间/轮次”这种特征集实在算不上新颖。更关键的是，53对对话、475个样本，这点数据量喂给GRU这种序列模型，能学到的“时序动态”恐怕有限，文中甚至承认了带注意力的GRU效果没提升，这直接削弱了“动态”这个卖点。结论说“交互特征提供了更强的预测力”，但看绝对数值（CCC最高0.51），离实际可用还差得远，更像是说“在这些特定特征上找到了一点统计相关性”。作者自己也提到了一个致命问题：这些交互模式可能只是任务结构的反映（比如，时间紧的任务自然会导致更多打断），而非纯粹的认知负荷。论文对此有探讨，但显然没有解决，这让整个工作的解释力打了个折扣。总的来说，是一篇中规中矩的探索性工作，证明了“有点信号”，但离“可靠预测”和“深入理解”还有明显距离。 📌 核心摘要本文探讨了在自然双人协作对话中，利用语音和交互动态预测主观认知负荷（NASA-TLX量表得分）的可能性。研究使用AVCAffe数据集（53对参与者，9项任务），提取了静态声学特征（eGeMAPS）、时序动态声学特征（一阶差分）和基于语音活动的交互特征（如说话时间比例、轮次转换率）。作者将问题建模为回归任务，使用双头GRU编码器处理成对的参与者语音特征序列，并与随机森林基线进行对比。实验采用留一法交叉验证以确保泛化能力。结果表明，仅使用声学特征即可对时间需求（CCC≈0.42）和智力需求（CCC≈0.22）进行高于偶然水平的预测。加入交互特征后，预测性能显著提升，尤其是时间需求（CCC提升至0.51）。特征重要性分析显示，时间需求与轮次转换、重叠等交互动态相关，而智力需求与说话时间分配不平衡相关。然而，模型（GRU与随机森林）之间的性能差异在统计上不显著。研究结论认为，语音和交互动态包含了可泛化的认知负荷信号，但预测性能受数据集规模、标签粒度及交互特征与任务模式混淆等因素限制。 🔗 开源详情代码：论文中未提及提供代码链接或仓库。模型权重：论文中未提及提供模型权重。数据集：论文中引用了AVCAffe数据集，具体获取链接需参考该数据集论文（sarkar2023avcaffe）。本文未提供直接链接。 Demo：论文中未提及。复现材料：论文中未提供。论文详细描述了模型结构、训练参数和评估流程，理论上可辅助复现。论文中引用的开源项目： OpenSMILE：https://github.com/audeering/opensmile （用于提取eGeMAPS声学特征）。 Silero VAD：https://github.com/snakers4/silero-vad （用于语音活动检测）。 🏗️ 方法概述和架构本文提出的方法主要包含三个核心阶段：特征提取、模型构建与评估。 ...