论文速递 | 语音/音乐/音频论文速递

PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue

📄 PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue #语音合成 #语音识别 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #语音识别 | arxiv 👥 作者与机构 Wen Zhang, Xiaocui Yang, Zhuoyue Gao, Daling Shi, Yifei Feng, Daling Wang, Yifei Zhang。隶属于东北大学计算机科学与工程学院。 💡 毒舌点评这篇工作试图用多智能体框架解决共情语音对话这个“老大难”问题，方向是好的。但就像一个组装精良却忘了拧紧螺丝的机器，理论框架看起来挺完整，可细节经不起推敲。那个拍脑袋定权重的“确定性分数”，简直是对“科学计算”四个字的侮辱。实验倒是把所有能拿的指标都拿上了，但缺少最硬核的声学评估，就像评价一个歌手只看他写了多少词，却从不听他唱得怎么样。最要命的是，声称“可解释”，但各模块间的“协调”机制描述得像黑话，这“多智能体”的协作到底有多智能，恐怕连作者自己都说不清。 📌 核心摘要本文提出PRISM，一个用于共情语音对话的多智能体框架。该框架将语音感知、对话管理和语音合成分解为专门模块（Perceiver, Manager, Responder, Vocalizer），并通过引入“韵律到语言”转换机制，将低级声学线索转化为LLM可处理的文本描述，从而增强共情推理的可控性与稳定性。此外，框架支持按需调用外部知识工具。在AvaMERG数据集上的实验表明，PRISM在多个自动指标和人工评估上优于多种基线模型。 ...

Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment

📄 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment #语音合成 #语音编码 #自监督学习 #正则化微调 #低资源 #模型压缩 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #正则化微调 | arxiv 👥 作者与机构作者：Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang。论文未明确提及作者所属机构。 💡 毒舌点评这篇工作提出了一个简单有效且即插即用的训练技巧（Self-Guidance），确实能提升编解码器性能并减少码本大小，对下游LLM任务有益。但审稿人普遍会质疑其“新颖性”上限——这本质上是一种特征级别的对齐或正则化手段，在自蒸馏、特征模仿等领域早有类似思想。论文在理论分析上较为薄弱，缺乏对“为何对齐解码器特定层特征就如此有效”的深入数学或信息论解释。下游TTS实验规模太小，像一个仓促的验证，难以充分支撑“显著提升”的结论。整体而言，这是一篇扎实的工程改进工作，但离理论贡献或范式突破尚有距离。 📌 核心摘要本文针对VQ-VAE神经语音编解码器中量化误差限制重建质量的问题，提出了一种轻量级训练机制“自引导”（Self-Guidance, SG）。SG在训练时为解码器引入一个辅助分支，输入连续的预量化潜在向量（teacher路径），并通过一个特征映射损失（\(\\mathcal{L}_{\\text{guide}}\)）对齐该分支与原始量化输入分支（student路径）在解码器最后一个Transformer块输出的隐藏特征。此举旨在提升解码器对量化误差的鲁棒性，使其在推理时仅处理量化token也能生成更高质量的波形。实验表明，SG在XCodec2模型上取得了多项指标的SOTA，并能以1/4码本大小达到基线性能，从而有益于简化下游LLM的语音token建模。该机制泛化性良好，适用于不同的量化器和解码器架构。 ...

The Moving Drone: Negotiating Agency Between the Voice and the Virtual

📄 The Moving Drone: Negotiating Agency Between the Voice and the Virtual 6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6/10 | 前50% | arxiv 👥 作者与机构 Nithya Shikarpur: Massachusetts Institute of Technology (MIT) Victor Arul: Massachusetts Institute of Technology (MIT) Anna Huang: Massachusetts Institute of Technology (MIT) 💡 毒舌点评论文的核心是一场艺术表演的记录，其价值主要在概念批判和实践层面。作为一篇投稿NIME的论文，它成功地将AI技术与具体音乐文化实践结合，提出了一个发人深省的立场。然而，若以严谨的技术论文标准衡量，其技术贡献薄弱，实验部分仅为一场独奏演出的描述，缺乏任何对比、量化评估或用户研究。 “低质量”AI生成的讨论是全文最具批判性和启发性的部分，明确挑战了当前AI研究的主流范式。但这一论点几乎完全依赖艺术家的主观选择和陈述，缺少任何客观的声学分析或感知实验来佐证“低保真度”究竟带来了何种特定的美学效果或交互影响。系统描述（Max/MSP循环器+GaMaDHaNi）在技术上并不复杂，且关键实现细节（如模型推理的具体延迟、资源消耗、实时性保证）未提及。表演者反思中关于认知适应的描述生动，但属于个人体验，难以构成普适性的设计原则。表格1展示了四个拉格（raga）之间的音高移位关系，这是系统设计的一个具体且有趣的实例。然而，论文未解释这些特定拉格和移位量的选择依据，也未说明这种“跳跃”对音乐情感或即兴创作的可预见影响，使得这部分设计显得较为任意。论文承认了局限性（如缺乏听众研究），这很好。但更深层的问题在于，其结论——“将AI置于文化音乐实践中”——对于NIME社区来说已是共识，本文更多是一次个案实践，而非提供了新的方法论或可推广的技术方案。 📌 核心摘要本文报告了“The Moving Drone”这一艺术表演项目的设计与实践。项目旨在将印度斯坦音乐中传统上静态、服务于人声的持续音（tanpura），通过技术手段转变为一个具有渐进自主性的虚拟合作者。核心系统由四个Max/MSP循环器和一个名为GaMaDHaNi的条件化生成式AI模型构成。表演通过三个阶段展开：首先，循环器以反应方式记录人声，形成有机演化的持续音；其次，通过预设的音高移位实现“跳跃循环”，使持续音在旋律维度上更为主动；最后，利用GaMaDHaNi模型对循环音频进行重合成，在音色维度上赋予持续音自主性。该工作明确倡导有意识地使用低保真度、有噪的AI生成内容，以此批判当前AI音乐生成领域对高保真度和现实感的普遍追求，并将技术置于具体的文化音乐实践与协商关系中进行审视。 ...

Towards Personalized Federated Learning for Dysarthric Speech Recognition

📄 Towards Personalized Federated Learning for Dysarthric Speech Recognition #联邦学习 6.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #联邦学习 | arxiv 👥 作者与机构作者：Zhong Tao, Geng Mengzhe, Deng Jiajun, Hu Shujie, Liu Xunying。机构：香港中文大学，加拿大国家研究委员会。 💡 毒舌点评这篇论文抓住了一个重要且实际的问题——在隐私保护的前提下，如何让ASR模型更好地适应构音障碍患者高度异质的语音模式。想法很直接：把模型拆成“公共部分”和“私人部分”，然后用相似性来决定“私人部分”怎么聚合。但这种“直觉式”的创新在顶会看来可能不够深。最大问题是缺乏“硬核”的消融实验：你的模型分割、两种相似度计算、β权重调节，到底哪个是真正起作用的？混合策略（Sys.10）效果更好，是“1+1>2”还是简单的加权组合？论文没有回答。对比基线虽然不错，但只对比了一个自定义的“正则化FedAvg”和少量相关工作，没有与更多主流的个性化联邦学习算法（如FedPer, FedRep, pFedMe等）进行定量比较，这大大削弱了其在个性化FL领域的贡献说服力。理论分析空白，隐私保护部分只有概念性描述（采样、均值池化），缺乏对隐私泄露风险的定量评估或与差分隐私等技术的比较。总而言之，是一篇工程上有效、但科学深度欠奉的工作，更像一篇扎实的应用报告，离顶级会议对方法创新和理论深度的要求还有距离。 📌 核心摘要本文探索了联邦学习（FL）在构音障碍语音识别中的应用，核心问题是说话人之间的高度异质性导致单一全局模型性能不佳。为此，作者提出了两种个性化联邦学习聚合策略。方法核心是将模型（HuBERT）分割为说话人独立（SI）和说话人依赖（SD）两部分。SI部分在所有客户端共享并采用标准聚合。SD部分的聚合则结合了传统的数据量加权与一种新颖的基于说话人相似性的加权：1) 参数相似度法：基于客户端模型参数更新的余弦相似度计算相似性；2) 嵌入相似度法：基于SI部分输出的嵌入向量计算相似度。相似性权重通过一个超参数β与数据量权重进行线性组合，用于引导SD部分的聚合。实验在UASpeech和TORGO两个构音障碍数据集上进行，结果表明，所提方法相比一个强正则化FedAvg基线，在WER上取得了统计显著的降低（UASpeech最高0.99%，TORGO最高0.56%），证明了该策略的有效性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中引用了预训练的 HuBERT 模型，提供了其 HuggingFace 链接：https://huggingface.co/facebook/hubert-large-ls960-ft 数据集： UASpeech：公开的构音障碍语音识别数据集，论文中提供了文献引用，未提供直接获取链接。 TORGO：公开的构音障碍语音识别数据集，论文中提供了文献引用，未提供直接获取链接。 Demo：论文中未提及。复现材料：论文中描述了详细的模型配置（HuBERT 模型、CTC 损失、Transformer 层数）和部分实验设置（通信轮数100、GPU 型号、数据划分、正则化权重、β值）。未提供训练配置文件、检查点或代码。复现依赖于上述数据集和模型权重，且部分关键训练超参数缺失。论文中引用的开源项目： HuBERT: https://huggingface.co/facebook/hubert-large-ls960-ft Librispeech 数据集：论文中引用为训练 HuBERT 的数据集，但未提供具体链接。 🏗️ 方法概述和架构本文的核心方法是提出两种面向个性化联邦学习的模型聚合策略，以应对构音障碍语音识别中说话人高度异质性的挑战。 ...

Vocal Identity Under Siege by AI Voice Cloning Technologies

📄 Vocal Identity Under Siege by AI Voice Cloning Technologies #语音合成 3.2/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0/1.5 📝 3.2/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构论文作者：Jyh-An Lee (李俊安) 与 Xuan Sun (孙萱)。所属机构：香港中文大学法律学院 (The Chinese University of Hong Kong Faculty of Law)。其他信息：第一作者同时担任法律创新与数字社会中心 (Centre for Legal Innovation and Digital Society, CLINDS) 的教授及执行主任。 ...

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分前25% #语音合成 15. MiniMax Sparse Attention 7.7分前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Additive Noise, Shift Recovery, and Signed Signals in the Cumulative Distribution Transform

📄 Additive Noise, Shift Recovery, and Signed Signals in the Cumulative Distribution Transform #信号处理基础 6.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6.1/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Harbir Antil, Ratna Khatri, Aryan Saxena 1 Center for Mathematics and Artificial Intelligence and Department of Mathematical Sciences, George Mason University, Fairfax, Virginia 22030. 2 U.S. Naval Research Laboratory, Washington D.C ...

Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents

📄 Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents #数据集 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #数据集 | #数据集 | arxiv 👥 作者与机构作者：Chibuzor Okocha, Christan Grant 单位：University of Florida 💡 毒舌点评论文的核心贡献是一个评估框架和数据集，而非提出新的模型或算法。这固然是必要的“基础设施”工作，但创新性上打了折扣，更像是一篇精心设计的“调研报告”而非“技术突破”。开源承诺有些含糊。论文声称“All datasets, fixed splits, inference prompts, and evaluation scripts will be released”，但并未提供指向任何具体代码仓库（如GitHub）的链接，只是给了数据集的HuggingFace链接。这算“开源”吗？严格来说，这更像是“数据开放”，而复现所需的关键评估脚本和提示模板却锁在“未来发布”的承诺里。对比模型（CLAP）的评估结果惨不忍睹（接近随机），但论文并未深入探讨为何这些模型在细粒度推理任务上如此失效，只是简单归因于“embedding-only approaches”。这有点像用自行车去越野，然后抱怨它不适合爬坡。级联系统（ASR+LLM）在医疗数据上显著优于端到端模型，这个结论很有价值。但论文没有进一步分析是ASR转录的质量还是LLM的推理能力主导了这种优势，这使得建议显得有些笼统。 “口音漂移”和“口音克制”任务设计很有想法，直面模型公平性。但实验结果显示大多数模型表现都很差（高偏差率、低SRA），这到底是模型本身的缺陷，还是测试集构建（如使用LLM生成假设有偏）引入的噪声？论文对此的分析不够深入。 📌 核心摘要本文针对当前音频语言模型（ALMs）在超越转录的语义推理能力评估不足的问题，提出了一个统一的评估框架。该框架包含五个推理任务：音频蕴含、一致性、合理性、口音漂移和口音克制，旨在测试模型基于音频证据进行推断的能力，包括处理口音变异和语义过度推断的情况。研究评估了10个原生ALM（涵盖对比模型和生成式模型）以及多种级联（ASR+LLM）系统，使用了四个非洲英语语音数据集。结果表明，当前最先进的生成式模型（尤其是Qwen2系列）在多数任务上显著优于对比模型，但仍普遍存在“过度蕴含”和依赖先验知识而非音频证据的问题。此外，模型在领域偏移（如医疗对话）和口音变化下表现出明显的性能下降和语义漂移。级联系统在医疗蕴含任务上显示出优势。作者认为，现有基准严重低估了ALM的推理错误，本文的资源和分析旨在推动更全面、领域感知的音频语义推理评估。 ...

BadRobot: Jailbreaking Embodied LLM Agents in the Physical World

📄 BadRobot: Jailbreaking Embodied LLM Agents in the Physical World #大语言模型 #多模态模型 5.2/10 | 创新 1.3/2 | 严谨 0.8/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.2/10 | 后50% | #语音合成 | #大语言模型 | #多模态模型 | arxiv 👥 作者与机构第一作者及通讯作者：Hangtao Zhang，华中科技大学。合作者：Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Shengshan Hu (共同通讯作者)，均来自华中科技大学； Leo Yu Zhang 来自格里菲斯大学。 💡 毒舌点评这篇论文像是给机器人安全社区的一次“开箱测评”，只不过开的是“潘多拉魔盒”。作者成功证明了“用大语言模型当大脑的机器人，很容易被忽悠去干坏事”，这确实是个值得警惕的问题。但这份分析报告和论文本身一样，更像是一份“风险预告”而非严谨的“安全审计报告”。分析报告对论文核心贡献的梳理基本到位，但犯了两个典型毛病：一是对论文自身声称的“发布基准测试集”过于乐观，原文只是说提供文档，实际资源可得性存疑；二是对论文的软肋——实验深度不足、缺乏量化评估——挖掘得还不够狠。整篇论文（和分析）都在强调“我们发现了问题”，但对于“问题有多严重”、“现有防御有多大差距”这些顶会审稿人最关心的问题，却语焉不详。给6.5分，是认可其提出议题的重要性，但对其技术深度和实验证据强度深表怀疑。 ...

Benchmarking Neural Speech Compression from a Rate-Distortion Perspective

📄 Benchmarking Neural Speech Compression from a Rate-Distortion Perspective #基准测试 9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9/10 | 前25% | #基准测试 | #基准测试 | arxiv 👥 作者与机构作者：Jun Xu, Zhengxue Cheng, Fengxi Zhang, Yuhan Liu, Li Song (通讯作者), Wenjun Zhang 机构：上海交通大学信息科学与电子工程学院 💡 毒舌点评这篇论文的工作量是扎实的，对神经语音编解码器的现状进行了一次有价值的梳理，并提出了一个具体的方法。但所谓“Benchmarking”的定位稍显高调——它更像是一个“改进型”或“方法论文”，其核心贡献是提出的ECC模型，而非一个中立、全面的基准测试平台（代码和统一评估框架未开源）。实验结果不错，但对比的基线主要是已发布的、可能未针对相同数据集和训练设置优化的模型，这削弱了“公平基准”的说服力。创新点（如熵跳过）虽然实用，但并非原理性突破。论文行文有些冗长，图表可以更直观。总体来说，是一篇合格的、甚至优于平均水平的工作，但距离顶会标杆性文章还有差距。 📌 核心摘要本文从率失真理论出发，系统分析了当前神经语音编解码器中普遍存在的“表示学习与概率建模解耦”问题。为解决此问题，论文首先构建了一个统一的学习型语音编码框架，并对近期主流编解码器进行了分类学分析。随后，作者提出了熵约束编解码器（ECC），其核心创新在于：1）采用标量量化结合可学习的概率熵模型进行端到端训练；2）设计了通道级上下文建模与潜在残差预测机制；3）引入了无需额外传输信息的熵跳过机制，以提高编码效率。大量实验证明，ECC在多个公开数据集和评估指标上，实现了优于传统及神经网络基线的低比特率率失真性能。 🔗 开源详情代码：论文中未提供ECC的代码仓库链接。但提供了多个对比基线模型的开源实现链接。模型权重：论文中未提及ECC模型权重的具体获取链接。数据集： LibriTTS: 用于训练和评估。 VCTK: 用于域外评估。 AISHELL-3: 用于跨语言泛化评估。（论文中未提供这些数据集的具体下载链接，但它们是公开可用的标准数据集。） Demo：项目主页：https://avery-xu.github.io/ECC-demo/ 复现材料：论文提供了详细的训练配置和超参数（见论文表II），但未提供官方训练脚本或完整配置文件。论文中引用的开源项目（部分）： SoundStream: https://github.com/google/lyra EnCodec: https://github.com/facebookresearch/encodec DAC: https://github.com/descriptinc/descript-audio-codec SNAC: https://github.com/hubertsiuzdak/snac FunCodec: https://github.com/modelscope/FunCodec SpeechTokenizer: https://github.com/ZhangXInFD/SpeechTokenizer Mimi: https://github.com/kyutai-labs/moshi BigCodec: https://github.com/Aria-K-Alethia/BigCodec SemantiCodec: https://github.com/haoheliu/SemantiCodec-inference TAAE: https://github.com/Stability-AI/stable-codec 🏗️ 方法概述和架构 ECC的核心思想是将比特率作为可微分项直接纳入训练目标，从而联合优化编码器、量化器和熵模型，生成易于压缩的潜在表示。 ...