论文速递 | 语音/音乐/音频论文速递

Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark Dataset for Hindi

📄 Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark Dataset for Hindi #语音识别 #多模态模型 #低资源 6.7/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #语音识别 | #多模态模型 | #低资源 | arxiv 👥 作者与机构作者：Sujith Pulikodan, Agneedh Basu, Saurabh Kumar, Pranav Bhat, Pavan Kumar J, Visruth Sanka, Nihar Desai, Prasanta K. Ghosh 机构： ...

What Do Neural Networks Learn for TDOA Estimation? A Cross-Architecture Probing Study

📄 What Do Neural Networks Learn for TDOA Estimation? A Cross-Architecture Probing Study #声源定位 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.7/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构作者：Kang, Wang, Shi, Ashizawa, Yen, Nakadai (注：原文作者列表中包含 Yaozhong Jiang, Runwu, Takeshi, Benjamin, Kazuhiro，但署名单位一致) 机构：Department of Systems and Control Engineering, Institute of Science Tokyo, Japan ...

When EER Hides Deployment Failure: Auditing Threshold Transfer and Unlabeled Score Calibration for Speech Deepfake Detectors

📄 When EER Hides Deployment Failure: Auditing Threshold Transfer and Unlabeled Score Calibration for Speech Deepfake Detectors 8.6/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | arxiv 👥 作者与机构作者：Jingwen Zhou, Mingzhe Wang 机构：未在论文中说明 💡 毒舌点评这篇论文就像一位严谨的审计师，给当前语音反欺骗评估实践做了一次彻底的“财务审计”。它精准地抓住了EER这个“会计准则”在“实际部署”中的系统性失真，审计报告写得无可挑剔：理论证明简洁有力（单调不变性），实证审计设计周密，失败模式的剖析入木三分（尤其是C2方法在不同先验下的戏剧性表现）。然而，这位审计师的“处方”却显得有些保守——主要停留在“开具更好的诊断报告”（建议报告HTER）上，而对于“如何治疗”（设计对先验鲁棒的操作点校准方法）则浅尝辄止，将其完全留给了未来工作。这使得论文的贡献更像是一个权威的“问题诊断书”，而非一个完整的“解决方案集锦”，在建设性上稍显不足。 📌 核心摘要本文针对语音深伪检测器评估中的一个核心痛点——实验室指标（EER）与真实部署性能之间的巨大鸿沟——进行了系统性的审计。研究冻结了当前最先进的SSL-AASIST模型，通过严谨的阈值转移实验，揭示了一个惊人的现象：在源域（ASVspoof 2019 LA）上EER接近零的模型，直接应用于目标域（In-the-Wild）时，仅因阈值误用就导致了近40%的半总错误率（HTER），其中超过四分之三的真语音被误判为伪造。论文的核心理论贡献在于证明了：任何严格单调递增的分数变换（涵盖了一大类流行的无标签校正方法）在理论上无法改变EER，其价值仅限于调整操作点。基于此，论文通过实验审计了七种校正方法，不仅实证验证了上述理论，更揭示了三种新的失败模式：EER的单调不变性、AS-norm方法因队列污染导致的性能坍塌、以及伪标签校准方法因目标先验未知而产生的极端脆弱性。最终，论文向社区提出了一个具体、可行的评估实践改进方案。 🔗 开源详情代码：论文中未提供代码仓库链接或具体代码。模型权重：论文中提及使用官方发布的SSL-AASIST检查点 LA_model.pth，并说明从“官方发布的公共镜像”获取，但未提供HuggingFace、ModelScope或其他模型仓库的直接链接。数据集：论文中提及使用ASVspoof 2019 LA eval、In-the-Wild corpus、ASVspoof 2021 DF eval subset，并描述了使用特定子集（来自parquet镜像的特定分片）的具体细节，但未提供数据集下载链接或项目主页。 Demo：论文中未提及。复现材料：论文未提供配置文件、脚本或检查点的直接下载链接。详细的实验设置（模型、数据、指标、校正方法实现）在论文的“Experiments”和“Audited Corrections”部分有文字描述。论文中引用的开源项目： SSL-AASIST: 论文中引用了该模型并使用了其检查点，但未提供其具体的GitHub仓库链接。 AASIST: 论文中引用了该模型架构。 wav2vec 2.0 XLS-R 300M: 论文中引用了该预训练模型。 TENT: 论文中引用了该方法（与C7相关）。 🏗️ 方法概述和架构本文的方法论核心是设计一个严格受控的评估框架，以分离并量化深伪检测器在部署时面临的两个核心问题：排序性能（由EER表征）和操作点选择（由转移阈值下的HTER表征）。 ...

Word Lengthening as a Function of Utterance Position: A Multi-Corpus Study

📄 Word Lengthening as a Function of Utterance Position: A Multi-Corpus Study #语音合成 #语音识别 8.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #语音合成 | #语音识别 | arxiv 👥 作者与机构作者：Mateo Cámara\(^{1}\), José Luis Blanco\(^{1}\), Juan Ignacio Godino-Llorente\(^{3}\), Jeung-Yoon Choi\(^{2}\), Stefanie Shattuck-Hufnagel\(^{2}\) 机构： \(^{1}\) Signal Processing Applications Group, Information Processing & Telecomm. Center, Universidad Politécnica de Madrid, Spain \(^{2}\) Speech Communication Group, Research Laboratory of Electronics, Massachusetts Institute of Technology, USA \(^{3}\) Bioengineering and Optoelectronics Lab., Universidad Politécnica de Madrid, Spain ...

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜（83 篇，按分数降序）排名论文总分分档主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

Co-policy: Responsive Human-Robot Co-Creation for Musical Performances

📄 Co-policy: Responsive Human-Robot Co-Creation for Musical Performances #音乐生成 #多模态模型 #扩散模型 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.5/10 | 前50% | #音乐生成 | #多模态模型 | #扩散模型 | arxiv 👥 作者与机构第一作者：Xuetao Li（武汉大学计算机科学学院）和 Wenke Huang（南洋理工大学计算与数据科学学院，联合第一作者）其他作者：Mang Ye（武汉大学计算机科学学院），Zijian Liu（武汉理工大学自动化学院），Jinhua Xie（武汉大学测绘遥感信息工程国家重点实验室），Jifeng Xuan（武汉大学计算机科学学院，通讯作者），Miao Li（武汉大学计算机科学学院与机器人学系，通讯作者）。机构：武汉大学（主要），南洋理工大学，武汉理工大学。 💡 毒舌点评这篇论文试图解决一个非常具体且有趣的问题：让机器人从“播放者”升级为“共创者”。框架设计清晰，模块化思路值得肯定。然而，评估体系存在明显短板：音乐质量评估完全依赖10位专家的主观盲评，尽管声称保留所有分数，但艺术评价的方差和偏见并未通过任何统计检验来量化或控制。作者自谦的“有限验证范围”其实点出了一个硬伤：系统严重依赖预先构建的“语义锚点库”，其扩展性和泛化到未见过的音乐风格的能力存疑。GMP策略虽然在低延迟上表现出色，但其“多模态动作模式”在消融实验中贡献相对有限，且缺少与最新迭代式策略（如Consistency Policy）的直接对比。论文最大的问题在于，它巧妙地将音乐AI的创造性评估与机器人学的执行性能评估捆绑在一起，但未能证明这种捆绑评估的必要性或优越性。一个纯粹的音乐生成模型和一个低延迟控制器的简单级联，在特定指标上是否真不如这个紧密耦合的系统？结论下的过于肯定。 📌 核心摘要本文提出了Co-policy框架，旨在将机器人音乐演奏从被动回放转变为主动协作创造。该框架是一个模块化的视觉-语言-动作（VLA）系统，包含三个核心部分：1）基于微调Qwen-vl（F-Qwen）的语义锚定模块，将语音、音符和视觉输入转化为结构化的协作计划；2）约束性音乐变化模块，在主题、和声、新颖性和可执行性等约束下生成互补的机器人音符响应；3）高斯混合视觉运动策略（GMP），通过单次前向传播直接映射目标音符和视觉上下文为多模态机器人动作，以实现低延迟响应。在真实钟琴敲击场景下的评估表明，Co-policy在协作质量评分和执行准确率上均优于扩散策略等基线，并通过专家盲评验证了其在意图对齐、创造性贡献和音乐连贯性方面的优势。 🔗 开源详情代码：论文中提供了明确的项目仓库链接，源代码、网页实现、提示模板和配置文件等均可获取：https://xtli12.github.io/Co-policy/docs/ 模型权重：论文中未提及模型权重（如微调后的F-Qwen、训练好的GMP）的公开下载链接（如HuggingFace/ModelScope）。数据集：论文中未提及独立公开的训练数据集链接。文中提到为训练收集了350条真实世界机器人演示轨迹，但其获取方式未在论文中公开。 Demo：项目主页包含演示视频等材料，可作为在线演示的入口：https://xtli12.github.io/Co-policy/ 复现材料：论文明确指出，项目仓库中提供了“处理后的机器人演示、生成的音符计划、匿名化的专家评分、评估脚本、提示模板、语义锚点模式和训练模型配置文件”。这些材料可用于复现。详情见：https://xtli12.github.io/Co-policy/docs/ 论文中引用的开源项目： Qwen-vl：论文中使用的基础视觉语言模型。其开源仓库地址为：https://github.com/QwenLM/Qwen-VL ManiSkill2：用于仿真验证的平台。其项目主页为：https://maniskill2.github.io/ 🏗️ 方法概述和架构 Co-policy框架是一个模块化的实时人机音乐共创系统，旨在解决两个核心挑战：如何将人类不完整的创意种子转化为互补的机器人音乐响应，以及如何在交互级延迟下物理执行该响应。系统由三个串联的核心组件构成，数据流清晰，形成“感知-规划-执行”的闭环。 ...

语音/音乐/音频论文速递 2026-06-22

语音/音乐/音频论文速递 2026-06-22 共分析 1 篇论文 ⚡ 今日概览 📥 抓取 1 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 1篇 █ 📊 论文评分排行榜（1 篇，按分数降序）排名论文总分分档主任务 🥇 Co-policy: Responsive Human-Robot Co-Creation for Music 8.5分前50% #音乐生成 📋 论文列表 🥇 Co-policy: Responsive Human-Robot Co-Creation for Musical Performances 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition

📄 A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition #语音识别 #自监督学习 7.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #自监督学习 | arxiv 👥 作者与机构作者: Nabil Mosharraf Hossain (Greentech Apps Foundation), Riasat Islam (Queen Mary University of London), Unaizah Obaidellah (University of Malaya) ...

A Survey of Full-Duplex Spoken Dialogue Systems: Architectural Hierarchy, Interaction Ontology, and Decision State Machine

📄 A Survey of Full-Duplex Spoken Dialogue Systems: Architectural Hierarchy, Interaction Ontology, and Decision State Machine #语音合成 #语音识别 #自监督学习 #数据集 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.4/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #数据集 | arxiv 👥 作者与机构作者：Jingyu Lu, Yuhan Wang, Jianming Luo, Yifu Chen, Tianle Liang, Shengpeng Ji, Ziyue Jiang, Xiaoda Yang, Yu Zhang, Xize Cheng, Chenyuhao Wen, Changhao Pan, Haoxiao Wang, Chen Ye, Jian Wu, Xiaoxi Jiang, Guanjun Jiang, Zhou Zhao。机构：浙江大学（1），阿里巴巴通义事业群（2），腾讯混元团队（3），字节跳动（4）。 ...

Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages

📄 Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages #语音识别 #多语言 #多任务学习 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #多任务学习 | #多语言 | arxiv 👥 作者与机构 Pavan Kumar J^{1}, Agneedh Basu^{2}, Pranav Bhat^{2}, Sujith Pulikodan^{2}, Visruth Sanka^{2}, Nihar Desai^{2}, Prasanta Kumar Ghosh^{2} 1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India 2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India 邮箱: pavanjk@artpark.in ...