基准测试 | 语音/音乐/音频论文速递

RedVox: Safety and Fairness Gaps in Speech Models Across Languages

📄 RedVox: Safety and Fairness Gaps in Speech Models Across Languages #基准测试 #模型评估 6.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #基准测试 | #模型评估 | arxiv 👥 作者与机构 Beatrice Savoldi, Sara Papi, Wafa Aissa, Matteo Negri, Luisa Bentivogli。单位：Fondazione Bruno Kessler, Italy。 💡 毒舌点评这篇论文像是一个“社区驱动的体检报告”，为语音模型的安全与公平性提供了急需的跨国体检数据。它最大的优点是“真实”——真实的人声、真实的研究者作为数据贡献者，以及真实暴露出的、令人不安的漏洞。特别是那个参与者问卷，简直是给所有想搞语音红队的人上了一堂生动的“伦理课”，告诉你收集这些数据有多折磨人。但问题也很明显：五种语言虽然覆盖广，但全是欧洲亲戚（印欧语系高资源语言），模型们对远房亲戚（如亚洲语言）的表现还是个谜。评估框架依赖LLM判官，这个判官自己有没有跨文化偏见，论文没深究。单轮对话的设置也过于“温和”了，现实中的恶意用户可不会只问一回合。总的来说，它把“问题有多严重”说得很清楚，但“如何系统性地解决”或者“如何更全面地诊断”，留下的思考空间比给出的答案更多。它是一份扎实的、揭露问题的报告，但还远非一份解决问题的蓝图。 📌 核心摘要本文指出，当前语音模型的安全与公平性评估在多语言和自然语音条件下存在严重空白。为应对此问题，作者构建了RedVox，一个基于真实人声、覆盖英法意西德五种语言的多模态安全与公平基准。通过对八款最先进语音模型的评估，研究发现：1）安全漏洞在非英语语言中显著恶化（不安全率翻倍）；2）语音输入（相比文本）会加剧模型的不安全响应倾向；3）刻板印象类请求最易引发争议性响应。此外，通过参与者问卷，论文首次记录了语音数据收集过程中独特的隐私与心理负担问题。研究证实了语音安全问题的紧迫性，并强调了跨语言、跨模态评估的重要性。 🔗 开源详情代码：https://github.com/hlt-mt/redvox 模型权重：论文中未提供。RedVox本身是一个评估基准。论文评估的开源模型权重来自第三方（如HuggingFace上的Qwen2-Audio, Phi4-Multimodal, Voxtral等），并非本文贡献。数据集：RedVox数据集，获取链接：https://huggingface.co/datasets/FBK-MT/RedVox（需通过审核访问）。 Demo：未提及。复现材料：论文提及代码仓库可能包含指南（附录B），但未单独提供复现材料链接。评估脚本和输出承诺在论文接收后开源。论文中引用的开源项目： Whisper (语音转录)：https://hf.co/openai/whisper-large-v3-turbo Qwen3Guard (安全护栏)：https://huggingface.co/Qwen/Qwen3Guard-Gen-8B MUSAN corpus (背景噪声)：论文未提供具体链接。 Silero VAD (语音活动检测)：论文未提供具体链接。 SHADES (刻板印象数据集)：论文未提供具体链接。 M-ALERT (安全基准数据集)：论文未提供具体链接。 🏗️ 方法概述和架构本文的方法主要分为两个核心部分：RedVox基准构建与基于该基准的模型评估。 ...

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文总分分档主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

BCoughBench: Benchmarking Respiratory Acoustic Foundation Models Under Body-Coupled Wearable Sensor Conditions

📄 BCoughBench: Benchmarking Respiratory Acoustic Foundation Models Under Body-Coupled Wearable Sensor Conditions #基准测试 #模型评估 6.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #基准测试 | #模型评估 | arxiv 👥 作者与机构 Mayur Sanap, Centific Global Solutions Inc., USA Prasanna Desikan, Centific Global Solutions Inc., USA Edgar Lobaton, North Carolina State University, USA ...

From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models

📄 From Sounds to Scenes: A Benchmark for Evaluating Context-Aware Auditory Scene Understanding in Large Audio Language Models #语音识别 #基准测试 #模型评估 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #基准测试 | #模型评估 | arxiv 👥 作者与机构第一作者：Pengfei Zhang (University of California Irvine) 其他作者：Hoang H Nguyen (University of Illinois Chicago), Kazi Shaharair Sharif (Kennesaw State University), Yutong Song (University of California Irvine), Wenjun Huang (University of California Irvine), Henry Peng Zou (University of Illinois Chicago), Pinxin Liu (未注明机构), Honghui Xu (Kennesaw State University), Amir M. Rahmani (University of California Irvine) 通讯机构：University of California Irvine ...

SpeechEQ: Benchmarking Emotional Intelligence Quotient in Socially Aware Voice Conversational Models

📄 SpeechEQ: Benchmarking Emotional Intelligence Quotient in Socially Aware Voice Conversational Models #基准测试 6.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.2/1.5 ✅ 6.7/10 | 前25% | #语音对话系统 | #基准测试 | arxiv 👥 作者与机构 Liang-Yuan Wu (纽约大学), Zih-Ching Chen (NVIDIA), Tongshuang Wu (卡内基梅隆大学), C.-H. Huck Yang (NVIDIA), Hua Shen (纽约大学, 上海纽约大学) 💡 毒舌点评一篇扎实的、填补空白的基准测试工作。其核心价值不在于提出新模型，而在于设计了一套严谨且刁钻的“考试”（SpeechEQ），暴露了当前多模态语音对话模型（SLMs）在社会情感智能上的三大“软肋”：依赖文本捷径、安全对齐导致情感扁平化、以及多轮对话中的遗忘。理论基础（EQ-i 2.0）的选择和“语义-声学解耦”的评估范式设计是亮点，体现了对评估科学性的追求。然而，这终究是一个“评测集”论文，其本身的创新天花板有限。更关键的是，作为评测集，其生态效度完全建立在合成数据之上，这是一个无法回避的“阿喀琉斯之踵”。SEQ分数的计算显得有些过于复杂，为了追求形式上的标准化而增加了理解门槛。此外，虽然评估了多个模型，但主要结论（端到端优于级联、模型存在三大局限）的普适性有待更广泛模型（尤其是非Qwen系列）的验证。论文对自身局限的讨论可以更坦诚一些，特别是数据生成管线对特定TTS模型的依赖问题。 ...

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge

📄 ParaPairAudioBench: Paralinguistic Pairwise Audio Benchmark for LALM-as-a-Judge #语音质量评估 #基准测试 8.2/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.2/10 | 前50% | #语音质量评估 | #基准测试 | arxiv 👥 作者与机构 Jisu Jeon (Hongik University, Seoul National University), Seungyeon Jwa (Seoul National University), Joosung Lee (NAVER Cloud, Seoul National University), Jinhyeon Kim (NAVER Cloud, KAIST), Woojin Chung (Hongik University), Hwiyeol Jo (Seoul National University), Jeonghoon Kim (NAVER Cloud, Seoul National University), Jonghyun Choi (Seoul National University), Soyoon Kim (NAVER Cloud, Seoul National University) ...

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文总分分档主任务 🥇 ZONOS2 Technical Report 10.0分前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分前50% - 28. Statistical validation and full-sphere extension of a B 6.7分前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study

📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study #大语言模型 #基准测试 #语音合成 8.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #语音合成 | #大语言模型 | #基准测试 | arxiv 👥 作者与机构 Koriyama, Tomoki. CyberAgent, Japan. 💡 毒舌点评这篇论文是一篇扎实的工程性基准测试研究，对日语G2P这个具体任务的LLM应用进行了迄今为止最全面的评估。实验设计合理，覆盖了30+模型，分析维度（模型规模、版本、专门化训练、提示模式）清晰。作为一篇面向应用的实证论文，其价值在于为日语TTS领域的从业者提供了明确的模型选择参考和性能基线。然而，其核心贡献是“评估”而非“提出”新方法，创新性相对有限，更像是一篇详尽的系统报告而非顶会级别的理论或方法突破。论文对错误模式的分析不够深入，对“为什么”某些模式有效或失败的探讨可以更进一步。TTS对比实验虽然实用，但对比系统的选择（如使用未提及的CosyVoice 2作为E2E代表）和实验设置（仅微调一个模型）的说服力可以更强。总体而言，这是一篇合格的、有用的工作，但可能更适合作为领域内的技术报告或会议短文，而非顶会主会场论文。 📌 核心摘要本文首次对超过30种大型语言模型（LLM）在日语字形到音素（G2P）转换任务上的性能进行了大规模基准测试。研究提出并比较了两种LLM应用策略：解析模式（LLM执行形态分析，规则后处理负责发音规则）和直接模式（LLM直接预测假名）。实验使用包含3000句手动标注假名的JVS语料库子集，以假名字符错误率（CER）为指标。结果显示，模型规模、版本更新以及针对日语的专门化训练是提升准确率的关键因素。最优的专有模型（如Claude Opus，解析模式CER 0.52%）超越了最佳传统工具OpenJTalk（CER 1.03%）。解析模式在绝大多数模型上优于直接模式，因其减轻了LLM处理复杂发音规则的负担。此外，研究将LLM预测的假名输入一个微调的假名输入TTS模型（CosyVoice 2），其发音准确度优于多个端到端（E2E）TTS系统（如Gemini 2.5 Flash TTS, Qwen 3 TTS），同时保持了可比的自然度，证明了显式G2P模块在可控发音方面的实用价值。 ...

HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems #语音识别 #数据集 #基准测试 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.4/10 | 前50% | #语音识别 | #数据集 | #基准测试 | arxiv 👥 作者与机构 Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland ...