基准测试 | 语音/音乐/音频论文速递

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #模型评估 #基准测试 #语音大模型 #数据集 #开源工具 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳））通讯作者：未明确说明（根据惯例和贡献推断，Zhizheng Wu可能性较大）作者列表：Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学（深圳） ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.（星尘智能科技有限公司） 💡 毒舌点评这篇论文精准地刺中了当前语音大模型（SLM）在走向多用户共享场景时一个被严重忽视的“阿喀琉斯之踵”——交互隐私。其最大亮点在于不仅诊断了“病症”（模型无法将语音身份与隐私规则关联），更通过精心设计的三层评估体系“量化了病情”，并指出了“病理”（是上下文推理能力不足，而非基础对话能力问题）。短板在于，目前提出的“药方”（监督微调）虽有效但相对传统，未来如何让模型在更复杂的社交场景中自主、灵活地做出符合伦理的隐私决策，而非仅机械遵循规则，仍是开放挑战。 🔗 开源详情代码：论文中未提及代码仓库链接。但根据论文末尾的声明“we are releasing the VoxPrivacy benchmark, the large-scale training set, and the fine-tuned model”，预计相关资源会通过项目页面（https://myflashbarry.github.io/VoxPrivacy.github.io/）或代码托管平台发布。模型权重：是。论文明确声明将公开其微调后的模型（Ours: Kimi-Audio-sft）。数据集：是。论文明确声明将公开VoxPrivacy基准测试（32小时数据）和4000小时的大规模训练集。 Demo：是。提供了在线演示页面：https://myflashbarry.github.io/VoxPrivacy.github.io/ 复现材料：论文提供了丰富的复现信息，包括：完整的数据构建流程（附录A给出了生成提示词）、评估标准与LLM评委提示词（附录F、G）、训练超参数（8xA800 GPU，lr=1e-5等）、以及详细的实验设置。论文中引用的开源项目：模型：Kimi-Audio, Qwen2.5-Omni, MiniCPM2.6-o, Gemini系列, Deepseek系列, Qwen2Audio, Voxtral3B, Baichuan-Omni-1.5, GLM4Voice。工具/数据集：CosyVoice2 (TTS), Whisper-large-v3 (ASR), AISHELL-2, WenetSpeech, LibriSpeech, CommonVoice, Fleurs, SAVEE, IEMOCAP, ESD, RAVDESS, MELD, CREMA-D, ESC50, AudioSet, FSD50K, VocalSound, UrbanSound8K, ClothoAQA, MusicAVQA, AVQA等。 📌 核心摘要解决的问题：本文针对语音语言模型（SLM）从个人设备走向智能家居、车载等共享多用户环境时面临的新挑战——“交互隐私”问题，即模型需要区分不同用户，防止将一个用户的私人信息泄露给另一个用户。现有基准测试忽略了这种基于说话人身份的条件隐私保护能力评估。方法核心：提出首个评估交互隐私的基准测试VoxPrivacy。它设计了三个难度递增的层级：Tier 1（直接命令保密）、Tier 2（基于说话人验证的保密）、Tier 3（主动隐私保护）。基于此构建了一个包含7107个样本、32.86小时的双语（中/英）合成数据集，并包含一个由18人录制的真实语音验证子集（Real-VoxPrivacy）。创新点：首次系统定义和评估SLM的“交互隐私”能力；设计了分层的评估任务以衡量从指令跟随到自主推理的完整能力谱；通过合成数据与真实语音的对齐验证，证明了评估结论的可靠性。主要实验结果：对9个SLM的评估显示，大多数开源模型在Tier 2/3任务上的准确率接近随机猜测（~50%），表明其根本无法将说话人声音与隐私规则关联。即使是强大的闭源模型（如Gemini-2.5-Pro）在Tier 3（主动推断）上也有明显性能下降。通过对比实验，证明失败根源是“对话上下文处理能力的缺失”，而非基础对话能力。通过微调，本文提出的模型在所有层级上显著优于其他开源模型，达到了与顶级闭源模型相当的水平。关键性能数据对比见下表： Tier 1 任务准确率（%） ...

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #基准测试 #多通道 #语音大模型 #音频问答 🔥 8.0/10 | 前25% | #基准测试 | #麦克风阵列 | #多通道 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhaojiang Lin（Meta），Yong Xu（Meta），Kai Sun（Meta）（论文明确标注三位为共同第一作者：Joint first author）通讯作者：未明确说明（但Zhaojiang Lin提供了联系邮箱zhaojiang@meta.com）作者列表：Zhaojiang Lin（Meta），Yong Xu（Meta），Kai Sun（Meta），Jing Zheng（Meta），Yin Huang（Meta），Surya Teja Appini（Meta），Krish Narang（Meta），Renjie Tao（Meta），Ishan Kapil Jain（Meta），Siddhant Arora（Carnegie Mellon University，标注工作在Meta完成），Ruizhi Li（Meta），Yiteng Huang（Meta），Kaushik Patnaik（Meta），Wenfang Xu（Meta），Suwon Shon（Meta），Yue Liu（Meta），Ahmed A Aly（Meta），Anuj Kumar（Meta），Florian Metze（Meta），Xin Luna Dong（Meta） 💡 毒舌点评亮点在于首次针对可穿戴场景定义了多通道、自我中心语音助手评测标准，数据基于真实AI眼镜采集，任务设计紧贴现实痛点（如侧向对话拒绝）。短板是数据集规模相对有限（3.8k样本），且评估的大部分现有SLLM只能基于波束成形后的单通道音频输入，未能充分验证多通道架构的潜力，论文中提出的MC WearLlama也仅是案例研究，非核心贡献。 ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书公司）通讯作者：Weidi Xie（上海交通大学）作者列表：Jack Hong（小红书公司）、Shilin Yan（小红书公司）、Jiayin Cai（小红书公司）、Xiaolong Jiang（小红书公司）、Yao Hu（小红书公司）、Weidi Xie（上海交通大学） 💡 毒舌点评这篇论文最大的亮点在于它指出了一个残酷的现实：现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中，表现最好的也只达到了65.1%的准确率，离可靠应用还差得远。然而，它的短板也同样明显：作为一个评测基准论文，它更像是为其他研究者“立规矩”和“出考卷”，本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：公开。论文明确说明WorldSense数据集已公开发布，可在其项目主页和GitHub/HuggingFace获取。 Demo：未提供在线演示链接。复现材料：提供了详细的评估设置（如帧采样方法、API使用）、评估Prompt模板（附录A.4）和数据集统计信息，足以复现其评估实验。论文中引用的开源项目：引用了多个被评估的开源模型，如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等，以及数据集来源FineVideo和MusicAVQA。开源计划：论文中未提及除数据集之外的额外开源计划。 📌 核心摘要该论文旨在解决当前多模态大语言模型（MLLM）评估中忽略音频模态、场景简单、任务单一的问题。为此，作者提出了WorldSense，这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务，使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频，以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对，确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明，现有模型在真实世界场景下面临巨大挑战，最佳模型Gemini 2.5 Pro的准确率仅为65.1%，而许多开源音视频模型的表现甚至接近随机猜测（约25%）。消融研究证实了原始音频信号比文本转录包含更多信息（如韵律、情感），对提升理解至关重要。该基准旨在推动更全面的多模态理解研究，为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构本文未提出一个新的模型架构，而是设计了一个用于评估现有模型的基准框架。其核心是评估流程，如下： ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #音频问答 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音频问答 #跨模态学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1. Advanced Micro Devices, 2. Johns Hopkins University) 通讯作者：Jiang Liu (Advanced Micro Devices) 作者列表：Xingrui Wang (Advanced Micro Devices, Johns Hopkins University), Jiang Liu (Advanced Micro Devices), Chao Huang (Advanced Micro Devices, University of Rochester), Xiaodong Yu (Advanced Micro Devices), Ze Wang (Advanced Micro Devices), Ximeng Sun (Advanced Micro Devices), Jialian Wu (Advanced Micro Devices), Alan Yuille (Johns Hopkins University), Emad Barsoum (Advanced Micro Devices), Zicheng Liu (Advanced Micro Devices) 💡 毒舌点评亮点：基准设计极其系统且具有诊断性，通过“模态平衡”的六种排列组合，像精密仪器一样能测量出模型对不同模态的“偏科”程度，这是超越简单平均分的深度评测。短板：论文将最强的闭源模型（Gemini）作为标杆，但自身并未提出新的模型或算法，因此更像一份详尽的“体检报告”而非“治疗方案”；同时，尽管承诺开源，但评测完全依赖现有模型，缺乏对新模型训练的直接指导细节。 ...

语音/音乐/音频论文速递 2026-05-04

语音/音乐/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜（14 篇，按分数降序）排名论文评分分档主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

语音/音乐/音频论文速递 2026-05-03

语音/音乐/音频论文速递 2026-05-03 共分析 13 篇语音/AI 论文 🎯 任务分类点击任务标签查看该方向所有论文：音乐信息检索（2篇）语音识别（2篇）音频生成（1篇）发音错误检测（1篇）说话人识别（1篇）音乐理解（1篇）音频场景理解（1篇）语音质量评估（1篇）语音对话系统（1篇）音频问答（1篇）音频事件检测（1篇） ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献）通讯作者：未说明作者列表：Xize Cheng（浙江大学），Chenyuhao Wen（浙江大学），Tianhao Wang（独立作者），Yongqi Wang（浙江大学），Zehan Wang（浙江大学），Rongjie Huang（浙江大学），Tao Jin（浙江大学），Zhou Zhao（浙江大学） 💡 毒舌点评本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务，并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别，这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而，其构建的VGGSound-Hard新基准仅包含118个测试对，虽然难度高但规模偏小，其对结论的普适性支撑稍显不足；此外，作为生成模型，其推理速度（2.17 FPS）距实时处理仍有差距，论文中未探讨如何在效率上做进一步优化。 🔗 开源详情代码：论文明确承诺在接收后公开代码仓库，但未提供具体链接（论文中未提及代码链接）。模型权重：论文明确承诺在接收后公开预训练模型权重（未提及具体链接）。数据集：VGGSound-Hard作为新提出的基准，论文未说明其具体下载方式，但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo：论文提供了项目主页链接 https://AlignSep.github.io ，其中包含更多结果和音频示例，可视为一种在线演示。复现材料：附录A提供了非常详细的实现细节，包括音频VAE（表4）和向量场估计器（表5）的架构超参数、数据预处理方式、推理步数选择等关键信息。引用的开源项目：论文依赖并引用了多个开源项目：CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要本文旨在解决视频查询声音分离（VQSS）任务中现有方法面临的两大挑战：1) 在声源同质（如多只同类狗叫）的干扰下，因缺乏精细时序建模而无法区分屏幕内外声音；2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。方法核心是提出AlignSep，这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同，AlignSep通过设计一个时序对齐的向量场估计器（采用跨模态特征拼接和无交叉注意力的Transformer），并配合预训练的CAVP视觉时序编码器，显式地学习和维护音视频之间的时序对应关系，从而在生成过程中实现精确对齐。与已有方法相比，新在两点：1) 范式上，采用生成式流程替代判别式掩码预测，能更好地处理重叠信号并避免频谱空洞；2) 建模上，明确引入并强化了时序对齐机制，而非仅依赖语义特征。此外，论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。主要实验结果显示，AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上，其时序对齐准确率（TA-V）分别达到66.67%和96.88%，大幅超越最强基线OmniSep（分别为68.89%和81.25%）。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上，AlignSep的TA-V达到95.76%，而OmniSep仅为76.27%。人类感知评估（MOS）也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。实际意义在于，AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架，有助于提升视频编辑、内容理解等应用的体验。主要局限性包括：1) 新提出的VGGSound-Hard基准规模较小（仅118对）；2) 作为生成模型，推理效率有提升空间；3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #多语言 #数据集 #鲁棒性 ✅ 6.5/10 | 前50% | #语音识别 | #基准测试 | #多语言 #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eugen Beck（AppTek.ai）通讯作者：未说明作者列表：Eugen Beck（AppTek.ai）， Sarah Beranek（AppTek.ai）， Uma Moothiringote（AppTek.ai）， Daniel Mann（未说明）， Wilfried Michel（未说明）， Katie Nguyen（未说明）， Taylor Tragemann（未说明） 💡 毒舌点评这篇论文最大的亮点在于“以身作则”地解决了一个评测领域的老大难问题——创建了一个干净、无污染、多口音的长对话评测集，堪称ASR评测界的“良心工程”。但硬币的另一面是，它本质上是一个“靶子”而非“箭”，作为纯数据集和基准论文，缺乏算法上的惊艳创新，且角色扮演的数据获取方式终究让其在“真实性”上打了折扣，难以完全替代真实世界数据的价值。 🔗 开源详情代码：论文中未提及具体代码仓库链接。模型权重：论文中提及了多个开源ASR模型进行基准测试（如NVIDIA Canary-1B v2, Parakeet 0.6B TDT, Whisper Large, Qwen3-ASR, Granite Speech, Phi-4 Multimodal等），但未在文中提供这些模型权重的直接下载链接。数据集：AppTek Call-Center Dialogues 名称：apptek-com/apptek_callcenter_dialogues 链接：https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议：Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) Demo：论文中未提及在线演示链接。复现材料：论文中未提供训练配置、检查点或附录等用于完全复现的材料。文中详细描述了评估设置（分割策略、评分协议等），但未提供用于复现其评分归一化脚本或评估环境的具体代码或配置文件链接。论文中引用的开源项目： Silero VAD: https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard: https://huggingface.co/spaces/speech-io/open_asr_leaderboard 补充信息 [核心摘要] 补充：在“与已有方法相比新在哪里”部分，论文在Related Work中明确指出了其数据集相较于最接近的同类工作（Earnings-22）的多项具体优势：(a) 数据完全非公开来源，降低了被大型模型训练集污染的风险；(b) 口音标签基于说话人自我认同和验证，而非基于公司所在地，标注更直接；(c) 内容为任务导向的、自发的双人对话，与包含大量朗读内容和有限互动的财报电话不同。这些对比是论文定位自身贡献的关键。 [实验结果] 补充：论文在第4.2节Results中明确给出了一个具体实例来说明“平均性能与鲁棒性不相关”的观点：对于Canary-1B模型，其最佳与最差口音间的WER相对差距为26%，平均WER为11.2%；而对于平均WER更低（9.2%）的Parakeet V3模型，该相对差距却高达48%。这一具体数据对比强化了论文的核心发现之一。 [开源详情] 补充：论文在第3.6节提到了数据集的一个“多语言扩展”用途：一个子集（约5小时）已被专业翻译成中文、德语、日语和西班牙语，将用于未来的机器翻译评测。这是数据集潜在应用价值的补充。 📌 核心摘要要解决什么问题：现有英语ASR公开基准测试集大多为短时、朗读式语音，或缺乏明确的方言标注，难以评估ASR系统在真实、长时对话场景下（如呼叫中心）对多种英语口音的鲁棒性。此外，基准数据可能泄露至大型模型的预训练语料中，影响评估有效性。方法核心是什么：本文创建并开源了“AppTek Call-Center Dialogues”数据集。这是一个专门为评估而收集的自发、角色扮演式呼叫中心对话语料库，覆盖14种英语口音和16个服务场景，总计128.6小时。收集过程确保音频和文本非公开来源。同时，论文使用该数据集对多种开源ASR模型在不同语音分割策略下进行了基准测试。与已有方法相比新在哪里：相比Earnings-22等现有对话数据集，本文数据集：(a) 完全为评估而生，数据非公开来源，降低与训练集重叠风险；(b) 系统性地覆盖了14种英语口音，且每类口音样本量充足；(c) 完全由角色扮演的、自发的双人对话构成，更贴近呼叫中心交互模式。主要实验结果如何：分割策略影响：手动分割通常能取得最佳WER，自动分割策略（如Silero VAD、固定分段）性能稍差，表明准确的语音边界检测对长对话ASR至关重要。部分模型（如Qwen3-ASR）对长段输入更鲁棒。模型 (尺寸) 手动分割 RD分割 Silero分割固定30s 固定60s Parakeet v3 (0.6B) 8.8 9.0 9.2 9.9 12.1 Qwen3-ASR (1.7B) 7.9 8.0 8.3 7.8 7.4 Canary-1B v2 (1B) 10.6 11.2 11.2 10.9 13.3 Whisper Large v3 (1.6B) 10.7 18.9 15.0 42.9 - Granite Speech (8B) 10.5 10.9 11.9 12.2 13.8 表2：不同模型在不同分割策略下的平均WER（%） * 口音差异巨大：模型在不同口音上的表现差异显著。例如，使用Silero分割时，多数模型在 `en_US_General`（通用美音）和 `en_AU`（澳洲英语）上表现最好，而在 `en_SG`（新加坡英语）、 `en_CN`（中式英语）和 `en_GB_SCT`（苏格兰英语）上错误率明显偏高。最佳与最差口音间的WER绝对差距可超过10%。 * 性能与鲁棒性不完全相关：平均WER更低的模型（如Parakeet v3, 9.2%）其口音间相对差异（48%）反而大于某些平均WER较高的模型（如Canary-1B, 11.2%），表明提升平均性能不自动保证口音鲁棒性。口音 Parakeet v2 Parakeet v3 Qwen3-ASR (1.7B) Canary-1B Whisper v2 平均 en_AU 5.6 5.2 4.7 6.6 9.3 6.2 en_US_General 6.2 5.5 5.0 7.6 11.0 7.1 en_IN 9.9 9.7 10.3 12.9 33.0 13.9 en_SG 12.4 12.4 10.9 14.9 15.9 14.8 所有口音平均 9.6 9.2 8.3 11.2 16.0 - 表3：使用Silero分割时，各模型在不同口音上的WER（%）实际意义是什么：为ASR社区，特别是对话AI领域，提供了一个高质量、无污染、针对多口音长对话场景的标准评估基准。这有助于更公平、更真实地比较和推动ASR模型在实际应用中的鲁棒性发展。主要局限性是什么：(a) 数据为角色扮演而非真实呼叫中心对话，其语言风格和场景复杂度可能与真实数据有差异；(b) 尽管鼓励人口多样性，但部分口音组内性别分布不平衡；(c) 口音标签基于自我认同和验证，类别内部变异性和边界未严格定义；(d) 针对自发语音的逐字标注存在固有挑战，可能存在少量标注错误。 🏗️ 模型架构本文是一篇基准测试和数据集论文，并未提出新的ASR模型架构。其核心工作围绕数据集构建和对现有模型的评估展开。因此，没有适用于本文的“模型架构”图或描述。论文评估的模型包括Parakeet, Canary, Qwen3-ASR, Whisper, Granite Speech等，均为已发表的开源ASR模型，其架构细节非本文贡献。 ...

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频安全 #音频大模型 🔥 8.5/10 | 前25% | #模型评估 | #基准测试 | #音频安全 #音频大模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Li（南洋理工大学，与清华大学计算机系、AI研究院、BNRist相关）通讯作者：Xinfeng Li（南洋理工大学）作者列表：Kai Li（南洋理工大学）， Can Shen（北京师范大学-香港浸会大学联合国际学院）， Yile Liu（早稻田大学）， Jirui Han（独立研究者）， Kelong Zheng（华中科技大学）， Xuechao Zou（北京交通大学）， Lionel Z. Wang（南洋理工大学）， Shun Zhang（火箭军工程大学）， Xingjian Du（罗切斯特大学）， Hanjun Luo（浙江大学）， Yingbin Jin（香港理工大学）， Xinxin Xing（独立研究者）， Ziyang Ma（南洋理工大学，上海交通大学）， Yue Liu（新加坡国立大学）， YiFan Zhang（中国科学院）， Junfeng Fang（新加坡国立大学）， Kun Wang（南洋理工大学）， Yibo Yan（香港科技大学广州）， Gelei Deng（南洋理工大学）， Haoyang Li（香港理工大学）， Yiming Li（南洋理工大学）， Xiaobin Zhuang（字节跳动）， Tianlong Chen（北卡罗来纳大学教堂山分校）， Qingsong Wen（松鼠AI学习）， Tianwei Zhang（南洋理工大学）， Yang Liu（南洋理工大学）， Haibo Hu（香港理工大学）， Zhizheng Wu（香港中文大学深圳）， Xiaolin Hu（清华大学计算机系）， Eng Siong Chng（南洋理工大学）， Wenyuan Xu（浙江大学）， XiaoFeng Wang（南洋理工大学）， Wei Dong（南洋理工大学）， Xinfeng Li（南洋理工大学） 💡 毒舌点评亮点：堪称音频大模型“安全审计”的瑞士军刀，首次系统性地为ALLMs量身定制了六大可信度维度与评估工具集，填补了该领域至关重要的评估空白。短板：评估流程高度依赖GPT-4o等LLM作为“法官”，其判定本身可能引入与音频模型相似的偏差，形成“用AI评估AI”的循环论证风险。 ...

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhang He（微软研究院 Microsoft Research）通讯作者：Yuhang He（微软研究院 Microsoft Research）作者列表：Yuhang He（微软研究院 Microsoft Research），He Liang（未说明），Yash Jain（牛津大学计算机系），Andrew Markham（牛津大学计算机系），Vibhav Vineet（微软研究院 Microsoft Research） 💡 毒舌点评这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型，而是系统性地构建了大规模、高质量的基准数据集（AudioEventSet, AudioRelSet）和评估体系，直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于，论文本身提出的AudioRelGen框架核心创新相对有限，更多是基于现有最强模型（如TangoFlux）的微调和评估，缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情代码：提供代码仓库链接：https://github.com/yuhanghe01/Aurelius 模型权重：论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。数据集：AudioEventSet和AudioRelSet已公开，可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo：未提及在线演示。复现材料：提供了训练数据集构建策略、评估协议（MSR）、基线模型的推理设置（表III）以及代码。但关键训练超参数（微调/从头训练的学习率、batch size等）未在论文中说明。论文中引用的开源项目：依赖的开源模型/工具包括：PANNs（用于特征提取和微调）、VGGish、Qwen2系列大语言模型（用于智能体实验）、各基准TTA模型的官方代码库（如AudioLDM, TangoFlux等）。数据来源包括freesound.org和FSD50K。 📌 核心摘要问题：现有的文本到音频（TTA）生成模型在处理需要理解音频事件间复杂关系（如空间、时间、逻辑关系）的文本描述时能力严重不足，这限制了TTA技术向更复杂、更真实的应用场景发展。方法核心：本文提出Aurelius框架，其核心是构建两个大规模、结构化的语料库：包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略，可系统性地生成海量的<text, audio>训练对，用于评估和提升模型的“关系感知”生成能力。创新点：与之前工作（如RiTTA）相比，本文的新在于：a) 将事件和关系语料库规模提升了数量级（事件从~25到110，关系从11到100）；b) 提出了一个更全面、可扩展的关系分类法（包括嵌套组合）；c) 提供了基于解耦策略的、可大规模生成训练数据的流水线；d) 对多种主流TTA模型进行了前所未有的系统性基准测试。主要实验结果：基准测试了9个主流TTA模型。结果显示，即使是最好的模型（AudioGen， mAMSR=2.22%； TangoFlux， mAMSR=1.77%），其在关系感知指标（Presence, Relation Correctness, Parsimony）上的表现也极差（均低于15%）。微调实验表明，在Aurelius数据集上微调能显著提升模型的关系建模能力（如TangoFlux的mAMSR从1.77%提升至5.58%）。具体关键结果见下表。模型参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表：零样本基准测试（上）与微调实验（下）关键结果对比实际意义：本工作为“关系感知TTA”这一重要但被忽视的研究方向，首次提供了标准化的大规模基准数据集、评估协议和基线方法，系统地揭示了当前技术的瓶颈，为未来研究指明了方向（如需要设计能显式建模事件-关系依赖的架构）。主要局限性：a) 论文主要贡献是构建基准和揭示问题，提出的AudioRelGen框架本身（解耦生成再混合）并非解决该问题的终极方案；b) 训练数据规模（100小时）虽然远超之前相关工作，但对于真正的大规模生成模型训练可能仍显不足；c) 关系评估依赖的自动检测模型（事件分类器、关系分类器）的性能上限，可能影响评估结果的绝对准确性。 🏗️ 模型架构论文提出的AudioRelGen框架（图4）核心思想是解耦建模，其流程并非一个端到端的单一生成模型，而是一个数据生成与评估的范式： ...