Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #扩散模型 #自回归模型 #音视频 #基准测试 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 #自回归模型 | #扩散模型 #自回归模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Vaibhavi Lokegaonkar, Aryan Vijay Bhosale(论文中标注为Corresponding authors,邮箱为{vlokegao,aryanvib}@umd.edu) 作者列表: Vaibhavi Lokegaonkar(University of Maryland College Park, USA) Aryan Vijay Bhosale(University of Maryland College Park, USA) Vishnu Raj(University of Maryland College Park, USA) Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(NVIDIA, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点:该工作将语音合成领域已验证有效的“自回归规划+扩散细化”混合范式,成功迁移到视频音乐生成任务,并通过引入文本条件控制解决了该领域长期存在的“创作者意图表达”短板,工程实现和实验验证都做得非常扎实。短板:其核心架构思想并非首创(如DiTAR),且评估主要集中在10秒短片段,对于真正考验音乐结构连贯性的长视频配乐场景缺乏验证,使得其“里程碑”成色稍显不足。 ...

2026-04-24 · 更新于 2026-05-20 · 3 min · 483 words

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24 · 更新于 2026-05-20 · 11 min · 2180 words

ATIR: Towards Audio-Text Interleaved Contextual Retrieval

📄 ATIR: Towards Audio-Text Interleaved Contextual Retrieval #音频检索 #多模态模型 #基准测试 #对比学习 ✅ 7.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #对比学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tong Zhao(中国人民大学高瓴人工智能学院) 通讯作者:Zhicheng Dou(中国人民大学高瓴人工智能学院) 作者列表: Tong Zhao(中国人民大学高瓴人工智能学院) Chenghao Zhang(中国人民大学高瓴人工智能学院) Yutao Zhu(中国人民大学高瓴人工智能学院) Zhicheng Dou(中国人民大学高瓴人工智能学院) 💡 毒舌点评 这篇论文为“音频-文本交错检索”这一新兴场景建立了首个标准化基准和评估框架,这种“开山立派”的工作本身具有重要价值。然而,其提出的模型(ATIR-Qwen-3B)本质上是现有强大MLLM(Qwen2.5-Omni)的一个检索适配版本,核心创新(ATIR Selector)更像是一个工程优化模块,理论深度有限。实验虽然充分,但所有基线在交错检索任务上表现都很差,这固然凸显了新任务的难度,但也使得“显著提升”的结论说服力打了一点折扣。 🔗 开源详情 代码:论文中提及“GitHub Issue”,但未提供具体的代码仓库链接。是否开源及代码状态未说明。 模型权重:论文提到训练了ATIR-Qwen-3B模型,但未提及是否公开模型权重。 数据集:论文构建了ATIR基准,但未说明是否公开数据集及获取方式。 Demo:论文中未提及在线演示。 复现材料:附录B提供了极其详细的实现细节,包括模型架构、LoRA配置、训练超参数(学习率、优化器、轮数)、硬件环境(8xA100)和训练时长(约24小时),复现信息充分。 论文中引用的开源项目:依赖Qwen2.5-Omni-3B、Qwen3-0.6B作为骨干和选择器基础;使用LoRA进行参数高效微调;使用DeepSpeed进行分布式训练。 📌 核心摘要 这篇论文旨在解决现有音频-文本检索方法无法处理查询和文档中音频与文本交错出现(如多轮对话、混合输入)的局限性。为此,作者定义了音频-文本交错上下文检索(ATIR)任务,并构建了一个包含约8.8万对样本的大规模基准。为解决直接应用多模态大语言模型(MLLM)时音频token冗余导致的效率和精度问题,论文提出了一种基于MLLM的检索框架,其核心是引入一个轻量级的ATIR Selector模块,用于自适应地筛选关键音频token。此外,采用了两阶段训练策略(先激活嵌入能力,再激发交错模态能力)。实验表明,所提出的ATIR-Qwen-3B模型在各项指标上显著优于文本模态、跨模态和融合模态的基线模型(例如,在交错检索任务上,Recall@1比最强基线高出约10%)。该工作为复杂的多模态信息检索场景提供了新的研究方向和基准,但其局限在于仅关注单文档检索,且评估任务集中于问答领域。 🏗️ 模型架构 模型采用双编码器(Bi-encoder)架构,查询和文档分别独立编码到共享嵌入空间,通过余弦相似度计算相关性,支持高效检索。 整体流程:输入为音频-文本交错序列。文本部分通过Qwen2.5-Omni的Tokenizer处理;音频部分通过其原生的音频编码器(AuT)处理,生成帧级表示。编码后的文本token和音频token序列被送入“ATIR Selector”模块进行关键音频token筛选。筛选后的token序列与文本token序列一起,输入到Qwen2.5-Omni的Thinker骨干网络(一个Transformer)进行处理。最终,取序列最后一个token()的隐藏状态作为整个交错序列的嵌入表示。 主要组件: Qwen2.5-Omni Thinker:作为骨干模型,负责处理混合的文本和音频token序列,生成上下文感知的表示。论文中冻结了其音频编码器,仅对后续部分进行微调。 ATIR Selector:这是一个即插即用的轻量模块,建立在Qwen3-0.6B之上。它在骨干模型的最终隐藏层之上添加一个线性层,为每个音频token位置预测一个选择概率。概率高于阈值的token被保留,低于阈值的被过滤。其目标是减少冗余音频信息,平衡不同模态的信息密度。 数据流与设计动机:音频token通常数量多且包含冗余信息,直接输入Transformer会导致计算效率低且可能引入噪声。ATIR Selector的设计动机就是通过自适应选择,保留最具信息量的音频片段,从而提升检索的准确性和效率。这是一个针对音频特性的优化,与修改tokenizer或编码器的方法正交。 💡 核心创新点 定义ATIR任务与构建首个基准:首次正式定义了音频与文本交错出现的检索任务,并构建了一个大规模、高质量的合成数据集。这是最重要的贡献,为社区提供了明确的研究问题和评估平台。 提出ATIR Selector模块:针对音频token冗余问题,设计了一个轻量级的、基于学习的token选择器。它能根据上下文自适应地过滤音频token,优于简单的平均池化,并能灵活控制压缩率。 设计多阶段训练策略:采用两阶段训练:第一阶段使用单模态/跨模态对激活模型的通用嵌入能力;第二阶段使用带有强负样本的交错模态数据,专门激发模型处理复杂交错结构的能力。这种渐进式训练有效提升了模型性能。 构建严谨的数据合成与质量控制流程:利用MLLM从多个角度(跨领域、比较、示例、推理)扩展语料,构建高质量问答对,并通过检索和生成两种方式构造困难负样本,最后进行多方面自评估,确保了基准数据的质量和难度。 🔬 细节详述 训练数据:基于LibriSpeech(ASR)、CoQA(QA)、SVQ(检索)三个数据集,通过统一合成流程生成。训练集包含84,374对查询-文档对,测试集包含3,909对。数据包含四种声学环境:干净、背景人声、交通噪声、媒体噪声。 损失函数:采用InfoNCE对比损失(公式1)。给定查询、正文档和一批负文档(包括硬负样本和批内负样本),目标是最大化正对的相似度,最小化负对的相似度。温度参数τ设为0.05。 训练策略: 优化器:AdamW。 学习率:峰值5e-5,前10%步骤线性预热。 轮数:两个阶段各训练2个epoch。 批次大小:通过梯度累积实现大批次(具体值未说明)。 参数高效微调:使用LoRA(rank=32, α=32, dropout=0.1)插入Transformer的投影层,冻结骨干模型。 关键超参数:骨干模型为Qwen2.5-Omni-3B。Selector基于Qwen3-0.6B。文本最大序列长度512 token。音频采样率16kHz。 训练硬件:8块NVIDIA A100 40GB GPU,使用DeepSpeed ZeRO优化。完整训练约需24小时。 推理细节:采用双编码器,通过余弦相似度计算相关性。Selector的阈值可调,用于平衡性能与效率。 📊 实验结果 主要基准与指标:在ATIR基准的四个设置(A→T, T→A, IAT→T, IAT→A)上评估,使用Recall@1和nDCG@5。 主结果:ATIR-Qwen-3B显著优于所有基线。 对比文本模型:在IAT→T设置上,Recall@1为81.74%,最强文本基线Qwen3-Embedding-4B为69.24%,高出12.5个百分点。 对比跨模态模型:跨模态模型(如CLAP)性能极差,M2D-CLAP在IAT→T上Recall@1仅22.53%。 对比融合模态模型:在IAT→T上,ATIR-Qwen-3B(81.74%)优于Omni-Embed-Nemotron-3B(75.47%)6.27个百分点。 消融实验: 组件贡献(表3):移除Selector导致平均Recall@1下降1.05%;移除Stage I下降3.27%;移除Stage II下降5.86%,表明交错模态训练最关键。 Selector vs. 平均池化:Selector(Recall@1 78.86%)优于2/4/8路平均池化(77.12/77.21/76.54%),证明了学习选择优于均匀压缩。 交错结构影响(表7):打乱音频-文本的顺序或位置都会导致性能下降,证实模型依赖于有序的交错结构。 效率分析:ATIR-Qwen-3B(延迟16.8ms)与同等规模的融合模态模型(如ColQwen-Omni-3B,17.1ms)延迟相当,且远低于需要ASR预处理的文本模型(>500ms)。 ⚖️ 评分理由 学术质量:6.0/7:论文在任务定义、基准构建和实验设计上表现出色,工作完整扎实。ATIR Selector模块的设计有明确动机且有效。主要扣分点在于模型架构本身缺乏根本性创新,更多是现有强大MLLM在特定任务上的适配和优化。 选题价值:1.5/2:音频-文本交错检索是一个重要且未被充分研究的前沿问题,尤其在人机交互和多模态内容理解领域有明确应用前景,选题具有较好的时效性和影响力。 开源与复现加成:0.0/1:论文提供了详尽的实验配置和附录,可复现性高。但正文中未明确承诺代码、模型权重和数据集的公开开源计划(仅提及“GitHub Issue”),因此无法给予加分。 🖼️ 图片与表格 图1:内容:展示跨模态检索、融合模态检索与交错模态检索的区别。保留:是 - 理由:直观定义了新任务(ATIR)与传统任务的区别,是理解论文核心问题的关键示意图。 图2:内容:展示ATIR数据合成框架的五个步骤。保留:是 - 理由:清晰地概括了构建基准数据集的完整流程,是理解论文数据贡献的核心图表。 图3:内容:展示ATIR模型的整体架构和ATIR Selector的训练范式。保留:是 - 理由:论文核心方法的详细图解,展示了模型组件、数据流和Selector的监督学习方式。 图4(柱状图):内容:对比ATIR Selector与不同路数平均池化在Recall@1和nDCG@5上的性能。保留:是 - 理由:直观展示了核心组件(Selector)的有效性,是关键消融实验的可视化证据。 主要结果表(表2):内容:在四个检索设置下,对比文本、跨模态、融合模态基线与ATIR-Qwen-3B的Recall@1和nDCG@5数值。保留:是 - 理由:承载了论文最核心的实验结论,必须保留所有模型和数值。 消融实验表(表3):内容:展示移除Selector、Stage I、Stage II对性能的影响。保留:是 - 理由:证明了每个设计组件的必要性,是验证方法有效性的关键证据。 分析实验表(表7):内容:展示打乱交错结构(Shuffle Order/Position/Both)对性能的影响。保留:是 - 理由:证明了模型对有序交错结构的依赖,深化了对任务和模型的理解。 效率分析表(表4):内容:对比不同模型的参数量和推理延迟。保留:是 - 理由:展示了ATIR-Qwen-3B在效率上的优势,是评估方法实用性的重要依据。 📸 论文图片 ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 170 words

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #迁移学习 #频谱分析 #基准测试 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #预训练 | #迁移学习 #频谱分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lam Pham* (奥地利技术研究所数字安全与安全中心, 奥地利) 通讯作者:Son Le† (越南孙德盛大学) 作者列表: Lam Pham* (奥地利技术研究所数字安全与安全中心, 奥地利) Khoi Vu* (FPT大学, 越南) Dat Tran* (FPT大学, 越南) Phat Lam (胡志明市理工大学, 越南) Vu Nguyen (越南孙德盛大学) David Fischinger (奥地利技术研究所数字安全与安全中心, 奥地利) Alexander Schindler (奥地利技术研究所数字安全与安全中心, 奥地利) Martin Boyer (奥地利技术研究所数字安全与安全中心, 奥地利) Son Le† (越南孙德盛大学) 💡 毒舌点评 亮点:论文对“环境声音深度伪造检测”这一新兴任务进行了堪称教科书级别的系统性实验评估,清晰揭示了“声音场景”与“声音事件”伪造检测的差异性,并证明了微调预训练模型(如BEATs)远优于从头训练,为后续研究提供了明确的基线和方向。 短板:核心方法(微调BEATs)本身并非本文原创,创新更多体现在训练策略(三阶段)和实验设计上;此外,论文声称开源但提供的链接指向arXiv页面,具体的代码和模型权重获取方式在节选中未明确,降低了即刻复现的便利性。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 267 words

ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

📄 ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence #基准测试 #模型评估 #音乐理解 #多模态模型 #跨模态 🔥 8.0/10 | 前25% | #基准测试 | #模型评估 | #音乐理解 #多模态模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Menghe Ma(北京邮电大学) 通讯作者:Haoran Luo(南洋理工大学) 作者列表: Menghe Ma*(北京邮电大学) Siqing Wei*(北京邮电大学) Yuecheng Xing*(北京邮电大学) Yaheng Wang(北京邮电大学) Fanhong Meng(中国音乐学院) Peijun Han(中国音乐学院) Luu Anh Tuan(南洋理工大学) Haoran Luo†(南洋理工大学) (*表示共同第一作者,†表示通讯作者) 💡 毒舌点评 亮点:论文一针见血地指出了当前多模态音乐AI“看得懂谱但不懂乐理”的致命短板,并用一套滴水不漏的确定性评估流水线(规范音高投影+序列对齐)把“LLM当评委”的主观泡沫彻底挤干,建立了一个干净、可复现的评测标尺。短板:虽然评估范式设计精巧,但基准数据集规模(1120个样本)和任务复杂度(如AST仅10秒音频)可能不足以完全模拟真实世界中长篇、复杂乐曲的处理挑战,其结论的普适性有待更大规模验证。 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/T12knightally/ONOTE 模型权重:未提及。本文为基准测试,不涉及发布自身模型。 数据集:提供HuggingFace数据集链接:https://huggingface.co/datasets/Weisiqing123/ONOTE Demo:未提及。 复现材料:附录A详细描述了数据集构建流程;附录B提供了完整的任务执行和评分评估提示词;附录C详细说明了评估指标的实现细节。这些构成了完整的复现材料。 论文中引用的开源项目:论文在相关工作和实验中引用了多个开源项目/模型,如MuseCoco、ChatMusician、MuseScore、ABC编译器等,但未明确列出其作为ONOTE实现的直接依赖。 📌 核心摘要 问题:当前多模态大模型在音乐符号处理(Omnimodal Notation Processing, ONP)领域存在严重缺陷:研究碎片化、模型存在严重的符号偏差(偏向五线谱)、且普遍依赖不可靠的“LLM-as-a-Judge”评估方法,掩盖了模型在音乐理论推理上的系统性失败。 方法核心:提出ONOTE基准,包含四个任务(视觉乐谱理解VSU、跨格式符号转换CNC、音频转符号AST、符号音乐生成SMG),覆盖五线谱、简谱、吉他谱三种系统。其核心是设计了一条“确定性与反偏差评估流水线”,通过“规范音高投影”将所有输出统一映射为一维音高序列,再利用编辑距离进行客观的序列对齐精度计算。 新意:与以往专注于单一转录任务或使用主观评估的基准不同,ONOTE首次提供了覆盖音乐符号处理全生命周期的、多符号系统的综合评估框架,并彻底摒弃了主观评分,实现了评估的客观化与标准化。 主要实验结果:对多个前沿全模态模型(如Qwen、Gemini系列)的评测显示,模型在VSU任务上表现优异(如Gemini-3.1-flash-lite-preview在五线谱VSU达99%),但在需要深层音乐理论推理的CNC和AST任务上表现急剧下降(如上述模型五线谱CNC仅17.29%)。这证实了模型“感知准确”与“理解逻辑”之间的巨大鸿沟。 实际意义:为音乐AI研究社区提供了统一、严谨的评估标准,能够客观诊断模型的推理弱点,推动开发更具音乐认知深度、而非仅进行表面模式匹配的AI系统。 主要局限性:1) 基准数据集规模相对有限(1120个样本),可能无法覆盖所有音乐风格和复杂度;2) 任务设置(如AST仅10秒)偏向简化场景;3) 作为评估基准,其本身不提出新模型,价值依赖于社区的采纳和应用。 🏗️ 模型架构 本文并非提出一个新的端到端模型,而是定义了一个评估框架(Benchmark)。其核心架构是确定性评估流水线,流程如下: ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 207 words

SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

📄 SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment #语音生物标志物 #基准测试 #数据集 #迁移学习 #自监督学习 ✅ 7.0/10 | 前50% | #语音生物标志物 | #基准测试 | #数据集 #迁移学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Giovanna Sannino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) 通讯作者:Giovanna Sannino(giovanna.sannino@icar.cnr.it) 作者列表: Giovanna Sannino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Ivanoe De Falco(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Nadia Brancati(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Laura Verde(卡帕尼亚大学“Luigi Vanvitelli”数学与物理系) Maria Frucci(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Daniel Riccio(那不勒斯大学“Federico II”电气工程与信息技术系) Vincenzo Bevilacqua(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Antonio Di Marino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Lucia Aruta(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) Valentina Virginia Iuzzolino(那不勒斯大学“Federico II”高级生物医学科学系) Gianmaria Senerchia(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) Myriam Spisto(卡帕尼亚大学“Luigi Vanvitelli”心理学系) Raffaele Dubbioso(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) 💡 毒舌点评 亮点:成功组织了一场大规模、多学科协作的国际挑战赛,并构建了一个具有临床标注、包含纵向数据的宝贵公开数据集,为语音生物标志物研究提供了急需的基准。 短板:作为一篇挑战赛报告,其核心价值在于“平台搭建”而非“技术突破”,论文本身未提出新的算法或深入的理论分析,对参赛方法的讨论也停留在描述层面。 ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 182 words

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

📄 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation #基准测试 #语音大模型 #语音合成 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ruohan Liu (南京大学) 通讯作者:Chaoyou Fu (南京大学) 作者列表: Ruohan Liu (南京大学) Shukang Yin (南京大学) Tao Wang (南京大学) Dong Zhang (小米) Weiji Zhuang (小米) Shuhuai Ren (小米) Ran He (南京大学) Caifeng Shan (南京大学) Chaoyou Fu (南京大学) 💡 毒舌点评 亮点:这篇论文把“副语言生成评估”这个模糊地带彻底标准化了,从不到50个特征扩展到100多个,还设计了从静态控制到动态变化再到情境适应的递进式任务,评估流水线也用上了“成对比较”来对抗主观性,工程上相当完备。短板:数据全靠合成,用TTS生成的“用户查询”和真实人类说话的副语言信息可能差了十万八千里,这导致整个基准测试的生态位有点尴尬——它测的是模型对“合成指令”的服从度,而非对“真实人类语音”的理解力。 ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 200 words

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-05-20 · 13 min · 2679 words

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models #基准测试 #模型评估 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者: Feiyu Zhao(天津大学,智能与计算学院) 通讯作者: Jianguo Wei(天津大学,智能与计算学院) 其他作者: Yiming Chen(华硕智能云服务,新加坡;与第一作者贡献相等),Wenhuan Lu(天津大学,智能与计算学院),Daipeng Zhang(天津大学,智能与计算学院),Xianghu Yue(天津大学,智能与计算学院) 💡 毒舌点评 亮点: 这篇论文堪称“音频大模型照妖镜”,首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”,设计了各种刁钻的“听力测试题”(对抗性提示、混合音频),揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症,为领域提供了急需的诊断工具。 槽点: 主要是个“体检报告”而非“治疗方案”,它精确诊断了问题但并未提出新的缓解方法。另外,部分任务(如单词顺序判断)可能过于依赖模板,模型或许能通过“猜”而非真正“听”来应付。 🔗 开源详情 代码: 已开源。GitHub地址:https://github.com/Feiyuzhao25/halluaudio 数据集: HalluAudio基准测试数据集已随代码开源,包含所有QA对和音频引用。 模型权重: 本文不涉及新模型的训练,因此不提供模型权重。评估的是已有的公开或闭源模型。 在线Demo: 论文中未提及在线Demo。 依赖的开源工具/模型: 评估中使用了多个开源LALM,如Qwen-Audio, Qwen2-Audio, Llama-Omni, MiMo-Audio等(详见附录D)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)中普遍存在的“幻觉”问题(即生成与音频证据不符的内容)缺乏系统性评估工具的难题。为此,作者构建并发布了HalluAudio,这是首个大规模、多领域(语音、环境声、音乐)、多任务(二分类、多选、属性验证、开放生成)的人工验证音频幻觉检测基准,包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉,并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估,论文发现:1)幻觉是普遍且领域依赖的系统性问题;2)即使在标准基准上表现优异的模型,在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败;3)模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。 🏗️ 模型架构 注意: 本文的核心贡献是提出一个评估基准(Benchmark),而非一个新的模型架构。因此,本节将详细描述该基准测试的整体架构和评估流程。 整体架构(评估管线): 如图1所示,HalluAudio的评估是一个模块化、端到端��流程,旨在系统性地引发、测量和分析LALM中的幻觉。 输入层: 从语音(Common Voice)、环境声(FSD50K)、音乐(GTZAN, Mridangam)数据集中选择音频片段。 任务构建层: 对每个音频,使用参数化提示模板生成问题。模板包含可替换的槽位(如单词、标签),通过填充有效或无效的属性来生成“可回答”或“故意不可回答”的查询,以诱发不同类型的幻觉。 模型推理层: 将构建好的“音频-问题”对输入到待评估的LALMs中,采用零样本协议,模型输出为文本。 输出标准化层: 由于模型输出形式多样(如“是的”、“Yes.”、“确实如此”),需要通过文本处理(小写化、去标点、关键词匹配)将其标准化为结构化标签(如Yes, No, 数字, Refusal)。 有效性检查与行为分析层: 将标准化后的输出与标准答案进行比对,计算各项指标(准确率、是/否偏差、错误拒绝率等),并进行细粒度的错误类型分析(如幻觉性肯定回答、错误的任务 grounding 答案、错误拒绝)。 关键设计选择理由: 参数化模板: 确保生成大规模、可控且与音频内容精确对齐的QA对。 对比性/对抗性构造: 通过最小化修改(如改变单词顺序、引入噪声)创建正负对比样本,以孤立出引发幻觉的具体触发器。 多领域覆盖: 确保评估的全面性,因为模型在不同音频域(语言 vs. 非语言)可能表现出不同的幻觉模式。 多维度指标: 超越简单的准确率,诊断模型的行为偏差(如盲目肯定)和保守性偏差(如过度拒绝)。 💡 核心创新点 首个大规模、多领域音频幻觉基准: 提出了HalluAudio,这是第一个专门针对音频(涵盖语音、环境声、音乐)的、大规模(>5K QA对)、经过人工验证的幻觉检测基准,填补了该领域的关键空白。 系统性的幻觉诱导方法: 创新性地设计了对比性任务(如单词顺序、声音共存)和对抗性/无效查询(如询问不存在的说话者性别、随机声音标签),以主动、可控地触发模型的各类幻觉行为(虚构、证据矛盾、无根据肯定)。 多维度诊断评估框架: 提出了一套超越准确率的评估指标,包括是/否偏差测试(Yes-p Ratio, Unrelated Ratio, Conditional Accuracy)和错误拒绝率,能够细粒度地区分模型的不同失败模式(如感知错误、推理错误、过度保守)。 深入的跨模型与跨领域实证分析: 对12个具有代表性的开源和闭源LALM进行了首次大规模、跨领域的对比评估,揭示了幻觉行为的领域特异性(如语音中的结构幻觉、环境声中的感知幻觉)和模型特异性,为未来模型改进提供了明确方向。 🔬 细节详述 数据集构建: 来源: 语音(Common Voice)、环境声(FSD50K)、音乐(GTZAN, Mridangam Strokes, Mridangam Tonics)。 规模: 总计5720个QA对。其中,语音域任务最丰富(包括重叠检测、词序、计数、无效查询等),环境声音侧重存在性与共现性,音乐侧重乐器/流派识别与比较。 流程: 五步管线:1) 音频选择;2) 模板生成;3) 对比/对抗构造;4) 人工验证(三轮,Cohen‘s κ=0.91);5) 打包与平衡。 关键设计: 包含2662个对比性任务和621个明确的对抗性/无效查询,57.4%的数据旨在通过控制扰动或证据缺失来探测幻觉。 评估指标: 准确性: 标准任务准确率。 是/否偏差测试: Yes-p Ratio: 在二元问题中回答“Yes”的比例。 Unrelated Ratio: 在回答错误的样本中,模型给出与问题无关答案的比例。 Conditional Accuracy: 基于预测类别(Yes/No)划分的条件准确率。 错误拒绝率: 模型拒绝回答可回答问题的比例。 评估模型: 共12个模型,包括2个闭源(GPT-4o-Audio, Gemini-2.5-Flash)和10个开源模型(如Qwen系列、Llama-Omni系列、MiMo-Audio、Step-Audio-2等)。 关键发现(实验数据): 语音域: MiMo-Audio和Step-Audio-2在时序任务上表现优异(如重叠检测准确率>96%),而Qwen-Audio、Pengi等在某些子任务上低于50%。Phi-4在噪声和性别扰动下性能下降。 环境声域: MiMo-Audio和Qwen2.5-Omni在时序比较任务上领先。Audio Flamingo3和Pengi在多标签识别上表现不佳。模型在“随机错误”提示下行为分化:一些自信地幻觉,另一些则过度拒绝。 音乐域: GPT-4o-Audio和MiMo-Audio相对稳健,而Pengi和Qwen2-Audio在流派/乐器识别上接近随机水平。在计数和排序任务上,模型普遍表现不佳(如Gemini-2.5-Flash低于15%)。 是/否偏差: Qwen系列模型在跨域任务中表现出强烈的肯定回答倾向。在环境声任务中,这种偏差最明显。 错误拒绝: Gemini-2.5-Flash和Qwen2-Audio表现出最严重的过度拒绝倾向,尤其在结构复杂的任务(计数、速度比较)和感知不确定的任务(声音共存)中。 📊 实验结果 主要指标对比(表格数据复述): ...

2026-04-22 · 更新于 2026-05-20 · 2 min · 305 words

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models #语音对话系统 #基准测试 #语音大模型 #实时处理 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:He Zhang(清华大学) 通讯作者:论文未明确指定通讯作者。根据作者列表和脚注(Equal contribution. Corresponding author.),He Zhang 和 Wenqian Cui 可能为共同第一作者,且其中一人为通讯作者,但未明确区分。 其他作者: Wenqian Cui(香港中文大学) Haoning Xu(香港中文大学) Xiaohui Li(华为技术有限公司) Lei Zhu(华为技术有限公司) Haoli Bai(华为技术有限公司) Shaohua Ma(清华大学) Irwin King(香港中文大学) 💡 毒舌点评 亮点:这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀,试图将混沌的对话流解剖成可分析的片段,这份工程和评测的巧思值得点赞。 槽点:然而,作为一个“裁判员”,自己不开源(代码、数据、评估脚本),却要求大家按照你的新规则来比赛,这多少有点“只许州官放火”的味道。而且,全文高度依赖GPT-4o当“裁判的裁判”,让人不禁怀疑这到底是评测FD-SLMs,还是在变相测试GPT-4o的“打分”能力。 🔗 开源详情 论文中未提及任何开源计划。未提供代码、模型权重、评测数据集或评估脚本的获取方式。这是一个重大缺陷,限制了该基准的可复现性和社区采纳度。 📌 核心摘要 这篇论文旨在解决当前全双工语音语言模型(FD-SLMs)评测体系的一个关键缺陷:缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性(如打断),忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此,作者提出了MTR-DuplexBench,一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法,通过结合语音活动检测、GPT-4o语义理解和聚类算法,将连续的对话音频自动、稳定地切分为离散的“轮次”,从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集:对话质量(使用自然对话数据)、对话特性(如平滑交接、打断等)、指令遵循和安全(使用合成数据)。实验以Moshi模型为基线,揭示了其在多轮交互中性能(如成功率、延迟)普遍衰减的规律,证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型(GPT-4o),且未开源任何资源,可能影响其可复现性和广泛应用。 🏗️ 模型架构 注意:本论文的核心贡献是评测基准(Benchmark),而非提出新的语音模型。因此,“模型架构”部分描述的是其评测框架的整体架构和工作流程。 评测框架的核心是实现对FD-SLMs进行轮次级(turn-by-turn) 的自动化评估。其完整流程如下: 输入:双通道音频(用户和助手),以及待评测的FD-SLM。 轮次分割模块(核心创新): 信息提取:使用Whisper-timestamped和Silero VAD,从两个通道的音频中提取带有时间戳的语音段转录文本。 GPT-4o语义分割:将提取出的所有语音段按时间排序后,输入给GPT-4o,利用其语义理解能力判断用户发言的起止点,生成候选轮次边界。此步骤重复6次以获取多个候选结果。 多数投票与聚类:将6次分割结果进行聚类。如果两个候选轮次在时间上重叠超过30%,则将它们合并为一个新候选轮次,其起止时间取所有合并轮次的中位数。仅保留被投票超过1次(即至少在2次GPT分割中出现)的轮次。 最终重叠解决:合并所有在时间上仍有重叠的候选轮次,得到最终的用户轮次划分(FinalTurns)。 上下文对齐与推理: 根据分割出的用户轮次[C.start, C.end],为助手分配响应时间段[C.start, C_next.end]。 关键设计:在助手的响应时间段内,将下一用户轮次的音频静音,并将该时间段内助手通道的历史音频替换为真实(Ground Truth)语音。这确保了模型在推理时,其上下文(历史对话)与评测场景严格一致,避免了因模型早期回答偏离真实对话而导致的“上下文漂移”问题。 将处理后的、对齐的音频流输入待评测的FD-SLM,获取其在当前轮次的响应。 多维度评估: 对模型在每个轮次的输出,根据不同的评测维度(对话质量、对话特性等),调用相应的评估流程和指标(如GPT-score、成功率、延迟、拒绝率)进行打分。 输出:模型在各个评测维度、各个轮次上的量化得分。 💡 核心创新点 全双工轮次分割方法论: ...

2026-04-22 · 更新于 2026-05-20 · 2 min · 237 words