多模态 | 语音/音乐/音频论文速递

From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

📄 From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench #语音对话系统 #基准测试 #多模态 #数据集 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Ke Xu (推断) 通讯作者：Yu Wang (推断) 其他作者：Yuhao Wang (推断) （注：论文摘要中未明确列出作者所属机构。根据常见的学术论文作者署名惯例，以上推断基于作者姓名顺序和通讯作者的通常角色。如需准确信息，需查阅论文全文的作者 affiliations 部分。） 💡 毒舌点评亮点：在“AI会抢话”这个未来人机交互的核心痛点上，率先搭了个擂台（ProVoice-Bench），把“主动性”这个模糊概念拆解成可量化的四个任务，研究方向很有前瞻性。槽点：实验部分像请了三位武林高手（几个多模态LLM）来打擂，结果发现大家都有点“反应过度”和“想太多”，但论文没深入剖析为啥会这样，也没开源“擂台”本身，让后续挑战者有点无从下手。 🔗 开源详情论文中未提及开源计划。目前无法得知ProVoice-Bench数据集、评估代码或相关模型权重是否会公开。 📌 核心摘要本文旨在解决当前语音代理评估中过度关注被动响应，而忽视其主动交互能力的问题。为此，作者提出了首个专门评估主动语音代理的基准测试框架 ProVoice-Bench。该框架包含四个新颖的任务，用以衡量代理在不同场景下的主动介入和监控能力。通过设计一个多阶段数据合成管道，研究团队构建了一个包含1,182个高质量样本的评测数据集。对多个前沿多模态大语言模型的评估结果显示，当前模型在主动语音交互方面存在显著性能差距，主要体现在过度触发（在不必要时主动发言）和推理能力不足两个方面。这项工作不仅揭示了现有模型的局限，也为开发更自然、具备上下文感知能力的主动语音代理指明了具体改进方向。 🏗️ 模型架构本论文的核心贡献是提出了一个评估框架（Benchmark），而非一个新的模型架构。因此，其“模型架构”指的是被评估的现有先进多模态大语言模型以及评估框架本身的设计。被评估模型架构（以通用多模态LLM为例）：输入：通常为音频流（语音）和可能的文本上下文。音频通过音频编码器（如Whisper、Qwen-Audio的编码器）转换为音频特征向量。核心处理：特征向量被输入到一个统一的大语言模型（如Qwen2.5、LLaMA等架构）中。该LLM经过多模态对齐训练，能够同时理解文本、音频（有时包括视觉）信息。输出：模型根据输入和内部推理，生成文本响应或决定保持沉默。在主动代理任务中，模型需要自主判断是否以及何时需要主动发起对话或干预。连接方式：音频特征与文本token在LLM的嵌入空间或通过交叉注意力机制进行融合。模型的“主动性”体现在其自回归生成过程中，基于对上下文的理解，预测出应该输出响应还是特殊的“静默”或“等待”标记。评估框架（ProVoice-Bench）架构：整体流程：框架输入是设计好的多模态场景（包含语音对话、环境音频事件等），输出是被评估模型在该场景下的行为序列（如：何时说话、说了什么），最后通过预设的评估指标进行打分。四个核心任务：情境感知对话发起（Context-Aware Conversation Initiation, CACI）：判断在特定环境声音（如敲门声、微波炉“叮”声）后，代理是否应主动发起相关询问。任务导向型主动干预（Task-Oriented Proactive Intervention, TOPI）：在用户执行任务（如做饭）遇到困难（如步骤错误、遗漏）时，代理是否应主动提供帮助。情感状态主动关怀（Emotional State Proactive Care, ESPC）：检测用户语音中的情感变化（如沮丧、困惑），并判断是否应主动表达关怀或提供支持。持续监控与适时提醒（Continuous Monitoring and Timely Reminder, CMTR）：在长时间交互中，监控用户状态（如长时间未操作、偏离目标），并在恰当时机进行提醒。数据合成管道：这是一个关键组件，用于生成评测数据。它可能包含：a) 场景设计：人工或规则定义交互剧本；b) 语音合成：使用TTS生成对话语音；c) 音频事件合成：添加环境音效；d) 标注：由人工标注“正确”的主动行为时间点和内容。这个管道确保了数据的可控性和评估的客观性。 💡 核心创新点首次定义并系统评估语音代理的“主动性”：之前的研究和基准（如Spoken-CQA、SD-Eval）主要评估模型对用户查询的被动响应能力。本文明确提出了“主动语音代理”的概念，并将其操作化为四个可衡量的具体任务，填补了该领域的评估空白。构建了首个主动语音代理评测基准 ProVoice-Bench：这不是一个简单的数据集，而是一个包含多任务、多场景、高质量合成数据的完整评估框架。其创新在于任务设计的全面性（覆盖了发起、干预、关怀、提醒等主动行为的关键维度）。设计了多阶段数据合成管道以生成高质量评测数据：主动行为的“正确答案”在真实世界中难以大规模、一致地获取。本文创新性地采用合成方法，通过可控的流程生成了1,182个带有明确评估标准（何时该主动、说什么）的样本，解决了主动交互评估数据稀缺的难题。揭示了当前SOTA多模态LLM在主动交互上的具体缺陷：通过在ProVoice-Bench上的实验，论文不仅证明了性能差距，更具体地指出了“过度触发”（False Triggering）和“推理能力不足”是两大核心问题。这为未来的研究提供了明确的优化目标，而不仅仅是笼统的“性能提升”。 🔬 细节详述训练数据：论文主要工作是构建评测数据集，而非训练新模型。评测数据集 ProVoice-Bench 包含 1,182 个样本，通过多阶段数据合成管道生成。该管道可能整合了剧本设计、文本转语音（TTS）、音频事件混合和人工校验等步骤，以确保数据质量和评估标准的一致性。损失函数：不适用。本文为评估论文，未涉及模型训练。训练策略：不适用。关键超参数：论文未提及训练超参数。在评估中，可能涉及模型推理时的参数，如采样温度（temperature）、top-k/top-p等，但摘要中未说明。训练硬件：不适用。推理细节：论文未详细说明评估时模型的推理策略（如是否使用beam search）。通常，对于对话生成任务，可能使用核采样（nucleus sampling）以生成自然响应。数据增强/正则化：不适用。 📊 实验结果主要指标对比：根据提供的柱状图（图1），论文评估了多个模型在 CFC（可能指Context-aware Conversation Initiation相关任务）和 PIC（可能指Proactive Intervention and Care相关任务）两大类任务上的表现。每个任务下有Recall (Rec)、Accuracy (Acc) 和 $R_{acc}$（可能是Recall和Accuracy的调和平均或加权平均）三个指标。 CFC任务： Recall (Rec): Qwen3-Omni (w/ DC) 约为0.43，Qwen3-Omni (T) (w/ DC) 和 Step-Audio-R1 (T) (w/ DC) 均约为0.74。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.54，Qwen3-Omni (T) (w/ DC) 约为0.84，Step-Audio-R1 (T) (w/ DC) 约为0.83。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.46，Qwen3-Omni (T) (w/ DC) 约为0.83，Step-Audio-R1 (T) (w/ DC) 约为0.80。 PIC任务： Recall (Rec): Qwen3-Omni (w/ DC) 约为0.76，Qwen3-Omni (T) (w/ DC) 约为0.58，Step-Audio-R1 (T) (w/ DC) 约为0.91。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.78，Qwen3-Omni (T) (w/ DC) 约为0.78，Step-Audio-R1 (T) (w/ DC) 约为0.82。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.69，Qwen3-Omni (T) (w/ DC) 约为0.74，Step-Audio-R1 (T) (w/ DC) 约为0.72。关键发现：1) 模型性能在不同类型任务上差异显著（如Step-Audio-R1在PIC的Rec上极高，但在CFC的Rec上极低）。2) “w/ DC”（可能指使用了某种对话上下文或解码策略）与“w/o DC”的对比显示，上下文信息对主动行为的准确性有复杂影响。3) 所有模型的Recall和Accuracy都远未达到完美（1.0），尤其在CFC任务上Recall普遍偏低，印证了“推理能力不足”和“过度触发”（可能对应高Recall但低Accuracy的情况）的问题。消融实验：图中“w/ DC”与“w/o DC”的对比可视为一种消融，表明特定组件（如对话上下文）对模型主动性能有显著影响。与SOTA方法的对比：论文评估的本身就是当前的多模态LLM SOTA（如Qwen3-Omni, Step-Audio-R1）。结果显示，即使在这些最强模型上，主动交互能力仍是短板。用户研究/主观评价：摘要和图中未提及。 ⚖️ 评分理由创新性：8.5/10 - 开创性地定义了“主动语音代理”的评估范式，并构建了首个专用基准。从“被动应答”到“主动交互”的视角转换具有重要学术价值，为领域发展设立了新的路标。实验充分性：7.5/10 - 实验设计合理，对比了多个有代表性的SOTA模型，并使用了多维度指标。但评测模型数量可以更多（如包含更多开源和商业模型），且缺乏对模型失败案例的深入分析（如为什么会在某些场景过度触发）。实用价值：9.0/10 - 直接指向未来语音助手发展的核心需求——更自然、更主动的交互。研究成果（Benchmark和发现的缺陷）能有效指导工业界优化产品，避免“人工智障”式的打扰，实用导向非常明确。灌水程度：2.0/10 - 论文内容扎实，问题定义清晰，方法新颖，实验结论明确。没有明显的冗余内容或夸大表述，是一篇高质量的AI评估研究论文。 🖼️ 图片与表格图1: 不同模型在CFC和PIC任务上各指标的表现 | 保留: 是 - 理由：这是论文的核心实验结果图，直观展示了不同模型在主动语音交互关键任务上的性能差异和存在的问题（如Recall和Accuracy的不平衡），是支撑论文结论的关键证据。关键数据表格（根据图1文字化）：模型任务 Recall (Rec) Accuracy (Acc) $R_{acc}$ Qwen3-Omni (w/ DC) CFC ~0.43 ~0.54 ~0.46 PIC ~0.76 ~0.78 ~0.69 Qwen3-Omni (T) (w/ DC) CFC ~0.74 ~0.84 ~0.83 PIC ~0.58 ~0.78 ~0.74 Step-Audio-R1 (T) (w/ DC) CFC ~0.74 ~0.83 ~0.80 PIC ~0.91 ~0.82 ~0.72 注：数据为根据柱状图高度估算的近似值。 📸 论文图片 ...

Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

📄 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis #语音伪造检测 #数据集 #多模态 #音视频 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Miao Liu（根据arXiv常见格式推断，可能来自某高校或研究机构，原文未提供具体机构信息）通讯作者：Fangda Wei（根据arXiv常见格式推断，可能来自同一机构，原文未提供具体机构信息）其他作者：Jing Wang, Xinyuan Qian（根据arXiv常见格式推断，可能来自同一机构，原文未提供具体机构信息）（注：提供的论文摘要中未包含作者所属机构信息，以上为基于arXiv论文常见格式的推断。完整论文全文通常在标题页或脚注中包含机构信息。） 💡 毒舌点评亮点在于敏锐地捕捉到了现有深度伪造检测研究的“盲区”——只盯着“说谎的嘴”，却忽略了“倾听的脸”，这个视角的转换很有启发性，为领域打开了新方向。槽点则是新创的“ListenForge”数据集规模可能有限（基于5种生成方法），且提出的MANet模型虽然有效，但其复杂度和在真实世界海量、多变的“聆听”场景下的泛化能力，恐怕还有待更严苛的考验。 🔗 开源详情代码：论文中提到“数据集和代码已开源”，并提供了匿名链接 https://anonymous.4open.science/r/LDD-B4CB。预计在论文被接收后会公开至GitHub等平台。模型权重：论文摘要未提及是否公开预训练权重。数据集：ListenForge数据集通过上述匿名链接提供。预训练权重：所使用的视觉（如I3D）和音频（如VGGish）特征提取器为公开的预训练模型。在线Demo：论文摘要未提及。引用的开源项目：论文可能依赖于PyTorch/TensorFlow深度学习框架，以及MMDetection、FaceAlignment等用于人脸检测和关键点定位的开源工具。 📌 核心摘要本文首次提出了“聆听深度伪造检测”这一新任务，旨在识别视频中人物在倾听状态下（非说话时）的伪造反应，弥补了现有研究主要集中于“说话”场景的不足。为解决此任务数据稀缺的问题，作者构建了首个专门数据集ListenForge，包含由五种不同头部生成方法合成的伪造聆听视频。针对聆听伪造中细微的运动不一致性，作者设计了一个名为MANet的运动感知与音频引导网络，该网络通过捕捉听众视频的细微运动，并利用说话者的音频语义来引导跨模态特征融合，从而有效检测伪造。实验表明，现有的说话深度伪造检测模型在聆听场景下性能显著下降（AUC约60%），而MANet在ListenForge数据集上取得了优越性能（AUC达94.5%）。该工作强调了超越传统“说话中心”范式进行深度伪造检测的必要性，并为交互场景下的多模态伪造分析开辟了新方向。 🏗️ 模型架构 MANet是一个用于二分类（真实/伪造）的双流网络，其核心思想是联合分析听众的视觉运动和说话者的音频语义。整体流程：输入：一段包含听众反应的视频片段（视觉流V）和对应的说话者音频片段（音频流A）。特征提取：视觉流：使用预训练的3D CNN（如I3D）提取视频片段的时空特征，得到视频特征 V。同时，通过计算相邻帧差异或使用光流网络，提取听众面部/头部的运动特征 M。音频流：使用预训练的音频网络（如VGGish）提取说话者音频的语义特征 A。跨模态融合与检测（核心模块 - Motion-aware and Audio-guided Network）：运动特征处理：运动特征 M 首先通过一个由卷积层、批归一化（BN）和ReLU激活组成的模块进行编码。音频引导的通道注意力（CHA）：将编码后的运动特征 M 与音频特征 A 结合。具体地，对 M 进行跨空间平均池化，得到一个通道描述符。然后，将该描述符与音频特征 A 拼接（或进行其他融合），通过全连接层（FC）、ReLU和另一个FC层，再经过Sigmoid函数生成通道注意力权重 W_c。这个权重 W_c 用于对中间视觉特征 V'（可能来自视觉流或运动特征）进行通道维度的重新加权，强调那些与当前说话内容更相关的视觉通道。空间注意力（SPA）：将经过通道加权的特征与运动特征 M 再次结合，通过跨通道平均池化，然后经过卷积层和Sigmoid函数，生成空间注意力图 W_s。这个权重 W_s 用于对原始视频特征 V 进行空间维度的重新加权，引导模型关注听众面部/头部中运动最不一致或最可疑的区域。分类：将经过双重注意力（空间和通道）精炼后的视频特征 V' 送入分类器（如全连接层），输出伪造概率。关键设计理由： ...

Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Xiangyu Zhang（新南威尔士大学电气工程与电信学院；杜比实验室，悉尼）通讯作者：Julien Epps（新南威尔士大学电气工程与电信学院）（推断，作为最后作者及机构负责人）其他作者： Benjamin John Southwell（杜比实验室，悉尼） Siqi Pan（杜比实验室，悉尼） Xinlei Niu（杜比实验室，悉尼） Beena Ahmed（新南威尔士大学电气工程与电信学院） 💡 毒舌点评亮点：论文像一位严谨的侦探，系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突，并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点：实验部分虽然扎实，但读起来像在啃一本厚重的实验手册，部分描述（如梯度分析）略显冗长，且主要聚焦于视频-音频融合，对其他模态组合的泛化性探讨不足，有点“偏科”。 🔗 开源详情代码：论文在标题下方提供了 GitHub Issue 链接（https://github.com/...，具体地址需从原PDF获取），并声明了 CC BY 4.0 许可。这强烈暗示代码将开源或部分开源，但论文中未提供完整的仓库地址或stars数量。模型权重：论文中未提及是否公开预训练的模型权重。数据集：实验主要使用公开的 AudioSet 和 AVQA 数据集。预训练权重：视觉编码器使用了预训练的 Perception Encoder。下游评估使用了 Llama 3.1 8B 的预训练权重。在线 Demo：论文中未提及。引用的开源项目：论文依赖或提及了多个开源项目/模型，包括 SEANet（音频编码器-解码器）、Perception Encoder（视觉特征提取）、Llama 3.1（语言模型评估基线）、CLIP（对比学习方法参考）等。 📌 核心摘要这篇论文深入探讨了在端到端音频语言模型中，将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验，揭示了三个关键发现：融合位置（在量化前还是量化后）至关重要；在离散分词器中，知识蒸馏比对比学习更有效；基于时间轴的动态融合优于静态特征融合。基于此，论文提出了时间感知预量化融合（TAPF）方法，这是首个能在集成视觉信息的同时，保持高保真音频重建质量的方案。实验表明，TAPF不仅维持了重建保真度，还在下游音频理解任务（如AVQA）上显著优于单模态音频分词器和现有多种多模态融合基线，特别是在低比特率（高压缩）场景下，展现了8倍的token效率提升。 ...

语音/音乐/音频论文速递 2026-04-19

语音/音乐/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜（42 篇，按分数降序）排名论文评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

语音/音乐/音频论文速递 2026-04-18

语音/音乐/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名论文评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...