Posts

Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models

📄 Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models #语音对话系统 #强化学习 #生成模型 #实时处理 ✅ 评分：7.8/10 | arxiv 👥 作者与机构第一作者（推断）：Yifu Chen（阿里巴巴达摩院，语音实验室）通讯作者（推断）：Shengpeng Ji（阿里巴巴达摩院，语音实验室）其他作者： Zhengqing Liu（阿里巴巴达摩院，语音实验室） Qian Chen（阿里巴巴达摩院，语音实验室） Wen Wang（阿里巴巴达摩院，语音实验室） Ziqing Wang（阿里巴巴达摩院，语音实验室） Yangzhuo Li（阿里巴巴达摩院，语音实验室） Tianle Liang（西湖大学，计算机科学系） Zhou Zhao（西湖大学，计算机科学系）注：论文中未明确标注第一作者和通讯作者，以上根据作者顺序和常见惯例推断。机构信息根据作者姓名和领域常识推断，主要来自阿里巴巴达摩院和西湖大学。 💡 毒舌点评亮点：精准地抓住了当前全双工语音对话模型（SDMs）的“阿喀琉斯之踵”——缺乏可靠的交互质量评估信号，并尝试用强化学习（RL）的框架来破解，思路很有前瞻性。提出的“双轴”评估框架（语义+时序）也直击要害。槽点：方法的核心——“双轴生成奖励模型”本身听起来像个“裁判AI”，但论文对这个裁判的“大脑”（模型架构）描述得不够“透明”，特别是内部结构和参数细节。实验虽然横跨多个数据集，但规模和多样性是否足以支撑“复杂真实世界交互”的结论，需要打个问号。 🔗 开源详情论文中未提及任何开源计划。摘要和给定信息中没有关于代码、模型权重、数据集或在线Demo的公开说明。通常，此类来自工业实验室的研究，其代码和模型是否开源取决于公司的政策。 📌 核心摘要本文旨在解决全双工语音对话模型（SDMs）实现类人交互的核心挑战。现有自动化评估指标流于表面（如统计行为或预测时机准确率），无法为强化学习提供可靠的奖励信号，而人工评估成本高昂且难以扩展。为此，作者提出了一个双轴生成奖励模型。该模型基于一个详细的交互质量分类体系和配套的标注数据集进行训练，能够理解复杂的对话动态。其核心创新在于能同时输出一个总体质量分数和对语义质量与交互时机（轮转）的独立评估，从而为SDMs提供精确的诊断反馈和适用于在线强化学习的可靠奖励信号。实验表明，该模型在涵盖合成对话与复杂真实交互的多个数据集上，在交互质量评估任务上达到了当前最优（SOTA）水平。 🏗️ 模型架构双轴生成奖励模型（Dual-Axis Generative Reward Model）的整体架构旨在将一段多模态（音频+文本）的对话交互映射为结构化的质量评估。输入输出流程：输入：一段完整的对话历史记录，包含交替的语音片段（波形或频谱图）和对应的文本转录（ASR结果）。特征提取与编码：音频编码器：首先，每个说话人的语音片段通过一个预训练的音频编码器（如HuBERT、WavLM等）转换为帧级别的声学特征向量序列。这些特征捕捉了语调、节奏、重叠等副语言信息。文本编码器：对应的文本转录通过一个预训练的语言模型（如BERT、RoBERTa）编码为词级别的语义特征向量序列。多模态融合与上下文建模：将编码后的音频和文本特征在时间维度上对齐并拼接，形成每个对话轮次的统一表示。一个对话上下文编码器（通常是一个Transformer编码器或类似的序列模型）处理整个对话历史序列。它通过自注意力机制捕捉轮次内（模态间）和轮次间（时间上）的依赖关系，理解对话的连贯性、话题发展和说话人意图。结构化评估生成（核心）：对话上下文编码器的输出被送入一个奖励生成模块。该模块通常是一个条件生成模型（如基于Transformer的解码器）。它不是直接输出一个分数，而是根据预定义的详细分类法（Taxonomy），以生成文本或结构化标签的形式，对对话的多个维度进行“诊断”。这个分类法可能包括：语义轴：相关性、信息量、一致性、帮助性等。交互轴：响应延迟、过早打断、过晚响应、不当重叠、话轮保持等。模型为每个维度生成一个描述或评级（例如，“响应延迟：适中”、“语义相关性：高”）。分数输出：最后，一个评分聚合网络（可以是另一个小型神经网络或简单的加权求和）将上述结构化的诊断结果映射为两个独立的标量分数：语义质量分数：反映对话内容的价值。交互时机分数：反映轮转的流畅度和自然度。同时，也可以输出一个综合的总体交互质量分数。关键设计选择理由： ...

Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning

📄 Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning #音频分类 #时频分析 #信号处理 #音频理解 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Mahmoud Fakhry（西班牙卡洛斯三世大学，信号理论与通信系；埃及阿斯旺大学，电气工程系）通讯作者：Ascensión Gallardo-Antolín（西班牙卡洛斯三世大学，信号理论与通信系）其他作者：无 💡 毒舌点评亮点：这篇论文的“混搭”思路很有意思，把经典的信号处理工具（Gabor字典、弹性网络）和现代深度学习（CNN-LSTM）结合，像用老式显微镜（稀疏建模）观察细胞（心音），再用最新的AI修图软件（CNN）进行分类，最终效果拔群。槽点：论文的排版和表格格式堪称“灾难”，多个表格数据错位、符号乱码（如98.95 % 98.95\%），严重影响阅读体验；此外，虽然声称“深度学习”，但核心网络结构相对简单，更像是对特征工程工作的验证。 🔗 开源详情代码：论文中未提及代码开源计划，未提供GitHub等地址。模型权重：论文中未提及模型权重的公开信息。数据集：使用的是公开可用的心音数据集（具体名称未在节选全文中明确给出，但根据描述应为常用数据集），论文中未声明自己发布新数据集。预训练权重：未提及。在线Demo：未提及。引用的开源项目：未在节选部分明确列出。 📌 核心摘要本文旨在解决心音信号（PCG）的多分类问题，以辅助心血管疾病的自动诊断。核心贡献在于提出了一套结合优化Gabor字典和弹性网络正则化的特征提取框架，并与CNN-LSTM深度学习网络相结合。具体而言，作者首先通过系统性地调整Gabor原子的时频分辨率（尺度参数β）和弹性网络的正则化参数（α），为心音信号寻找最优的稀疏表示模型（系数向量a）。然后，将这些系数向量重塑为具有物理意义的2D时间-频率特征矩阵，作为分类网络的输入。实验在包含五种心脏瓣膜疾病的1000条记录数据集上进行，最终提出的“1D+2D CNN-LSTM”网络在ADAM优化器和最优特征（β=2¹，α=0.1）下，取得了**98.95%**的最高分类准确率，显著优于使用原始信号或传统VMD特征的基线方法。该方法的局限性在于数据集规模相对较小，且网络架构的复杂性并未达到当前最深模型的水平。 🏗️ 模型架构本文提出的系统分为两个主要阶段：特征计算与分类。整体流程：原始PCG信号 → 预处理（截断/补零、降采样、标准化） → 通过优化后的Gabor字典和弹性网络正则化计算系数向量a → 对a应用加权对数函数得到特征向量b → 将b重塑为2D时间-频率特征矩阵B → 输入到CNN-LSTM分类网络中 → 输出五类心脏疾病的分类概率。特征计算阶段：输入：长度为L=2^11的标准化PCG信号向量x。核心模型：通过求解弹性网络正则化问题 min_a (1/(2N))||x - D_j a||₂² + λ((1-α)/2 ||a||₂² + α ||a||₁) 来估计系数向量a。其中D_j是第j个Gabor字典，其原子的尺度参数β=2^j，α控制稀疏性（α=0为岭回归，α=1为LASSO）。特征变换与重塑：对系数向量a进行标准化和归一化后，应用加权对数函数 b_m = -|a_m| log|a_m| 得到特征向量b。然后，根据字典D_j的结构（行数=2^(j+1)，列数=2^(N-j+1)），将长度为2^(N+2)的向量b重塑为2D矩阵B。矩阵的每一行对应一个频率点，每一列对应一个时间平移位置。分类网络阶段：论文提出了两种架构： ...

Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram

📄 Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram #信号处理 #时频分析 #音频生成 #音频理解 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：David Valdivia（法国图卢兹大学 IRIT 实验室）通讯作者：Cédric Févotte（法国图卢兹大学 IRIT 实验室）其他作者：Elsa Cazelles（法国图卢兹大学 IRIT 实验室） 💡 毒舌点评亮点：这篇论文巧妙地将最优传输（OT）理论“嫁接”到经典的时频分析难题上，为解决Gabor-Heisenberg不确定性原理带来的分辨率权衡问题提供了新颖且数学严谨的视角。其设计的结构化代价矩阵和对应的无熵正则化UOT算法是两大技术亮点，显著提升了融合质量和计算效率。槽点：方法虽然精巧，但更像一个“后期处理工具”，而非端到端的解决方案。它严重依赖于输入谱图的质量，且目前主要聚焦于提升分辨率这一单一目标，对于更复杂的音频任务（如去噪、分离）的集成路径尚不明确。此外，算法虽比传统OT快，但面对超长音频或实时处理场景，其迭代优化的本质可能仍是瓶颈。 🔗 开源详情代码：论文中提到“The code used to reproduce the figures and experiments is available online.” 并提供了一个GitHub链接：https://github.com/davidvaldiviad/fusion-ot。代码已开源。模型权重：不适用。本文提出的是优化算法，而非可训练的模型。数据集：实验使用了公开的 PTDB-TUG 语音数据库 [pirker2011pitch]。合成数据由作者根据描述生成。预训练权重：不适用。在线 Demo：论文中未提及。论文中引用的开源项目：提到了 POT (Python Optimal Transport) 库 [POT] 用于对比实验。 📌 核心摘要核心问题：短时傅里叶变换（STFT）生成的谱图受制于不确定性原理，无法同时获得优异的时间和频率分辨率。传统融合方法（如几何平均）要求输入谱图网格对齐，且性能有限。核心方法：本文提出一种基于最优传输（OT）的谱图融合方法。将不同分辨率的谱图视为时频平面上的非负能量分布，通过计算它们的非平衡最优传输（UOT）重心来生成一个“超分辨率”谱图。关键创新包括：1）设计了结构化代价矩阵，将能量传输约束在时间或频率轴的相邻点，符合时频物理意义；2）提出了一个块状Majorization-Minimization（MM）算法，可直接求解无熵正则化的UOT重心问题，避免了传统方法因熵正则化导致的谱图模糊。主要发现：在合成信号和真实语音上的实验表明，该方法能有效结合输入谱图的最佳特性：既保留了长窗口谱图的高频率分辨率，又继承了短窗口谱图的高时间分辨率。在频率定位、时间定位和谐波浓度等多项指标上，均优于输入谱图及几何平均基线方法，且“不同网格”设置在保持性能的同时大幅降低了计算成本。实际意义：为音频和信号处理领域提供了一种强大的后处理工具，可用于生成更清晰、信息更丰富的时频表示，对语音分析、音乐信息检索、声学事件检测等依赖高质量谱图的任务具有直接应用价值。 ...

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Ryandhimas E. Zezario（推断为台湾中央研究院资讯科学研究所，根据论文[23]引用及常见合作模式）通讯作者：Hsin-Min Wang（台湾中央研究院资讯科学研究所），Yu Tsao（台湾中央研究院资讯科学研究所）其他作者：Dyah A. M. G. Wisnu（印度尼西亚玛琅国立大学电气工程系），Szu-Wei Fu（台湾中央研究院资讯科学研究所），Sabato Marco Siniscalchi（意大利卡塔尼亚大学电子工程系）（注：论文HTML全文未明确列出所有作者的具体机构，以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。） 💡 毒舌点评亮点在于巧妙地将大语言模型（LLM）定位为“元评估器”，通过整合轻量级声学特征和现有模型的伪标签（DNSMOS， VQScore），而非直接处理原始音频，规避了LLM在音频理解上的短板，思路颇具巧思。槽点则是实验数据集过于单一（仅VoiceBank-DEMAND），且在“全样本评估”中少样本版本性能反而下降，暴露出其方法对示例选择的高度敏感性，结论的普适性有待商榷，有“为了用LLM而用LLM”之嫌。 🔗 开源详情代码：论文提到代码将在GitHub上发布（“Report GitHub Issue ×”提示了代码仓库的存在），但HTML全文未提供具体链接。论文中未给出可访问的GitHub地址。模型权重：GatherMOS本身不涉及训练新模型权重。它依赖的DNSMOS和VQScore的预训练权重分别在各自的GitHub仓库公开。所使用的LLM（GPT-5）为闭源API。数据集：评估使用公开的VoiceBank-DEMAND数据集。少样本示例来自另一个公开数据集CHiME-7 UDASE任务。预训练权重：不适用。在线 Demo：论文中未提及。论文中引用的开源项目：明确提到了使用DNSMOS和VQScore的官方GitHub检查点。 📌 核心摘要本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架，其核心是将大语言模型（如GPT-5）作为一个元评估器，通过精心设计的文本提示，融合多类异构信号：包括手工声学描述符（如RMS、ZCR、MFCC统计量）和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明，在VoiceBank-DEMAND数据集上，零样本GatherMOS已优于基线方法，而精心匹配的少样本引导能带来显著提升（在子集上SRCC达0.8473）。然而，当少样本示例与测试集分布不匹配时，性能会下降，揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性，为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型，而是一个推理框架，其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下：输入：一段原始语音波形 x。特征与伪标签提取（并行进行）：手工声学描述符提取器：从 x 中提取一系列低级特征，包括：时域能量：RMS（均方根）。频域/噪声相关：ZCR（过零率）。信号完整性：是否削波（Clipping）、时长（Duration）。频谱包络：13维MFCC的帧平均值。频谱分布：梅尔频谱图的每-bin均值和方差、全局最大/最小值。伪标签生成器（冻结）： DNSMOS：输入语音，输出一个1到5之间的连续分数 s_DNS，代表感知质量。 VQScore：输入语音，输出一个0到1之间的分数 s_VQ，代表语音质量。输入序列化与提示构建：将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ，以及针对LLM的指令（例如：“您是语音质量评估专家…请估计分数…”），共同组织成一个结构化的文本提示（Prompt）。对于少样本版本，还会在提示中加入K个“支持样本”（few-shot examples），每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理：将构建好的文本提示输入给大型语言模型（论文中为GPT-5）。LLM根据其内置的推理能力，对提示中的所有信息进行综合分析、权衡和“推理”。输出：LLM生成两部分文本输出：主输出：预测的连续MOS分数 ŝ。辅助输出：解释性属性 a，如噪声水平、是否削波、混响程度以及一段解释性文字，说明其预测依据。关键设计选择理由： ...

Four Decades of Digital Waveguides

📄 Four Decades of Digital Waveguides #音频生成 #信号处理 #实时处理 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Pablo Tablas de Paula（推断：可能为英国伦敦大学金史密斯学院或相关机构，论文未明确提供机构信息）通讯作者：Joshua D. Reiss（英国伦敦大学金史密斯学院， Centre for Digital Music）其他作者：Julius O. Smith（美国斯坦福大学， CCRMA - 中心计算机研究用于声学与音乐研究），Vesa Välimäki（芬兰阿尔托大学，艺术、设计与建筑学院）注：以上机构信息基于该领域知名学者的常见隶属关系及论文作者公开信息推断。提供的论文摘要中未包含明确的机构列表。 💡 毒舌点评亮点是作为一篇“编年史”式的综述，它清晰梳理了数字波导这一经典而高效的物理建模技术四十年的演进脉络，特别是将其与现代机器学习优化方法结合的前沿方向，为老牌技术注入了新活力。槽点在于，对于一篇旨在“深度分析”的论文请求，这篇摘要本身提供的信息过于概括，缺乏具体模型细节、实验数据和对比结果，更像是一个邀请你阅读全文的“预告片”，而非完整的技术报告。 🔗 开源详情论文中未提及任何具体的代码、模型权重或数据集的开源计划。数字波导技术本身有许多著名的开源实现，例如： Synthesis ToolKit (STK)：由Julius O. Smith等人开发，包含多种物理建模乐器的C++类库。 FAUST：一种专门用于音频信号处理的语言，其编译器可以高效生成数字波导结构的代码。论文中讨论的基于机器学习的优化方法，其代码通常由对应的研究团队在论文发表时开源（如GitHub）。 📌 核心摘要这篇论文旨在全面回顾数字波导物理建模技术自诞生以来四十年的发展历程、核心应用与最新进展。它要解决的核心问题是，如何在保证物理模拟准确性的同时，实现声波传播模拟的高效计算，以满足实时音频处理（如虚拟乐器、混响）的需求。论文阐述了数字波导的核心方法，即利用延迟线和滤波器构建的高效网络来模拟行波，并对比了其与通用有限差分法在计算效率上的巨大优势。主要发现包括，数字波导技术已成功应用于乐器合成、人声建模和人工混响等多个领域，并且通过结合经典的、进化的以及新兴的神经网络优化方法（如可微分数字信号处理），其参数优化能力得到了显著增强，使其能更灵活地匹配目标声学特性。实际意义在于，该技术为实时、高保真的物理建模音频应用提供了坚实的理论基础和实践工具。局限性在于，作为一篇综述，它并未提出全新的波导结构，而是侧重于总结和整合现有技术，且对最新机器学习优化方法的讨论可能尚处初步阶段。 🏗️ 模型架构由于本文是一篇综述论文，它并不提出一个单一的、具体的“模型架构”，而是系统性地描述了数字波导（Digital Waveguide, DWG）这一建模范式及其各种变体和应用。其核心思想和典型架构如下：核心原理与基本单元：输入：激励信号（例如，拨弦的脉冲、吹管的噪声）。核心组件：一个基本的数字波导段由一对反向传播的延迟线（通常长度相等）和位于其连接点的散射 junction（或滤波器）构成。延迟线模拟声波在介质中的传播时间，散射节点模拟波在边界处的反射和透射。输出：在波导的某个特定点（通常是散射节点）提取信号作为合成声音。典型应用架构示例（如Karplus-Strong弦模型）：激励生成：生成一个短促的噪声脉冲或采样作为初始扰动。波导环路：信号进入一个闭合的波导环路，环路总延迟时间对应于音符的基频周期（延迟长度 = 采样率 / 基频）。滤波与衰减：在环路中插入一个低通滤波器，模拟弦振动能量在高频的耗散（即音色变暗）和整体幅度衰减。循环与输出：信号在环路中循环，每次循环都因滤波而衰减，形成自然的衰减振荡波形。从环路中持续输出合成音频。高级扩展： ...

From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

📄 From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench #语音对话系统 #基准测试 #多模态 #数据集 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Ke Xu (推断) 通讯作者：Yu Wang (推断) 其他作者：Yuhao Wang (推断) （注：论文摘要中未明确列出作者所属机构。根据常见的学术论文作者署名惯例，以上推断基于作者姓名顺序和通讯作者的通常角色。如需准确信息，需查阅论文全文的作者 affiliations 部分。） 💡 毒舌点评亮点：在“AI会抢话”这个未来人机交互的核心痛点上，率先搭了个擂台（ProVoice-Bench），把“主动性”这个模糊概念拆解成可量化的四个任务，研究方向很有前瞻性。槽点：实验部分像请了三位武林高手（几个多模态LLM）来打擂，结果发现大家都有点“反应过度”和“想太多”，但论文没深入剖析为啥会这样，也没开源“擂台”本身，让后续挑战者有点无从下手。 🔗 开源详情论文中未提及开源计划。目前无法得知ProVoice-Bench数据集、评估代码或相关模型权重是否会公开。 📌 核心摘要本文旨在解决当前语音代理评估中过度关注被动响应，而忽视其主动交互能力的问题。为此，作者提出了首个专门评估主动语音代理的基准测试框架 ProVoice-Bench。该框架包含四个新颖的任务，用以衡量代理在不同场景下的主动介入和监控能力。通过设计一个多阶段数据合成管道，研究团队构建了一个包含1,182个高质量样本的评测数据集。对多个前沿多模态大语言模型的评估结果显示，当前模型在主动语音交互方面存在显著性能差距，主要体现在过度触发（在不必要时主动发言）和推理能力不足两个方面。这项工作不仅揭示了现有模型的局限，也为开发更自然、具备上下文感知能力的主动语音代理指明了具体改进方向。 🏗️ 模型架构本论文的核心贡献是提出了一个评估框架（Benchmark），而非一个新的模型架构。因此，其“模型架构”指的是被评估的现有先进多模态大语言模型以及评估框架本身的设计。被评估模型架构（以通用多模态LLM为例）：输入：通常为音频流（语音）和可能的文本上下文。音频通过音频编码器（如Whisper、Qwen-Audio的编码器）转换为音频特征向量。核心处理：特征向量被输入到一个统一的大语言模型（如Qwen2.5、LLaMA等架构）中。该LLM经过多模态对齐训练，能够同时理解文本、音频（有时包括视觉）信息。输出：模型根据输入和内部推理，生成文本响应或决定保持沉默。在主动代理任务中，模型需要自主判断是否以及何时需要主动发起对话或干预。连接方式：音频特征与文本token在LLM的嵌入空间或通过交叉注意力机制进行融合。模型的“主动性”体现在其自回归生成过程中，基于对上下文的理解，预测出应该输出响应还是特殊的“静默”或“等待”标记。评估框架（ProVoice-Bench）架构：整体流程：框架输入是设计好的多模态场景（包含语音对话、环境音频事件等），输出是被评估模型在该场景下的行为序列（如：何时说话、说了什么），最后通过预设的评估指标进行打分。四个核心任务：情境感知对话发起（Context-Aware Conversation Initiation, CACI）：判断在特定环境声音（如敲门声、微波炉“叮”声）后，代理是否应主动发起相关询问。任务导向型主动干预（Task-Oriented Proactive Intervention, TOPI）：在用户执行任务（如做饭）遇到困难（如步骤错误、遗漏）时，代理是否应主动提供帮助。情感状态主动关怀（Emotional State Proactive Care, ESPC）：检测用户语音中的情感变化（如沮丧、困惑），并判断是否应主动表达关怀或提供支持。持续监控与适时提醒（Continuous Monitoring and Timely Reminder, CMTR）：在长时间交互中，监控用户状态（如长时间未操作、偏离目标），并在恰当时机进行提醒。数据合成管道：这是一个关键组件，用于生成评测数据。它可能包含：a) 场景设计：人工或规则定义交互剧本；b) 语音合成：使用TTS生成对话语音；c) 音频事件合成：添加环境音效；d) 标注：由人工标注“正确”的主动行为时间点和内容。这个管道确保了数据的可控性和评估的客观性。 💡 核心创新点首次定义并系统评估语音代理的“主动性”：之前的研究和基准（如Spoken-CQA、SD-Eval）主要评估模型对用户查询的被动响应能力。本文明确提出了“主动语音代理”的概念，并将其操作化为四个可衡量的具体任务，填补了该领域的评估空白。构建了首个主动语音代理评测基准 ProVoice-Bench：这不是一个简单的数据集，而是一个包含多任务、多场景、高质量合成数据的完整评估框架。其创新在于任务设计的全面性（覆盖了发起、干预、关怀、提醒等主动行为的关键维度）。设计了多阶段数据合成管道以生成高质量评测数据：主动行为的“正确答案”在真实世界中难以大规模、一致地获取。本文创新性地采用合成方法，通过可控的流程生成了1,182个带有明确评估标准（何时该主动、说什么）的样本，解决了主动交互评估数据稀缺的难题。揭示了当前SOTA多模态LLM在主动交互上的具体缺陷：通过在ProVoice-Bench上的实验，论文不仅证明了性能差距，更具体地指出了“过度触发”（False Triggering）和“推理能力不足”是两大核心问题。这为未来的研究提供了明确的优化目标，而不仅仅是笼统的“性能提升”。 🔬 细节详述训练数据：论文主要工作是构建评测数据集，而非训练新模型。评测数据集 ProVoice-Bench 包含 1,182 个样本，通过多阶段数据合成管道生成。该管道可能整合了剧本设计、文本转语音（TTS）、音频事件混合和人工校验等步骤，以确保数据质量和评估标准的一致性。损失函数：不适用。本文为评估论文，未涉及模型训练。训练策略：不适用。关键超参数：论文未提及训练超参数。在评估中，可能涉及模型推理时的参数，如采样温度（temperature）、top-k/top-p等，但摘要中未说明。训练硬件：不适用。推理细节：论文未详细说明评估时模型的推理策略（如是否使用beam search）。通常，对于对话生成任务，可能使用核采样（nucleus sampling）以生成自然响应。数据增强/正则化：不适用。 📊 实验结果主要指标对比：根据提供的柱状图（图1），论文评估了多个模型在 CFC（可能指Context-aware Conversation Initiation相关任务）和 PIC（可能指Proactive Intervention and Care相关任务）两大类任务上的表现。每个任务下有Recall (Rec)、Accuracy (Acc) 和 $R_{acc}$（可能是Recall和Accuracy的调和平均或加权平均）三个指标。 CFC任务： Recall (Rec): Qwen3-Omni (w/ DC) 约为0.43，Qwen3-Omni (T) (w/ DC) 和 Step-Audio-R1 (T) (w/ DC) 均约为0.74。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.54，Qwen3-Omni (T) (w/ DC) 约为0.84，Step-Audio-R1 (T) (w/ DC) 约为0.83。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.46，Qwen3-Omni (T) (w/ DC) 约为0.83，Step-Audio-R1 (T) (w/ DC) 约为0.80。 PIC任务： Recall (Rec): Qwen3-Omni (w/ DC) 约为0.76，Qwen3-Omni (T) (w/ DC) 约为0.58，Step-Audio-R1 (T) (w/ DC) 约为0.91。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.78，Qwen3-Omni (T) (w/ DC) 约为0.78，Step-Audio-R1 (T) (w/ DC) 约为0.82。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.69，Qwen3-Omni (T) (w/ DC) 约为0.74，Step-Audio-R1 (T) (w/ DC) 约为0.72。关键发现：1) 模型性能在不同类型任务上差异显著（如Step-Audio-R1在PIC的Rec上极高，但在CFC的Rec上极低）。2) “w/ DC”（可能指使用了某种对话上下文或解码策略）与“w/o DC”的对比显示，上下文信息对主动行为的准确性有复杂影响。3) 所有模型的Recall和Accuracy都远未达到完美（1.0），尤其在CFC任务上Recall普遍偏低，印证了“推理能力不足”和“过度触发”（可能对应高Recall但低Accuracy的情况）的问题。消融实验：图中“w/ DC”与“w/o DC”的对比可视为一种消融，表明特定组件（如对话上下文）对模型主动性能有显著影响。与SOTA方法的对比：论文评估的本身就是当前的多模态LLM SOTA（如Qwen3-Omni, Step-Audio-R1）。结果显示，即使在这些最强模型上，主动交互能力仍是短板。用户研究/主观评价：摘要和图中未提及。 ⚖️ 评分理由创新性：8.5/10 - 开创性地定义了“主动语音代理”的评估范式，并构建了首个专用基准。从“被动应答”到“主动交互”的视角转换具有重要学术价值，为领域发展设立了新的路标。实验充分性：7.5/10 - 实验设计合理，对比了多个有代表性的SOTA模型，并使用了多维度指标。但评测模型数量可以更多（如包含更多开源和商业模型），且缺乏对模型失败案例的深入分析（如为什么会在某些场景过度触发）。实用价值：9.0/10 - 直接指向未来语音助手发展的核心需求——更自然、更主动的交互。研究成果（Benchmark和发现的缺陷）能有效指导工业界优化产品，避免“人工智障”式的打扰，实用导向非常明确。灌水程度：2.0/10 - 论文内容扎实，问题定义清晰，方法新颖，实验结论明确。没有明显的冗余内容或夸大表述，是一篇高质量的AI评估研究论文。 🖼️ 图片与表格图1: 不同模型在CFC和PIC任务上各指标的表现 | 保留: 是 - 理由：这是论文的核心实验结果图，直观展示了不同模型在主动语音交互关键任务上的性能差异和存在的问题（如Recall和Accuracy的不平衡），是支撑论文结论的关键证据。关键数据表格（根据图1文字化）：模型任务 Recall (Rec) Accuracy (Acc) $R_{acc}$ Qwen3-Omni (w/ DC) CFC ~0.43 ~0.54 ~0.46 PIC ~0.76 ~0.78 ~0.69 Qwen3-Omni (T) (w/ DC) CFC ~0.74 ~0.84 ~0.83 PIC ~0.58 ~0.78 ~0.74 Step-Audio-R1 (T) (w/ DC) CFC ~0.74 ~0.83 ~0.80 PIC ~0.91 ~0.82 ~0.72 注：数据为根据柱状图高度估算的近似值。 📸 论文图片 ...

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Kunlin Wu（香港科技大学（广州））通讯作者：根据论文署名和致谢信息，推测通讯作者可能为 Xiaofeng Liu（香港科技大学（广州）），论文中未明确标注。其他作者： Yanning Wang（香港科技大学（广州）） Haofeng Tan（南卡罗来纳大学，美国） Boyi Chen（香港科技大学（广州）） Teng Fei（坎特伯雷大学，新西兰） Xianping Ma（西南交通大学，中国） Yang Yue（香港科技大学（广州）） Zan Zhou（北京邮电大学，中国） Xiaofeng Liu（香港科技大学（广州）） 💡 毒舌点评亮点：这篇论文想象力爆棚，硬是把“看卫星图猜声音”这个看似不着边际的想法，做成了一个有模有样的系统任务，还搭了个大规模数据集，属实是“跨模态整活”的典范。槽点：方法上有点“拼积木”的意思，依赖现成的视觉模型、语言模型和音频生成模型，自己核心的“对齐”模块虽然巧妙但略显单薄，像是在给一堆大佬打补丁，创新性更多体现在任务定义和工程整合上。 🔗 开源详情代码：论文中明确提到项目主页和源代码地址为：https://github.com/Blanketzzz/Geo2Sound。代码已开源。模型权重：论文中未明确说明是否公开预训练模型权重（如对齐模块的MLP权重）。数据集：论文中构建的 SatSound-Bench 数据集是核心贡献之一，但文中未明确说明该数据集是否公开提供下载。从描述看，它整合了实地录制数据和多个公共数据集，其分发可能涉及版权和许可问题。预训练权重：方法依赖多个外部预训练模型，包括：DINOv3（视觉）、GPT-5.2（文本生成）、Make-An-Audio 2（音频生成）、CLAP（音频编码）。论文中未提供这些模型的权重。在线 Demo：论文中未提及是否有在线演示。依赖的开源项目：论文中明确引用的开源项目/模型包括：DINOv3， GPT-5.2（推测）， Make-An-Audio 2， CLAP， AudioLDM/LDM2， Auffusion， Tango2， EzAudio， AudioX， MeanAudio， Freesound， iNaturalist Sounds， SoundingEarth。 📌 核心摘要这篇论文提出了一个名为 Geo2Sound 的新任务和框架，旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战：缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上，它设计了一个三阶段流水线：首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性（如植被覆盖率、建筑密度）；然后利用大语言模型为同一场景生成多个声学上合理的文本描述（语义假设扩展），并用文本到音频模型生成对应的候选音频；最后训练一个地理-声学对齐模块，将地理属性投影到音频嵌入空间，从候选集中选择与地理环境最匹配的音频。主要发现是，该框架在自建的 SatSound-Bench 基准（包含超过2万对数据）上取得了SOTA性能，FAD指标达到1.765，比最强基线提升50%，并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型（VLM， T2A），且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 ...

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分：8.8/10 | arxiv 👥 作者与机构第一作者：Meng Chen（浙江大学，ZJU-MUSLAB）通讯作者：Tianwei Zhang（新加坡国立大学，School of Computing）其他作者： Kun Wang（浙江大学，ZJU-MUSLAB） Li Lu（浙江大学，ZJU-MUSLAB） Jiaheng Zhang（香港中文大学，Department of Computer Science & Engineering） Kun Wang（阿里云，Alibaba Cloud）(注：论文PDF中作者列表有两位Kun Wang，根据机构推断一位来自ZJU-MUSLAB，另一位来自阿里云) 💡 毒舌点评亮点：论文首次系统性地研究了针对音频大语言模型（LALM）的“间接”音频提示注入攻击，问题定义精准（数据-only访问、用户在环），并提出了一个通用且有效的攻击框架AudioHijack。槽点：攻击框架严重依赖对目标模型的白盒访问（知道架构和参数），这在现实世界中可能是一个重大限制；此外，虽然提出了多种防御策略，但它们的有效性有限，论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情代码：论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建，但截至论文发布时可能尚未完全公开。模型权重：未提及发布攻击模型权重。攻击针对的是现有的开源LALM。数据集：论文中使用的音频数据来自公开基准（AirBench, VoiceBench）。用于训练攻击的辅助用户指令数据集可能随代码一起发布。音频样本：提供在线试听链接：https://audiohijack.github.io。在线Demo：未提及。依赖的开源项目：攻击实现依赖于PyTorch等框架，以及被攻击的各个开源LALM的官方代码库（如Qwen2-Audio, GLM-4-Voice等）。 📌 核心摘要这篇论文揭示了针对音频大语言模型（LALM）的一种新型安全威胁：上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据（如会议录音、音乐片段），即可在用户不知情的情况下，劫持模型行为，使其执行恶意指令（如发送邮件、下载文件、传播错误信息）。为实现这一目标，作者提出了AudioHijack框架，它通过基于采样的梯度估计解决了音频分词不可微的问题，实现了端到端的对抗音频优化；通过注意力引导的上下文泛化技术，使攻击能泛化到未知的用户指令上下文；并设计了卷积扰动混合方法，将对抗扰动模拟为自然的混响效果，极大提升了攻击的隐蔽性。实验表明，AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%，并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞，为LALM的安全设计提供了重要警示。 🏗️ 模型架构论文本身并未提出新的模型架构，而是针对现有的、架构各异的大型音频语言模型（LALM）进行攻击研究。因此，本节将详细描述被攻击的LALM的通用架构流程，以及AudioHijack攻击框架如何与之交互。 ...

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jieyi Wang (上海AI实验室，北京大学) 通讯作者：Yazhe Niu (CUHK MMLab) 其他作者：Dexuan Xu (北京大学)，Zhongyu Wei (复旦大学) 💡 毒舌点评亮点：论文的“PAUSE” token设计很巧妙，它让模型在遇到听不清、分不清的“声音玄学”时，能先“闭嘴琢磨一下”再回答，模仿了人类“想一想再说”的认知过程，这是对现有音频大模型推理机制的一个有趣补充。槽点：整个框架的“仪式感”太强，从数据构建到两阶段训练再到复杂的奖励函数，工程复杂度拉满，但最终在部分指标上的提升幅度，相对于其付出的计算和开发成本，性价比有待商榷，且PAUSE机制带来的推理延迟是实打实的。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/JOY-SWang/HyPeR。模型权重：论文中未明确提及是否公开模型权重。数据集：PAQA数据集已开源，可通过上述GitHub地址获取。预训练权重：基于Qwen2-Audio-7B-Instruct进行微调。在线Demo：论文中未提及。引用的开源项目：依赖Qwen2-Audio、MUSAN数据集、FSD50K数据集、CLAP模型等。 📌 核心摘要本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发，作者提出了一个感知接地的混合推理框架。首先，他们构建了一个名为PAQA的新数据集，通过层次化解耦策略（区分语音与环境音、分离不同说话人）为模型提供显式的感知推理训练。在此基础上，提出了HyPeR框架，它包含两个阶段：第一阶段通过监督微调让模型学习结构化的显式感知与反思；第二阶段利用基于GRPO的强化学习，并引入特殊的<PAUSE> token来触发隐式潜在推理，以处理难以用语言描述的声学线索。实验表明，HyPeR在多个音频理解基准测试上显著降低了感知错误，性能可与更大规模的模型相媲美，验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟，且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架，整体架构如图1所示。完整输入输出流程：输入：原始音频信号 X_a 和文本问题 Q。第一阶段（显式感知 - SFT）：模型（基于Qwen2-Audio-7B-Instruct）被微调以生成结构化的推理链 T。这个过程是自回归的，每一步都依赖于前一步的输出：规划 (P)：基于音频和问题，规划解题逻辑。描述 (C)：提取多层声学特征，包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。推理 (R)：基于P和C进行逐步分析推理。总结 (S)：将推理合成为内部结论。反思 (R‘)：对背景音和说话人进行透明分析，并反思以改进答案。这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。过渡门控：在生成显式链后，模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE]，则触发“思考-再说话”步骤；若低于 τ_abort，则直接中止轨迹。第二阶段（隐式推理 - RL）：若触发<PAUSE>，模型生成一个<PAUSE>特殊标记，并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”，它们不输出到最终可见文本，也不参与后续自回归生成的梯度计算，仅用于迭代更新模型的内部隐藏状态 H_t，以进行更深入的音频特征处理。之后，模型恢复生成可见的最终答案。整个过程由GRPO强化学习优化，奖励函数综合考虑答案准确性、格式合规性、感知一致性（如背景音鲁棒性、说话人-ASR保真度）和长度控制。关键设计选择理由： ...

Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

📄 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis #语音伪造检测 #数据集 #多模态 #音视频 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Miao Liu（根据arXiv常见格式推断，可能来自某高校或研究机构，原文未提供具体机构信息）通讯作者：Fangda Wei（根据arXiv常见格式推断，可能来自同一机构，原文未提供具体机构信息）其他作者：Jing Wang, Xinyuan Qian（根据arXiv常见格式推断，可能来自同一机构，原文未提供具体机构信息）（注：提供的论文摘要中未包含作者所属机构信息，以上为基于arXiv论文常见格式的推断。完整论文全文通常在标题页或脚注中包含机构信息。） 💡 毒舌点评亮点在于敏锐地捕捉到了现有深度伪造检测研究的“盲区”——只盯着“说谎的嘴”，却忽略了“倾听的脸”，这个视角的转换很有启发性，为领域打开了新方向。槽点则是新创的“ListenForge”数据集规模可能有限（基于5种生成方法），且提出的MANet模型虽然有效，但其复杂度和在真实世界海量、多变的“聆听”场景下的泛化能力，恐怕还有待更严苛的考验。 🔗 开源详情代码：论文中提到“数据集和代码已开源”，并提供了匿名链接 https://anonymous.4open.science/r/LDD-B4CB。预计在论文被接收后会公开至GitHub等平台。模型权重：论文摘要未提及是否公开预训练权重。数据集：ListenForge数据集通过上述匿名链接提供。预训练权重：所使用的视觉（如I3D）和音频（如VGGish）特征提取器为公开的预训练模型。在线Demo：论文摘要未提及。引用的开源项目：论文可能依赖于PyTorch/TensorFlow深度学习框架，以及MMDetection、FaceAlignment等用于人脸检测和关键点定位的开源工具。 📌 核心摘要本文首次提出了“聆听深度伪造检测”这一新任务，旨在识别视频中人物在倾听状态下（非说话时）的伪造反应，弥补了现有研究主要集中于“说话”场景的不足。为解决此任务数据稀缺的问题，作者构建了首个专门数据集ListenForge，包含由五种不同头部生成方法合成的伪造聆听视频。针对聆听伪造中细微的运动不一致性，作者设计了一个名为MANet的运动感知与音频引导网络，该网络通过捕捉听众视频的细微运动，并利用说话者的音频语义来引导跨模态特征融合，从而有效检测伪造。实验表明，现有的说话深度伪造检测模型在聆听场景下性能显著下降（AUC约60%），而MANet在ListenForge数据集上取得了优越性能（AUC达94.5%）。该工作强调了超越传统“说话中心”范式进行深度伪造检测的必要性，并为交互场景下的多模态伪造分析开辟了新方向。 🏗️ 模型架构 MANet是一个用于二分类（真实/伪造）的双流网络，其核心思想是联合分析听众的视觉运动和说话者的音频语义。整体流程：输入：一段包含听众反应的视频片段（视觉流V）和对应的说话者音频片段（音频流A）。特征提取：视觉流：使用预训练的3D CNN（如I3D）提取视频片段的时空特征，得到视频特征 V。同时，通过计算相邻帧差异或使用光流网络，提取听众面部/头部的运动特征 M。音频流：使用预训练的音频网络（如VGGish）提取说话者音频的语义特征 A。跨模态融合与检测（核心模块 - Motion-aware and Audio-guided Network）：运动特征处理：运动特征 M 首先通过一个由卷积层、批归一化（BN）和ReLU激活组成的模块进行编码。音频引导的通道注意力（CHA）：将编码后的运动特征 M 与音频特征 A 结合。具体地，对 M 进行跨空间平均池化，得到一个通道描述符。然后，将该描述符与音频特征 A 拼接（或进行其他融合），通过全连接层（FC）、ReLU和另一个FC层，再经过Sigmoid函数生成通道注意力权重 W_c。这个权重 W_c 用于对中间视觉特征 V'（可能来自视觉流或运动特征）进行通道维度的重新加权，强调那些与当前说话内容更相关的视觉通道。空间注意力（SPA）：将经过通道加权的特征与运动特征 M 再次结合，通过跨通道平均池化，然后经过卷积层和Sigmoid函数，生成空间注意力图 W_s。这个权重 W_s 用于对原始视频特征 V 进行空间维度的重新加权，引导模型关注听众面部/头部中运动最不一致或最可疑的区域。分类：将经过双重注意力（空间和通道）精炼后的视频特征 V' 送入分类器（如全连接层），输出伪造概率。关键设计理由： ...