强化学习 | 语音/音频论文速递

Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models

📄 Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models #语音对话系统 #强化学习 #生成模型 #实时处理 ✅ 评分：7.8/10 | arxiv 👥 作者与机构第一作者（推断）：Yifu Chen（阿里巴巴达摩院，语音实验室）通讯作者（推断）：Shengpeng Ji（阿里巴巴达摩院，语音实验室）其他作者： Zhengqing Liu（阿里巴巴达摩院，语音实验室） Qian Chen（阿里巴巴达摩院，语音实验室） Wen Wang（阿里巴巴达摩院，语音实验室） Ziqing Wang（阿里巴巴达摩院，语音实验室） Yangzhuo Li（阿里巴巴达摩院，语音实验室） Tianle Liang（西湖大学，计算机科学系） Zhou Zhao（西湖大学，计算机科学系）注：论文中未明确标注第一作者和通讯作者，以上根据作者顺序和常见惯例推断。机构信息根据作者姓名和领域常识推断，主要来自阿里巴巴达摩院和西湖大学。 💡 毒舌点评亮点：精准地抓住了当前全双工语音对话模型（SDMs）的“阿喀琉斯之踵”——缺乏可靠的交互质量评估信号，并尝试用强化学习（RL）的框架来破解，思路很有前瞻性。提出的“双轴”评估框架（语义+时序）也直击要害。槽点：方法的核心——“双轴生成奖励模型”本身听起来像个“裁判AI”，但论文对这个裁判的“大脑”（模型架构）描述得不够“透明”，特别是内部结构和参数细节。实验虽然横跨多个数据集，但规模和多样性是否足以支撑“复杂真实世界交互”的结论，需要打个问号。 📌 核心摘要本文旨在解决全双工语音对话模型（SDMs）实现类人交互的核心挑战。现有自动化评估指标流于表面（如统计行为或预测时机准确率），无法为强化学习提供可靠的奖励信号，而人工评估成本高昂且难以扩展。为此，作者提出了一个双轴生成奖励模型。该模型基于一个详细的交互质量分类体系和配套的标注数据集进行训练，能够理解复杂的对话动态。其核心创新在于能同时输出一个总体质量分数和对语义质量与交互时机（轮转）的独立评估，从而为SDMs提供精确的诊断反馈和适用于在线强化学习的可靠奖励信号。实验表明，该模型在涵盖合成对话与复杂真实交互的多个数据集上，在交互质量评估任务上达到了当前最优（SOTA）水平。 🏗️ 模型架构双轴生成奖励模型（Dual-Axis Generative Reward Model）的整体架构旨在将一段多模态（音频+文本）的对话交互映射为结构化的质量评估。输入输出流程：输入：一段完整的对话历史记录，包含交替的语音片段（波形或频谱图）和对应的文本转录（ASR结果）。特征提取与编码：音频编码器：首先，每个说话人的语音片段通过一个预训练的音频编码器（如HuBERT、WavLM等）转换为帧级别的声学特征向量序列。这些特征捕捉了语调、节奏、重叠等副语言信息。文本编码器：对应的文本转录通过一个预训练的语言模型（如BERT、RoBERTa）编码为词级别的语义特征向量序列。多模态融合与上下文建模：将编码后的音频和文本特征在时间维度上对齐并拼接，形成每个对话轮次的统一表示。一个对话上下文编码器（通常是一个Transformer编码器或类似的序列模型）处理整个对话历史序列。它通过自注意力机制捕捉轮次内（模态间）和轮次间（时间上）的依赖关系，理解对话的连贯性、话题发展和说话人意图。结构化评估生成（核心）：对话上下文编码器的输出被送入一个奖励生成模块。该模块通常是一个条件生成模型（如基于Transformer的解码器）。它不是直接输出一个分数，而是根据预定义的详细分类法（Taxonomy），以生成文本或结构化标签的形式，对对话的多个维度进行“诊断”。这个分类法可能包括：语义轴：相关性、信息量、一致性、帮助性等。交互轴：响应延迟、过早打断、过晚响应、不当重叠、话轮保持等。模型为每个维度生成一个描述或评级（例如，“响应延迟：适中”、“语义相关性：高”）。分数输出：最后，一个评分聚合网络（可以是另一个小型神经网络或简单的加权求和）将上述结构化的诊断结果映射为两个独立的标量分数：语义质量分数：反映对话内容的价值。交互时机分数：反映轮转的流畅度和自然度。同时，也可以输出一个综合的总体交互质量分数。关键设计选择理由： ...

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jieyi Wang (上海AI实验室，北京大学) 通讯作者：Yazhe Niu (CUHK MMLab) 其他作者：Dexuan Xu (北京大学)，Zhongyu Wei (复旦大学) 💡 毒舌点评亮点：论文的“PAUSE” token设计很巧妙，它让模型在遇到听不清、分不清的“声音玄学”时，能先“闭嘴琢磨一下”再回答，模仿了人类“想一想再说”的认知过程，这是对现有音频大模型推理机制的一个有趣补充。槽点：整个框架的“仪式感”太强，从数据构建到两阶段训练再到复杂的奖励函数，工程复杂度拉满，但最终在部分指标上的提升幅度，相对于其付出的计算和开发成本，性价比有待商榷，且PAUSE机制带来的推理延迟是实打实的。 📌 核心摘要本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发，作者提出了一个感知接地的混合推理框架。首先，他们构建了一个名为PAQA的新数据集，通过层次化解耦策略（区分语音与环境音、分离不同说话人）为模型提供显式的感知推理训练。在此基础上，提出了HyPeR框架，它包含两个阶段：第一阶段通过监督微调让模型学习结构化的显式感知与反思；第二阶段利用基于GRPO的强化学习，并引入特殊的<PAUSE> token来触发隐式潜在推理，以处理难以用语言描述的声学线索。实验表明，HyPeR在多个音频理解基准测试上显著降低了感知错误，性能可与更大规模的模型相媲美，验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟，且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架，整体架构如图1所示。完整输入输出流程：输入：原始音频信号 X_a 和文本问题 Q。第一阶段（显式感知 - SFT）：模型（基于Qwen2-Audio-7B-Instruct）被微调以生成结构化的推理链 T。这个过程是自回归的，每一步都依赖于前一步的输出：规划 (P)：基于音频和问题，规划解题逻辑。描述 (C)：提取多层声学特征，包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。推理 (R)：基于P和C进行逐步分析推理。总结 (S)：将推理合成为内部结论。反思 (R‘)：对背景音和说话人进行透明分析，并反思以改进答案。这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。过渡门控：在生成显式链后，模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE]，则触发“思考-再说话”步骤；若低于 τ_abort，则直接中止轨迹。第二阶段（隐式推理 - RL）：若触发<PAUSE>，模型生成一个<PAUSE>特殊标记，并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”，它们不输出到最终可见文本，也不参与后续自回归生成的梯度计算，仅用于迭代更新模型的内部隐藏状态 H_t，以进行更深入的音频特征处理。之后，模型恢复生成可见的最终答案。整个过程由GRPO强化学习优化，奖励函数综合考虑答案准确性、格式合规性、感知一致性（如背景音鲁棒性、说话人-ASR保真度）和长度控制。关键设计选择理由： ...

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

📄 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt #音频理解 #音频事件检测 #音频大模型 #强化学习 #自回归模型 🔥 评分：8.3/10 | arxiv 👥 作者与机构第一作者：Yanfeng Shi（中国科学技术大学，语音及语言信息处理国家工程研究中心）通讯作者：Lirong Dai（中国科学技术大学，语音及语言信息处理国家工程研究中心），Yan Song（中国科学技术大学，语音及语言信息处理国家工程研究中心）其他作者： Pengfei Cai（中国科学技术大学，语音及语言信息处理国家工程研究中心） Jun Liu（中国科学技术大学，语音及语言信息处理国家工程研究中心） Qing Gu（中国科学技术大学，语音及语言信息处理国家工程研究中心） Nan Jiang（中国科学技术大学，语音及语言信息处理国家工程研究中心） Ian McLoughlin（新加坡科技学院，ICT Cluster） 💡 毒舌点评亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里，让模型像读句子一样“读”出时间坐标，再用强化学习直接对齐音频事件检测的黄金指标，思路清晰且有效。槽点是这方法有点“取巧”，时间提示的窗口（0-30秒）和分辨率（0.04秒）是硬编码的，遇到更长或需要更高精度的音频就抓瞎，而且强化学习那套调参和训练效率的“玄学”问题，论文里轻描淡写了。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALM）在细粒度时间感知（如精确定位声音事件的起止时间）上的不足。作者提出了TimePro-RL框架，其核心是两步走策略：首先，提出音频侧时间提示（ASTP），将时间戳编码为特殊令牌并交织插入音频特征序列中，为模型提供明确的物理时间坐标；其次，在监督微调（SFT）后，引入基于强化学习（RL）的后训练阶段，并设计了一种自适应时间奖励机制（结合事件F1分数和连续辅助奖励如mIoU），直接优化模型的时间对齐性能。实验表明，该方法在音频定位、声音事件检测和密集音频描述三个任务上，相比多种基线模型取得了显著提升，尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定，且RL训练增加了复杂度。 🏗️ 模型架构整体流程：模型基于现有的LALM（如Qwen2-Audio, Qwen2.5-Omni），其核心架构为音频编码器 + 大语言模型（LLM）。TimePro-RL通过修改输入模态和训练目标来增强其时序能力。输入输出流程：输入：一段原始音频波形 + 一个自然语言查询（例如：“火车道口铃声何时响起？”）。音频编码：音频通过预训练的音频编码器（如Whisper）处理，输出一个音频特征序列（<AUDIO> tokens）。假设编码器帧率为25Hz，即每0.04秒输出一个特征向量。时间提示注入：这是核心修改。在预处理阶段，根据音频时长和帧率，生成一系列时间戳令牌（Timestamp Tokens），如<0.04>, <0.08>等。这些令牌被交织插入到音频特征序列的对应时间位置上，形成新的输入序列：<s> <audio> <AUDIO> <0.04> <AUDIO> <0.08> <AUDIO> ... </audio> 当何时发生？ </s>。嵌入层处理：音频特征：通过音频编码器映射为音频嵌入。时间戳令牌：通过一个时间戳嵌入层映射为向量。该嵌入层采用语义初始化：每个时间戳嵌入向量初始化为其数字字符串（如“0.04”）经LLM原始分词器分词后，对应子词嵌入的均值。训练时，此嵌入层参数被冻结。文本令牌：通过文本嵌入层映射为文本嵌入。 LLM处理：上述混合嵌入序列（音频+时间戳+文本）被送入大语言模型（自回归Transformer）。输出：模型自回归地生成文本响应，格式根据任务而定（如{"query": [5.0, 6.0]}）。关键设计理由： ...

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

📄 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training #语音对话系统 #强化学习 #端到端 #多模态模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Yifu Chen（浙江大学）通讯作者：Zhou Zhao（浙江大学）其他作者：Shengpeng Ji（浙江大学），Qian Chen（阿里巴巴通义团队），Tianle Liang（浙江大学），Yangzhuo Li（浙江大学），Ziqing Wang（北京工业大学），Wen Wang（阿里巴巴通义团队），Jingyu Lu（浙江大学），Haoxiao Wang（浙江大学），Xueyi Pu（浙江大学），Fan Zhuo（浙江大学）备注：论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等（These authors contributed equally）。所有作者单位包括：浙江大学、阿里巴巴通义团队、北京工业大学。 💡 毒舌点评亮点：这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡，并开出了一剂“模态分离、动态混合”的有效“处方”。槽点：方法虽然巧妙，但严重依赖一个外部、强大的奖励模型（Gemini-2.5-Pro）来提供信号，这不仅成本高昂，其稳定性和泛化能力本身也存疑，相当于把自家模型的“指挥权”交给了别人。此外，代码和模型权重未开源，让“复现”变成了一个玄学问题。 📌 核心摘要这篇论文旨在解决端到端语音对话模型在智能（IQ）和表达力（EQ）上难以同时提升的核心挑战。作者发现，直接对混合文本-语音序列应用统一的偏好优化（如DPO、GRPO）会导致问题：稀疏的偏好信号被淹没在密集的语音token中，造成梯度能量失衡（文本梯度主导），并引发声学分布漂移和自然度下降。为此，论文提出了一种自适应混合后训练框架（WavAlign）。其核心思想是分工协作：使用监督微调（SFT）作为“锚”来稳定和维持语音的自然度与可行性；同时，仅对文本token应用偏好优化（GRPO）来精炼语义智能。更进一步，设计了一个轻量级动态门控机制，根据rollout样本的质量（是否存在可接受样本）和区分度（奖励方差）自适应地调整SFT与偏好优化的混合权重，确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行，跨越多个基准测试，结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。 🏗️ 模型架构论文本身不提出新的模型架构，而是提出一种后训练方法，可应用于不同的现有端到端语音对话模型架构。论文研究的模型需具备生成文本和语音两种token的能力。作者概括了三种主流架构：交织式（Interleaving）：模型生成一个单一的、文本与语音token交织的序列。并行式（Parallel）：模型并行生成文本和语音流，两者状态耦合。思考者-说话者式（Thinker-Talker）：将生成过程分解为“思考”（生成文本语义）和“说话”（生成语音）两个阶段。为了保持方法与架构无关，论文将模型的输出抽象为两个token序列：文本序列 y^T 和语音序列 y^S。模型定义了一个联合条件概率 P_θ(y^T, y^S | x)，其对数似然可以按token类型进行分解（公式1）。这个分解是后续进行模态感知优化的理论基础。 WavAlign 方法的整体流程（如图6所示）是一个单阶段的动态混合训练循环： ...