强化学习 | 语音/音频论文速递

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音合成 #语音识别 #音频大模型 #预训练 #强化学习 🔥 评分：9.5/10 | arxiv 👥 作者与机构论文作者：Qwen Team (通义千问团队) 核心贡献者：Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等（按字母顺序排列，*表示通讯作者）所属机构：根据作者姓名和项目背景推断，主要来自阿里巴巴达摩院（DAMO Academy）和阿里云。论文未明确标注机构，但“Qwen Team”和“Alibaba Cloud”是明确的线索。 💡 毒舌点评亮点：这是一份堪称“全模态大模型工程教科书”的技术报告，从架构设计（混合MoE、ARIA）、训练策略（三阶段预训练、四阶段后训练）到评测体系（215个任务）都展现了无与伦比的系统性和工程实力，性能直接对标并超越了Gemini Pro，证明了中国团队在顶级多模态竞赛中的硬实力。槽点：论文读起来像一份极其详尽的“产品说明书”和“实验报告”，技术细节虽多，但对于“为什么这样设计”的深层科学原理探讨略显不足，更像是在展示“我们做到了”，而非完全解释“我们为何能以及如何想到的”。此外，不开源核心代码和模型，让学术社区只能“望API兴叹”。 ...

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分：9.5/10 | arxiv 👥 作者与机构第一作者： Xiang He (腾讯AI Lab, 北京) 通讯作者： Li Liu (香港科技大学（广州）), Dong Yu (腾讯AI Lab, 北京) 其他作者： Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评亮点：这篇论文最“性感”的地方在于它证明了在音频领域，像教婴儿学走路一样，不需要手把手教（监督微调），只需要给对“奖励信号”（混合相似度奖励），模型自己就能在探索中“悟”出如何推理，而且悟性还特别好（SOTA）。槽点：依赖一个巨大的外部LLM（Qwen3-235B）作为奖励评估器，训练成本恐怕不菲，有点像请米其林三星大厨来给家常菜打分，效果虽好但难以普及。另外，参考推理链本身也依赖其他大模型生成，属于“站在巨人的肩膀上再创造”，原创性在数据层面稍打折扣。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALMs）缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量，要么使用粗糙的奖励，导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架，其核心贡献有三：1）设计了一种混合推理相似度奖励，结合LLM评估（逻辑、深度）和嵌入相似度（语义对齐），直接对推理链内容进行细粒度监督；2）提出了一个渐进式两阶段RL课程，首先在基础音频QA数据上通过纯RL探索激发基本推理模式，然后在声学边界案例上使用更灵活的奖励进行增强，全程无需监督推理微调；3）进行了深入的机理分析，揭示RL训练主要重塑上层MoE门控机制，且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能，证明了通过精心设计的奖励和课程，高质量的音频推理能力可以从RL探索中涌现。 ...

AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers

📄 AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers #音视频 #知识蒸馏 #强化学习 #数据集 #多模态模型 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Edson Araujo（德国图宾根大学，图宾根AI中心）通讯作者：根据论文格式和机构排序，推测为 Hilde Kuehne（德国图宾根大学，图宾根AI中心）或 James R. Glass（MIT-IBM Watson AI Lab）其他作者： Saurabhchand Bhati（MIT-IBM Watson AI Lab） M. Jehanzeb Mirza（IBM Research， USA； MIT-IBM Watson AI Lab） Brian Kingsbury（IBM Research， USA； MIT-IBM Watson AI Lab） Samuel Thomas（IBM Research， USA； MIT-IBM Watson AI Lab） Rogerio Feris（MIT-IBM Watson AI Lab） James R. Glass（MIT CSAIL； MIT-IBM Watson AI Lab） Hilde Kuehne（德国图宾根大学，图宾根AI中心； MIT-IBM Watson AI Lab） 💡 毒舌点评亮点：这篇论文最聪明的地方在于“借力打力”——自己没有强大的多模态推理模型？没关系，找两个顶尖的单模态“专家”（视觉和音频模型）分别写解题思路，再让一个“文书专家”（纯文本LLM）把它们整合成一份完美的跨模态推理报告，然后用这份报告去“教”学生模型。这招“分而治之，再合而为一”在数据稀缺的领域堪称优雅。槽点：整个流程的“天花板”被那两个单模态教师牢牢卡住了，如果教师自己就是“睁眼瞎”（幻觉），那合并出来的推理链就是“一本正经地胡说八道”。论文也承认了，大部分幻觉源自教师。此外，SFT数据基本来自AVQA一个数据集，多样性上可能有点“偏科”。 ...

ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning #语音识别 #强化学习 #低资源 #模型评估 ✅ 评分：7.0/10 | arxiv 👥 作者与机构（注：根据您提供的摘要信息，无法提取作者的具体机构。以下为基于常见情况的推断格式，需根据论文全文确认。）第一作者：Junyi Wang（推断为某大学或研究机构）通讯作者：Chao Zhang（推断为导师或项目负责人，所属机构同上）其他作者：Chi Zhang, Jing Qian, Haifeng Luo, Hao Wang, Zengrui Jin（推断与第一作者同属一个团队或合作机构） 💡 毒舌点评亮点：巧妙地将“让语音听清”这个工程问题，转化为一个“策略优化”的RL问题，跳出了传统声学重建损失的桎梏，思路值得玩味。槽点：实验只用了LibriSpeech这一个“干净”数据集，对于真实世界带宽受限场景中可能出现的噪声、混响等挑战缺乏验证，有点像在无菌实验室里测试防弹衣。 📌 核心摘要本文针对卫星、水下通信等超低比特率（200bps）场景下，传统神经语音编解码器因优化重建质量而牺牲可懂度的问题，提出了ClariCodec。其核心方法是将编码器的量化过程重新定义为一个随机策略，并利用强化学习（RL），以词错率（WER）作为奖励信号对编码器进行微调，而冻结解码器等声学重建管线。实验表明，即使不使用RL，ClariCodec在LibriSpeech test-clean集上已达到3.68%的WER，性能优于更高比特率的编解码器；经过RL微调后，WER进一步降至3.20%（test-clean）和8.93%（test-other），相对降低13%，同时保持了感知质量。该工作证明了在极低比特率下，直接以可懂度为目标进行优化的有效性。 🏗️ 模型架构 ClariCodec的整体架构遵循经典的自动编码器范式，但其核心创新在于量化模块的训练方式。输入：原始语音波形。编码器 (Encoder)：一个神经网络（具体结构如卷积层、Transformer层等需查阅全文），将连续语音信号映射为低维的连续特征向量（编码）。量化器 (Quantizer) - 策略化核心：传统方式：使用矢量量化（VQ）等方法，通过最小化重建误差（如均方误差）来学习码本。 ClariCodec方式：将量化过程视为一个随机策略。编码器输出的连续特征被视为“状态”，量化器根据此状态，从可学习的离散码本中“选择”一个码字作为“动作”。这个选择过程可以引入随机性（如基于概率的采样）。关键：这个“策略”（即量化器）的参数（码本）不再通过重建损失更新，而是通过RL优化。解码器 (Decoder)：另一个神经网络，接收量化后的离散码字序列，重建出语音波形。训练流程（两阶段）：阶段一（基线训练）：使用传统的声学重建损失（如多尺度谱损失、对抗损失等）联合训练编码器、量化器（VQ方式）和解码器，得到一个基础模型。阶段二（RL微调）：冻结解码器及声学重建管线。仅对编码器（可能包括量化器的策略参数）进行微调。微调的损失函数不再是重建损失，而是基于WER的RL奖励。具体地，将量化后的码字序列送入一个预训练的、固定的ASR模型，计算WER。WER越低，奖励越高。通过策略梯度算法（如REINFORCE或其变体）更新编码器参数，使得其产生的特征更利于量化器选择出能导致低WER的码字。输出：重建的语音波形。通俗理解：想象一个翻译过程。传统方法是让翻译员（编码器+解码器）尽量把原文（输入语音）复述得一模一样（重建损失）。而ClariCodec是先让翻译员把文章缩写成几个关键词（量化），然后请一位考官（ASR模型）根据这几个关键词回答阅读理解题（识别内容）。它通过不断调整缩写策略（RL微调编码器），让考官答对率最高（WER最低），而不在乎缩写后的关键词是否能完美复原原文的修辞和语气（重建质量被冻结的解码器保证在一个可接受的水平）。 💡 核心创新点将语音量化建模为随机策略：这是根本性的范式转变。它将量化从“最小化重建误差”的确定性优化问题，转变为“最大化下游任务奖励”的随机策略搜索问题，为极低比特率编码提供了新的优化目标。 WER驱动的强化学习微调框架：提出了一套完整的、可行的RL训练流程。通过冻结解码器，仅微调编码器/量化器策略，将RL的优化目标精准地锁定在“可懂度”上，避免了端到端RL训练的不稳定性和高计算成本。两阶段训练策略：先通过传统重建损失训练一个具备基本重建能力的基线模型，再通过RL进行针对性优化。这种“预训练+微调”的范式保证了模型的起点性能，并使RL优化更加稳定高效。在极端比特率下实现高可懂度：在200bps这一极具挑战性的比特率下，取得了当时领先的WER性能（3.20% on LibriSpeech test-clean），证明了所提方法的有效性。 🔬 细节详述训练数据：论文中使用了LibriSpeech数据集。这是一个广泛使用的英文语音识别数据集，包含约1000小时的朗读语音。论文中提到使用test-clean和test-other子集进行评估，因此训练集很可能使用了train-clean-100和/或train-clean-360。具体规模和预处理方式（如采样率、窗长等）需查阅全文。损失函数：阶段一（基线）：包含声学重建损失。这通常是多尺度谱损失（Multi-Resolution STFT Loss）、梅尔谱重建损失，以及可能的对抗损失（GAN判别器损失）的组合，以确保重建语音的质量和自然度。阶段二（RL微调）：核心是策略梯度损失。奖励信号 R = -WER（WER越低，奖励越高）。损失函数形式为 L = -E[log π(a|s) * R]，其中 π(a|s) 是编码器策略在状态s（输入特征）下选择动作a（量化码字）的概率。通过采样多个动作并估计梯度来更新策略。训练策略：优化器：通常使用Adam或AdamW。学习率：RL微调阶段的学习率通常远小于预训练阶段，可能需要进行warmup。具体数值未知。 Batch Size：未知，但RL训练通常需要较大的batch来稳定梯度估计。关键超参数：比特率：固定为200bps。码本大小：量化器的码本维度和大小是关键超参数，直接影响表达能力和量化误差。 RL相关：RL算法的具体选择（如REINFORCE、PPO）、奖励基线（baseline）的设置、熵正则化系数（鼓励探索）等。训练硬件：未知。训练一个神经编解码器并进行RL微调通常需要高端GPU（如NVIDIA A100/V100），训练时间可能在数天到数周。推理细节：推理时，编码器和量化器（确定性地选择概率最大的码字）构成一个确定性系统，直接生成码字流，无需RL采样。数据增强/正则化：在基线训练阶段，可能使用了语音常见的数据增强，如添加噪声、混响、速度扰动等，以提升鲁棒性。RL阶段可能使用了熵正则化来防止策略过早收敛到局部最优。 📊 实验结果主要指标对比：模型/条件比特率 (bps) LibriSpeech test-clean WER (%) LibriSpeech test-other WER (%) ClariCodec (无RL) 200 3.68 - ClariCodec (有RL) 200 3.20 8.93 （论文声称竞争性的更高比特率编解码器） >200 ~3.68 或更高 - 注：test-other的WER在无RL基线中未明确给出，但RL后为8.93%。消融实验： RL微调的有效性：从3.68% (无RL) 到 3.20% (有RL)，WER相对降低了约13%。这直接证明了RL优化框架的有效性。其他消融：可能包括移除RL框架中的某个组件（如熵正则化）、使用不同的奖励函数等，具体细节需查阅全文。与SOTA方法的对比：论文通过指出其200bps的基线模型性能已与“更高比特率的编解码器”具有竞争力，间接进行了对比。直接的SOTA对比表格需在全文的实验部分查找。不同数据集下的结果：在更困难的test-other集上，WER为8.93%，显著高于test-clean的3.20%，这符合预期，表明模型性能在干净语音上非常出色，但在更复杂、多样化的语音上仍有下降空间。 ⚖️ 评分理由创新性：7.5/10 - 将RL引入语音编码的量化环节是一个非常巧妙且针对性强的创新，跳出了传统优化框架，在特定问题上效果显著。但其核心思想（用下游任务损失优化上游模型）在机器学习中并不罕见。实验充分性：7.0/10 - 在标准数据集上进行了清晰的对比和消融实验，数据可信。但缺乏在更多样化数据集（如带噪、多语言）上的验证，也缺少与当时最先进（SOTA）语音编解码器的直接数值对比表格。实用价值：8.0/10 - 针对卫星通信、水下通信等真实且严苛的场景，目标明确（提升可懂度），效果实在（WER显著降低），具有很高的潜在实用价值。灌水程度：2.0/10（越低越好） - 论文聚焦于一个具体问题，方法描述清晰，实验直接支撑论点，没有明显的冗余或夸大表述，内容扎实。 🔗 开源详情论文中未提及任何关于代码、模型权重或数据集的开源计划。因此，目前无法获取其实现。 ...

MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Tao Feng (清华大学) 通讯作者：Zhizheng Wu (香港中文大学（深圳）) 其他作者： Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学（深圳）) Xun Guan (清华大学) 💡 毒舌点评亮点：把TTS生成的“垃圾”（合成语音）从训练目标变成训练源，这个“角色交换”的脑回路确实清奇，直接绕过了合成质量天花板，是论文最大的创新点。槽点：虽然思路巧妙，但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源，33%的数据过滤率也暗示了对TTS质量的敏感性；此外，构建850万对训练数据所需的计算资源（TTS推理+模型训练）恐怕不是一般实验室能承受的，可复现性存疑。 📌 核心摘要这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构，要么使用合成语音作为训练目标，导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架，其核心创新在于**“角色交换”的数据构建策略**：使用TTS生成的语音作为训练源，而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习，突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题，论文进一步引入了交错文本-音频建模（通过文本锚点引导内容生成）和基于DPO的偏好对齐（使用真实输入进行后训练以弥合分布差距）。实验表明，MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果，尤其在主观评价中表现突出，并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 🏗️ 模型架构 MimicLM是一个基于自回归Transformer的端到端语音到语音转换模型，整体架构包含三个核心组件：音频分词器：使用预训练且冻结的 CosyVoice 2.0 的音频分词器，将连续的语音波形转换为离散的音频令牌（audio tokens），帧率为25 Hz。自回归Transformer主干：基于 Qwen2.5-0.5B 架构改造的解码器-only Transformer。其输入是一个精心构造的交错序列，输出是预测的文本和音频令牌。流匹配解码器：同样来自CosyVoice 2.0，将Transformer输出的离散音频令牌重建为连续的语音波形。完整输入输出流程：输入准备：参考音频：通过音频分词器转换为“参考令牌”（ref token）。源音频：通过音频分词器转换为“源令牌”（src token），并以<|SOURCE_START|>特殊令牌为前缀。序列构造：模型输入序列按顺序拼接为：[ref token] + [<|SOURCE_START|>] + [src token] + [交错文本-音频块]。交错文本-音频块是核心设计。序列被分为两个阶段：分块阶段：交替出现文本块（5个令牌，由<|TEXT_START|>和<|TEXT_END|>包裹）和音频块（25个令牌）。这种1:5的比例确保文本预测在时间上略微领先音频生成，为音频合成提供语义指导。连续阶段：处理剩余内容，先生成剩余文本令牌（由<|REMAIN_START|>和<|TEXT_END|>包裹），再生成剩余音频令牌（以<|REMAIN_END|>结束）。自回归生成：Transformer以该序列为条件，以自回归方式同时预测下一个文本令牌和音频令牌。训练时使用教师强制。输出重建：生成的音频令牌序列被送入流匹配解码器，最终输出模仿了参考音频音色和风格、但内容与源音频一致的目标语音波形。关键设计选择理由： ...

SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

📄 SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression #语音情感识别 #强化学习 #多任务学习 #大语言模型 #语音对话系统 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Shaowei Zhang (商汤科技 SenseTime) 通讯作者：Faqiang Qian, Mengya Gao, Yichao Wu (商汤科技 SenseTime，邮箱：{qianfaqiang, gaomengya, wuyichao}@senseauto.com) 其他作者： Yan Chen (商汤科技 SenseTime，清华大学) Ziliang Wang (商汤科技 SenseTime) Kang An (商汤科技 SenseTime，上海交通大学) Yong Dai (X-Humanoid) 💡 毒舌点评亮点在于巧妙地将心理学中的“情绪理解驱动情绪表达”理论，包装成了一个AI自我进化的“飞轮”游戏，让模型自己跟自己玩就能变强，理论上很优雅。槽点是整个框架严重依赖另一个LLM（Seed-1.8， DeepSeek-V3.2）来提取人格和生成初始数据，这相当于请了个“家教”来启动“自学循环”，其最终效果的天花板可能受限于这位“家教”的水平，且可能引入隐性偏差。 📌 核心摘要本文旨在解决对话系统中情感识别（ERC）与情感表达能力受限于高质量标注数据稀缺且静态的问题。核心贡献是提出了一个心理学动机的自我进化框架 SELF-EMO。关键方法是构建一个角色扮演的自博弈范式，使模型同时充当“情绪识别者”和“对话响应者”，并通过一个“生成-筛选-重用”的数据飞轮机制，利用平滑的基于IOU的奖励函数筛选高质量样本，实现无外部监督的持续自我改进。为此，作者还设计了多情感强化学习算法 SELF-GRPO，通过核心情绪集聚合和组级一致性建模来稳定训练。主要发现是在IEMOCAP、MELD和EmoryNLP三个基准数据集上，该方法在统一的训练设定下取得了SOTA性能，显著提升了模型的泛化能力。实际意义在于为构建数据高效、可自我进化的情感智能体提供了新范式。局限性在于框架的启动依赖外部LLM生成数据，且自我进化过程的长期稳定性和可能产生的偏差需要进一步研究。 🏗️ 模型架构 SELF-EMO 是一个基于大语言模型（LLM）的统一框架，其核心是一个能够执行三个顺序任务的单一策略模型 πθ。整体流程如下：输入：对话上下文 C 和从原始数据中提取或指定的角色人格信息 PI。第一步：他人情绪识别 (To)：模型基于 C 和 PI，预测对话中最后发言者的情绪 eo = πθ(eo | C, PI)。第二步：自我情绪生成 (Ts)：模型基于 C、PI 和上一步预测的 eo，生成自身的情绪状态 es = πθ(es | C, PI, eo)。第三步：自我情绪表达 (Tr)：模型基于 C、PI、eo 和 es，生成最终的对话响应 r = πθ(r | C, PI, eo, es)。这三个步骤在训练时通过精心设计的提示词（见附录A）引导模型在一次前向传播中以结构化字典形式输出所有内容。在自博弈阶段，模型生成的轨迹 (eo, es, r) 会被评估，并筛选出高质量样本加入训练缓冲区，用于下一轮的监督微调（SFT）和强化学习（RL）更新，形成闭环。架构上没有引入新的复杂模块，而是通过对LLM进行多任务提示和强化学习优化来实现功能。 💡 核心创新点心理学驱动的自我进化框架：提出“更好地预测他人情绪，就能更好地生成自身情绪一致的回应”这一假设，并将ERC、情绪理解和情绪表达三个心理关联任务统一到一个可自我进化的自博弈范式中。这超越了传统仅关注识别的ERC方法。数据飞轮与自博弈机制：设计了一个无需外部监督的闭环数据生成与利用流程。模型通过自博弈生成多样化的对话轨迹，利用基于平滑IOU的奖励函数进行质量筛选，将优质样本反馈用于训练，从而实现数据的自我生产和模型的持续进化。 SELF-GRPO强化学习算法：针对情绪识别这种多标签、离散输出的信用分配难题，扩展了GRPO算法。它引入了一个次要奖励信号，通过聚合同组采样中的情绪分布共识来鼓励一致性，与主要奖励（IOU奖励）线性结合，提高了在多样化情绪输出下强化学习训练的稳定性。多任务协同熵减少理论：从信息论角度论证了在有监督的ERC任务（To）上进行优化，可以隐式地减少与之相关的两个无监督辅助任务（Ts和Tr）的输出熵，为使用无监督辅助任务来提升主任务性能提供了理论依据。 🔬 细节详述训练数据：种子数据集：IEMOCAP（5163/647/1623条），MELD（9989/1109/2610条），EmoryNLP（7551/954/984条）。人格信息提取：使用Seed-1.8和DeepSeek-V3.2两个LLM，通过提示词P_extract从原始对话中为每个说话者提取人格描述（PI）。冷启动SFT数据生成：使用上述人格信息，通过提示词P_gen引导LLM πθ生成包含(eo, es, r)的结构化合成样本R_syn，用于初始SFT。损失函数与训练策略：冷启动阶段：在原始数据集𝒟0上进行标准的监督微调（SFT）。强化学习阶段：奖励函数ℛ(·)：主要奖励是加权IOU（公式10），对预测情绪集和真实标签集进行归一化后计算交并比，给予部分正确预测以奖励。 SELF-GRPO损失（公式14）：标准的PPO风格损失，优势函数A_i由归一化的主要奖励和次要奖励（基于组内情绪共识，公式12）加权组合，权重λ随训练步数线性增加。训练循环：交替进行SELF-GRPO策略更新和基于奖励的数据筛选（将每个prompt的最佳rollout加入缓冲区ℬ），然后在更新后的ℬ上重新进行SFT以训练基础模型。关键超参数： RL设置：每个prompt采样8个rollouts (n=8)，最大提示长度4096，最大响应长度8192。优化器：学习率1e-6，使用Adam优化器，PPO裁剪ϵ未明确给出。硬件：8块NVIDIA H100 GPU。数据增强/正则化：未明确使用传统数据增强。框架本身通过自博弈生成新数据。正则化主要依赖于RL中的KL散度约束（KL损失系数0.001）和熵系数（0）。 📊 实验结果主实验结果（表1）：在统一多数据集训练设定下，SELF-EMO (Qwen3-8B) 在IEMOCAP、MELD、EmoryNLP上的准确率分别为 66.11%、71.92%、47.87%，平均准确率 61.97%。相比次优的PRC-Emo (Qwen3-8B) 平均准确率（37.99%），提升显著。相比基座模型Qwen3-8B（平均53.43%），平均准确率提升 +8.54%；相比Qwen3-4B（平均52.96%），提升 +6.33%。消融实验（表2）： w/ COLD：使用专家模型生成的冷启动数据进行SFT后，性能反而下降（平均57.15%， -2.14%），表明SELF-EMO不依赖外部专家数据。 w/o SELF-GRPO：使用标准GRPO替代SELF-GRPO，性能下降（平均56.15%， -3.14%），证明了SELF-GRPO中一致性奖励的有效性。 w/o SELF-EMO：仅用原始数据进行GRPO训练，性能大幅下降（平均54.11%， -5.18%），凸显了自博弈生成数据的核心作用。自监督任务分析（图3）：通过LLM-as-a-judge评估，训练后期模型在“自我情绪生成”和“自我情绪表达”任务上的表现显著优于早期模型，验证了多任务熵减少理论。人格特质影响分析（表3）： SELF-EMO-8B在所有五类人格特质上获得的IOU奖励（平均58.48%）远高于Seed-1.8（13.77%）和DeepSeek-V3.2（10.04%），表明优化后模型的情绪预测更准确。 ⚖️ 评分理由创新性：8/10 - 将心理学理论、自博弈和强化学习创新性地结合，用于解决情感对话中的数据稀缺和任务关联问题，框架设计具有启发性。实验充分性：8/10 - 在多个数据集上进行了全面的对比实验、消融实验和深入的定性/定量分析，数据详实，结论可信。实用价值：7/10 - 直接针对提升对话AI情感智能这一实际需求，方法有望降低对标注数据的依赖，但训练复杂度和对基座模型的依赖可能影响其广泛应用。灌水程度：2/10 - 论文结构清晰，内容紧凑，理论推导、方法描述和实验分析详实，未见明显冗余或夸大表述。 🔗 开源详情代码：论文中明确声明“Code and data will be released at GitHub”，并提供了链接占位符（https://github.com/…），但截至论文发布时（2026年4月20日）链接未生效。因此，代码计划开源但尚未发布。模型权重：未提及是否公开训练后的模型权重。数据集：论文中使用的三个基准数据集（IEMOCAP, MELD, EmoryNLP）是公开的。自博弈生成的合成数据集预计会随代码一同发布。预训练权重：基于Qwen3-4B和Qwen3-8B这两个公开的预训练模型。在线 Demo：未提及。引用的开源项目：论文中提到了VeRL训练框架，并在实验中使用了它。 🖼️ 图片与表格图片保留建议： ...

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jia Li（新疆大学，计算机科学与技术学院，联合研究实验室 for Embodied Intelligence）通讯作者：Yinfeng Yu（新疆大学，计算机科学与技术学院，联合研究实验室 for Embodied Intelligence；邮箱：yuyinfeng@xju.edu.cn）其他作者：根据署名顺序，论文仅列出了两位作者，Jia Li和Yinfeng Yu。他们共同隶属于以下机构：新疆大学，联合研究实验室 for Embodied Intelligence 新疆大学，丝绸之路多语种认知计算联合国际研究实验室新疆大学，计算机科学与技术学院，乌鲁木齐 830017，中国 💡 毒舌点评亮点：这论文把“听声辨位”这件事整明白了！BDA模块不搞虚的，直接让左右耳特征“打架”（算差值），逼着模型关注声音从哪边来，而不是这是什么声音，这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”，让动作更连贯，减少在陌生环境里原地转圈的傻行为。槽点：方法组合拳虽然有效，但每个拳法（BDA， ATP）本身都不算开宗立派，更像是给现有强力基线（AV-WaN）打了个高效的“补丁”。另外，论文里那些“ Hear Sharper, Act Smarter”的口号，比技术细节更让人印象深刻。 📌 核心摘要本文旨在解决音频-视觉导航（AVN）智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出，现有方法性能下降主要源于两个因素：一是音频表征混淆了语义与空间信息，导致对未闻声��定位不准；二是强化学习策略过拟合于训练环境的动态和布局。为此，本文提出了一个名为BDATP的即插即用框架。在感知层面，设计了双耳差分注意力模块，通过显式建模和利用左右声道特征的差异，强化模型对空间方位线索的提取，降低对声音语义的依赖。在策略层面，引入了动作转移预测辅助任务，通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束，鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明，将BDATP集成到AV-NaV和AV-WaN等主流基线中，能带来一致且显著的性能提升，尤其在最具挑战性的未闻声音设置下，成功率最高可提升超过21个百分点，证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统，以深度图像和双耳声谱图为输入，输出导航动作。其核心流程和组件如下：输入与编码：视觉输入：智能体的第一人称深度图像，通过一个独立的CNN编码器（三个卷积层+线性层+ReLU）编码为512维的视觉特征 f_v。音频输入：双耳声谱图（左右声道）。首先沿声道维度分离为左、右两个单声道声谱图。然后，通过一个权重共享的CNN编码器（结构与视觉编码器相同）分别编码，得到中间特征图 f_al 和 f_ar。双耳差分注意力模块：差分计算：对共享CNN输出的左右声道特征图，计算逐元素绝对差值 diff = |f_ar - f_al|，作为显式的空间差异信号。特征拼接与权重生成：将 f_al 和 f_ar 在通道维度拼接，通过一个1x1卷积降维回原始通道数C，再经过Sigmoid激活，得到通道注意力权重 w ∈ (0,1)。差异加权融合：利用 w 和 diff 生成左右通道的加权系数：w_r = w ⊙ diff, w_l = (1-w) ⊙ diff。最终融合的音频特征为 f_a = f_al ⊙ w_l + f_ar ⊙ w_r。此设计强制注意力机制聚焦于存在显著差异（即包含方向信息）的特征区域。策略学习： ...

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

📄 Spatial-Aware Conditioned Fusion for Audio-Visual Navigation #声源定位 #多模态模型 #强化学习 #基准测试 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者：Shaohang Wu（新疆大学计算机科学与技术学院，具身智能联合实验室，丝绸之路多语言认知计算联合国际实验室）通讯作者：Yinfeng Yu（新疆大学计算机科学与技术学院，具身智能联合实验室，丝绸之路多语言认知计算联合国际实验室；邮箱：yuyinfeng@xju.edu.cn）其他作者：无其他作者 💡 毒舌点评这篇论文把 FiLM 这瓶“旧酒”装进了音频-视觉导航的“新瓶”，效果居然出奇地好——只增加了 0.15M 参数就把 unheard 场景的 SR 拉高了 28 个百分点，堪称“少即是多”的典范。但槽点在于 SDLD 的 20 个离散区间完全靠拍脑袋（“30米除以20约等于1.5米步长”），连个区间数消融都没有；且整篇论文对 FiLM 的引用和改造堪称“教科书级搬运”，说成“建立新范式”多少有点给自己加戏。 📌 核心摘要本论文针对音频-视觉导航（AVN）中目标空间意图模糊、视觉特征缺乏听觉条件引导两大问题，提出了 Spatial-Aware Conditioned Fusion（SACF）框架。该框架首先设计了 Spatially Discretized Localization Descriptor（SDLD），将声源相对方向与距离离散化为 20 个区间并预测其概率分布，通过期望计算与 LSTM 时序精炼得到紧凑空间描述符；其次提出了 Audio-Descriptor Conditioned Visual Fusion（ACVF），基于音频嵌入与空间描述符生成 FiLM 通道调制参数（γ, β），对视觉特征图进行轻量化线性变换，从而抑制背景噪声、增强目标导向视觉表示。在 SoundSpaces 的 Replica 与 Matterport3D 数据集上，SACF 在深度输入设置下显著超越 SoundSpaces 基线，尤其在 Unheard 场景（未听过目标声音）下 Replica 的 SR 提升 28.2%、Matterport3D 的 SPL 提升 20.5%。整体模型参数量仅约 4.5M，以较低计算开销实现了强泛化性。局限性在于 RGB 输入下部分指标（如 SNA）仍略低于对比方法 AGSA，且未进行真实世界迁移验证。 ...

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Linhao Zhang（腾讯微信AI，基础模型技术中心）通讯作者：推断为 Houfeng Wang（北京大学计算机科学学院，多媒体信息处理国家重点实验室）和 Xiao Zhou（腾讯微信AI，基础模型技术中心），基于资深作者位置及实验室负责人身份。其他作者： Yuhan Song（北京大学计算机科学学院，多媒体信息处理国家重点实验室） Aiwei Liu（腾讯微信AI，基础模型技术中心） Chuhan Wu（腾讯微信AI，基础模型技术中心） Sijun Zhang（腾讯微信AI，基础模型技术中心） Wei Jia（腾讯微信AI，基础模型技术中心） Yuan Liu（腾讯微信AI，基础模型技术中心） 💡 毒舌点评亮点：这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点，并一针见血地指出病根在于ASR（语音识别）的“填鸭式”教学——只教认字，不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”，强制它去听语气、听环境，效果立竿见影。槽点：方法虽好，但“药方”（训练数据）全靠其他模型“合成”，虽然做了人工验证，但终究是“二手信息”，长期来看可能限制模型感知能力的上限。另外，论文主要在高资源语言（中英文）上验证，对于方言或低资源语言的效果还是个问号。 📌 核心摘要这篇论文旨在解决当前音频大语言模型（AudioLLMs）在细粒度声学感知任务上表现不佳的核心问题。作者指出，主流的以自动语音识别（ASR）为中心的训练范式，通过将音频映射到纯文本转录，系统性地丢弃了副语言学（如情感、语调）和非语言声学事件信息，导致模型成为“语言巨人，听觉矮子”。为此，他们提出了一种统一音频模式（UAS），这是一种结构化的JSON表示，将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分，从而在训练中保留完整的声学线索。基于UAS，作者构建了可扩展的自动数据生成流水线，并训练了UAS-Audio模型。实验表明，UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升，同时保持了强大的推理能力，并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号，是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式，包含四个核心组件，其输入输出流程如下：输入：原始音频波形。输出：文本（如转录、问答、结构化UAS）或生成的语音波形。核心组件与数据流：音频编码器：使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。投影层：一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型（LLM）词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。大语言模型骨干：采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入，进行自回归解码，生成文本响应。在训练的某些阶段，LLM也被扩展以处理离散音频令牌。语音解码器：基于流匹配（Flow Matching）架构，并配备HiFi-GAN声码器。当需要语音生成时，LLM输出的离散音频令牌（来自StableToken）被送入此解码器，先转换为梅尔频谱图，再合成最终波形。训练阶段与模块状态：阶段1：离散令牌对齐：仅训练LLM的嵌入层和输出头，通过ASR和TTS任务，让LLM学会处理离散音频代码，为语音生成做准备。阶段2：音频LLM适应：冻结LLM和音频编码器，仅训练投影层。使用UAS标注数据进行训练，使模型从一开始就建立对结构化声学信息的理解。阶段3：全指令调优：解冻除音频编码器外的所有参数。在混合数据（基础音频数据、UAS标注、UAS-QA）上进行多任务训练，综合提升感知、推理和生成能力。阶段4：GRPO：使用群体相对策略优化（GRPO）进行强化学习，进一步提升模型性能。架构选择理由：该设计复用了经过验证的成熟组件（如Qwen2.5、流匹配解码器），创新点不在于模块本身，而在于如何使用UAS数据来训练这些模块，特别是通过阶段2的针对性适应，避免了模型陷入传统的ASR中心表征。 💡 核心创新点问题归因创新：明确指出AudioLLMs感知能力薄弱的系统性根源是ASR中心训练范式。该范式在优化语义对齐的同时，隐式地将副语言学和环境声学信息视为“噪声”进行抑制，造成了感知盲区。监督框架创新：提出统一音频模式（UAS）作为一个结构化的、全面的监督框架。它将音频信息显式分解为“转录”、“副语言学”（年龄、性别、情感等6个子字段）和“非语言事件”（描述、离散事件、连续事件），迫使模型学习并保留这些通常被忽略的声学维度。数据工程创新：设计了一个可扩展的、自动化的UAS数据生成流水线。该流水线分三阶段：1）用现成的音频描述模型生成丰富字幕；2）用LLM将字幕与真实转录结合，合成为结构化UAS；3）通过本体约束、转录完整性校验等多级自动化验证确保数据质量。这使得利用现有海量ASR数据集构建感知丰富的训练数据成为可能。训练策略创新：在训练流程中，专门设计了阶段2（音频LLM适应），在冻结主干的情况下仅用UAS数据训练投影层。这确保了模型在接触复杂任务前，其跨模态对齐的“接口”就已建立在感知丰富的表征之上，而非需要后续“纠偏”的ASR表征。 🔬 细节详述训练数据：规模：总计使用了数十万小时的音频数据，约90%为开源数据，10%为内部数据。主要开源数据集：包括LibriSpeech (960h)、多语言LibriSpeech (27,322h)、GigaSpeech (10,000h)、Yodas (29,155h)、Emilia (96,750h)、AudioSet (4,922h)等，覆盖语音、音乐、环境声。 UAS数据生成：使用Qwen3-30B-A3B-Instruct模型进行字幕到UAS格式的转换，使用Qwen3-235B-A22B-Instruct模型生成UAS-QA对。损失函数：论文未明确提及特殊的损失函数，主要阶段（1-3）采用标准的自回归交叉熵损失进行序列预测。阶段4的GRPO是一种强化学习策略优化方法。训练策略与超参数：优化器：AdamW (β₁=0.9, β₂=0.95)，权重衰减为0.1。学习率调度：采用余弦衰减并带线性预热。各阶段学习率：阶段1峰值5e-4，阶段2峰值2e-4，阶段3峰值1e-4，阶段4峰值5e-6。预热步数：阶段1为500步，阶段2和3为1000步，阶段4为200步。梯度裁剪：1.0。可训练参数：阶段1和2仅训练投影层；阶段3训练除音频编码器外的所有参数；阶段4同阶段3。推理细节：灵活生成：推理时不强制生成完整UAS JSON。支持目标模式（如直接问答）和整体模式（生成完整UAS），用户可通过提示词控制。语音生成：使用训练好的离散音频令牌和流匹配解码器进行自回归语音合成。数据增强/正则化：未特别提及，主要依赖大规模数据混合和多任务学习作为隐式正则化。 📊 实验结果主要指标对比（MMSU, MMAR, MMAU基准）：模型 MMSU MMAR MMAU 平均感知推理总体语音离散架构 GLM-4-Voice 11.04 16.16 13.30 34.35 UAS-Audio-D 31.32 48.55 39.66 44.56 连续架构 Kimi-Audio 44.8 75.7 59.8 58.5 Qwen2.5-Omni 42.7 77.6 58.1 59.9 Step-Audio2 42.9 73.2 57.6 61.2 UAS-Audio 55.7 77.4 66.2 66.0 关键发现： ...

ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

📄 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning #语音识别 #强化学习 #生成模型 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Junyi Wang（清华大学，华为技术有限公司）通讯作者：Zengrui Jin（清华大学），Chao Zhang（清华大学）其他作者：Chi Zhang（清华大学），Jing Qian（华为技术有限公司），Haifeng Luo（华为技术有限公司），Hao Wang（华为技术有限公司） 💡 毒舌点评亮点是把强化学习“硬塞”进了语音编码的量化环节，用WER当奖励信号，在200bps的极限压榨下还把清晰度拉高了13%，思路很野。槽点是模型参数量（301M）对于卫星/水下通信这种“寸资源寸金”的场景可能还是太“胖”了，而且非流式架构带来的延迟问题在论文里只提了一嘴，算是留了个“未来工作”的经典坑。 📌 核心摘要这篇论文旨在解决卫星、水下等极端带宽受限场景下（如200bps）语音通信清晰度严重下降的问题。传统编解码器以波形重建为目标，在超低比特率下会将宝贵的比特分配给不必要的声学细节，而非核心语义信息。为此，作者提出了ClariCodec，一个采用两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化（iFSQ）和可逆层归一化（ILN）进行基于重建的预训练，建立稳定的离散表示。核心创新在于第二阶段：作者将量化过程重新表述为一个随机策略，并利用强化学习（GRPO算法）以词错率（WER）的负值作为奖励信号，直接对编码器进行微调，以优化语义保留能力，同时冻结解码器和声码器以保持声学质量。实验表明，即使在无RL的第一阶段，ClariCodec在LibriSpeech测试集上已取得3.68%的WER，具有竞争力；经过RL优化后，WER进一步降至3.20%（测试集清洁子集）和8.93%（测试集其他子集），实现了约13%的相对提升，且感知质量（UTMOS）未受损，性能超越了数倍于其比特率（如400bps）的基线模型。 🏗️ 模型架构模型的整体流程是一个端到端的神经语音编解码系统，分为编码、量化、解码和声码四个核心阶段，并采用两阶段训练策略。完整输入输出流程：输入：16kHz单通道原始语音波形。特征提取：提取对数梅尔频谱图，窗口长度200样本（12.5ms），跳跃长度200样本（12.5ms）。编码器：基于ConvNeXt V2的编码器对梅尔频谱进行压缩。通过三个连续的2倍下采样层（交错ConvNeXt V2块），将时间分辨率降低8倍，同时将通道维度加倍，最终得到10Hz的潜在帧率。量化器：采用随机残差有限标量量化（Stochastic R-FSQ）。包含两个残差层，每层的量化级别维度为ℒ=[8, 5, 5, 5]，对应每层10比特。关键设计：量化过程被重构为一个随机策略。对于潜在向量z_d，不进行确定性舍入，而是将到每个网格点的负平方距离（加上Gumbel噪声）作为logits，通过Gumbel-Softmax采样得到量化索引。这使得量化过程可微，可用于后续的强化学习优化。解码器：与编码器对称的ConvNeXt V2解码器，通过三个2倍上采样块恢复时间分辨率，从离散令牌序列重建对数梅尔频谱图。声码器：使用从头训练的Vocos声码器，将重建的梅尔频谱图转换为最终的16kHz波形输出。组件间连接与数据流动：数据流：波形 → 梅尔频谱 → 编码器特征 → 随机R-FSQ离散令牌 → 解码器重建梅尔频谱 → Vocos重建波形。第一阶段（预训练）：所有组件（编码器、量化器、解码器、声码器）联合训练，优化重建损失、对抗损失和特征匹配损失。第二阶段（RL优化）：冻结量化器、解码器和声码器的所有参数，仅训练编码器。编码器被视为策略网络π_θ，其输出（通过随机量化）产生的离散令牌序列，经冻结的解码器-声码器管道生成重建波形。该波形与原始波形一同送入预训练的ASR模型，得到WER作为奖励，通过GRPO算法更新编码器参数。关键设计选择理由： ConvNeXt V2：作为强大的卷积骨干网络，提供高效的特征提取。随机FSQ：将确定性量化转变为随机采样，使其可微并可作为RL策略，是连接编码器与RL优化的关键桥梁。两阶段训练：先通过重建损失建立良好的声学基础，再通过RL专注于优化语义（清晰度），避免了端到端RL训练可能导致的声学质量崩溃。冻结非训练组件：在RL阶段固定解码器和声码器，确保了声学重建管道不变，RL优化仅改变编码器向该管道输入的“指令”（令牌），从而在提升清晰度的同时稳定住感知质量。 💡 核心创新点首次将强化学习引入神经语音编解码器训练： ...