强化学习 | 语音/音频论文速递

RLBR: Reinforcement Learning with Biasing Rewards for Contextual Speech Large Language Models

📄 RLBR: Reinforcement Learning with Biasing Rewards for Contextual Speech Large Language Models #语音识别 #强化学习 #语音大模型 #端到端 🔥 8.0/10 | 前25% | #语音识别 | #强化学习 | #语音大模型 #端到端学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Bo Ren（Microsoft Core AI, USA）通讯作者：未说明作者列表：Bo Ren（Microsoft Core AI, USA）、Ruchao Fan（Microsoft Core AI, USA）、Yelong Shen（Microsoft Core AI, USA）、Weizhu Chen（Microsoft Core AI, USA）、Jinyu Li（Microsoft Core AI, USA） 💡 毒舌点评亮点：首次将强化学习（GRPO算法）应用于解决语音大模型的上下文偏置问题，奖励函数设计针对性强，并创新性地引入“参考感知”机制以扩充训练探索空间，技术思路新颖且有效。短板：所有验证实验均在人工构造偏置列表的LibriSpeech标准数据集上进行，缺乏在真实复杂场景（如多轮对话、高噪音、真实领域术语）下的验证，其实际落地效果有待商榷。 ...

RRPO: Robust Reward Policy Optimization for LLM-Based Emotional TTS

📄 RRPO: Robust Reward Policy Optimization for LLM-Based Emotional TTS #语音合成 #强化学习 #大语言模型 #鲁棒性 #数据增强 ✅ 7.5/10 | 前25% | #语音合成 | #强化学习 | #大语言模型 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Cong Wang（北京邮电大学）通讯作者：Ya Li（北京邮电大学）作者列表：Cong Wang（北京邮电大学），Changfeng Gao（未说明），Yang Xiang（未说明），Zhihao Du（未说明），Keyu An（未说明），Han Zhao（未说明），Qian Chen（未说明），Xiangang Li（未说明），Yingming Gao（北京邮电大学），Ya Li（北京邮电大学） 💡 毒舌点评这篇论文的亮点在于它对可微分强化学习在TTS中应用的“奖励黑客”现象进行了细致入微的病理分析，并开出了一剂对症的“混合正则化”药方，实验也清晰地展示了“药到病除”的效果。然而，其短板在于实验规模（单说话人、单语言、10k样本）相对局限，且核心的“鲁棒性”验证严重依赖下游SER任务的跨语言泛化作为代理指标，而非直接衡量生成语音对多种黑客攻击的抵抗力，说服力尚有提升空间。 📌 核心摘要本文旨在解决基于大语言模型的情感TTS中，采用可微分奖励优化（DiffRO）方法时出现的“奖励黑客”问题。即策略模型会学习生成一些能欺骗奖励模型（RM）获得高分但实际听感不佳的声学伪影（如不自然的唇齿音）。为此，作者提出了鲁棒奖励策略优化（RRPO）框架，其核心是采用混合正则化方案对预训练的RM进行微调，从标签置信度、决策边界脆弱性和扰动敏感性三个层面纠正RM的偏差，使其奖励信号更贴近人类感知。与直接优化或简单SFT相比，该方法的新颖之处在于构建了一个更难被“黑客攻击”的可靠奖励信号。实验表明，RRPO在情感表达（E-MOS）和自然度（N-MOS）上均优于基线（CosyVoice2, SFT, DiffRO）。具体地，RRPO的E-MOS达到3.78±0.08，N-MOS达到3.81±0.09，而存在奖励黑客现象的DiffRO基线N-MOS仅为3.61±0.13。消融研究证实了混合正则化显著提升了RM在多个跨语言情感识别数据集上的泛化能力。该工作为强化学习在TTS中的安全应用提供了有效方案，但其在更多样化场景下的泛化能力和对更复杂攻击的抵御能力有待进一步验证。 🏗️ 模型架构 RRPO的整体框架如图1所示，是对原始DiffRO框架的增强。其核心流程可分为两个阶段：鲁棒奖励模型微调（图1(a)部分）：输入：一段语音的低级声学特征（例如梅尔频谱图） F。核心组件：一个预训练的Transformer编码器，加上一个可训练的情感识别（SER）头。SER头的训练采用混合正则化。混合正则化细节：标签平滑（LS）：在损失计算时，将硬类别标签软化，防止模型过度自信。能量自适应混合（EAM）：一种数据增强策略。对一个批次内的语音特征进行随机配对混合（算法1）。关键创新在于混合系数 λ 不是固定或随机的，而是根据混合片段的能量和时长自适应计算。这迫使RM学习数据点之间的平滑过渡，从而修正脆弱的决策边界。对抗训练（Adv）：在Transformer编码器输出的高级嵌入 h' 上添加基于梯度的最坏情况扰动 δ，生成对抗样本 h'_adv。这增强了RM对输入细微扰动的鲁棒性，防止策略模型通过引入微小失真来“黑客”攻击。输出：预测的情感类别概率，以及用于指导策略优化的鲁棒奖励信号 R_robust（即-L_ser，其中 L_ser = L_emo + α L_adv）。鲁棒奖励策略优化（图1(b)部分）：输入：待合成的文本 T 和情感属性 A（通过属性token注入）。核心组件：一个冻结的神经编解码语言模型（策略模型）。优化过程：采用DiffRO的框架。通过Gumbel-Softmax重参数化，将语音token序列的生成过程变为可微分的。利用链式法则，将策略模型（LLM）的参数 θ 对鲁棒奖励 R_robust 的梯度直接反向传播（公式6），从而更新策略模型。输出：优化后的策略模型，能生成情感表达更准确、更自然的语音。架构图说明：论文中的图1展示了整体框架。图1描述：上半部分（a）展示了使用混合正则化微调鲁棒奖励模型的过程，包括能量自适应混合（EAM）、标签平滑（LS）的SER头以及应用对抗训练（Adv）的高级嵌入。下半部分（b）展示了RRPO的策略优化阶段，其中文本和情感属性token输入冻结的神经编解码语言模型，通过可微分采样生成语音token，并利用鲁棒奖励模型的梯度更新语言模型参数。 ...

Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #基准测试 | arxiv 学术质量 6.2/7 | 选题价值 1.7/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuxin Zhang（StepFun，上海交通大学）通讯作者：Fei Tian（StepFun）作者列表：Yuxin Zhang（StepFun，上海交通大学）， Xiangyu Tony Zhang（新南威尔士大学）， Daijiao Liu（StepFun，新南威尔士大学）， Fei Tian（StepFun）， Yayue Deng（StepFun）， Jun Chen（StepFun）， Qingjian Lin（StepFun）， Haoyang Zhang（StepFun，南洋理工大学）， Yuxin Li（StepFun，南洋理工大学）， Jinglan Gong（StepFun）， Yechang Huang（StepFun）， Liang Zhao（StepFun）， Chengyuan Yao（StepFun）， Hexin Liu（南洋理工大学）， Eng Siong Chng（南洋理工大学）， Xuerui Yang（StepFun）， Gang Yu（StepFun）， Xiangyu Zhang（StepFun）， Daxin Jiang（StepFun） 💡 毒舌点评论文精准地指出了当前音频模型训练中“RLVR导致机械感”的核心痛点，并给出了一个优雅且实验验证有效的解决方案（引入RLHF）。但作为一份技术报告，其最大的短板恰恰在于“技术”细节的不透明：训练数据规模与构成、奖励模型的具体架构与训练细节、RLHF阶段的采样与优化超参数等关键复现信息均付之阙如，这与其宣称的“技术报告”定位略有不符，使得外部研究者难以跟进。 ...

SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton

📄 SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton #音乐生成 #强化学习 #自回归模型 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #自回归模型 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xuzheng He （根据作者列表顺序推断，论文中未明确标注）通讯作者：未说明作者列表：Xuzheng He, Nan Nan, Zhilin Wang, Ziyue Kang, Zhuoru Mo, Ao Li, Yu Pan, Xiaobing Li, Feng Yu, Xiaohong Guan （所有作者所属机构在论文中未说明） 💡 毒舌点评亮点：论文提出的“3D分层架构”与“和声骨架”条件控制相结合，为解决交响乐生成中“复杂性与控制力失衡”这一核心痛点提供了非常工程化且思路清晰的解决方案，其设计逻辑环环相扣。短板：依赖预定义的规则化“和声骨架”作为条件，虽然降低了控制难度，但也引入了规则系统的僵化性；且论文承认该骨架的生成错误会直接影响下游质量，这本质上是将一个复杂问题拆分成了两个可能都有缺陷的子问题。 📌 核心摘要要解决的问题：现有符号音乐生成模型在处理多轨、长时程的交响乐编曲时，面临“复杂性-控制不平衡”问题，即模型规模扩大与细粒度、长时程的可控制性之间存在矛盾。模型常生成刺耳的不协和音，且缺乏符合专业制作流程的分层控制。方法核心：提出SymphonyGen，一个3D分层框架。其核心是引入“和声骨架”作为条件，这是一个基于节拍的、可量化的多声部音乐大纲。模型架构在Bar（小节）、Track（音轨）、Event（事件）三个维度上分别用Transformer编解码器进行处理。此外，使用了基于音频感知的强化学习（GRPO）来对齐生成结果，并在推理时采用“不协和音避免采样”来抑制错误音高。与已有方法相比新在哪里：与将乐谱展平为1D序列的模型相比，3D架构显著提升了计算效率和可扩展性（见表1）。与简单的和弦条件控制不同，“和声骨架”提供了更精细的节拍级和声与旋律轮廓引导。结合RL和特定采样策略，形成了一个从结构控制到细节优化的完整流水线。主要实验结果：客观评估显示，RL训练显著提升了CLaMP分数（从0.589到0.726），并大幅降低了不协和音分数（Dhn从0.777降至0.248， Dnn从0.064降至0.014，采用λ=(1,10)配置时）。主观测试中，在电影配乐生成任务中，SymphonyGen在总体质量、连贯性和偏好度上均优于SymphonyNet和NotaGen基线（见表3）。在编曲任务中，其质量评分也优于METEOR（见表4）。实际意义：为AI辅助电影配乐等复杂音乐创作提供了新的工具思路。其“和声骨架”条件控制机制允许用户以类似“钢琴缩编谱”的方式介入生成过程，增强了人机协作的可能性。RL对齐方法为弥合MIDI数据与真实音响感知的差距提供了思路。主要局限性：1）和声骨架的自动生成（基于规则和独立解码器）可能出错，且错误会传播。2）对音乐风格的表达能力受限于训练数据和RL奖励模型的偏好（使用了游戏电影原声作为参考）。3）当前评估主要依赖规则指标和主观听测，在“音乐性”等更抽象维度的评估仍有局限。 🏗️ 模型架构图1：SymphonyGen系统概览。展示了完整的流程：从输入（和声骨架、元数据）到生成交响乐乐谱，再到可能的RL训练循环。 ...

Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment

📄 Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment #音乐生成 #强化学习 #文本到音乐 #自回归模型 #大语言模型 ✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #文本到音乐 #自回归模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Abhinaba Roy (新加坡科技设计大学) 通讯作者：未明确说明，从致谢和贡献看，Dorien Herremans或Geeta Puri可能为通讯作者，但论文中未明确标注。作者列表：Abhinaba Roy (新加坡科技设计大学)、Geeta Puri (新加坡科技设计大学)、Dorien Herremans (新加坡科技设计大学) 💡 毒舌点评本文巧妙地将大语言模型领域成熟的“推理时对齐”范式跨界应用到符号音乐生成，通过精心设计的奖励函数（文本-音频一致性+调性一致性）引导搜索，无需重训模型即可显著提升生成质量，尤其是对自由文本描述的适应性（2.6:1偏好），思路清晰且实用。不过，其核心贡献更像是一次“优秀的系统集成与工程优化”，在音乐生成的深层理论或全新架构上并未突破；奖励函数的设计（如固定权重）以及对“音乐性”的衡量仍依赖于CLAP等外部模型和调性规则，可能限制了其捕捉更复杂、更人性化音乐美学的能力。 📌 核心摘要解决的问题：现有端到端文本到MIDI生成模型（如Text2midi）在推理时，生成的符号音乐在语义上与输入文本对齐不足，且常出现破坏音乐结构性（如调性不协和）的问题。方法核心：提出Text2midi-InferAlign，一种无需重训练的推理时对齐框架。将生成过程建模为奖励引导的树搜索，交替进行“探索”（使用LLM对原始标题进行变异以扩展搜索空间）和“利用”（基于两个奖励函数：CLAP衡量文本-音频一致性，调性检查衡量和声一致性，对候选序列进行排序和替换）。创新之处：首次将基于奖励的推理时对齐技术应用于符号音乐生成；设计并验证了针对语义和结构完整性的互补奖励函数；引入标题变异机制以促进生成多样性。主要实验结果：在MidiCaps测试集上，相比基线Text2midi模型，所有客观指标均有提升，其中CLAP分数提升31.8%，速度（TB）提升32.5%。主观听音测试中，68.75%的听众认为其音乐质量更优。消融实验显示，变异数T=5、替换周期m=100时效果较优。实际意义：提供了一种即插即用的增强模块，可提升任意自回归音乐生成模型的输出质量与可控性，推动更实用的AI音乐创作工具发展。主要局限性：性能提升高度依赖奖励函数的设计和外部模型（如CLAP）的质量；对于包含丰富音乐细节的标题（如MidiCaps），探索空间受限，提升幅度有限；推理时间略有增加（约7%）。 🏗️ 模型架构本论文未提出新的生成模型架构，而是提出了一个推理时优化框架，应用于现有的自回归MIDI生成模型（以Text2midi为例）。整体流程如图1所示。核心流程与组件： ...

ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal Large Language Models

📄 ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal Large Language Models #语音克隆 #多模态模型 #零样本 #强化学习 #语音合成 ✅ 6.5/10 | 前50% | #语音克隆 | #多模态模型 | #零样本 #强化学习学术质量 5.8/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yanling Zhang（昆明理工大学）通讯作者：Shengxiang Gao（昆明理工大学）作者列表：Yanling Zhang（昆明理工大学，云南人工智能重点实验室）、Linqing Wang（昆明理工大学，云南人工智能重点实验室）、Shengxiang Gao（昆明理工大学，云南人工智能重点实验室） 💡 毒舌点评亮点：论文最大的亮点在于将“情感规划”这个抽象任务显式地交给一个经过微调的大语言模型来完成，这个思路比传统基于规则或回归的方法更灵活，也更契合当前LLM赋能各任务的潮流。短板：论文在最关键的“如何做到零样本”和“LLM具体如何规划韵律”这两个核心问题上，细节描述过于粗疏，比如对“融合”操作（公式1）和“情绪调制”函数（公式4）的实现一笔带过，给人的感觉是框架大于细节，实验数据漂亮但“黑盒”感较强。 📌 核心摘要要解决的问题：现有的视觉语音克隆（V2C）方法大多依赖于配对的音频-视觉数据，缺乏零样本能力，这限制了其在资源受限环境（如无配对数据）下的可扩展性。方法核心：提出一个零样本V2C框架，集成文本、静音视频、参考音频和用户情感标签作为输入。其核心创新是一个基于预训练大语言模型（Qwen）的情感韵律规划器，它能根据多模态融合特征生成连续的韵律轨迹（如音高、语速、停顿）。与已有方法相比新在哪里：主要区别在于引入了LLM作为多模态信息整合与情感韵律规划的中心模块，并实现了无需配对音频数据的零样本推理。相比于V2C-Net、Face-TTS等方法，该框架在数据要求上更灵活。主要实验结果：在GRID和CHEM两个数据集上，该方法在语音质量（MOS-S）、自然度（MOS-N）和说话人相似度（SPK-SIM）上均显著优于基线方法。例如，在GRID数据集上，MOS-S达到3.94，比最强基线Multi-TTS（3.50）高0.44；SPK-SIM达到71.52，远高于其他方法。消融实验证明，移除视觉输入、情感控制、强化学习或LLM规划器都会导致性能明显下降。实际意义：为电影配音、语音修复、交互媒体等需要情感化语音合成但缺乏配对训练数据的场景，提供了一种可扩展的解决方案。主要局限性：实验仅在两个相对小规模和特定领域的数据集（GRID为命令式语音，CHEM为情感语音）上验证，对于更复杂、更自然对话场景的泛化能力未证明。此外，论文未公开代码和模型细节，可复现性存疑。 🏗️ 模型架构该框架是一个多输入、多模块的端到端系统，旨在生成情感可控的语音。整体流程可概括为：多模态特征提取与融合 -> LLM情感韵律规划 -> 条件概率语音生成 -> 强化学习优化。输入：静音视频（提供节奏和情感线索）、文本（提供语义内容）、参考音频（提供目标说话人音色）、用户定义的情感及强度。组件与数据流：视频编码器：分析视频帧，提取面部表情、唇部运动等视觉特征（V），捕捉情绪和节奏信息。文本编码器：将输入文本编码为语义嵌入向量（T）。说话人编码器：从参考音频中提取音色嵌��（A），保留说话人身份信息。特征融合：三个模态的特征（V, T, A）通过一个融合函数 f_fusion 被整合为统一的特征表示（F）。论文未详细说明此融合函数的具体结构（如注意力、拼接等）。情感控制网络：用户提供情感类型和强度，由情感专家分类器（EmoBox）引导。这产生一个随时间步变化的情感参数（E_t 或 η_t）。 LLM情感韵律规划器（核心创新）：采用微调后的Qwen大语言模型。它接收融合特征（F）和情感参数（E_t），输出韵律轨迹（P_t），包括情感强度、音高偏移、语速、停顿时长等。这一步是动态、细粒度的控制关键。语音分词器与条件概率生成：根据韵律轨迹（P_t）和文本，以自回归方式（公式3）生成语音token。公式4引入了情绪调制概率，使情感影响语音的生成过程。强化学习模块：通过最大化奖励函数（R）来优化整个生成过程，奖励（r_t）基于语音自然度、情感表达力、与参考音频的对齐程度等。架构图：论文提供了两张关键图表。图1：![Multimodal V2C System Overview](/audio-paper-digest-blog/images/icassp-2026/2026-04-29/11461223-0.png) 此图清晰地展示了系统的三大块：(a) 系统架构，包含LLM规划器、视频编码器、文本编码器、情感控制网络和语音分词器；(b) 情感控制机制，展示了用户如何选择情感并调整强度；(c) 静音视频特征提取细节，显示了视频编码器如何利用多头注意力对齐韵律与视觉线索。图2：![MFCC comparison of timbres](/audio-paper-digest-blog/images/icassp-2026/2026-04-29/11461223-1.png) 此图对比了用户原始音色、本文方法生成音色和基线生成音色的MFCC图，直观地展示了该方法在保持音色（SPK-SIM）方面的优势。设计选择动机：选择LLM作为规划器，是因其强大的序列建模和上下文理解能力，有望更好地捕捉韵律与情感、文本之间的长程依赖关系，克服传统规则或简单回归模型的局限。 💡 核心创新点基于LLM的情感韵律规划器：是什么：使用微调的大语言模型（Qwen）作为核心，根据多模态输入生成连续的、细粒度的韵律控制参数。之前局限：传统方法多采用基于规则或轻量级神经网络（如Variance Adaptor）的规划器，其建模复杂情感-韵律交互的能力有限。如何起作用：LLM能利用其从海量数据中学到的丰富序列知识，更好地理解“在何种情感和视觉情境下，应该采用何种韵律”这一复杂映射。收益：消融实验表明，用LLM替代规则或方差适配器规划器，在所有指标上都取得了提升，尤其在情感一致性和自然度上优势明显。零样本视觉语音克隆框架：是什么：一个无需配对音视频数据即可进行视觉语音克隆的完整框架。之前局限：现有V2C方法（如V2C-Net, HPMDubbing）严重依赖大规模、高质量的配对数据进行训练，限制了其应用场景和扩展性。如何起作用：通过分离音色（来自参考音频）和情感/韵律（来自视觉和文本）的建模路径，并利用迁移学习（预训练LLM和编码器），使得模型能够泛化到未见过的说话人。收益：实验证明该方法在“使用未见过的说话人作为参考音频”设置下仍表现优异，使其适用于电影配音等现实场景。显式、连续的情感控制机制：是什么：允许用户通过选择情感类型和调节强度（e和λ）来精确控制生成语音的情感表达。之前局限：许多方法的情感控制是隐式或离散的（仅限预定义类别），控制粒度粗糙。如何起作用：情感参数（E_t）作为关键输入，被送入LLM规划器，直接影响韵律轨迹的生成。收益：提供了灵活、可调的情感表达能力，增强了实用性。 🔬 细节详述训练数据：使用了两个数据集：GRID（提供同步音视频，用于学习视觉-音频关系）和CHEM（带有情感标签的语音数据）。论文未提供具体的数据集规模、预处理步骤或数据增强方法。损失函数：论文未明确说明训练时使用的主要损失函数（如重建损失、KL散度等）。仅提及通过强化学习优化一个包含自然度、表达力、对齐度等的综合奖励函数（公式5）。训练策略：优化器为Adam，初始学习率1e-4，每10,000步衰减0.9。采用了基于验证集损失的早停法。未说明batch size、训练总步数/轮数、warmup策略等。关键超参数：论文未提供模型的具体规模参数，如LLM的层数、隐藏维度、各编码器的参数量等。训练硬件：在6块NVIDIA RTX 4090 GPU集群上训练。未提供训练时长。推理细节：采用自回归方式生成语音token（公式3）。未提及具体的解码策略（如温度、beam search大小）、是否支持流式输出等。正则化技巧：仅提到了早停法，未提及其他正则化方法（如Dropout、权重衰减的具体设置）。 📊 实验结果论文在两个数据集上进行了充分的对比实验和消融研究。 ...

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频场景理解 #音频问答 #强化学习 #数据集 #基准测试 🔥 8.0/10 | 前25% | #音频场景理解 | #强化学习 | #音频问答 #数据集 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingchen Shao (西北工业大学，Xi’an, China) 通讯作者：未说明（论文未明确指定通讯作者）作者列表： Mingchen Shao (西北工业大学) Hang Su (独立研究者，北京) Wenjie Tian (西北工业大学) Bingshen Mu (西北工业大学) Zhennan Lin (西北工业大学) Lichun Fan (独立研究者，北京) Zhenbo Luo (独立研究者，北京) Jian Luan (独立研究者，北京) Lei Xie (西北工业大学) 💡 毒舌点评亮点：这篇论文非常“全套”，从数据集、评测基准到训练框架一气呵成，直面长音频时间感知的核心痛点（时间幻觉与漂移），并用全局到局部推理范式+TWA-CoT的“工具使用”方案给出了一个结构清晰、实验充分的解决方案。短板：其提出的TWA-CoT依赖多轮工具调用，论文自身也承认这会增加计算开销，牺牲了实时性，这在一定程度上限制了其在流式或资源受限场景下的实用价值。 ...

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

📄 RAS: a Reliability Oriented Metric for Automatic Speech Recognition #语音识别 #强化学习 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #强化学习 | #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wenbin Huang (hartmann_psi@sjtu.edu.cn) 通讯作者：未明确说明（提供的邮箱中包含 kai.yu@sjtu.edu.cn，且 Kai Yu 为资深作者，可能为通讯作者）作者列表：Wenbin Huang、Yuhang Qiu (qiuyuhang@sjtu.edu.cn)、Bohan Li、Yiwei Guo、Jing Peng、Hankun Wang、Xie Chen、Kai Yu (kai.yu@sjtu.edu.cn) 机构列表：上海交通大学计算机科学与技术学院，X-LANCE实验室教育部人工智能重点实验室；江苏省语言计算重点实验室 💡 毒舌点评亮点：问题切中要害，将“ASR可靠性”从抽象概念落地为可量化、可优化的指标（RAS）和具体模型行为（占位符输出），思路清晰且实用。短板：实验主要基于轻量级Whisper-Tiny模型，未探讨该框架在大规模（Large）语音模型上的表现与挑战，这使得其结论的广度和深度打了折扣，也让“可靠性提升”的上限变得模糊。 📌 核心摘要要解决什么问题：传统自动语音识别（ASR）系统在嘈杂或模糊条件下常输出“看似自信实则错误”的转录，现有评估指标（如WER）仅衡量准确性，无法评估系统的可靠性（即何时应保持沉默）。方法核心是什么：提出一个“放弃式转录”框架，允许模型在不确定时输出专用占位符（PH）。为此，设计了可靠性导向指标RAS，它通过动态规划平衡转录的“有用性”和“错误成本”，并通过人类偏好测试校准关键参数α。训练流程包括监督预训练（教模型识别并标记错误）和强化学习（以RAS为奖励优化策略）。与已有方法相比新在哪里：将“选择性预测”从实例级（整句接受/拒绝）扩展到序列的片段级。提出了一个全新的、与人类偏好对齐的评估指标RAS，用于直接优化可靠性。建立了结合监督学习和RL的端到端训练流程，使模型内生地具备不确定性感知和主动放弃能力。主要实验结果如何：在LibriSpeech（干净）和TALCS（语码转换）数据集上，所提方法（Base+PH-Supv+RL）的RAS指标显著优于基线。例如在TALCS上，RAS从-0.1093提升至0.4786。在噪声环境下（SNR=0dB），RAS相比基础模型提升0.2657。消融实验证实RL阶段能进一步提升性能。主要结果对比如下：方法 LibriSpeech RAS↑ TALCS RAS↑ Base (Whisper-Tiny) 0.8603 -0.1093 Base+Logit 0.8650 -0.0650 Base+PH-Supv+RL (Ours) 0.8811 0.4786 GT-guided (Oracle上界) 0.9031 0.3772 实际意义是什么：为ASR系统引入“知之为知之，不知为不知”的能力，减少误导性错误，提升在医疗、法律等关键领域的可用性和信任度。RAS指标为评估和优化ASR可靠性提供了新标准。主要局限性是什么：实验主要在轻量级模型（Whisper-Tiny）上进行，未验证该框架在大规模或多语言ASR模型上的通用性。人类偏好测试的数据规模（980标注）和来源（医疗、会议）虽具代表性，但仍有扩展空间。引入占位符增加了输出复杂度，可能影响下游任务的直接使用。 🏗️ 模型架构本文的核心并非提出一个新的端到端ASR模型架构，而是在现有ASR模型（如Whisper）之上，引入一个放弃式转录框架和相应的评估与训练方法。 ...

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Mingchen Shao（西北工业大学）通讯作者：Lei Xie（西北工业大学）作者列表：Mingchen Shao（西北工业大学）、Hang Su（独立研究者）、Wenjie Tian（西北工业大学）、Bingshen Mu（西北工业大学）、Zhennan Lin（西北工业大学）、Lichun Fan（独立研究者）、Zhenbo Luo（独立研究者，清华大学相关）、Jian Luan（独立研究者）、Lei Xie（西北工业大学） 💡 毒舌点评这篇论文的亮点在于其“庖丁解牛”式的系统设计：面对长音频时间感知这一老大难问题，没有硬磕模型本身，而是从数据、评测、推理范式三个层面给出了一套“组合拳”，尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而，其短板也很明显：框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战，且最终性能的天花板依然受限于所采用的骨干模型（Qwen3-Omni）的基础能力。 📌 核心摘要本文针对大型音频语言模型在长音频理解任务（尤其是需要精确时间感知的任务）中性能显著下降的问题，提出了一套综合解决方案。要解决什么问题：现有模型在处理长达数分钟至数十分钟的音频时，常出现“时间幻觉”（预测事件超出音频范围）和“时间戳漂移”（时间对齐逐渐偏离）等典型失败模式。方法核心是什么：提出了LAT-Audio框架，将长音频时间感知任务建模为“全局到局部”的渐进式推理范式。模型首先生成一个简化的全局时间线，作为整体的时序语义上下文，然后通过“思考-工具调用”的思维链（TWA-CoT）迭代地裁剪和处理局部音频片段，以逐步精炼答案。与已有方法相比新在哪里：a) 数据：构建了LAT-Chronicle数据集（1.2k小时，中英双语，覆盖6类复杂场景），解决了长音频精确时间标注数据稀缺的问题。b) 评测：提出了首个支持30分钟音频的人工验证基准LAT-Bench，涵盖密集音频描述、时间定位和目标描述三大核心任务。c) 范式：TWA-CoT框架通过工具调用动态获取局部音频证据，克服了传统链式思维仅依赖文本推理的局限，并显式建模了全局结构。主要实验结果如何：在LAT-Bench上，LAT-Audio在所有任务上均超越了Gemini系列和Qwen3-Omni等强基线。例如，在时间定位任务上，LAT-Audio的mIoU达到47.2（中文）和50.0（英文），比Gemini-2.5-Pro高出约17.1%和13.8%。消融实验证实，全局时间线、TWA-CoT和强化学习阶段均对性能有显著贡献。模型对输入音频长度的鲁棒性也显著优于基线。实际意义是什么：为长音频分析（如会议记录、播客理解、媒体内容检索）提供了更可靠的工具，并开源了数据集、基准和模型，推动了长音频理解领域的研究进展。主要局限性是什么：多轮推理与工具调用增加了计算开销和延迟，限制了实时应用；当前框架聚焦单音频输入，未扩展至更复杂的多模态场景；最终性能仍受骨干模型能力的制约。 🏗️ 模型架构 LAT-Audio的整体框架如下图所示，其核心是“渐进式全局到局部推理范式”。 ...

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

📄 Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech #语音翻译 #强化学习 #大语言模型 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音翻译 | #强化学习 | #大语言模型 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Siqi Ouyang（未说明）、Shuoyang Ding（未说明）、Oleksii Hrinchuk（未说明）、Vitaly Lavrukhin（未说明）、Brian Yan（未说明）、Boris Ginsburg��未说明）、Lei Li（未说明） 💡 毒舌点评这篇论文精准地抓住了LLM应用于同声传译时“数据质量差”和“计算开销大”这两个落地痛点，并用一套设计精巧的后训练策略（HPO）给出了有效的解决方案，实验结果也足够亮眼。不过，其核心创新更多是针对特定问题的优化框架组合，而非提出一种全新的模型架构或学习范式，对“如何生成高质量合成数据”这一上游问题本身并未深入探索。 📌 核心摘要要解决什么问题：大语言模型（LLM）能显著提升同声传译（SST）质量，但计算开销巨大。现有通过将SST重构为多轮对话来复用KV缓存的方法，严重依赖高质量的监督微调（SFT）数据，而这类数据稀缺且合成方法难以保证质量。方法核心是什么：提出分层策略优化（HPO）框架，用于后训练在不完美SFT数据上训练的模型。核心是引入一个分层奖励函数，同时优化翻译质量（使用COMET等指标）和延迟（如等待时间）这两个相互冲突的目标。与已有方法相比新在哪里：不同于直接使用SFT或简单的强化学习微调，HPO通过分层奖励设计，更精细地平衡了质量与延迟。它不依赖完美的初始对话数据，而是通过后训练对现有模型进行优化，是一种更实用、鲁棒的训练范式。主要实验结果如何：在英译中、德、日的任务上，HPO方法在1.5秒的平均延迟下，相比强基线取得了超过+7 COMET分数和+1.25 MetricX分数的显著提升。消融研究验证了不同质量奖励、分层奖励公式和分段策略的有效性。实际意义是什么：该方法降低了部署高质量LLM-SST系统的门槛和成本，使得在资源受限或需要实时响应的场景下应用先进翻译模型成为可能，推动了SST技术的实用化。主要局限性是什么：论文中未明确讨论。可能包括：对基础模型质量有一定依赖；分层奖励的设计需要针对具体任务进行调优；在极低延迟或极端语音条件下的表现有待进一步验证。 🏗️ 模型架构论文的核心是训练框架而非全新的模型架构，它基于一个已有的、用于SST的LLM架构进行后训练优化。图1展示了将同声传译（SST）任务重新表述为多轮对话的过程。源语音被分段输入，模型在生成翻译片段的同时，可以复用之前计算过的KV缓存，避免了重复计算，从而降低延迟和计算成本。这是本文工作的基础范式。图2是本文提出的HPO框架的核心示意图。它显示了在基础SST模型之上，引入一个分层奖励（Hierarchical Reward）机制。该奖励由两部分组成： ...