推理 | 语音/音乐/音频论文速递

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者：未说明作者列表：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校)，Roger Ren (Amazon)，Jingyuan Li (Amazon)，Rahul Pandey (Amazon)，Prashanth Gurunath Shivakumar (Amazon)，Ivan Bulyko (Amazon)，Ankur Gandhe (Amazon)，Ge Liu (伊利诺伊大学厄巴纳-香槟分校)，Yile Gu (Amazon) 💡 毒舌点评亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象，并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂（需要8块H200训练61小时），且多奖励组件的超参数调节（如α权重）虽经实验验证，但给实际复现增加了一定复杂度。 ...

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院；实习于亚马逊) 通讯作者：未明确说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表： Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校；亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾，并为此开出了“过程奖励”这剂对症良药，将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而，其方法的计算开销（需要多次采样）和奖励函数设计的复杂性，使其对资源有限的团队并不友好，且最终性能天花板仍受制于基础音频感知器的短板，这提醒我们“会思考”之前，得先“听清楚”。 ...

OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Speech

📄 OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Speech #语音合成 #大语言模型 #推理 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #推理 | #大语言模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yong Ren（中国科学院自动化研究所，多模态人工智能系统国家重点实验室；中国科学院大学人工智能学院）通讯作者：Jiangyan Yi（清华大学自动化系），Jianhua Tao（清华大学自动化系；北京信息科学与技术国家研究中心），Zhengqi Wen（清华大学自动化系；北京信息科学与技术国家研究中心）作者列表： Yong Ren（中国科学院自动化研究所，多模态人工智能系统国家重点实验室；中国科学院大学人工智能学院） Jiangyan Yi（清华大学自动化系） Jianhua Tao（清华大学自动化系；北京信息科学与技术国家研究中心） Haiyang Sun（中国科学院自动化研究所，多模态人工智能系统国家重点实验室） Zhengqi Wen（清华大学自动化系；北京信息科学与技术国家研究中心） Hao Gu（中国科学院自动化研究所，多模态人工智能系统国家重点实验室；中国科学院大学人工智能学院） Le Xu（中国科学院自动化研究所，多模态人工智能系统国家重点实验室） Ye Bai（中国科学院自动化研究所，多模态人工智能系统国家重点实验室） 💡 毒舌点评亮点：这项工作最漂亮的地方在于它系统性地解决了一个真实痛点——不再让用户纠结于“高兴”还是“快乐”，而是直接告诉模型“用一种在酒局上试探对手的、带着不屑的语气说话”，并为此构建了从数据到模型的全套方案。短板：但整个数据集的构建像一条精密的“LLM流水线”，从上下文提取、指令生成到一致性过滤、推理链标注，对Qwen3和DeepSeek-R1等模型的依赖过重，这既可能引入特定模型的偏差，也使得数据集的“开放性”打了个折扣。 🔗 开源详情代码：提供代码仓库链接：https://github.com/y-ren16/OV-InstructTTS。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：OV-Speech数据集被声明为公开，可通过上述GitHub链接获取。其构建基础ContextSpeech数据集也提供了Hugging Face链接。 Demo：论文提到提供了演示（demos），链接在项目页面中。复现材料：论文详细描述了OV-Speech数据集的五阶段构建流程，并给出了模型架构图和示例。但训练硬件、完整超参数（如优化器、调度器）等关键复现细节未说明。论文中引用的开源项目：模型骨干：Step-Audio-2-mini-Base (https://github.com/stepfun-ai/Step-Audio2) 基线模型：CosyVoice2 (https://github.com/FunAudioLLM/CosyVoice)， Higgs-Audio-V2 (https://github.com/boson-ai/higgs-audio) 数据集构建相关：Qwen3-32B， Deepseek-R1， Qwen2-Audio-7B， ContextSpeech， NVSpeech170k。评估工具：Paraformerzh (FunASR工具包)， WavLM。 📌 核心摘要这篇论文旨在解决现有“指令驱动语音合成”（InstructTTS）系统无法处理灵活、高层次的自然语言描述，只能依赖预定义声学属性标签的局限性。其核心方法是提出一个新的范式——OV-InstructTTS，并配套提出了一个由专用数据集OV-Speech和一个推理驱动的框架OV-InstructTTS-TEP组成的完整解决方案。与之前方法相比，新范式直接面向从叙事上下文中生成的开放式词汇指令，而新框架在合成前通过一个显式的“思考”步骤，将高层指令分解并推断出具体的情感、声学和副语言特征。主要实验结果表明，OV-InstructTTS-TEP在指令遵循度（Gemini Score 70.42， Gemini Rank 3.39/6）、语音自然度（MOS 4.28）和指令一致性（ICMOS 3.91）上均优于包括GPT-4o（API）和CosyVoice2在内的多个强大基线。该工作的实际意义在于推动TTS系统从“参数控制”向更直观的“意图控制”演进，提升用户友好性。其主要局限性在于数据集OV-Speech的构建过程高度依赖多个大型语言模型，可能引入偏差，且完全复现模型需要未公开的权重和更多硬件信息。 ...