强化学习 | 语音/音频论文速递

Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions

📄 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions #音频问答 #强化学习 #多模态模型 #基准测试 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sam Blouir (Amazon) 通讯作者：未说明作者列表：Sam Blouir (Amazon), Ganesh Ramachandra Kini (Amazon), Qingming Tang (Amazon), Raphael Petegrosso (Amazon), Chieh-Chi Kao (Amazon), Ankur Gandhe (Amazon), Chao Wang (Amazon) 💡 毒舌点评亮点：论文提出的“概率比奖励”设计巧妙，将传统RLVR中非黑即白的准确率信号转化为一个能反映模型对正确答案相对置信度的连续信号，为“接近正确”但未得分的样本提供了有效学习信号，这在奖励稀疏的强化学习微调中至关重要。短板：所有实验仅在单一的MMAU基准上完成，且基础模型固定为Qwen2.5-Omni-7B，该方法在其他音频任务（如开放式QA、不同声源类型）或不同规模的模型上的效果和泛化能力有待验证。 📌 核心摘要要解决什么问题：现有的强化学习与验证奖励（RLVR）方法在训练音频问答系统时，通常只使用格式是否正确和答案是否完全匹配的二元奖励信号，这种稀疏的信号对模型几乎正确但未得分的样本无法提供有效的学习指导。方法核心是什么：提出了一种新的基于对数几率（log-odds）的奖励函数。该函数在生成推理链（）之后、答案文本生成之前，计算模型对正确答案选项与最可能的错误答案选项的标准化对数似然之差，以此作为奖励信号。这鼓励模型通过推理链增加正确答案相对于最强干扰项的概率优势。与已有方法相比新在哪里：新在将音频问答的RL训练奖励从简单的二元正确性/格式惩罚，升级为利用模型自身策略分布的“软”概率比奖励。这提供了更密集、更有方向性的梯度信号。主要实验结果如何：在MMAU测试集（mini版）上，使用所提方法微调的模型平均准确率达到78.3%，优于使用传统“准确率+格式”奖励的基线（76.3%）和未微调的Qwen2.5-Omni-7B基础模型（70.4%）。消融实验表明，“log-odds”奖励变体优于“概率”奖励和“提升”奖励。关键实验结果表格：模型/方法基础模型 Sound (%) Music (%) Speech (%) 平均准确率 (%) log-odds (ours) Qwen2.5-Omni 83.4 73.3 78.2 78.3 accuracy + format (our setup) Qwen2.5-Omni 81.6 70.9 76.4 76.3 Omni-R1 [9] Qwen2.5-Omni 81.7 73.4 76.0 77.0 Qwen2.5-Omni-7B (base) – 77.8 61.1 72.4 70.4 Step-Audio-2 [17] – 84.0 73.6 75.1 77.6 消融实验表格：奖励变体平均准确率 (%) — — log-odds (ours) 78.3 (从主表) prob 77.2 lift 77.0 实际意义是什么：为训练更有效的多选题音频问答系统提供了一种新的、更优的强化学习奖励设计范式，证明了在RLVR框架下，超越二元信号的似然度引导能提升模型的音频推理能力。主要局限性是什么：1) 验证实验仅限于MMAU这一个复杂的音频问答基准；2) 方法的核心组件（对数似然计算）依赖于一个具有较强基础能力的预训练多模态大模型（如Qwen2.5-Omni），在更小的模型上是否有效未知；3) 论文未讨论该奖励函数对开放式生成任务（如音频描述）的适用性。 🏗️ 模型架构论文并未提出一个新的端到端模型架构，而是设计了一个针对现有多模态大模型（M-LLM）进行强化学习微调的训练框架。 ...

FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning

📄 FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning #语音增强 #强化学习 #流匹配 #迁移学习 #基准测试 ✅ 7.5/10 | 前25% | #语音增强 | #强化学习 | #流匹配 #迁移学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表按顺序给出，但未明确标注第一作者）通讯作者：未说明（论文中未提供邮箱或通讯作者标识）作者列表：Haoxu Wang, Biao Tian, Yiheng Jiang, Zexu Pan, Shengkui Zhao, Bin Ma, Daren Chen, Xiangang Li（均隶属于 Tongyi Lab, Alibaba Group, China） 💡 毒舌点评亮点：作为将在线强化学习（GRPO）成功应用于流匹配语音增强的开创性工作，其提出的多指标奖励优化策略巧妙地缓解了“奖励黑客”问题，且仅需少量微调步数（5k步）即获得显著提升。短板：尽管技术细节详尽，但论文对代码和模型开源的完全沉默，大大削弱了其结果的可验证性和社区快速跟进的可能性；同时，多指标权重需精细调优也暴露了当前策略的脆弱性。 📌 核心摘要本文旨在解决将在线强化学习（RL）有效应用于生成式语音增强（SE）模型后训练的难题。其方法核心是首次将组相对策略优化（GRPO）成功集成到基于流匹配（Flow Matching）的语音增强框架中，通过将确定性常微分方程（ODE）采样转换为随机微分方程（SDE）采样来引入RL所需的随机性，并设计了针对连续语音信号的损失函数。与以往使用离线方法（如DPO）或仅应用于离散Token的方法相比，本文创新性地实现了在线、无需修改原始架构的GRPO训练。主要实验结果表明，在DNS2020测试集上，与基线模型相比，所提多指标优化模型在无回声测试集上将整体质量（OVRL）从3.373提升至3.549（+0.176），说话人相似度从88.88%提升至90.43%，并显著减少了奖励黑客现象。该研究的实际意义在于为生成式音频模型的后训练提供了高效、实用的在线RL对齐方案。主要局限性在于多指标权重需人工调整，且论文未提供开源代码。关键实验结果（DNS2020测试集）： ...

Group Relative Policy Optimization for Text-to-Speech with Large Language Models

📄 Group Relative Policy Optimization for Text-to-Speech with Large Language Models #语音合成 #强化学习 #多语言 #零样本 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Chang Liu（中国科学技术大学，国家语音及语言信息处理工程技术研究中心）通讯作者：Zhen-Hua Ling（中国科学技术大学，国家语音及语言信息处理工程技术研究中心）作者列表：Chang Liu（中国科学技术大学），Ya-Jun Hu（科大讯飞研究院），Ying-Ying Gao（九天人工智能研究院），Shi-Lei Zhang（九天人工智能研究院），Zhen-Hua Ling（中国科学技术大学） 💡 毒舌点评亮点在于巧妙地将源自数学推理的GRPO算法“移植”到语音合成领域，并用一个现成的ASR模型构建了简单有效的复合奖励，实现了训练复杂度的显著降低和性能的稳定提升。短板则在于对“自然度提升”的深层机理探讨不足，仅通过MOS分数和少量示例论证，缺乏更系统的声学或韵律学分析，且Llasa-1B上的主观评估结果不佳也未得到充分解释。 📌 核心摘要问题：现有基于大语言模型（LLM）的文本到语音（TTS）模型在使用强化学习（RL）进行微调时，面临训练流程复杂（如PPO需要维护价值模型）、或依赖昂贵的偏好数据（如DPO）等问题。方法核心：提出一种基于分组相对策略优化（GRPO）的微调方法。该方法利用一个现成的自动语音识别（ASR）模型，从生成的语音波形中计算字符错误率（CER）和负对数似然（NLL），并通过调和平均融合为一个复合奖励信号。该奖励用于计算组内相对优势，从而微调预训练的LLM-TTS模型。创新点：首次将GRPO算法应用于LLM-based TTS的微调；设计了一种无需额外训练模型、结合客观可懂度（CER）与模型置信度（NLL）的复合奖励函数。主要实验结果：在CosyVoice2和Llasa-1B两个开源基线模型上，GRPO微调显著提升了零样本合成的可懂度（CER/WER降低）和自然度（MOS提升）。例如，对CosyVoice2，中文CER从1.41降至1.07，英文WER从2.46降至2.30；主观平均意见得分（MOS）在四种语言上均有统计显著提升（如中文从4.42提升至4.58）。消融实验证明，结合CER与NLL的复合奖励优于单一奖励。实际意义：该方法简化了LLM-TTS模型的RL训练管线，使其更稳定、易于实施，并有效提升了合成语音的质量和鲁棒性。主要局限性：方法依赖于一个高质量的ASR模型作为奖励提供者；论文未深入分析NLL奖励如何具体改善语音自然度的机理；在Llasa-1B模型上，RL微调未能带来主观自然度的显著提升，原因未充分探究。 🏗️ 模型架构本文的核心贡献是提出一种基于GRPO的微调流程，而非一个全新的TTS生成架构。其流程如图2所示，适用于两类主流的LLM-based TTS模型。图2：GRPO微调流程。灰色模块表示冻结。预训练的语音Token LLM作为策略模型πθ，同时初始化参考模型πref（冻结）。对于输入文本y，策略模型进行G次采样得到一组输出语音token O。这些token经解码器（如Codec解码器或流匹配+声码器）转换为波形X。随后，使用一个现成的ASR模型（如Whisper）对X进行识别，并计算复合奖励R。根据奖励计算组内相对优势A，最后通过最大化GRPO目标函数（公式7）更新策略模型参数。 ...

MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning

📄 MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning #语音情感识别 #强化学习 #多模态模型 #生成模型 ✅ 7.5/10 | 前25% | #语音情感识别 | #强化学习 | #多模态模型 #生成模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haoqin Sun（南开大学计算机科学学院TMCC；阿里巴巴国际数字商务）通讯作者：Yong Qin（南开大学计算机科学学院TMCC）、Haoqin Sun（从邮箱判断，同属上述两机构）作者列表：Haoqin Sun¹,²， Chenyang Lyu²,， Xiangyu Kong³， Shiwan Zhao¹， Jiaming Zhou¹， Hui Wang¹， Aobo Kong¹， Jinghua Zhao¹， Longyue Wang²， Weihua Luo²， Kaifu Zhang²， Yong Qin¹, ¹南开大学计算机科学学院TMCC ²阿里巴巴国际数字商务 ³埃克塞特大学 💡 毒舌点评亮点：该工作巧妙地将DeepSeek-R1中GRPO的思想迁移到情感描述任务，并创新性地设计了“情感锚点空间”来计算奖励，这比简单的规则匹配或BLEU分数更能捕捉情感语义的对齐度，实验也验证了其有效性。短板：所有实验仅在一个中文数据集（EmotionTalk）上进行，且情感锚点的构建严重依赖预定义的离散情绪类别和对应词汇表，这可能限制了模型在更开放、更细微的情感描述上的泛化能力，通用性存疑。 ...

Medical ASR Enhancement by Domain-Specific Reinforcement Fine-Tuning

📄 Medical ASR Enhancement by Domain-Specific Reinforcement Fine-Tuning #语音识别 #强化学习 #领域适应 #大语言模型 ✅ 6.5/10 | 前25% | #语音识别 | #强化学习 | #领域适应 #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Congjie Wang（香港大学电子工程系；实习于CAIR）通讯作者：Jinlin Wu（中国科学院香港 Innovation Institute of Science and Technology (CAIR)；中国科学院自动化研究所 (MAIS)）作者列表：Congjie Wang（香港大学电子工程系，CAIR实习生）、Xiaofan Ye（Neuromedical Centre, HKU-Shenzhen Hospital）、Jinlin Wu（CAIR, MAIS）、Dong Yi（CAIR）、Zhen Lei（CAIR, MAIS）、Wai S. Poon（Neuromedical Centre, HKU-Shenzhen Hospital）、Hongbin Liu（CAIR） 💡 毒舌点评这篇论文的亮点在于其奖励函数的设计巧妙地将通用语音识别指标与领域知识（UMLS验证的MWER）相结合，并通过DPO进行优化，逻辑闭环。然而，其框架在训练时严重依赖GPT-4o进行术语提取和UMLS进行验证，这不仅带来了额外的计算成本，也限制了在无外部API环境下的部署，成为其实用化的一个显著短板。 📌 核心摘要这篇论文旨在解决医疗自动语音识别（ASR）中，通用模型因平等对待所有词元而导致的对罕见但关键医疗术语（如药名、解剖术语）识别不足的问题。核心方法是提出一个“医学感知强化微调（RFT）”框架：首先，基于Whisper模型为每条语音生成多个转写假设；其次，利用GPT-4o从假设中提取候选医疗术语，并通过UMLS知识库进行验证和归一化；然后，设计一个复合奖励函数，结合通用词错误率（WER）、经UMLS验证的医疗词错误率（MWER）以及长度正则化项；最后，通过直接偏好优化（DPO）迭代微调模型，使其倾向于生成高奖励（即医疗术语识别更准确）的转写。与已有方法（如SFT或仅用WER的RFT）相比，新在显式地将领域知识融入优化目标。主要实验结果显示，在MultiMed数据集上，该方法相比SFT基线，MWER降低了7.4%（从0.0934降至0.0865），并且在两个外部测试集（Ankit和Macabdul）上也取得了持续的MWER和WER提升，证明了其泛化能力。该工作的实际意义在于提高了医疗语音转录的准确性和安全性。其主要局限性在于依赖于GPT-4o和UMLS等外部工具，增加了系统的复杂性和部署成本，且论文未提供开源代码或模型。 ...

MR-FlowDPO: Multi-Reward Direct Preference Optimization for Flow-Matching Text-to-Music Generation

📄 MR-FlowDPO: Multi-Reward Direct Preference Optimization for Flow-Matching Text-to-Music Generation #音乐生成 #流匹配 #强化学习 #自监督学习 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #流匹配 | #强化学习 #自监督学习学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Alon Ziv（FAIR Team, Meta MSL & The Hebrew University of Jerusalem）通讯作者：未说明作者列表：Alon Ziv（FAIR Team, Meta MSL & The Hebrew University of Jerusalem）， Sanyuan Chen（FAIR Team, Meta MSL）， Andros Tjandra（FAIR Team, Meta MSL）， Yossi Adi（FAIR Team, Meta MSL & The Hebrew University of Jerusalem）， Wei-Ning Hsu（FAIR Team, Meta MSL）， Bowen Shi（FAIR Team, Meta MSL） 💡 毒舌点评亮点：该工作的核心亮点在于其系统性思维，将单一、模糊的“人类偏好”拆解为文本对齐、制作质量、语义一致性三个可量化的奖励维度，并设计了“强支配对”的配对策略来解决多目标优化中的样本构建难题，这一框架对后续所有基于偏好优化的生成模型都有参考价值。短板：论文在核心生成模型的架构细节上着墨极少，只说明了是Flow-Matching模型，但并未深入描述其具体结构，使得分析停留在“偏好优化外挂”的层面；此外，所用的制作质量预测器和语义一致性评估器本身都依赖于外部预训练模型，这可能会限制该方法在缺乏这些基础模型的场景下的直接应用。 ...

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

📄 Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence #多模态模型 #混合专家 #跨模态 #强化学习 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #混合专家 | #跨模态 #强化学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Amala Sanjay Deshmukh（NVIDIA）通讯作者：未说明作者列表：Amala Sanjay Deshmukh, Kateryna Chumachenko, Tuomas Rintamaki, Matthieu Le, Tyler Poon, Danial Mohseni Taheri, Ilia Karmanov, Guilin Liu, Jarno Seppanen, Arushi Goel, Mike Ranzinger, Greg Heinrich, Guo Chen, Lukas Voegtle, Philipp Fischer, Timo Roman, Karan Sapra, Collin McCarthy, Shaokun Zhang, Fuxiao Liu, Hanrong Ye, Yi Dong, Mingjie Liu, Yifan Peng, Piotr Zelasko, Zhehuai Chen, Nithin Rao Koluguri, Nune Tadevosyan, Lilit Grigoryan, Ehsan Hosseini Asl, Pritam Biswas, Leili Tavabi, Yuanhang Su, Zhiding Yu, Peter Jin, Alexandre Milesi, Netanel Haber, Yao Xu, Sarah Amiraslani, Nabin Mulepati, Eric Tramel, Jaehun Jung, Ximing Lu, Brandon Cui, Jin Xu, Zhiqi Li, Shihao Wang, Yuanguo Kuang, Shaokun Zhang, Huck Yang, Boyi Li, Hongxu Yin, Song Han, Pavlo Molchanov, Adi Renduchintala, Charles Wang, David Mosallanezhad, Soumye Singhal, Luis Vega, Katherine Cheung, Sreyan Ghosh, Yian Zhang, Alexander Bukharin, Venkat Srinivasan, Johnny Greco, Andre Manoel, Maarten Van Segbroeck, Suseella Panguliri, Rohit Watve, Divyanshu Kakwani, Shubham Pachori, Jeffrey Glick, Radha Sri-Tharan, Aileen Zaman, Khanh Nguyen, Shi Chen, Jiaheng Fang, Qing Miao, Wenfei Zhou, Yu Wang, Zaid Pervaiz Bhat, Varun Praveen, Arihant Jain, Ramanathan Arunachalam, Tomasz Kornuta, Ashton Sharabiani, Amy Shen, Wei Huang, Yi-Fu Wu, Ali Roshan Ghias, Huiying Li, Brian Yu, Nima Tajbakhsh, Chen Cui, Wenwen Gao, Li Ding, Terry Kong, Manoj Kilaru, Anahita Bhiwandiwalla, Marek Wawrzos, Daniel Korzekwa, Pablo Ribalta, Grzegorz Chlebus, Besmira Nushi, Ewa Dobrowolska, Maciej Jakub Mikulski, Kunal Dhawan, Steve Huang, Jagadeesh Balam, Yongqiang Wang, Nikolay Karpov, Valentin Mendelev, George Zelenfroynd, Meline Mkrtchyan, Qing Miao, Omri Almog, Bhavesh Pawar, Rameshwar Shivbhakta, Sudeep Sabnis, Ashrton Sharabiani, Negar Habibi, Geethapriya Venkataramani, Pamela Peng, Prerit Rodney, Serge Panev, Richard Mazzarese, Nicky Liu, Michael Fukuyama, Andrii Skliar, Roger Waleffe, Duncan Riach, Yunheng Zou, Jian Hu, Hao Zhang, Binfeng Xu, Yuhao Yang, Zuhair Ahmed, Alexandre Milesi, Carlo del Mundo, Chad Voegele, Zhiyu Cheng, Nave Assaf, Andrii Skliar, Daniel Afrimi, Natan Bagrov, Ran Zilberstein, Ofri Masad, Eugene Khvedchenia, Natan Bagrov, Borys Tymchenko, Tomer Asida, Daniel Afrimi, Parth Mannan, Victor Cui, Michael Evans, Katherine Luna, Jie Lou, Pinky Xu, Guyue Huang, Negar Habibi, Michael Boone, Pradeep Thalasta, Adeola Adesoba, Dina Yared, Christopher Parisien, Leon Derczynski, Shaona Ghosh, Wes Feely, Micah Schaffer, Radha Sri-Tharan, Jeffrey Glick, Barnaby Simkin, George Zelenfroynd, Tomasz Grzegorzek, Rishabh Garg, Aastha Jhunjhunwala, Sergei Kolchenko, Farzan Memarian, Haran Kumar, Shiv Kumar, Isabel Hulseman, Anjali Shah, Kari Briski, Padmavathy Subramanian, Joey Conway, Udi Karpas, Jane Polak Scowcroft, Annie Surla, Shilpa Ammireddy, Ellie Evans, Jesse Oliver, Tom Balough, Chia-Chih Chen, Sandip Bhaskar, Alejandra Rico, Bardiya Sadeghi, Seph Mard, Katherine Cheung, Meredith Price, Laya Sleiman, Saori Kaji, Wesley Helmholz, Wendy Quan, Michael Lightstone, Jonathan Cohen, Jian Zhang, Oleksii Kuchaiev, Boris Ginsburg, Jan Kautz, Eileen Long, Mohammad Shoeybi, Mostofa Patwary, Oluwatobi Olabiyi, Andrew Tao, Bryan Catanzaro, Udi Karpas（均来自NVIDIA） 💡 毒舌点评 NVIDIA用一套极其工程化、标准化的“组合拳”把文本、视觉、音频模型缝合成了一个高效且性能可观的“全家桶”，开源力度也极大，堪称工业界的模范作业。但其核心创新更像是在现有强大组件（MoE、C-RADIOv4、Parakeet）上的系统整合与优化，缺乏一种能改写多模态游戏规则的架构或算法层面的根本性突破。 ...

No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS #语音合成 #强化学习 #偏好学习 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Seungyoun Shin（Channel Corporation, Seoul, South Korea）通讯作者：Sungwook Jeon（NAVER Cloud, South Korea）† 作者列表：Seungyoun Shin（Channel Corporation），Dongha Ahn（Kernelspace），Jiwoo Kim（成均馆大学， Sungkyunkwan University），Sungwook Jeon（NAVER Cloud） 💡 毒舌点评论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励，模型就只会当“背稿机器”，丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案，确实用最小的数据代价把韵律给“救”回来了，ELO分数吊打一众基线，这是其最大亮点。但短板在于，DPO本身已不是新方法，论文的创新更多是“对症下药”的工程应用和验证，而非方法论上的突破，且每轮都要人工标注，扩展性存疑。 📌 核心摘要要解决什么问题：在神经TTS中，使用基于转录错误率（CER）和负对数似然（NLL）的强化学习（如GRPO）优化模型，虽然提升了语音识别准确性，但会导致生成的语音韵律单调、不自然（“韵律坍塌”）。同时，简单加入说话人相似度奖励会破坏训练稳定性。方法核心是什么：提出迭代的直接偏好优化（DPO）方案。从当前模型出发生成候选语音，由人工标注偏好对（更自然 vs. 不自然），然后使用DPO损失直接优化模型，使其倾向于生成被偏好的语音。该过程迭代进行，每轮使用少量（约200对）新鲜的偏好数据。与已有方法相比新在哪里：不同于以往将重点放在设计复杂的复合奖励函数上，本文指出瓶颈在于“奖励设计”，并采用了一种无需单独训练奖励模型、直接使用人类偏好作为可验证信号的优化路径。该路径通过迭代进行，能有效平衡韵律自然度与转录鲁棒性。主要实验结果如何：在全新的KoCC-TTS评测集上，迭代DPO方法在人类偏好（ELO分数）上取得了最高分（Round 2: 1190.1），显著优于GRPO（753.7）和商业系统（如Supertone: 1046.9）。同时，其字符错误率（CER）保持在有竞争力的水平（Round 2: 3.60%），远优于GRPO的扩展版本（42.63%）。 ...

PAC: Pronunciation-Aware Contextualized Large Language Model-Based Automatic Speech Recognition

📄 PAC: Pronunciation-Aware Contextualized Large Language Model-Based Automatic Speech Recognition #语音识别 #大语言模型 #多语言 #强化学习 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #大语言模型 | #多语言 #强化学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Li Fu（JD AI Research）、Yu Xin（JD AI Research）（论文注明共同贡献）通讯作者：未说明作者列表：Li Fu（JD AI Research）、Yu Xin（JD AI Research）、Sunlu Zeng（JD AI Research）、Lu Fan（JD AI Research）、Youzheng Wu（JD AI Research）、Xiaodong He（JD AI Research） 💡 毒舌点评亮点：直觉简单但设计精巧——通过给上下文“加拼音”并故意“放干扰项”，就逼着LLM学会听音辨字，实验结果在中英双语上都相当漂亮。短板：方法创新深度有限，本质是数据增强+特定损失函数的组合拳；且论文完全没提代码开源计划，对于想复现的同行来说，光看训练细节就像只给了菜谱没给火候。 📌 核心摘要问题：基于大语言模型（LLM）的语音识别系统在识别稀有词（如人名、专有名词）和同音词时仍面临两大挑战：一是缺乏显式的发音建模，二是同音词区分能力不足。方法核心：提出PAC（发音感知上下文）框架，采用两阶段学习范式。第一阶段（PGCL）在上下文中交替注入字形和音素信息，并引入发音相似的干扰词，促使模型利用发音线索。第二阶段（PDRL）通过扰动标签采样进行强化学习，专门训练模型区分上下文中的同音词。新意：首次在LLM-based ASR中联合建模字形-音素上下文；设计了带干扰词的上下文构建策略；提出了针对同音词区分的强化学习方法。主要实验结果：在英语Librispeech和中文AISHELL-1数据集上进行评估。PAC相比预训练的LLM-ASR模型，相对词错误率（WER）分别降低30.2%和53.8%；相比强基线，长尾词的偏置WER（B-WER）分别降低31.8%和60.5%。关键对比结果如下表所示：数据集测试集设置 (N=列表大小) 基线模型 (B-WER) PAC (B-WER) 相对降低 Librispeech test-clean N=2000 CFL: 2.50 1.91 23.6% Librispeech test-other N=2000 CFL: 6.75 6.19 8.3% AISHELL-1 test-small N=187 CFL: 8.21 5.36 34.7% AISHELL-1 test-middle N=400 CFL: 6.03 3.07 49.1% AISHELL-1 test-large N=600 CFL: 6.55 2.85 56.5% 实际意义：显著提升了语音识别系统在包含大量罕见词、专有名词及同音字（如中文场景）的现实场景中的实用性。主要局限性：依赖的图音转换（G2P）工具在处理多音字（如中文）时可能出错；论文未提供开源代码，影响了方法的可复现性和公平比较。 🏗️ 模型架构论文中描述的PAC框架是在一个预训练的LLM-based ASR模型（具体为FireRed-LLM）基础上进行适配。整体架构如图1所示。图1: PAC框架概览组件与流程： ...

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

📄 RAS: a Reliability Oriented Metric for Automatic Speech Recognition #语音识别 #强化学习 #鲁棒性 #模型评估 #数据集 ✅ 7.5/10 | 前25% | #语音识别 | #强化学习 | #鲁棒性 #模型评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wenbin Huang（上海交通大学，X-LANCE Lab）通讯作者：未明确说明（论文首页提供的邮箱为hartmann_psi, qiuyuhang, kai.yu@sjtu.edu.cn，可推测Kai Yu为资深作者或通讯作者之一）作者列表：Wenbin Huang（上海交通大学，X-LANCE Lab）、Yuhang Qiu（上海交通大学，X-LANCE Lab）、Bohan Li（未说明）、Yiwei Guo（未说明）、Jing Peng（未说明）、Hankun Wang（未说明）、Xie Chen（未说明）、Kai Yu（上海交通大学，X-LANCE Lab）。所有作者均隶属于“X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, China”以及“MoE Key Lab of Artificial Intelligence; Jiangsu Key Lab of Language Computing, China”。 💡 毒舌点评亮点：本文敏锐地抓住了ASR“自信但错误”输出在实际应用中的危害，并系统性地提出从评估指标（RAS）到训练范式（PH-Supv+RL）的完整解决方案，技术贡献扎实且思路清晰。短板：所采用的基线模型（Whisper-Tiny）和对比方法相对传统（如基于logit的启发式方法），缺乏与当前基于大语言模型的ASR或更前沿的主动学习、不确定性估计方法的直接对比，消融研究也仅验证了RL阶段，对PH-Supv阶段不同策略的探讨不足。 ...