偏好学习 | 语音/音频论文速递

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #大语言模型 #思维链 #偏好学习 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #大语言模型 | #思维链 #偏好学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者：未明确说明（论文标注两位共同第一作者：Yi-Jen Shih, Desh Raj，以及共同作者：Chunyang Wu, Wei Zhou等）作者列表：Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs)， Desh Raj (Meta Superintelligence Labs)， Chunyang Wu (Meta Superintelligence Labs)， Wei Zhou (Meta Superintelligence Labs)， SK Bong (Meta Superintelligence Labs)， Yashesh Gaur (Meta Superintelligence Labs)， Jay Mahadeokar (Meta Superintelligence Labs)， Ozlem Kalinli (Meta Superintelligence Labs)， Michael L. Seltzer (Meta Superintelligence Labs) 💡 毒舌点评论文成功地将“思维链”和“边听边想”的概念从文本大模型工程化移植到语音大模型领域，提出了“问题完整度”这一新颖的触发指标，并用DPO优化了推理启动时机与长度，工程设计思路清晰。然而，最大的短板在于所有实验基于未公开的内部模型和数据集（虽用了公开的Moshi，但训练数据为私有），这使得其提出的“问题完整度”度量的普适性和复现性存疑，论文的结论严重依赖其特定的训练流程和私有数据。 ...

DPO-Regularized Regression for Age Prediction

📄 DPO-Regularized Regression for Age Prediction #说话人识别 #回归模型 #偏好学习 #DPO #多任务学习 ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30 🏗️ 模型架构本文提出的模型架构旨在同时进行连续值回归和离散类别分类（用于DPO监督），并在推理时丢弃分类头。整体流程如下： ...

No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS #语音合成 #强化学习 #偏好学习 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Seungyoun Shin（Channel Corporation, Seoul, South Korea）通讯作者：Sungwook Jeon（NAVER Cloud, South Korea）† 作者列表：Seungyoun Shin（Channel Corporation），Dongha Ahn（Kernelspace），Jiwoo Kim（成均馆大学， Sungkyunkwan University），Sungwook Jeon（NAVER Cloud） 💡 毒舌点评论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励，模型就只会当“背稿机器”，丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案，确实用最小的数据代价把韵律给“救”回来了，ELO分数吊打一众基线，这是其最大亮点。但短板在于，DPO本身已不是新方法，论文的创新更多是“对症下药”的工程应用和验证，而非方法论上的突破，且每轮都要人工标注，扩展性存疑。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文发布了新的评测集KoCC-TTS，并给出了HuggingFace链接：https://huggingface.co/datasets/channelcorp/KoCC-TTS-testset。 Demo：提供了演示页面链接：https://tts.ch.dev。复现材料：论文提供了训练数据的大致规模（36k小时公开数据，18小时专有数据）、模型架构基础（Llasa-1B）、以及关键实验设置（如DPO的迭代流程、偏好对数量）。��未提供完整的训练超参数、配置文件或模型检查点。论文中引用的开源项目：模型：Llasa (https://huggingface.co/HKUSTAudio/Llasa-1B) 工具：pyannote.audio (v3.0), Whisper-large-v3 数据：AIHUB (https://aihub.or.kr/) 📌 核心摘要要解决什么问题：在神经TTS中，使用基于转录错误率（CER）和负对数似然（NLL）的强化学习（如GRPO）优化模型，虽然提升了语音识别准确性，但会导致生成的语音韵律单调、不自然（“韵律坍塌”）。同时，简单加入说话人相似度奖励会破坏训练稳定性。 ...