Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech

📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构 第一作者:Yihang Lin(香港中文大学(深圳));通讯作者:Li Zhou(香港中文大学(深圳));共同作者包括Congwei Cao, Dongchu Xie(香港中文大学(深圳));Xiaoxue Gao(新加坡科技研究局);Chen Zhang, Haizhou Li(新加坡国立大学、深圳大数据研究院、深圳湾区研究院)。主要单位为中国香港中文大学(深圳)。 💡 毒舌点评 这是一篇动机明确、工程性较强的系统论文,但存在以下核心问题: 创新性有限:将列表偏好优化(LiPO)应用于情绪强度控制,是一个直接且合理的迁移,但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。 理论深度不足:论文声称将问题“formulate as a learning-to-rank problem”,但方法描述更像一个启发式的列表构建和损失设计,缺乏对LTR理论在语音生成任务中的适配性分析。 实验天花板与claim:在ESD-plus这一自建数据集上进行评估,虽然必要,但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线(如Emo-DPO的几种变体),未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”,但绝对指标提升有限(如Recall-ft从37.21到39.54),且人类评估的胜率在面对强基线(如Emo-DPO (I))时优势减弱。 细节可复现性:尽管提供了代码和数据集链接,但论文对核心模型(CosyVoice-300M-Instruct)的具体微调配置、超参数搜索过程、人类评估的具体协议(如标注者间一致性)描述不足,影响严格复现。 局限性挖掘浅:论文结论过于乐观,未深入讨论列表偏好监督在生成长语音或更复杂情感(如混合情感)时的潜在问题,也未讨论自建数据集可能引入的偏置(如使用TTS合成监督数据,而非自然语音)。 📌 核心摘要 本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题,提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题,采用列表偏好优化(LiPO)来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表,以及一个距离感知的加权损失函数,显式建模全局强度排序。为支持该任务,论文构建了ESD-plus多说话人数据集,包含45,500个带有明确强度变化(3级)的语音样本。实验表明,在ESD-plus数据集上,Emo-LiPO在情绪相关性指标(特别是Recall-ft)和人类评估胜率上优于监督基线和DPO变体,尤其在高强度水平优势明显,并能保持语音质量。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 391 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

📄 Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios #语音合成 #情感语音合成 🔥 9.9/10 | 前25% | #语音合成 | #情感语音合成 | arxiv 学术质量 6.4/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 第一作者:Changhao Pan (浙江大学)。通讯作者:Zhou Zhao (浙江大学)。作者单位包括浙江大学和字节跳动。 💡 毒舌点评 一篇扎实、必要且组织良好的基准测试论文。它成功地将“长语音生成质量”这个模糊概念拆解为可量化的维度,并提供了目前最全面的评估框架。然而,它的“杀手锏”——基于Gemini Pro的表达力评估——却是一个黑盒,这为基准的长期可复现性埋下了隐患。实验规模宏大,但闭源模型的“遥遥领先”与开源模型的“努力追赶”形成了鲜明对比,清晰地勾勒出了技术差距。数据构建流程详尽得令人印象深刻,甚至用上了GPT-5和DeepSeek V3.2,堪称“用前沿AI评测前沿AI”的典范。总体而言,这是一份对社区贡献极大的资源,但它的价值很大程度上依赖于所用闭源评估器的持续稳定和可用性。 📌 核心摘要 本文提出了SwanBench-Speech,一个针对长语音生成(包括单说话人长文本和对话生成)的综合性评估基准。该基准覆盖了17种下游应用场景,基于声学、语义和表现力三大核心挑战,构建了包含1101个样本的测试集。论文设计了一个包含7个自动评估指标(音色一致性、混响一致性、声音保真度、内容准确率、韵律连贯性、表现丰富性、表现层次性)的评估协议,并通过人类感知测试验证了指标与人类评分的相关性。通过对16个单说话人模型和10个对话生成模型的广泛实验,论文揭示了当前模型的优势与不足:在保真度和准确率上已接近人类水平,但在混响一致性、韵律连贯性和表现层次性上仍有显著差距;模型在高表现力场景中性能下降;自回归(AR)与非自回归(NAR)模型在表现力和内容准确率上存在权衡;训练数据质量(如片段长度、声场稳定性)比数量更重要。 🔗 开源详情 代码: 论文承诺开源全部代码库,包括数据处理和评估脚本。项目主页已提供(https://swanaigc.github.io/#bench),但GitHub具体仓库链接在当前版本中尚未明确给出。 模型权重: 不涉及。SwanBench-Speech是评估基准,不包含模型。论文评估的开源模型(如CosyVoice, FishSpeech等)有其各自的开源仓库,但论文未在本文中集中提供链接。 数据集: 论文明确承诺在HuggingFace上以CC BY-NC-SA 4.0许可证开源SwanBench-Speech测试集(1101个样本)。 Demo: 在线演示链接为 https://swanaigc.github.io/#bench。 复现材料: 论文提供了极其详尽的附录,涵盖了数据构建流程、评估协议细节、实验设置、消融研究、更多结果分析等。评估使用的所有第三方工具(如FunASR Nano, WhisperX, SRMRpy等)均已列出其开源地址。 论文中引用的关键开源项目: SenseVoice (转写): https://huggingface.co/FunAudioLLM/SenseVoiceSmall Paraformer (对齐,中文): https://modelscope.cn/models/iic/speech_timestamp_prediction-v1-16k-offline WhisperX (对齐,英文): https://github.com/m-bain/whisperX FunASR Nano (ASR): https://github.com/FunAudioLLM/Fun-ASR-Nano-2512 WavLM TDCNN (说话人嵌入): https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification SRMRpy (混响评估): https://github.com/jfsantos/SRMRpy SpeechJudge (韵律评估模型,基于Qwen2.5-Omni-7B): 论文提及为微调模型,未提供独立开源链接。 SentenceBERT (去重): https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2 VAD模型: https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch 和 https://github.com/snakers4/silero-vad Torchaudio SQUIM: https://docs.pytorch.org/audio/main/tutorials/squim_tutorial.html JiWER (WER/CER计算): https://pypi.org/project/jiwer/ 🏗️ 方法概述和架构 SwanBench-Speech的构建是一个系统化、多阶段的工程,其核心架构可分为三个相互关联的模块:测试集构建、评估协议设计与大规模实验分析。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 608 words

Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation #语音合成 #情感语音合成 #特征调制 #流匹配 #多任务学习 #数据集 ✅ 7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Sirui Wang(哈尔滨工业大学) 通讯作者:Tiejun Zhao*(哈尔滨工业大学) 作者列表:Sirui Wang(哈尔滨工业大学)、Andong Chen(哈尔滨工业大学)、Tiejun Zhao(哈尔滨工业大学) 💡 毒舌点评 亮点:论文首次在LLM-TTS框架中实现了单词级的情感动态控制,概念清晰,并通过构建专用的FEDD数据集和详实的消融实验,有力地证明了其方法的有效性,实验设计相当规范。短板:然而,整个框架严重依赖于一个未完全公开细节的预训练模型(CosyVoice2),且代码和模型均未开源,这使得其“可复现性”大打折扣,更像是在现有强大基座上添加了一个精巧的模块,而非一个能独立复现和推广的完整解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及构建了FEDD数据集,但未说明是否公开及获取方式。 Demo:论文中未提及在线演示。 复现材料:给出了部分训练细节(优化器、batch size、epoch),但关键模型架构(基于CosyVoice2)和更详尽的超参数配置未说明,不足以完全复现。 论文中引用的开源项目:明确提及并使用了emotion2vec(特征提取)、CosyVoice2(生成框架)、Montreal Forced Aligner (MFA)(对齐)、HiFi-GAN(声码器)、Whisper-Large-v3(WER评估)等开源工具或模型。 整体开源计划:论文中未提及开源计划。 📌 核心摘要 本文针对现有情感语音合成(E-TTS)方法大多依赖句子级全局情感控制(如标签、参考音频或提示)无法捕捉句内情感动态变化的问题,提出了Emo-FiLM框架。该方法的核心是:1)利用预训练的emotion2vec模型提取帧级情感特征,并通过一个轻量级Transformer模型将其对齐到单词,生成单词级的情感类别和强度标注;2)在预训练的LLM-TTS(CosyVoice2)框架中引入一个情感特征线性调制(E-FiLM)模块,将单词级的情感信息映射为文本嵌入的缩放和偏移参数,从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力,论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明,在FEDD数据集上,Emo-FiLM在情感动态匹配(DTW)指标上比最强基线(CosyVoice2)提升了9.1%(从54.57降至49.62),在主观情感相似度(EMOS)和自然度(NMOS)上也取得最佳成绩(4.19和4.23)。消融实验证实,单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向,其主要局限在于依赖特定预训练模型且未开源代码,限制了复现与推广。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 333 words