ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析 共分析 898 篇 ICASSP 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音识别(102篇) 语音增强(75篇) 语音合成(63篇) 语音情感识别(49篇) 音频分类(39篇) 音频生成(39篇) 音乐生成(31篇) 空间音频(31篇) 音频深度伪造检测(29篇) 音乐信息检索(26篇) 语音分离(25篇) 语音生物标志物(24篇) 音频事件检测(21篇) 模型评估(16篇) 声源定位(15篇) 音频问答(15篇) 生物声学(12篇) 音频安全(11篇) 音频检索(11篇) 音乐理解(11篇) 语音对话系统(10篇) 语音匿名化(10篇) 说话人验证(10篇) 说话人分离(9篇) 语音转换(9篇) 语音质量评估(8篇) 语音翻译(8篇) 语音伪造检测(8篇) 多模态模型(6篇) 音视频(6篇) 语音编码(5篇) 基准测试(5篇) 语音评估(5篇) 语音活动检测(5篇) 歌唱语音合成(5篇) 语音克隆(4篇) 语音问答(3篇) 情感分析(3篇) 音频场景理解(3篇) 音频增强(3篇) 语音识别 #语音翻译(3篇) 数据集(3篇) 音乐检索(3篇) 语音大模型(3篇) 歌唱语音转换(3篇) 视觉语音识别(2篇) 多模态情感识别(2篇) 信号处理(2篇) 语音理解(2篇) 领域适应(2篇) 听觉注意力解码(2篇) 多模态情感分析(2篇) 情感识别(2篇) 跨模态(2篇) 音频压缩(2篇) 音乐源分离(2篇) 关键词检测(2篇) 说话人日志(2篇) 跨模态检索(2篇) 水下声学目标识别(2篇) 视频生成(2篇) 听觉注意解码(1篇) 视频高光检测(1篇) 多音高估计 #音符跟踪(1篇) 歌唱语音转录(1篇) 异常声音检测(1篇) 脑机接口(1篇) 脑信号编码(1篇) 实体消歧(1篇) 音频检索 #音频分类(1篇) 目标说话人提取(1篇) 语音转换 #语音增强(1篇) 音频超分辨率(1篇) 基频估计(1篇) 语音发现(1篇) 语音表示学习(1篇) 数据集对齐(1篇) 预训练(1篇) 医疗AI(1篇) 语音解码(1篇) 说话人合成(1篇) 说话人脸生成(1篇) 说话人检测(1篇) 多模态对话意图识别(1篇) 视频理解(1篇) 音乐推荐(1篇) 视频设备识别(1篇) 说话人识别(1篇) 房间脉冲响应去噪(1篇) 音频质量评估(1篇) 主动降噪(1篇) 舞蹈生成(1篇) 歌唱旋律提取(1篇) 声场估计(1篇) 语音编码器(1篇) 音频编辑(1篇) 零样本关键词检测(1篇) 音频分离(1篇) 音频无损编码(1篇) 语音增强 #对抗防御(1篇) 音视频实例分割(1篇) 视频到音频生成(1篇) 语音摘要(1篇) 音频水印(1篇) 说话人日志 #语音分离(1篇) 联邦学习(1篇) 音乐混合(1篇) 视频片段检索(1篇) 神经解码(1篇) 视频检索(1篇) 语音驱动动作生成(1篇) 视频问答(1篇) 音频分类 #零样本学习(1篇) 主题建模(1篇) 说话人生成(1篇) 对抗样本(1篇) 音频描述(1篇) 主动噪声控制(1篇) 音乐分离(1篇) 音乐源提取(1篇) 音乐转录(1篇) 房间脉冲响应(1篇) 语音识别 #语音合成(1篇) 音频场景分类(1篇) 多通道(1篇) 音频效果估计(1篇) 音频信号处理(1篇) 回声消除(1篇) 语音生成(1篇) 实时处理(1篇) 音频大模型(1篇) 声学建模(1篇) 迁移学习(1篇) 课堂阶段分割(1篇) 噪声控制(1篇) 音频字幕生成(1篇) 轻度认知障碍检测(1篇) 音乐分类(1篇) 槽填充(1篇) 多模态学习(1篇) ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-06-12 · 430 min · 91382 words

ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析 共分析 133 篇 ICLR 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音合成(10篇) 音频生成(9篇) 语音识别(9篇) 基准测试(9篇) 音乐生成(9篇) 语音对话系统(8篇) 音频分类(6篇) 音频问答(6篇) 语音情感识别(5篇) 多模态模型(5篇) 音视频(4篇) 音频检索(4篇) 语音分离(3篇) 模型评估(2篇) 语音翻译(2篇) 音乐信息检索(2篇) 生成模型(2篇) 音乐理解(2篇) 视频生成(2篇) 跨模态生成(1篇) 脑编码(1篇) 模型可解释性(1篇) 音视频深度伪造检测(1篇) 图像生成(1篇) 数据集(1篇) 语音增强 #对抗样本(1篇) 语音大模型(1篇) 音频编辑(1篇) 音视频事件检测(1篇) 生态计算(1篇) 视频描述生成(1篇) 视频摘要(1篇) 语音问答(1篇) 基准测试 #数据集(1篇) 音频安全(1篇) 神经网络架构(1篇) 语音转换 #语音匿名化(1篇) 声源定位(1篇) 序列解耦(1篇) 空间音频(1篇) 音频分离(1篇) 机器人操作(1篇) 动作生成(1篇) 音频场景理解(1篇) 跨模态检索(1篇) 语音增强(1篇) 多模态推理(1篇) 语音合成评估(1篇) 语音生成(1篇) 生物声学(1篇) 模型比较(1篇) 音视频联合推理(1篇) 语音识别 #语音合成(1篇) ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-06-12 · 72 min · 15177 words

A Dual-Mode Faust-to-CLAP Compilation System

📄 A Dual-Mode Faust-to-CLAP Compilation System 8.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.1/10 | 前50% | arxiv 👥 作者与机构 作者:Facundo Franchino, Stéphane Letz, Jatin Chowdhury 机构:GRAME(论文摘要部分明确提及Faust团队所属机构) 💡 毒舌点评 这是一篇典型的“系统搭建”论文,解决了一个真实存在的工程痛点(Faust到CLAP的桥接与开发时热重载)。优点在于它真的造出来了,代码也开源了,对于Faust社区来说是实实在在的生产力工具。然而,从顶级会议的角度看,它的学术贡献略显单薄。核心算法(地址匹配、固定槽位)是直接的工程解决方案,缺乏理论上的新颖性或深度分析。评估部分像一份产品测试报告:在自家电脑上、用一款宿主软件、测几个简单例子,然后告诉我们“能用”。对于固定12个槽位的限制、跨平台兼容性、复杂DSP的表现、与同类工具(Camomile, Amati)的硬碰硬对比,都惜墨如金。结论中的“未来工作”画得挺大(LLVM后端、双缓冲无缝切换),但当前工作更像是一个完成了核心功能的Alpha版本。论文本身写得清晰明了,但这种清晰更凸显了其技术深度的有限。它更适合发表在音频技术社区或作为工具论文,冲击顶会需要更扎实的理论对比和更残酷的评估。 📌 核心摘要 本文提出了faust2clap,一个将Faust DSP语言编译到CLAP插件标准的官方框架,并创新性地提供了静态编译和动态解释两种工作模式。静态模式通过标准的编译流程(Faust编译器 + 自定义CLAP架构文件)生成原生二进制,保证生产环境的高性能。动态模式通过监控源文件变化,利用libfaust解释器在运行时重新编译DSP,并通过一个基于地址的参数身份匹配算法和固定槽位映射方案,在结构变化时尽可能保持参数值和宿主自动化数据。该系统已集成到Faust主发行版,并提供了Python工具链和C++架构代码。评估部分在macOS+REAPER环境下验证了基本DSP的参数保持功能、重载延迟和解释器性能,但评估的广度和深度有限。 🔗 开源详情 代码:https://github.com/cucuwritescode/faust2clap 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中提供了构建说明和依赖(CMake, libfaust, efsw),复现核心功能所需信息基本完备。 论文中引用的开源项目: Faust (编程语言):项目主页为 https://faust.grame.fr/ Clap (插件标准):项目主页为 https://clap-plugins.org/ Heavy Compiler Collection:论文中未提供具体链接 Camomile:论文中未提供具体链接 Amati:论文中未提供具体链接 efsw:论文中未提供具体链接,但为开源文件监听库 (https://github.com/SpartanJ/efsw) Surge XT Effects:论文中未提供具体链接,但为开源项目 (https://github.com/surge-synthesizer/surge) 🏗️ 方法概述和架构 本文的核心是一个统一的框架,包含两条并行的编译路径(静态路径与动态路径)以及一套贯穿两者的参数管理基础设施。其架构设计紧密围绕解决音频插件开发中效率与迭代速度的矛盾。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 275 words

Adaptive Turn-Taking for Real-time Multi-Party Voice Agents

📄 Adaptive Turn-Taking for Real-time Multi-Party Voice Agents #数据增强 #流式处理 6.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #数据增强 | #数据增强 | #流式处理 | arxiv 👥 作者与机构 Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish。机构:Amazon AGI, IIT Kharagpur, India。 💡 毒舌点评 这篇论文试图用“角色扮演”来解决一个语音对话中的棘手问题——“谁该说话”,想法是不错的。但它就像一个训练有素的演员,在剧本(合成数据)和特定舞台(RolePlayConv评估集)上表现完美,可一旦到了真实、混乱、没有剧本的会议(NOTSOFAR-1)或者去掉提词器(文本转录),演技就大打折扣。最致命的是,它精心设计的整套“表演”系统——从数据、评估到角色分配——大部分都是自产自销、自我验证的闭环,代码和数据集都锁在仓库里,这严重削弱了它声称的“突破性”价值。说白了,这是一篇工程上细致、实验上自洽,但在开放性和真实世界通用性上自我设限的系统论文。 📌 核心摘要 本文针对多方语音对话中轮次转换(即决定何时发言)的难题,提出了ModeratorLM。这是一个基于语音大语言模型(LLM)的角色扮演代理,其是否介入对话的行为取决于一个明确指定的角色(如“主持人”)。系统采用分块流式处理方式。作者还引入了ModeratorLM-Think变体,它在做出决策前,会结合对话上下文和指定角色进行链式思维推理。为了训练模型,他们构建了大规模合成数据集RolePlayConv。实验表明,与没有角色条件的基线模型相比,ModeratorLM-Think在轮次转换的精确率、召回率上均有大幅提升(精确率提升超40%,召回率提升超70%),并显著减少了误打断。消融实验分析了分块策略和文本转录的影响。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 349 words

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

📄 AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation #音频生成 #音乐生成 9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9/10 | 前10% | #音频生成 | #音乐生成 | arxiv 👥 作者与机构 Zeyue Tian (香港科技大学, Noiz AI), Lei Ke (清华大学), Zhaoyang Liu (香港科技大学), Ruibin Yuan (香港科技大学), Liumeng Xue (香港科技大学), Yujiu Yang (清华大学), Weijia Chen (Noiz AI), Xu Tan (独立研究者), Qifeng Chen (香港科技大学), Wei Xue (香港科技大学), Yike Guo (香港科技大学)。 ...

2026-06-12 · 更新于 2026-06-12 · 4 min · 720 words

Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition

📄 Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition #语音识别 #说话人日志 #大语言模型 7.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #说话人日志 | #大语言模型 | arxiv 👥 作者与机构 论文标题:Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition 作者:Zheng Naijun, Lin Yuke, Tian Sanli, Li Mengtian, Lin Zhiwei, Xiao Longshuai, Tu Dandan 机构:华为技术有限公司,中国 ...

2026-06-12 · 更新于 2026-06-12 · 4 min · 693 words

BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention

📄 BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention #语音增强 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.5/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构 作者:Damien Martins Gomes, François Capman 机构:Thales SIX GTS, France 💡 毒舌点评 这篇论文像一位精心调参的工匠,在标准基准(VoiceBank+DEMAND)上打磨出一个高效的“玩具”。它的主要卖点——基于Bark尺度的编码器深度缩放——是一个直觉上合理但创新深度有限的工程技巧。跨频带注意力的线性复杂度设计值得肯定,但模型整体停留在对MP-SENet范式的修补上。实验严格局限于单一数据集,完全回避了真实世界噪声、多说话人、远场等更具挑战性的场景,结论的泛化性存疑。将“参数最少”作为主要卖点,更像是工程优化而非学术突破。因果版本的验证过于简单,未探讨因果约束对注意力机制本身设计的影响。总体而言,这是一篇扎实的、以工程效率为导向的工作,但距离顶会的创新性和实验全面性标准还有差距。 📌 核心摘要 BASENet是一种面向语音增强的频率自适应神经网络。其核心思想是根据人耳听觉的非均匀频率分辨率(Bark尺度)来分配模型处理资源:低频区域感知灵敏,分配更深的编码器分支;高频区域感知粗糙,分配更浅的分支。这种分配通过一个基于临界带密度的简单闭式公式自动完成。为了整合各频带信息,设计了一个线性复杂度的跨频带注意力模块。该网络建立在轻量的倒残差块和密集连接基础上,整体参数量仅0.83M,计算量7.3G MACs。在VoiceBank+DEMAND基准测试中,其非因果版本达到了与更复杂模型相当的性能(PESQ 3.55),因果版本(PESQ 3.44)也优于部分非因果基线,显示了在资源受限设备上进行实时流处理的潜力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重发布链接。 数据集:论文中使用了 VoiceBank+DEMAND 数据集进行评估。该数据集由 Valentini 等人发布(引用 [valentini2016investigating]),但论文中未提供直接的下载链接或官方项目主页。获取方式需参考其原始出处。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的训练配置和实验设置,包括:使用的 STFT 参数(nfft=400,hop length=100,采样率 16kHz)、训练轮次(100 epochs)、优化器(Adam)及其超参数、硬件(NVIDIA Quadro RTX 6000 GPU)以及数据集划分信息。然而,论文中未提供训练好的模型检查点、配置文件或代码附件等完整的复现材料包。 论文中引用的开源项目: MP-SENet:论文中引用的基线方法之一([lu2023mpsenet]),BASENet 的整体架构范式(掩码和相位估计)和损失函数均遵循该工作。论文中未提供该项目的具体链接。 MUSE:论文中引用的基线方法之一([lin24h_interspeech])。论文中未提供该项目的具体链接。 Mamba-SEUNet:论文中引用的基线方法之一([wang2025mambaseunetmambaunetmonaural]),并且论文中的消融研究提及了将其 Mamba 时序模块用于 BASENet 的对比。论文中未提供该项目的具体链接。 DeepFilterNet:论文中引用的相关工作([schroter2022deepfilternet])。论文中未提供该项目的具体链接。 FullSubNet 及 InterSubNet:论文中引用的相关工作([hao2021fullsubnet], [chen2023intersubnet])。论文中未提供项目链接。 Band-Split RNN (BSRNN):论文中引用的基线方法([yu23b_interspeech])。论文中未提供该项目的具体链接。 Adam 优化器:引用自 [kingma2017adam]。标准优化器,通常通过深度学习框架(如 PyTorch/TensorFlow)的内置实现或官方 GitHub 仓库获取(例如 https://github.com/pytorch/optim)。 🏗️ 方法概述和架构 BASENet的整体流程如图1所示,采用掩码与相位估计范式(同MP-SENet)。输入为含噪语音的短时傅里叶变换(STFT)幅度谱(经\(c=0.3\)的幂律压缩)与相位谱,在通道维度拼接形成输入张量 \(\mathbf{X} \in \mathbb{R}^{2 \times N \times F}\),其中 \(N\) 为时间帧数,\(F\) 为频率点数。 ...

2026-06-12 · 更新于 2026-06-12 · 3 min · 480 words

Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier

📄 Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier #音频分类 #生物声学 #多任务学习 #知识蒸馏 #自监督学习 #数据集 8.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前50% | #音频分类 | #多任务学习 | #生物声学 #知识蒸馏 | arxiv 👥 作者与机构 奥尔加·伊苏波娃(Olga Isupova),丹尼尔·库津(Danil Kuzin),埃拉·布朗宁(Ella Browning),汤姆·米尔斯(Tom Mills),史蒂文·里斯(Steven Reece)。 作者团队来自剑桥大学(University of Cambridge)。 💡 毒舌点评 这篇论文像一份精心包装的“集成学习套餐”,将多任务、自监督、知识蒸馏等流行技术打包成一个针对特定生态监测问题的解决方案。其优点在于目标明确、工程实现完整,并提供了新的数据集。然而,其主要短板在于方法论创新性不足——本质上是现有技术的组合,缺乏机器学习层面的理论或架构突破。实验对比过于单一,仅与一个通用模型比较,未能充分验证框架内各组件的贡献和必要性。绝对性能(F1=0.34)虽然对比基线有提升,但在实际野外多物种重叠场景下仍然很低,论文对此瓶颈分析不足。此外,关于“迁移能力”的声明(测试集来自未见站点)可能因训练数据来自同一地区(牛津郡)的少量站点而存在潜在偏倚,实际泛化能力有待在更广泛地理和生态条件下验证。 📌 核心摘要 针对被动声学监测(PAM)中直翅目昆虫自动分类面临的标注数据稀缺、领域偏移以及现有工具非通用等问题,本文提出了PULSE,一个半监督、多任务学习框架。该框架联合优化三个损失函数:1)基于弱标签数据的监督分类损失(多标签二元交叉熵);2)通过知识蒸馏与预训练的通用鸟声模型(BirdNET)嵌入对齐的生态先验损失(L2距离);3)利用大量无标签野外录音进行自监督学习(Bootstrap Your Own Latent, BYOL)以适应本地声景的损失。通过主动学习,从野外数据中获取少量标签,进一步提升了模型性能。实验表明,PULSE在仅使用“物种库”标签时,其宏F1分数(0.21)显著优于直接使用通用模型Perch 2.0(0.07);当加入少量野外标注数据后,其宏F1达到0.34,性能与使用同样数据微调的Perch 2.0(0.33)持平。论文还展示了学习到的嵌入空间编码了有意义的生态结构,并提供了交互式可视化工具用于生态发现。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 318 words

Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations

📄 Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations #音频分类 #自监督学习 #生物声学 #信号处理基础 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音频分类 | #自监督学习 | #生物声学 #信号处理基础 | arxiv 👥 作者与机构 作者: Chiara Semenzin (École Normale Supérieure, Paris, France) Faadil Mustun (École Normale Supérieure, Paris, France) Roberto Dessì (Not Diamond, San Francisco, USA) Pierre Orhan (Institut du Cerveau, Paris, France) Alexis Emanuelli (École Normale Supérieure, Paris, France) Yair Lakretz (École Normale Supérieure, Paris, France) Gonzalo de Polavieja (Champalimaud Foundation, Lisbon, Portugal) Germán Sumbre (École Normale Supérieure, Paris, France) 机构:École Normale Supérieure (巴黎高等师范学院), Not Diamond, Institut du Cerveau, Champalimaud Foundation。 💡 毒舌点评 这篇论文的出发点——为特定物种构建自监督学习(SSL)模型——是生物声学中一个有价值且清晰的方向。然而,其“顶会级”的呈现背后存在明显短板。首先,核心宣称的“首个大规模物种特异性SSL模型”和“发布数据集”存在水分。论文仅在一个来源、环境高度特定(半圈养红海宽吻海豚)的种群数据上训练,其“大规模”仅指相对过去的小数据集,但数据的生态多样性和泛化能力存疑。宣称“发布”数据集,但正文和附录均未提供任何实际链接,这削弱了可复现性和影响力声明。其次,实验评估相对基础且避重就轻。仅使用线性探测(逻辑回归)评估冻结表征,这是SSL的初步评估标准,但论文未进行任何微调实验以证明模型潜力,也未在更广泛的海豚声音数据集或与其他物种的交叉评估上验证其主张的“物种特异性优势”。在检测任务上,Dolph2Vec与BioLingual几乎持平(67.8 vs 67.6 mAP),但在分类任务上的提升(82.0% vs 74.5%)虽显著,却未通过统计检验论证其显著性。最后,对代码本(codebook)的可解释性分析流于表面。虽然展示了单元与哨声类别的关联,但未能提供令人信服的证据表明这些单元真正编码了“亚哨声结构”而非仅仅是统计上的高频片段,也未设计实验来验证这些单元的预测性或功能性作用。总而言之,这是一篇扎实的系统论文,但创新声明需更多实质性证据支撑,评估深度有待加强。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 314 words

Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech

📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构 第一作者:Yihang Lin(香港中文大学(深圳));通讯作者:Li Zhou(香港中文大学(深圳));共同作者包括Congwei Cao, Dongchu Xie(香港中文大学(深圳));Xiaoxue Gao(新加坡科技研究局);Chen Zhang, Haizhou Li(新加坡国立大学、深圳大数据研究院、深圳湾区研究院)。主要单位为中国香港中文大学(深圳)。 💡 毒舌点评 这是一篇动机明确、工程性较强的系统论文,但存在以下核心问题: 创新性有限:将列表偏好优化(LiPO)应用于情绪强度控制,是一个直接且合理的迁移,但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。 理论深度不足:论文声称将问题“formulate as a learning-to-rank problem”,但方法描述更像一个启发式的列表构建和损失设计,缺乏对LTR理论在语音生成任务中的适配性分析。 实验天花板与claim:在ESD-plus这一自建数据集上进行评估,虽然必要,但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线(如Emo-DPO的几种变体),未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”,但绝对指标提升有限(如Recall-ft从37.21到39.54),且人类评估的胜率在面对强基线(如Emo-DPO (I))时优势减弱。 细节可复现性:尽管提供了代码和数据集链接,但论文对核心模型(CosyVoice-300M-Instruct)的具体微调配置、超参数搜索过程、人类评估的具体协议(如标注者间一致性)描述不足,影响严格复现。 局限性挖掘浅:论文结论过于乐观,未深入讨论列表偏好监督在生成长语音或更复杂情感(如混合情感)时的潜在问题,也未讨论自建数据集可能引入的偏置(如使用TTS合成监督数据,而非自然语音)。 📌 核心摘要 本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题,提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题,采用列表偏好优化(LiPO)来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表,以及一个距离感知的加权损失函数,显式建模全局强度排序。为支持该任务,论文构建了ESD-plus多说话人数据集,包含45,500个带有明确强度变化(3级)的语音样本。实验表明,在ESD-plus数据集上,Emo-LiPO在情绪相关性指标(特别是Recall-ft)和人类评估胜率上优于监督基线和DPO变体,尤其在高强度水平优势明显,并能保持语音质量。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 391 words