情感语音合成

Adaptive Oscillatory Inductive Bias for Modeling Sharp Prosodic Dynamics in Diffusion-Based TTS

📄 Adaptive Oscillatory Inductive Bias for Modeling Sharp Prosodic Dynamics in Diffusion-Based TTS #语音合成 #扩散模型 #情感语音合成 7/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #语音合成 | #扩散模型 | #情感语音合成 | arxiv 👥 作者与机构 Sandipan Dhar, Nirmesh Shah, Ashishkumar P. Gudmalwar, Pankaj Wasnik. Sony Research India. 💡 毒舌点评这篇论文本质上是给一个强大的现有系统（StyleTTS2）换了个激活函数，然后包装成“自适应振荡感应偏置”这样一个听起来高深的概念。创新性实在有限，相当于在 Snake 激活函数的基础上加了个可学习的缩放参数和一个恒等映射，然后声称这能更好地捕捉“尖锐的韵律转换”。论文的理论分析部分，那个四层回归模型的收敛性实验，说服力约等于零——用最简单的玩具任务来论证一个复杂的TTS模型中的关键组件，这操作有点“挂羊头卖狗肉”。实验部分倒是跑了不少指标，但分析流于表面，尤其是 WER 的剧烈变化完全没给出合理解释。最让人皱眉的是，论文声称“开源”，但根据原文，代码、模型权重链接统统没给，只给了个演示链接，这算哪门子开源？整体感觉像是一篇“增量式”的工作，包装得比实质贡献要好。 ...

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

An Empirical Study on Learning Latent Representations for Emotional Speech Synthesis

📄 An Empirical Study on Learning Latent Representations for Emotional Speech Synthesis #语音合成 #情感语音合成 #低资源 #数据增强 #语音增强 8.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.2/10 | 后50% | #语音合成 | #数据增强 | #情感语音合成 #低资源 | arxiv 👥 作者与机构作者：Dang Quang Vinh, Ngo Quang Huy 机构：Aimesoft JSC，河内，越南 💡 毒舌点评这篇论文就像一次未经充分准备的实验室报告：作者将一个标准模型（FastSpeech 2）稍作修改，便应用于一个竞赛任务，然后汇报了极其糟糕的结果（MOS接近噪音水平，音节错误率超过60%）。然而，在结论中，作者却使用“promisingly”和“favourable”这样的词汇来形容其系统，这与报告的客观数据形成了近乎荒诞的矛盾。论文既没有尝试与基线进行对比以证明修改的有效性，也没有深入分析失败的原因，只是将问题归咎于数据集噪声并简单提及修复过程。作为一篇“实证研究”，其核心价值——对方法有效性的分析——完全缺失，提供的更多是一份失败的系统日志。 📌 核心摘要本文是针对VLSP 2022情感语音合成竞赛任务的系统描述。作者在FastSpeech 2框架上进行了修改：对于单说话人子任务（Sub-task 1），添加了情感嵌入（查找表）；对于说话人适配子任务（Sub-task 2），同时添加了说话人和情感嵌入，并引入了一个灵感来源于Pan and He (2021)的“韵律瓶颈”（prosody bottleneck）模块。实验使用了竞赛方提供的数据集，经过了降噪、文本修正等预处理。最终系统在官方评估中表现不佳，报告的MOS自然度得分低，音节错误率（SER）高。论文未提供与基线的对比，也未分析失败原因。 ...

Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech

📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构第一作者：Yihang Lin（香港中文大学（深圳））；通讯作者：Li Zhou（香港中文大学（深圳））；共同作者包括Congwei Cao, Dongchu Xie（香港中文大学（深圳））；Xiaoxue Gao（新加坡科技研究局）；Chen Zhang, Haizhou Li（新加坡国立大学、深圳大数据研究院、深圳湾区研究院）。主要单位为中国香港中文大学（深圳）。 💡 毒舌点评这是一篇动机明确、工程性较强的系统论文，但存在以下核心问题：创新性有限：将列表偏好优化（LiPO）应用于情绪强度控制，是一个直接且合理的迁移，但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。理论深度不足：论文声称将问题“formulate as a learning-to-rank problem”，但方法描述更像一个启发式的列表构建和损失设计，缺乏对LTR理论在语音生成任务中的适配性分析。实验天花板与claim：在ESD-plus这一自建数据集上进行评估，虽然必要，但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线（如Emo-DPO的几种变体），未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”，但绝对指标提升有限（如Recall-ft从37.21到39.54），且人类评估的胜率在面对强基线（如Emo-DPO (I)）时优势减弱。细节可复现性：尽管提供了代码和数据集链接，但论文对核心模型（CosyVoice-300M-Instruct）的具体微调配置、超参数搜索过程、人类评估的具体协议（如标注者间一致性）描述不足，影响严格复现。局限性挖掘浅：论文结论过于乐观，未深入讨论列表偏好监督在生成长语音或更复杂情感（如混合情感）时的潜在问题，也未讨论自建数据集可能引入的偏置（如使用TTS合成监督数据，而非自然语音）。 📌 核心摘要本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题，提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题，采用列表偏好优化（LiPO）来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表，以及一个距离感知的加权损失函数，显式建模全局强度排序。为支持该任务，论文构建了ESD-plus多说话人数据集，包含45，500个带有明确强度变化（3级）的语音样本。实验表明，在ESD-plus数据集上，Emo-LiPO在情绪相关性指标（特别是Recall-ft）和人类评估胜率上优于监督基线和DPO变体，尤其在高强度水平优势明显，并能保持语音质量。 ...

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分前25% #语音合成 15. MiniMax Sparse Attention 7.7分前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

📄 Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios #语音合成 #情感语音合成 🔥 9.9/10 | 前25% | #语音合成 | #情感语音合成 | arxiv 学术质量 6.4/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构第一作者：Changhao Pan (浙江大学)。通讯作者：Zhou Zhao (浙江大学)。作者单位包括浙江大学和字节跳动。 💡 毒舌点评一篇扎实、必要且组织良好的基准测试论文。它成功地将“长语音生成质量”这个模糊概念拆解为可量化的维度，并提供了目前最全面的评估框架。然而，它的“杀手锏”——基于Gemini Pro的表达力评估——却是一个黑盒，这为基准的长期可复现性埋下了隐患。实验规模宏大，但闭源模型的“遥遥领先”与开源模型的“努力追赶”形成了鲜明对比，清晰地勾勒出了技术差距。数据构建流程详尽得令人印象深刻，甚至用上了GPT-5和DeepSeek V3.2，堪称“用前沿AI评测前沿AI”的典范。总体而言，这是一份对社区贡献极大的资源，但它的价值很大程度上依赖于所用闭源评估器的持续稳定和可用性。 📌 核心摘要本文提出了SwanBench-Speech，一个针对长语音生成（包括单说话人长文本和对话生成）的综合性评估基准。该基准覆盖了17种下游应用场景，基于声学、语义和表现力三大核心挑战，构建了包含1101个样本的测试集。论文设计了一个包含7个自动评估指标（音色一致性、混响一致性、声音保真度、内容准确率、韵律连贯性、表现丰富性、表现层次性）的评估协议，并通过人类感知测试验证了指标与人类评分的相关性。通过对16个单说话人模型和10个对话生成模型的广泛实验，论文揭示了当前模型的优势与不足：在保真度和准确率上已接近人类水平，但在混响一致性、韵律连贯性和表现层次性上仍有显著差距；模型在高表现力场景中性能下降；自回归（AR）与非自回归（NAR）模型在表现力和内容准确率上存在权衡；训练数据质量（如片段长度、声场稳定性）比数量更重要。 🔗 开源详情代码：论文承诺开源全部代码库，包括数据处理和评估脚本。项目主页已提供（https://swanaigc.github.io/#bench），但GitHub具体仓库链接在当前版本中尚未明确给出。模型权重：不涉及。SwanBench-Speech是评估基准，不包含模型。论文评估的开源模型（如CosyVoice, FishSpeech等）有其各自的开源仓库，但论文未在本文中集中提供链接。数据集：论文明确承诺在HuggingFace上以CC BY-NC-SA 4.0许可证开源SwanBench-Speech测试集（1101个样本）。 Demo：在线演示链接为 https://swanaigc.github.io/#bench。复现材料：论文提供了极其详尽的附录，涵盖了数据构建流程、评估协议细节、实验设置、消融研究、更多结果分析等。评估使用的所有第三方工具（如FunASR Nano, WhisperX, SRMRpy等）均已列出其开源地址。论文中引用的关键开源项目： SenseVoice (转写): https://huggingface.co/FunAudioLLM/SenseVoiceSmall Paraformer (对齐，中文): https://modelscope.cn/models/iic/speech_timestamp_prediction-v1-16k-offline WhisperX (对齐，英文): https://github.com/m-bain/whisperX FunASR Nano (ASR): https://github.com/FunAudioLLM/Fun-ASR-Nano-2512 WavLM TDCNN (说话人嵌入): https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification SRMRpy (混响评估): https://github.com/jfsantos/SRMRpy SpeechJudge (韵律评估模型，基于Qwen2.5-Omni-7B): 论文提及为微调模型，未提供独立开源链接。 SentenceBERT (去重): https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2 VAD模型: https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch 和 https://github.com/snakers4/silero-vad Torchaudio SQUIM: https://docs.pytorch.org/audio/main/tutorials/squim_tutorial.html JiWER (WER/CER计算): https://pypi.org/project/jiwer/ 🏗️ 方法概述和架构 SwanBench-Speech的构建是一个系统化、多阶段的工程，其核心架构可分为三个相互关联的模块：测试集构建、评估协议设计与大规模实验分析。 ...

Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation #语音合成 #情感语音合成 #特征调制 #流匹配 #多任务学习 #数据集 ✅ 7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Sirui Wang（哈尔滨工业大学）通讯作者：Tiejun Zhao*（哈尔滨工业大学）作者列表：Sirui Wang（哈尔滨工业大学）、Andong Chen（哈尔滨工业大学）、Tiejun Zhao（哈尔滨工业大学） 💡 毒舌点评亮点：论文首次在LLM-TTS框架中实现了单词级的情感动态控制，概念清晰，并通过构建专用的FEDD数据集和详实的消融实验，有力地证明了其方法的有效性，实验设计相当规范。短板：然而，整个框架严重依赖于一个未完全公开细节的预训练模型（CosyVoice2），且代码和模型均未开源，这使得其“可复现性”大打折扣，更像是在现有强大基座上添加了一个精巧的模块，而非一个能独立复现和推广的完整解决方案。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中提及构建了FEDD数据集，但未说明是否公开及获取方式。 Demo：论文中未提及在线演示。复现材料：给出了部分训练细节（优化器、batch size、epoch），但关键模型架构（基于CosyVoice2）和更详尽的超参数配置未说明，不足以完全复现。论文中引用的开源项目：明确提及并使用了emotion2vec（特征提取）、CosyVoice2（生成框架）、Montreal Forced Aligner (MFA)（对齐）、HiFi-GAN（声码器）、Whisper-Large-v3（WER评估）等开源工具或模型。整体开源计划：论文中未提及开源计划。 📌 核心摘要本文针对现有情感语音合成（E-TTS）方法大多依赖句子级全局情感控制（如标签、参考音频或提示）无法捕捉句内情感动态变化的问题，提出了Emo-FiLM框架。该方法的核心是：1）利用预训练的emotion2vec模型提取帧级情感特征，并通过一个轻量级Transformer模型将其对齐到单词，生成单词级的情感类别和强度标注；2）在预训练的LLM-TTS（CosyVoice2）框架中引入一个情感特征线性调制（E-FiLM）模块，将单词级的情感信息映射为文本嵌入的缩放和偏移参数，从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力，论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明，在FEDD数据集上，Emo-FiLM在情感动态匹配（DTW）指标上比最强基线（CosyVoice2）提升了9.1%（从54.57降至49.62），在主观情感相似度（EMOS）和自然度（NMOS）上也取得最佳成绩（4.19和4.23）。消融实验证实，单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向，其主要局限在于依赖特定预训练模型且未开源代码，限制了复现与推广。 ...