Adaptive Oscillatory Inductive Bias for Modeling Sharp Prosodic Dynamics in Diffusion-Based TTS

📄 Adaptive Oscillatory Inductive Bias for Modeling Sharp Prosodic Dynamics in Diffusion-Based TTS #语音合成 #扩散模型 #情感语音合成 7/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #语音合成 | #扩散模型 | #情感语音合成 | arxiv 👥 作者与机构 Sandipan Dhar, Nirmesh Shah, Ashishkumar P. Gudmalwar, Pankaj Wasnik. Sony Research India. 💡 毒舌点评 这篇论文本质上是给一个强大的现有系统(StyleTTS2)换了个激活函数,然后包装成“自适应振荡感应偏置”这样一个听起来高深的概念。创新性实在有限,相当于在 Snake 激活函数的基础上加了个可学习的缩放参数和一个恒等映射,然后声称这能更好地捕捉“尖锐的韵律转换”。论文的理论分析部分,那个四层回归模型的收敛性实验,说服力约等于零——用最简单的玩具任务来论证一个复杂的TTS模型中的关键组件,这操作有点“挂羊头卖狗肉”。实验部分倒是跑了不少指标,但分析流于表面,尤其是 WER 的剧烈变化完全没给出合理解释。最让人皱眉的是,论文声称“开源”,但根据原文,代码、模型权重链接统统没给,只给了个演示链接,这算哪门子开源?整体感觉像是一篇“增量式”的工作,包装得比实质贡献要好。 ...

2026-06-25 · 更新于 2026-07-03 · 3 min · 637 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-03 · 16 min · 3249 words

An Empirical Study on Learning Latent Representations for Emotional Speech Synthesis

📄 An Empirical Study on Learning Latent Representations for Emotional Speech Synthesis #语音合成 #情感语音合成 #低资源 #数据增强 #语音增强 8.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.2/10 | 后50% | #语音合成 | #数据增强 | #情感语音合成 #低资源 | arxiv 👥 作者与机构 作者:Dang Quang Vinh, Ngo Quang Huy 机构:Aimesoft JSC,河内,越南 💡 毒舌点评 这篇论文就像一次未经充分准备的实验室报告:作者将一个标准模型(FastSpeech 2)稍作修改,便应用于一个竞赛任务,然后汇报了极其糟糕的结果(MOS接近噪音水平,音节错误率超过60%)。然而,在结论中,作者却使用“promisingly”和“favourable”这样的词汇来形容其系统,这与报告的客观数据形成了近乎荒诞的矛盾。论文既没有尝试与基线进行对比以证明修改的有效性,也没有深入分析失败的原因,只是将问题归咎于数据集噪声并简单提及修复过程。作为一篇“实证研究”,其核心价值——对方法有效性的分析——完全缺失,提供的更多是一份失败的系统日志。 📌 核心摘要 本文是针对VLSP 2022情感语音合成竞赛任务的系统描述。作者在FastSpeech 2框架上进行了修改:对于单说话人子任务(Sub-task 1),添加了情感嵌入(查找表);对于说话人适配子任务(Sub-task 2),同时添加了说话人和情感嵌入,并引入了一个灵感来源于Pan and He (2021)的“韵律瓶颈”(prosody bottleneck)模块。实验使用了竞赛方提供的数据集,经过了降噪、文本修正等预处理。最终系统在官方评估中表现不佳,报告的MOS自然度得分低,音节错误率(SER)高。论文未提供与基线的对比,也未分析失败原因。 ...

2026-06-16 · 更新于 2026-07-03 · 2 min · 298 words

Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech

📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构 第一作者:Yihang Lin(香港中文大学(深圳));通讯作者:Li Zhou(香港中文大学(深圳));共同作者包括Congwei Cao, Dongchu Xie(香港中文大学(深圳));Xiaoxue Gao(新加坡科技研究局);Chen Zhang, Haizhou Li(新加坡国立大学、深圳大数据研究院、深圳湾区研究院)。主要单位为中国香港中文大学(深圳)。 💡 毒舌点评 这是一篇动机明确、工程性较强的系统论文,但存在以下核心问题: 创新性有限:将列表偏好优化(LiPO)应用于情绪强度控制,是一个直接且合理的迁移,但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。 理论深度不足:论文声称将问题“formulate as a learning-to-rank problem”,但方法描述更像一个启发式的列表构建和损失设计,缺乏对LTR理论在语音生成任务中的适配性分析。 实验天花板与claim:在ESD-plus这一自建数据集上进行评估,虽然必要,但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线(如Emo-DPO的几种变体),未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”,但绝对指标提升有限(如Recall-ft从37.21到39.54),且人类评估的胜率在面对强基线(如Emo-DPO (I))时优势减弱。 细节可复现性:尽管提供了代码和数据集链接,但论文对核心模型(CosyVoice-300M-Instruct)的具体微调配置、超参数搜索过程、人类评估的具体协议(如标注者间一致性)描述不足,影响严格复现。 局限性挖掘浅:论文结论过于乐观,未深入讨论列表偏好监督在生成长语音或更复杂情感(如混合情感)时的潜在问题,也未讨论自建数据集可能引入的偏置(如使用TTS合成监督数据,而非自然语音)。 📌 核心摘要 本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题,提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题,采用列表偏好优化(LiPO)来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表,以及一个距离感知的加权损失函数,显式建模全局强度排序。为支持该任务,论文构建了ESD-plus多说话人数据集,包含45,500个带有明确强度变化(3级)的语音样本。实验表明,在ESD-plus数据集上,Emo-LiPO在情绪相关性指标(特别是Recall-ft)和人类评估胜率上优于监督基线和DPO变体,尤其在高强度水平优势明显,并能保持语音质量。 ...

2026-06-12 · 更新于 2026-07-03 · 2 min · 391 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-07-03 · 16 min · 3281 words

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

📄 Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios #语音合成 #情感语音合成 🔥 9.9/10 | 前25% | #语音合成 | #情感语音合成 | arxiv 学术质量 6.4/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 第一作者:Changhao Pan (浙江大学)。通讯作者:Zhou Zhao (浙江大学)。作者单位包括浙江大学和字节跳动。 💡 毒舌点评 一篇扎实、必要且组织良好的基准测试论文。它成功地将“长语音生成质量”这个模糊概念拆解为可量化的维度,并提供了目前最全面的评估框架。然而,它的“杀手锏”——基于Gemini Pro的表达力评估——却是一个黑盒,这为基准的长期可复现性埋下了隐患。实验规模宏大,但闭源模型的“遥遥领先”与开源模型的“努力追赶”形成了鲜明对比,清晰地勾勒出了技术差距。数据构建流程详尽得令人印象深刻,甚至用上了GPT-5和DeepSeek V3.2,堪称“用前沿AI评测前沿AI”的典范。总体而言,这是一份对社区贡献极大的资源,但它的价值很大程度上依赖于所用闭源评估器的持续稳定和可用性。 📌 核心摘要 本文提出了SwanBench-Speech,一个针对长语音生成(包括单说话人长文本和对话生成)的综合性评估基准。该基准覆盖了17种下游应用场景,基于声学、语义和表现力三大核心挑战,构建了包含1101个样本的测试集。论文设计了一个包含7个自动评估指标(音色一致性、混响一致性、声音保真度、内容准确率、韵律连贯性、表现丰富性、表现层次性)的评估协议,并通过人类感知测试验证了指标与人类评分的相关性。通过对16个单说话人模型和10个对话生成模型的广泛实验,论文揭示了当前模型的优势与不足:在保真度和准确率上已接近人类水平,但在混响一致性、韵律连贯性和表现层次性上仍有显著差距;模型在高表现力场景中性能下降;自回归(AR)与非自回归(NAR)模型在表现力和内容准确率上存在权衡;训练数据质量(如片段长度、声场稳定性)比数量更重要。 🔗 开源详情 代码: 论文承诺开源全部代码库,包括数据处理和评估脚本。项目主页已提供(https://swanaigc.github.io/#bench),但GitHub具体仓库链接在当前版本中尚未明确给出。 模型权重: 不涉及。SwanBench-Speech是评估基准,不包含模型。论文评估的开源模型(如CosyVoice, FishSpeech等)有其各自的开源仓库,但论文未在本文中集中提供链接。 数据集: 论文明确承诺在HuggingFace上以CC BY-NC-SA 4.0许可证开源SwanBench-Speech测试集(1101个样本)。 Demo: 在线演示链接为 https://swanaigc.github.io/#bench。 复现材料: 论文提供了极其详尽的附录,涵盖了数据构建流程、评估协议细节、实验设置、消融研究、更多结果分析等。评估使用的所有第三方工具(如FunASR Nano, WhisperX, SRMRpy等)均已列出其开源地址。 论文中引用的关键开源项目: SenseVoice (转写): https://huggingface.co/FunAudioLLM/SenseVoiceSmall Paraformer (对齐,中文): https://modelscope.cn/models/iic/speech_timestamp_prediction-v1-16k-offline WhisperX (对齐,英文): https://github.com/m-bain/whisperX FunASR Nano (ASR): https://github.com/FunAudioLLM/Fun-ASR-Nano-2512 WavLM TDCNN (说话人嵌入): https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification SRMRpy (混响评估): https://github.com/jfsantos/SRMRpy SpeechJudge (韵律评估模型,基于Qwen2.5-Omni-7B): 论文提及为微调模型,未提供独立开源链接。 SentenceBERT (去重): https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2 VAD模型: https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch 和 https://github.com/snakers4/silero-vad Torchaudio SQUIM: https://docs.pytorch.org/audio/main/tutorials/squim_tutorial.html JiWER (WER/CER计算): https://pypi.org/project/jiwer/ 🏗️ 方法概述和架构 SwanBench-Speech的构建是一个系统化、多阶段的工程,其核心架构可分为三个相互关联的模块:测试集构建、评估协议设计与大规模实验分析。 ...

2026-05-28 · 更新于 2026-07-03 · 3 min · 608 words

Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation #语音合成 #情感语音合成 #特征调制 #流匹配 #多任务学习 #数据集 ✅ 7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Sirui Wang(哈尔滨工业大学) 通讯作者:Tiejun Zhao*(哈尔滨工业大学) 作者列表:Sirui Wang(哈尔滨工业大学)、Andong Chen(哈尔滨工业大学)、Tiejun Zhao(哈尔滨工业大学) 💡 毒舌点评 亮点:论文首次在LLM-TTS框架中实现了单词级的情感动态控制,概念清晰,并通过构建专用的FEDD数据集和详实的消融实验,有力地证明了其方法的有效性,实验设计相当规范。短板:然而,整个框架严重依赖于一个未完全公开细节的预训练模型(CosyVoice2),且代码和模型均未开源,这使得其“可复现性”大打折扣,更像是在现有强大基座上添加了一个精巧的模块,而非一个能独立复现和推广的完整解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及构建了FEDD数据集,但未说明是否公开及获取方式。 Demo:论文中未提及在线演示。 复现材料:给出了部分训练细节(优化器、batch size、epoch),但关键模型架构(基于CosyVoice2)和更详尽的超参数配置未说明,不足以完全复现。 论文中引用的开源项目:明确提及并使用了emotion2vec(特征提取)、CosyVoice2(生成框架)、Montreal Forced Aligner (MFA)(对齐)、HiFi-GAN(声码器)、Whisper-Large-v3(WER评估)等开源工具或模型。 整体开源计划:论文中未提及开源计划。 📌 核心摘要 本文针对现有情感语音合成(E-TTS)方法大多依赖句子级全局情感控制(如标签、参考音频或提示)无法捕捉句内情感动态变化的问题,提出了Emo-FiLM框架。该方法的核心是:1)利用预训练的emotion2vec模型提取帧级情感特征,并通过一个轻量级Transformer模型将其对齐到单词,生成单词级的情感类别和强度标注;2)在预训练的LLM-TTS(CosyVoice2)框架中引入一个情感特征线性调制(E-FiLM)模块,将单词级的情感信息映射为文本嵌入的缩放和偏移参数,从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力,论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明,在FEDD数据集上,Emo-FiLM在情感动态匹配(DTW)指标上比最强基线(CosyVoice2)提升了9.1%(从54.57降至49.62),在主观情感相似度(EMOS)和自然度(NMOS)上也取得最佳成绩(4.19和4.23)。消融实验证实,单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向,其主要局限在于依赖特定预训练模型且未开源代码,限制了复现与推广。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 333 words