Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据集 ✅ 6.3/10 | 前50% | #语音合成 | #数据集 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度 中 👥 作者与机构 论文作者为:Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。作者所属机构在提供的论文原文中未明确说明。 💡 毒舌点评 这篇论文试图解决情感TTS中一个真实存在的痛点:非语言声音(NVs)的粗糙控制。其核心贡献是构建了一个细粒度标注的数据集,思路清晰,实验也尽力展示了其价值。然而,问题在于模型部分几乎是“拿来主义”,在成熟的Grad-TTS上加了个情绪编码器,缺乏针对NV合成特性的架构创新,技术深度不足。更关键的是,实验设计存在明显的公平性瑕疵——“粗粒度NV”基线(NVTTS)只包含“快乐”和“悲伤”数据,却要与包含全部四种情绪的其他设置对比总性能,这就像让一个短跑选手去和全能选手比总分,结论的说服力大打折扣。此外,数据集仅限60位女性说话者,规模和多样性不足,限制了结论的普适性。整体而言,这是一篇有明确问题意识但技术实现和实验严谨性有待提升的工作,目前状态距离顶级会议的录用标准有明显差距。 📌 核心摘要 本文针对现有情感TTS系统普遍忽略非语言声音(NVs,如笑声、哭声)的问题,提出了一种细粒度控制方案。作者从EARS语料库中筛选并重新标注了来自60位女性说话者的NV数据,设计了一套能够控制NV类型、频率(通过重复音节)和时长(通过重复末尾字符)的新型标注体系(例如<(crying) wuuuuu whep>)。基于此构建的数据集,作者在Grad-TTS框架上增加情绪编码器并定制了NV处理流程,构建了一个情感TTS基准模型。实验表明,引入细粒度NV虽然导致感知自然度(nMOS)从3.54轻微下降至3.18-3.43,但显著提升了情感表现力(eMOS 4.20)和情感识别准确率(78.8%)。分析表明,该方法对高唤醒度情绪(快乐82.5%、恐惧82.7%)和悲伤(98.3%)尤其有效。偏好测试进一步揭示,用户对“欢呼”类NV的快乐表达和“多部分哭泣声”的悲伤表达有强烈偏好。该工作的核心价值在于为精细控制情感语音中的非语言表达提供了新的数据基础和初步验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: 作者构建的Fine-Grained Non-Verbal Expression Dataset:论文未提供直接的下载链接,但说明数据来源于EARS语料库(http://www.openslr.org/93/)并经过了重新处理与标注。 训练所用情感语音数据集(非NV部分):论文明确使用了三个开源数据集:EXPRESSO (https://zenodo.org/record/6852108)、SEMAINE (https://zenodo.org/record/3463461) 和 ESD (https://github.com/HL-Data-Labs/ESD)。 Demo:提供了演示页面链接:https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料:论文未提供具体的检查点、配置文件或详细复现文档链接。在“Training setting”部分提供了训练细节:采样率22.05 kHz、声码器HiFi-GAN、训练400k迭代、硬件NVIDIA RTX A6000。 论文中引用的开源项目: EARS Corpus: http://www.openslr.org/93/ AMI Meeting Corpus: https://groups.inf.ed.ac.uk/ami/corpus/ NVTTS Dataset (论文[1]):项目页 https://github.com/ictnlp/NVTTS CosyVoice2 (论文[2]): https://github.com/FunAudioLLM/CosyVoice2 Grad-TTS (论文[9]): https://github.com/huawei-noah/Speech-Backbones/tree/main/Grad-TTS OpenAI Whisper (论文[10]): https://github.com/openai/whisper pydub (音频处理库): https://github.com/jiaaro/pydub Hifi-GAN (论文[3]): https://github.com/jik876/hifi-gan 预训练的SER模型 (论文[14]):对应开源项目 https://github.com/AdrianLewkowicz/Pretrained_models_Speech_emotion_recognition (论文引用但未提供链接) 🏗️ 方法概述和架构 本文的方法主要包括两个部分:细粒度非语言表达数据集的构建,以及基于此数据集构建的情感TTS模型。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 291 words

Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 🔥 8.1/10 | 前10% | #语音编码 | #语音编码 | arxiv 学术质量 8.1/7 | 影响力 8.5/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 作者:Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构:中国科学技术大学,语音及语言信息处理国家工程研究中心 邮箱:redmist@mail.ustc.edu.cn, yangai@ustc.edu.cn 通讯作者:Yang Ai 💡 毒舌点评 这篇论文确实是在“卷”比特率的路上又往前迈了一大步,250 bps确实是个令人印象深刻的目标。三阶段CRR框架的思路很清晰:用激进的单码本VQ先压到一个“面目全非”的粗谱,再用CFM这个“画师”去精修细节,最后交给HiFi-GAN这个“化妆师”出片。在线聚类解决码本塌陷、自一致性损失减少ODE步数,这些技术点都是实打实的工程优化,值得肯定。然而,作为顶会审稿人,我不得不指出几个问题:首先,消融实验不够“狠”,没有对比更大码本的性能,也没深入分析OC-VQ中锚点采样策略的具体影响。其次,与FocalCodec的比较存在“田忌赛马”之嫌:FMelCodec是纯声学模型,而FocalCodec依赖预训练SSL模型,两者的设计目标和技术路径不同,单纯比较dWER意义有限,论文对此的讨论不够深入。最后,论文声称“低复杂度”,但HiFi-GAN vocoder占了近89%的计算量,这更像是把复杂度大头“外包”了,整体框架的“轻量”优势需要更辩证地看待。总的来说,论文在特定技术路线上做到了极致,但故事的完整性和深度还有提升空间。 📌 核心摘要 本文提出了FMelCodec,一种运行在mel谱图域、基于三阶段编码-细化-重建(CRR)框架的超低比特率神经语音编码器。该框架旨在解决在极低码率预算(如250 bps)下,如何同时保持语音自然度、说话人身份和内容可懂度的挑战。其核心设计包括:1)一个采用激进640倍压缩、结合在线聚类单码本VQ的ConvNeXt v2编码器-解码器结构,用于生成粗劣mel谱图;2)一个轻量级的基于条件流匹配(CFM)的细化模块,利用自一致性训练方案以少量推理步数修复量化失真;3)一个预训练的HiFi-GAN声码器,用于从细化后的谱图重建最终波形。在16 kHz(250 bps)和48 kHz(750 bps)数据集上的实验表明,FMelCodec在感知质量、说话人相似度和内容保留方面均优于或接近复杂度高得多的基线方法,实现了效率、质量和复杂度之间的有利权衡。 🔗 开源详情 代码:https://github.com/redmist328/FMelCodec 模型权重:论文中未提供FMelCodec的完整模型权重,但提供了用于对比的公开检查点链接(如FocalCodec†, SemantiCodec†)。用于训练的HiFi-GAN vocoder基于其官方实现重新训练。 数据集:论文中使用了以下公开数据集,但未提供直接下载链接: LibriTTS (16 kHz):使用 train-clean-100、train-clean-360、dev-clean、test-clean 子集。 VCTK (48 kHz):遵循标准划分。 Demo:https://redmist328.github.io/FMelCodec (提供了语音样本展示) 复现材料:论文第IV-B节详细公开了三个阶段的所有模型配置、架构尺寸和训练超参数,可直接用于复现。 引用的开源项目:包括HiFi-GAN, DAC, BigCodec, WavTokenizer, FlowDec, FocalCodec, SemantiCodec的GitHub仓库,均已标注链接。 🏗️ 方法概述和架构 FMelCodec的三阶段CRR框架如论文图1所示,所有组件均操作在mel谱图域,形成统一处理流程。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 540 words

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #扩散模型 #低资源 🔥 8.5/10 | 前25% | #语音合成 | #生成对抗网络 | #扩散模型 #低资源 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 未提及。 💡 毒舌点评 这篇论文在工程实用性和架构统一性上做得不错,但部分宣传和分析需要更审慎。声称“首次”统一框架,但框架本身的核心(残差去噪、子模型)并非原创,主要贡献在于将ConvNeXt生成器成功适配到两种范式并进行了充分的实证对比。其提出的“简化”GAN训练策略(无需初始噪声和增益调整)的理论依据和泛化能力存疑,更像是一种经验性的工程trick。子模型导致参数线性增长是一个显著的实用缺陷,作者虽提及但轻描淡写,这对资源敏感的部署场景影响很大。论文将“多说话人性能提升”作为重要卖点,但除了展示在LibriTTS-R上的结果,并未深入分析其机制(如说话人嵌入、归一化技术的改进),显得结论有余而洞察不足。总体而言,这是一篇扎实的系统性工作,但距离开创性研究尚有差距。 📌 核心摘要 本文提出了WaveNeXt 2,一个基于ConvNeXt的统一生成器框架,可同时应用于GAN和扩散模型两种神经声码器。其核心创新在于引入了残差去噪和子模型结构,使生成器能够以迭代方式从噪声中逐步恢复波形。在多说话人数据集LibriTTS-R上的实验表明:(1) GAN-WaveNeXt 2在保持与WaveFit、HiFi-GAN相当合成质量的同时,实现了GPU上70%、CPU上高达90%的推理速度提升;(2) 扩散模型版本Diff-WaveNeXt 2在4步推理下,CPU推理速度比FastDiff快80%,并取得了有竞争力的合成质量;(3) Diff-WaveNeXt 2的训练效率极高,仅需32小时。该框架为不同应用场景(快速部署或高质量合成)提供了灵活的选择。 🔗 开源详情 代码:论文未提供WaveNeXt 2自身的官方代码、模型权重或训练脚本链接。但提供了其复现所依赖的第三方开源项目链接: ParallelWaveGAN (HiFi-GAN V1 非官方实现): https://github.com/kan-bayashi/ParallelWaveGAN WaveFit 非官方实现: https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff 官方实现: https://github.com/Rongjiehuang/FastDiff Vocos 官方实现: https://github.com/gemelo-ai/vocos 模型权重:未提及。 数据集:未提供直接下载链接。使用LibriTTS-R数据集(约585小时,24kHz),具体为 train-clean-100 和 train-clean-360 子集训练,test-clean-100 子集评估。 Demo:https://37integer.github.io/WAVENEXT-2 复现材料:论文详细描述了训练设置(硬件、框架、损失函数、超参数),但未提供可直接下载的配置文件或检查点。 🏗️ 方法概述和架构 WaveNeXt 2是一个统一的生成器框架,旨在通过单一的ConvNeXt基架构,同时支持GAN和扩散两种训练与推断范式。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 569 words

Why Can't They Remember? Uncovering Representation and Retrieval Bottlenecks in Multi-Turn Acoustic Memory

📄 Why Can’t They Remember? Uncovering Representation and Retrieval Bottlenecks in Multi-Turn Acoustic Memory #语音识别 #多模态模型 ✅ 7/10 | 前50% | #语音识别 | #多模态模型 | arxiv 学术质量 5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Yang Xiao, Siyi Wang, Han Yin, Hong Jia, Vidhyasaharan Sethu, Eun-Jung Holden, Ting Dang 机构: The University of Melbourne KAIST The University of Auckland UNSW Sydney 💡 毒舌点评 这篇文章像一个技术娴熟的医生,给“大型音频语言模型(LALMs)的多轮声学健忘症”做了一次详尽的体检报告。报告本身写得条理清晰、诊断工具先进(线性探针、CKA、因果干预),也得出了一个明确的结论:病根不在“信息丢失”(记忆力下降),而在“表征路径跑偏”(格式不匹配导致信息无法被正确使用)。这种“系统分析+白盒诊断+因果验证”的研究范式值得肯定。 然而,作为一篇瞄准顶会的论文,其“贡献”感觉更像是对一个已知现象的精细化确认,而非开创性的发现或根本性的解决。“声学信息保留但表征漂移”这一核心发现,对于理解模型内部动态有价值,但创新性略显不足。更重要的是,论文提出的“修复表征比调整注意力更有效”这一关键主张,其验证手段(激活补丁)是一种非常规的、难以部署的“上帝视角”干预,说服力有限,也未能指明一条可行的训练改进路径。实验环境(EnvMem)的极度受控性是一把双刃剑:它隔离了变量,但也严重限制了结论的普适性和外部效度。作者坦诚了局限,但讨论部分未能充分回应这些局限可能带来的影响。总的来说,这是一份合格的、工整的诊断报告,但距离一个能引发范式转变或提供明确解决方案的顶级工作还有差距。开源程度(仅承诺发布数据集)也降低了其即时影响力。 📌 核心摘要 本文针对大型音频语言模型在多轮交互中难以保留非语音环境声学信息的“声学健忘症”问题,构建了一个名为EnvMem的受控多轮对话分析基准。通过严格的实验设计,论文量化了声学记忆相较于语义记忆的快速衰减。研究的核心在于使用一套白盒诊断方法(包括逐层线性探针、CKA表征相似性分析和注意力机制诊断),从表征和检索两个层面剖析失败原因。主要发现表明,失败并非源于声学信息在隐状态中的丢失,而是由于长上下文处理中,环境声学表征的计算轨迹发生了“漂移”——其表征格式逐渐偏离了成功的处理路径,更接近短上下文处理路径,导致深层虽保留信息但无法被正确路由至输出。通过激活补丁和注意力操纵的因果干预实验进一步证实,修复表征比调整注意力更能有效恢复预测能力,从而确立了“表征轨迹漂移”作为核心瓶颈的论点。 ...

2026-05-27 · 更新于 2026-06-19 · 1 min · 116 words

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models

📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #低资源 📝 5.2/10 | 后50% | #大语言模型 | #低资源 | arxiv 学术质量 4.5/7 | 影响力 0.7/2 | 可复现性 0/2 | 置信度 高 👥 作者与机构 Muhammad Ashad Kabir^1, Munira Sirajam^2 ^1 School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia ^2 Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评 这篇论文像一个严谨但略显悲观的探索者,在“零样本”这个热门标签下进行了一场系统的“试错”。它没有试图吹嘘自己发现了新大陆,而是诚实地绘制了当前零样本基础模型在帕金森病语音检测任务上的“能力边界地图”。这幅地图显示,这片区域的“地形”非常崎岖——性能普遍不高,且强烈依赖于具体的“交通工具”(输入模态)和“道路状况”(语言与数据集)。这种诚实本身值得肯定,但对于顶会而言,仅绘制地图而未能提供更强大的“导航工具”(如显著的性能提升或深刻的理论洞见),使得文章的冲击力不足。更让人皱眉的是,作者自己也承认了数据集规模小、未与强监督基线对比等关键缺陷,这无异于主动递上了批评的弹药。结果就是,文章成了一份有用的“避坑指南”和一份详尽的“失败”报告,其价值更多在于警示后续研究者,而非引领一个新的方向。 📌 核心摘要 本文系统性地研究并比较了两种零样本输入模态用于帕金森病(PD)语音检测的性能:(i)将手工提取的71维声学特征序列化为文本,输入通用大语言模型(LLM,此处为LLaMA 3);(ii)将原始音频波形直接输入音频大语言模型(LALM,如Qwen2-Audio, Pengi)及推理增强模型(LARM,即Audio-Reasoner)。研究在四个不同语言(孟加拉语、英语、意大利语、西班牙语)和不同任务(对话、朗读、自发语音)的PD语音数据集上展开。核心发现表明,模型性能高度依赖于输入模态、语音任务和数据集语言。手工声学特征在低资源语言(孟加拉语)数据集(BenSParX)上表现出更稳定的性能(LLaMA 3达到83.3%平衡准确率)。而原始音频输入在部分数据集(如MDVR-KCL, NeuroVoz)上能带来性能提升,但结果波动更大,校准度更差。整体而言,所有零样本模型的最佳平衡准确率仅在50%-70%之间,远未达到临床实用水平。研究揭示了输入模态选择对零样本PD检测性能、鲁棒性和校准度的影响,为低资源临床语音分析提供了实践参考。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 500 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-19 · 19 min · 3918 words

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

📄 A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning #语音情感识别 #多模态模型 #自监督学习 ✅ 7/10 | 前50% | #语音情感识别 | #自监督学习 | #多模态模型 | arxiv 学术质量 5.1/7 | 影响力 1/2 | 可复现性 0.9/2 | 置信度 高 👥 作者与机构 Loukas Ilias, Dimitris Askounis。作者来自雅典国立技术大学电气与计算机工程学院决策支持系统实验室(Decision Support Systems Laboratory, School of Electrical and Computer Engineering, National Technical University of Athens)。 💡 毒舌点评 这篇论文是一篇典型的“工程整合型”工作,而非“原理创新型”工作。其核心贡献在于将已有的、强大的预训练模型(BERT, HuBERT)和若干现成技术(注意力池化、MINE)组合成一个多模态管道,并在两个公开数据集上验证了其有效性。作者在方法描述和消融实验上投入了大量笔墨,显得比较“扎实”,但这也恰恰凸显了其原始创新的不足——所有组件都不是他们提出的。MINE在2026年的新颖性确实值得商榷。更关键的是,论文在讨论局限性时避重就轻,未深入反思其方法对实际临床诊断场景的适用性(如对短音频、非英语语音的泛化能力),也未探讨其多模态融合在何种程度上真的捕捉到了“互补”的生物标记物,还是仅仅进行了统计上的对齐。对于一篇声称解决“开放性挑战”的论文来说,这种自我批判的深度是欠缺的。 📌 核心摘要 本文针对阿尔茨海默病(AD)及相关痴呆症的早期诊断问题,提出了一种端到端的多模态深度学习框架。该框架旨在联合利用自发性语音中互补的语言和声学生物标志物。核心方法是将预训练HuBERT模型提取的声学特征(经注意力统计池化聚合)与预训练BERT模型提取的文本特征([CLS] token表示)进行融合。融合机制为一种基于注意力的音频-文本融合(AT-Fusion)模块。此外,论文引入了一个基于神经互信息估计(MINE)的损失函数,以最大化两种模态表示之间的互信息,从而增强跨模态对齐。在ADReSS Challenge和PROCESS-2两个公开数据集上的实验表明,该方法在痴呆症检测任务上取得了具有竞争力的性能,消融研究验证了注意力池化、HuBERT、MINE损失和AT-Fusion机制的有效性。 🔗 开源详情 代码:论文中未提及代码开源。 模型权重:论文中未提及提供作者微调后的模型权重下载链接。使用的预训练模型(HuBERT, BERT, wav2vec2.0, XLS-R)为公开模型。 数据集: ADReSS Challenge:论文引用了该数据集,但未提供直接获取链接。数据集本身为公开挑战赛数据。 PROCESS-2:论文提供了明确的HuggingFace链接:https://huggingface.co/datasets/CognoSpeak/PROCESS-2。 Demo:论文中未提及。 复现材料:论文在实验设置部分提供了具体的训练配置(学习率调度器、权重参数λ=0.25、批次大小、硬件环境),但未提供完整的复现代码包、模型检查点或详细的数据预处理脚本。 论文中引用的开源项目:未提及。论文引用的HuBERT、BERT、wav2vec2.0、XLS-R等模型为学术界广泛使用的预训练模型,但论文未将它们作为自己开发的工具进行引用。论文中提出的方法(如MINE、AT-Fusion)是本文的核心贡献,并非外部开源项目。 🏗️ 方法概述和架构 本文提出的多模态框架旨在通过联合建模语音信号和转录文本,实现端到端的痴呆症自动检测。其整体架构(如Fig. 1所示)包含四个核心组件:文本编码器、声学编码器、跨模态融合模块以及基于互信息最大化的对齐正则化。各组件详细描述如下: ...

2026-05-26 · 更新于 2026-06-19 · 2 min · 365 words

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #音频生成 #多模态模型 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | arxiv 学术质量 5.3/7 | 影响力 1/2 | 可复现性 0.7/2 | 置信度 中 👥 作者与机构 论文作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学,香港中文大学。 💡 毒舌点评 这篇论文试图为快速增长的音频-视频生成领域建立一个“急需”的自动化评估基准,其工程系统性值得肯定。然而,其核心贡献——训练的专用评估器——本质上是用一个大型模型(基于Qwen2.5-Omni)去评估其他生成模型,这引发了关于“用魔法打败魔法”的深层问题。论文声称解决了“粗糙使用通用模型”的痛点,但训练数据严重局限于OpenHumanVid这个以人类为中心的视频库,这无疑为评估器引入了强烈的归纳偏置。当面对非人类主体或更复杂的长视频时,这些评估器可能比它们试图取代的“通用模型”更加“偏科”。此外,论文在关键实验分析(如消融研究、失败案例分析)上的缺失,使其提出的10个维度和“连续分数”机制的优越性论证显得有些单薄,更像是一个精心搭建但内部黑箱的评测流水线。 📌 核心摘要 本文针对人类场景下的文本到音频-视频生成模型,提出了自动化评估基准AVBench。其核心工作包括:1) 设计了涵盖跨模态一致性与单模态质量的10个人类中心细粒度评估维度;2) 通过大规模负样本挖掘(300KK样本),对多模态大语言模型进行监督微调,训练出专门的音频-视频(AV)、音频-文本(AT)、视频-文本(VT)一致性评估器;3) 构建了包含“正常”和“困难”子集的分层测试集。实验表明,专用SFT评估器在检测细粒度不一致方面显著优于零样本基线,其自动评分与人类专家判断展现出强相关性(如AT一致性 \(\rho=0.9488\))。 🔗 开源详情 代码:未提���。 模型权重:未提供。评估器基于Qwen2.5-Omni和Qwen2-Audio微调,但微调后模型未公开。 数据集:未提供。训练数据来自OpenHumanVid,自行构建的300KK训练集及470条测试集均未公开。 Demo:未提供。 复现材料:未提供。论文描述了训练流程,但未提供代码、配置文件或检查点以支持复现。 论文中引用的开源项目(如VBench, T2AV-Compass, VABench, JointAVBench, CLAP, ViCLIP, ImageBind, SyncNet/LatentSync, Whisper, DF_Arena, NISQAv2, Audiobox-Aesthetics, DOVER++, LAION-Aesthetics, OpenHumanVid, Qwen系列)均未在文中提供具体项目链接。 🏗️ 方法概述和架构 AVBench的整体架构由两个并行支柱构成:基准测试集构建与专用自动化评估器训练。 ...

2026-05-26 · 更新于 2026-06-19 · 2 min · 359 words

Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #持续学习 #语音合成 🔥 8.6/10 | 前25% | #语音合成 | #持续学习 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Jinju Kim, Yunsung Kang: Sungkyunkwan University Gyeong-Moon Park: Korea University Jong Hwan Ko: Sungkyunkwan University 📌 核心摘要 本文针对零样本文本转语音(ZS-TTS)系统中,在现实部署约束下(遗忘请求顺序到达、数据需删除)的说话人身份持续遗忘问题,提出了“灾难性重新学习”这一关键失败模式。现有方法在顺序应用时,为保留模型效用而施加的正则化会无意中恢复先前已遗忘的说话人身份。为解决此问题,作者提出了CORTIS框架,该框架通过对比Fisher信息进行参数定位(控制更新范围)和累积正交子空间投影(控制更新方向),实现无需访问历史遗忘数据即可进行持续遗忘。在VoiceBox模型上的实验证明,CORTIS能在5轮顺序请求后,将所有已遗忘说话人的相似度维持在较低水平,同时保持有竞争力的保留集合成质量,显著优于顺序应用的现有方法。 🔗 开源详情 代码:论文正文和附录中未提供代码仓库链接。 模型权重:论文中未提及发布预训练或遗忘后的模型权重。 数据集:论文使用了公开数据集LibriHeavy(预训练)和LibriSpeech test-clean(评估),但未提供下载链接或特定预处理脚本。遗忘集为从LibriHeavy中筛选的5个特定说话人音频。 Demo:提供了演示链接 https://cumulativeortis.github.io/。 复现材料:论文附录B、C、D提供了非常详细的实现步骤、超参数、模型架构(VoiceBox)描述和基线配置,理论上足以支持复现。 论文中引用的开源项目: VoiceBox:提供了论文链接(https://arxiv.org/abs/2306.15687)和Demo页面,但未提及代码仓库。 LibriHeavy、LibriSpeech:标准数据集,未提供特定链接。 Diffwave、HuBERT-Large、WavLM-TDCNN:作为工具被引用,未提供具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决ZS-TTS模型中持续说话人身份遗忘的“灾难性重新学习”问题,其核心设计是在不访问历史遗忘数据的前提下,最小化每次遗忘更新对先前遗忘结果的干扰。该框架包含两个互补且顺序执行的阶段,图2对其进行了可视化概述。 对比参数定位 (Contrastive Parameter Localization) 功能:确定每次遗忘序列中,模型参数的“可训练区域”。其目标是局部化更新,使其集中在与当前遗忘说话人最相关的参数子集上,同时软排除对保留集质量或任何先前遗忘说话人重要的参数。 实现: 对于第 i 次遗忘序列(针对说话人集 f_i),首先计算当前遗忘集 f_i 数据的遗忘损失的对角Fisher信息矩阵 F_{f_i}。 同时,维护保留集 R_i 的Fisher信息矩阵 F_{R_i},以及所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息矩阵 F_{f_1}, ..., F_{f_{i-1}}。F_{R_i} 不需要在每次请求时从整个保留集重新计算,可以使用一个固定的子集并跨序列重用。 构造一个显著性图,其计算公式为:saliency_i = (F_{f_i} + ϵ) / (max(F_{R_i}, F_{f_1}, ..., F_{f_{i-1}}) + ϵ)。公式中的分母是逐元素最大值操作,起到软保护作用:任何对保留集质量或任何先前遗忘说话人重要的参数,其显著性得分都会被压低。 选择显著性图中全局排名前 k% 的参数,形成二值训练掩码 M_i。在后续第 i 次序列的更新中,只有被 M_i 标记的参数是可训练的,其余参数被冻结。 输入:当前遗忘集 f_i 的数据;保留集 R_i 的Fisher信息(可复用);所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息(历史积累)。 输出:二值掩码 M_i,定义了本次更新的可训练参数子集。 累积正交子空间投影 (Cumulative Orthogonal Subspace Projection) 功能:在参数定位的基础上,进一步约束可训练参数的更新方向。它将新的更新梯度投影到由所有先前遗忘序列更新所张成子空间的正交补上,从而阻止更新沿先前遗忘所使用过的关键方向进行,从方向层面防止对先前遗忘结果的干扰。 实现: 在第 i 次遗忘序列的训练过程中,以固定间隔(例如每 n 步)收集优化器步进的梯度快照。 训练完成后,将收集到的梯度快照堆叠,并通过截断奇异值分解(SVD)计算一个秩为 R 的标准正交基 U_i。为保证 U_i 仅捕获未被先前子空间覆盖的方向,在进行SVD之前,会从每个梯度快照中减去先前累积子空间 U_{<i} 的投影分量,从而在构造上使 U_i 与 U_1, ..., U_{i-1} 正交。 为避免累积子空间 U_{<i} 的维度随请求序列线性增长(导致投影成本无限增加),采用了一种固定的秩合并策略。在序列 i+1 开始时,构造一个能量加权的列堆叠矩阵 Φ_i = [U_1 Σ_1 | ... | U_i Σ_i],其中每列按其对应的奇异值 Σ_k 缩放,以编码该方向在相应说话人遗忘过程中的重要性。然后,对该矩阵进行秩为 R_merge 的截断SVD,得到最终用于投影的累积子空间基底 U_{<i}。这确保了无论序列多长,投影计算成本保持恒定。 在每次优化器步进后,位于掩码 M_i 内的权重更新量 δ 被投影到 U_{<i} 的正交补空间:δ ← δ - U_{<i} U_{<i}^⊤ δ。 输入:当前序列 i 训练过程中的梯度快照;历史累积的子空间基底 U_{<i}。 输出:投影后的权重更新量 δ。 组件间交互:两个阶段形成级联约束。首先,参数定位(掩码 M_i)将优化搜索空间限制在一个局部化的、与当前遗忘任务相关的参数子集中。然后,在这个受约束的子空间内,正交投影进一步限制了更新向量的方向,使其避开由历史遗忘操作定义的“禁区”。这种“空间+方向”的双重约束共同作用,旨在实现对先前遗忘结果的最小干扰。 ...

2026-05-26 · 更新于 2026-06-19 · 3 min · 455 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音合成 #强化学习 #语音编辑 #零样本 #自回归模型 #数据增强 🔥 8/10 | 前50% | #语音合成 | #强化学习 | #语音编辑 #零样本 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 论文作者为Junyang Chen, Yuhang Jia, Hui Wang, Jiaming Zhou, Yongchang Gan, Yong Qin。机构为南开大学计算机科学学院和人工智能学院。 💡 毒舌点评 这篇论文的工作量扎实,实验全面,还“意外”挖到了一个金矿——编辑训练竟能反哺TTS,这发现本身就有价值。但问题在于:1. 架构上基本是前作的“拼装车”(CosyEdit/CosyVoice2),核心创新集中在训练策略上,作为顶会工作,架构层面的新意略显不足。2. 对于“为什么编辑能提升TTS”这个最有趣的问题,解释停留在“现象观察+合理推测”层面,缺乏如注意力分析或探针实验等机制层面的深入挖掘,让人不够过瘾。3. GRPO仅用3000条数据训练,奖励函数里一堆超参数(k_w, α, k_m, δ, γ, λ等)的设定依据是“人耳听辨”,这既让人怀疑是否过拟合了这个小数据集,也降低了方法的可复现性和理论美感。总的来说,是一篇扎实的工程性工作,但理论深度和解释力上差点意思。 📌 核心摘要 针对监督微调(SFT)在语音编辑中存在的配对数据缺陷和优化目标粗粒度问题,本文提出CosyEdit2模型。该模型采用两阶段后训练框架:第一阶段通过SFT进行能力初始化;第二阶段提出编辑导向的组相对策略优化(GRPO),在无需人工构建目标语音的“无目标语音”数据上进行训练,奖励函数综合考虑了内容正确性、声学保留和说话人一致性。大量实验表明,CosyEdit2不仅在多项语音编辑基准上取得领先性能,还意外地显著提升了骨干模型的零样本语音合成能力,并且这种提升能跨语言迁移,揭示了语音编辑与合成任务在底层能力上的深刻联系。 🔗 开源详情 代码:论文中未提及代码仓库或开源计划。 模型权重:论文中未提及预训练模型或微调检查点的公开下载链接。 数据集: 训练数据: GigaEdit-S:论文中使用的250小时编辑数据集,未提供独立公开链接。 LibriTTS / LibriTTS-R:公开数据集。获取链接:https://www.openslr.org/60 , https://www.openslr.org/108 。 YODAS2:用于引入野外声学条件的YouTube语音数据集,未提供独立链接。 GigaSpeech-XL:用于构造GRPO提示的TTS语料。获取链接:https://github.com/speechcolab/gigaspeech 。 评估数据集: Ming-Freeform-Audio-Edit:语音编辑评估基准,未提供独立链接。 RealEdit:来自VoiceCraft的评估基准,未提供独立链接。 CV3-EVAL:来自CosyVoice3的评估套件,未提供独立链接。 SEED-TTS-EVAL:公开TTS评估基准。获取链接:https://github.com/bytedance/seed-tts-eval 。 VoiceBank-DEMAND:用于声码器重建实验。获取链接:https://datashare.ed.ac.uk/handle/10283/2791 。 Demo:音频样本主页:https://cjy1018.github.io/CosyEdit2 。 复现材料:论文附录详细提供了两阶段训练的超参数、优化设置、硬件信息(两块H800 GPU)和奖励函数设计细节,但未提供完整的训练脚本、配置文件或预训练检查点。 🏗️ 方法概述和架构 CosyEdit2的整体架构与训练流程如图1所示。 ...

2026-05-26 · 更新于 2026-06-19 · 2 min · 364 words