Posts

EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional Speech Synthesis

📄 EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional Speech Synthesis 6.5/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.6/1.5 ✅ 6.5/10 | 前50% | arxiv 👥 作者与机构作者：Minghui Wu (1,2), Ganjun Liu (1,2), Zikun Fang (1,3), Ting Meng (2), Hongchuan Wu (2), Bingao Xu (2), Yonglong Cai (2), Jiasheng Chen (3), Jun Du (1) 机构：1 University of Science and Technology of China, China; 2 iFLYTEK Research, China; 3 Huawei Technologies Co., Ltd., China 邮箱：mhwu@iflytek.com, gjliu4@iflytek.com, fangzk23@mail.ustc.edu.cn, tingmeng@iflytek.com, hcwu4@iflytek.com, baxu@iflytek.com, ylcai9@iflytek.com, chenjiasheng@huawei.com, jundu@ustc.edu.cn ...

ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era

📄 ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era #语音识别 #语音合成 #语音增强 #说话人识别 #语音翻译 #语音分离 #语音编码 #自监督学习 #数据增强 #参数高效微调 #迁移学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #语音合成 #语音增强 | arxiv 👥 作者与机构 Masao Someki (Carnegie Mellon University, Pittsburgh, USA) Alexander Polok (Brno University of Technology, Brno, Czechia) Carlos Carvalho (Instituto Superior Técnico, Lisbon, Portugal) Chyi-Jiunn Lin (Hanyang University, Seoul, South Korea) Da-Hee Yang (Hitachi Astemo, Tokyo, Japan) Jiatong Shi (Shanghai Jiao Tong University, Shanghai, China) Jinchuan Tian (Carnegie Mellon University, Pittsburgh, USA) Nelson Enrique Yalta Soplin (Carnegie Mellon University, Pittsburgh, USA) Samuele Cornell (Carnegie Mellon University, Pittsburgh, USA) Siddhant Arora (Carnegie Mellon University, Pittsburgh, USA) Francisco Teixeira (Instituto Superior Técnico, Lisbon, Portugal) Wei Wang (Shanghai Jiao Tong University, Shanghai, China) William Chen (Carnegie Mellon University, Pittsburgh, USA) Alberto Abad (Instituto Superior Técnico, Lisbon, Portugal) Chenda Li (Carnegie Mellon University, Pittsburgh, USA) Shinji Watanabe (Carnegie Mellon University, Pittsburgh, USA) Wangyou Zhang (Shanghai Jiao Tong University, Shanghai, China) ...

Explainable AI in Speaker Recognition -- Attention Map Visualisation and Evaluation

📄 Explainable AI in Speaker Recognition – Attention Map Visualisation and Evaluation 5.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.5/10 | 前50% | #说话人识别 | arxiv 👥 作者与机构论文作者：Yanze Xu， Mark D. Plumbley， Wenwu Wang。机构：Yanze Xu和Wenwu Wang隶属于英国萨里大学视觉、语音与信号处理中心。Mark D. Plumbley隶属于英国伦敦国王学院信息学系。通讯作者：Yanze Xu。 💡 毒舌点评这篇论文的工作就像给一幅模糊的画（注意力图）找到了一个更严谨的“鉴赏评分标准”（Modified RISE-eval）。它系统性地指出了前一个评分标准（RISE-eval）的两个漏洞：一是“插入”评分模式形同虚设，二是“强制评分到满分”导致后期用无关信息稀释了结果。这确实是扎实的算法改进工作。然而，论文的“应用演示”部分（对GradCAM和LayerCAM的比较）显得有些单薄和“自说自话”。仅在一个数据集、一个预训练模型上进行比较，得出的结论（GradCAM适合深层，LayerCAM适合浅层）的普适性存疑。更有趣的是，论文自己也发现了一个矛盾：修改后的算法评分显示浅层注意力图得分高，但视觉例子又暗示深层（尤其是GradCAM）的类别区分能力更强。作者将此归咎于“浅层注意力图更关注共振峰”，但这更像是一个有待验证的假设，而非确凿的解释，暴露了该评估指标可能存在的内在偏差。总体而言，这是一篇方法论驱动的论文，改进了一个工具，并用它做了一个初步的、案例式的应用研究。其最大价值在于提供了评估工具的改进思路，但声称的“发现”在当前证据下略显草率。 📌 核心摘要本文聚焦于可解释AI（XAI）中一个具体主题：分析和可视化神经网络的“注意力机制”，实验场景为说话人识别。论文首先指出，虽然类激活映射（CAM）等方法被广泛用于生成注意力图（即可视化网络关注的区域），但对这些注意力图质量的评估却鲜有深入研究。因此，本文系统回顾了一种现有的注意力图评估算法——RISE-eval，揭示了其两个核心缺陷：一是其“插入”策略导致不同注意力图的评估结果难以区分；二是评估过程会进行“过度掩码”，引入了与注意力图质量无关的随机噪声因素。基于此，本文提出了改进算法“Modified RISE-eval”，通过移除插入策略并引入阈值机制来避免过度掩码。随后，使用该改进算法，在VoxCeleb数据集上对预训练的ResNet34说话人识别网络，评估了GradCAM和LayerCAM两种方法在四个不同网络层上生成的注意力图。实验结果表明，GradCAM在使用最深层激活时生成的注意力图质量更高（对模型决策影响更大），而LayerCAM在使用较浅层激活时表现更优。 🔗 开源详情代码：论文使用的预训练说话人识别网络（ResNet34）代码仓库已提供：https://github.com/clovaai/voxceleb_trainer。作者提出的Modified RISE-eval算法的完整实现代码，论文中未提供开源链接。文中仅提及原始RISE-eval和部分相关实现的代码公开可用，但未给出具体链接。模型权重：预训练的ResNet34说话人识别模型权重，可从上述代码仓库（https://github.com/clovaai/voxceleb_trainer）获取。数据集：使用VoxCeleb1和VoxCeleb2数据集。论文未提供具体下载链接，通常需从VoxCeleb官方网站（https://www.robots.ox.ac.uk/~vgg/data/voxceleb/）申请获取。 Demo：论文中未提及。复现材料：论文在第V节“V Experimental Procedures and Setups”中详细描述了实验设置，包括激活层提取、梯度计算、掩码阈值 t=0.2 和采样比例列表（Rsamp = 2%, 4%, …, 50%），这为复现提供了必要信息。论文中引用的开源项目： GradCAM：论文中使用了该方法，但未提供其原始代码链接。通常可参考 https://github.com/ramprs/grad-cam。 LayerCAM：论文中使用了该方法，但未提供其原始代码链接。通常可参考 https://github.com/zhouzhiming0919/LayerCAM。 RISE：论文中详细评述了其评估变体RISE-eval，并提及Petisuk等人的代码公开可用，但未提供链接。 LIME, SHAP, CIU, LRP：论文在文献综述部分提及，未提供链接。 🏗️ 方法概述和架构本文的方法论框架分为两个核心部分：注意力图可视化方法（GradCAM和LayerCAM）与注意力图评估方法（Modified RISE-eval）。 ...

Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks

📄 Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks #生成对抗网络 #对抗样本 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #生成对抗网络 | #生成对抗网络 | #对抗样本 | arxiv 👥 作者与机构 Sameek Bhattacharya, Bharath Krishnamurthy, Ajita Rattani Dept. of Computer Science and Engineering, University of North Texas, Denton, Texas, USA 💡 毒舌点评论文核心idea很讨巧：把DAC这个音频领域的“瑞士军刀”（本来是做编解码的）拿来当攻击者的武器，利用其连续的潜空间来生成扰动。这确实比在高维波形上直接“硬碰硬”的迭代优化快了几个数量级，实验数据上速度优势明显。但作者的分析像是急着发新闻稿，深挖不足：为什么这个潜空间就特别适合生成对抗样本？是几何特性还是压缩带来的语义保真？没说清楚。实验只用了一个16kHz的DAC，泛化性存疑。更关键的是，对抗样本的“灵魂”——听不出来（感知质量）和能迁移（黑盒攻击）——完全没验证。论文给人感觉是“我们很快，而且成功率看起来不错”，但距离一篇扎实的、分析透彻的顶会论文还差得远，更像是一个有趣的工程验证。 ...

FlowTTS-GRPO: Online Reinforcement Learning with Multi-Objective Reward Optimization for Flow-Matching Based Text-to-Speech

📄 FlowTTS-GRPO: Online Reinforcement Learning with Multi-Objective Reward Optimization for Flow-Matching Based Text-to-Speech 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.2/10 | 前50% | arxiv 👥 作者与机构作者: Haoxu Wang, Biao Tian, Weiqing Li, Xiang Lv, Han Zhao, Xiangang Li 机构: 通义实验室，阿里巴巴集团 (Tongyi Lab, Alibaba Group, China) 💡 毒舌点评这篇工作定位清晰，实验做得很扎实，但本质上是“站在巨人肩膀上”的工程应用。将Flow-GRPO从图像、语音增强领域成功迁移到零样本TTS，验证了框架的通用性，这点值得肯定。奖励组合策略和消融实验的细节对后续研究者有实用价值。然而，核心方法（Flow-GRPO、窗口训练）均源自先前工作，创新性主要体现在“首次应用于TTS”这一应用场景和针对TTS的多目标优化分析上，理论贡献有限。没有开源代码是一个明显的短板，严重影响了结果的可复现性和论文的即时影响力。论文自称“简化了方法”，但实验表明其训练过程依然需要精细的超参调整（如噪声水平、窗口步长、奖励权重），并非即插即用。 📌 核心摘要本文提出了FlowTTS-GRPO，一个基于在线强化学习的Flow-Matching文本到语音框架。其核心思想是将确定性的ODE采样过程转换为随机的SDE路径，从而为GRPO算法提供必要的随机探索能力，实现对开源FM模型（CosyVoice 3.0和F5-TTS）的直接微调。该方法无需价值网络或偏好数据，通过组合说话人相似度、ASR准确率和感知质量（DNSMOS）的多目标奖励进行优化。实验表明，标准差归一化的加权奖励组合优于概率组合。三项实用优化被提出：训练时省略CFG加速收敛；使用文本增强的“难样本”训练提升鲁棒性；在LLM-FM混合架构中，对FM组件应用RL主要提升音频细节，对LLM应用RL主要提升可懂度。在Seed-TTS-Eval和CV3-Eval上的评估显示，该方法显著提升了说话人相似度和感知质量，其中F5-TTS的可懂度也得到改善。该方法使CosyVoice 3.0在中文测试集上的说话人相似度超越了闭源Seed-TTS，达到当前最佳水平。 ...

From Text Metrics to Model Internals: A Study of Whisper ASR Hallucination Detection

📄 From Text Metrics to Model Internals: A Study of Whisper ASR Hallucination Detection #语音识别 #大语言模型 7.5/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #大语言模型 | arxiv 👥 作者与机构 Jan Jasiński, Mateusz Barański, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk. Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland. ...

Gradient-Based Learning of Parametric Engine Sound Representations for Real-Time Resynthesis and Tuning on Embedded Systems

📄 Gradient-Based Learning of Parametric Engine Sound Representations for Real-Time Resynthesis and Tuning on Embedded Systems #参数高效微调 #正则化微调 7.8/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.8/10 | 前50% | #参数高效微调 | #参数高效微调 | #正则化微调 | arxiv 👥 作者与机构作者：Robin Doerfler, Matthieu Kuntz, Clemens Zimmer。机构：未在论文中明确提及。 💡 毒舌点评一篇典型的、完成度很高的工程应用论文。它解决了一个具体且重要的工业界痛点——如何让引擎声音的参数化建模既逼真又能在低算力硬件上实时跑起来。作者没有发明新的“轮子”，而是很聪明地把深度学习的预训练能力、可微分合成的优化便利性，以及传统DSP的部署需求拧成了一股绳。方法直接、有效，实验也围绕着核心目标（保真度、可调性、可部署性）来设计，结果令人信服。然而，从顶会审稿人的视角看，其科学创新性相对有限，更多是系统层面的巧妙整合与工程优化。核心贡献是“把学习到的参数直接映射回传统查找表”，这一思路虽然实用，但在方法论上的突破性不足。对于追求新范式或理论深度的读者，可能会觉得不够“性感”。 📌 核心摘要针对汽车声音设计中的引擎阶次增强任务，传统方法在分离谐波与噪声、处理RPM-扭矩二维参数歧义性上存在困难。本文提出“引擎阶次与噪声提取”（EONE）模型，通过端到端可微分的分析-合成框架，直接从音频数据学习引擎声音的紧凑参数化表示。该方法将声音建模为谐波阶次与ERB噪声带的合成，其振幅由独立的RPM增益曲线与扭矩增益曲线的逐元素乘积决定。模型分为两阶段训练：首先在大规模多引擎语料库上预训练一个音色编码-解码器，学习通用音色潜在表示；随后在目标引擎数据上冻结编码器，仅优化由解码器初始化的增益曲线参数。所学参数可直接导出为传统DSP框架使用的查找表，实现从训练到嵌入式系统部署的无损迁移。实验表明，该方法在27个测试样本上的平均对数谱距离为4.9 dB，感知测试显示其合成音频在真实感上显著优于传统纯谐波方法，且对于普通听众而言与真实录音无显著差异。 🔗 开源详情代码：论文中未提供代码链接。模型权重：论文中未提供。数据集：论文提及使用了“Procedural Engine Sounds Dataset [27]”进行预训练，但未提供该数据集的具体获取链接或开源协议。预训练所用的其他真实引擎录音语料未说明来源。 Demo：提供了在线音频样例页面 (https://rdoerfler.github.io/eone-model-page/)。复现材料：论文详细描述了训练过程、超参数和损失函数，但未提及是否会公开训练配置、检查点或附录。论文中引用的开源项目：引用了数据集[27]，但未提供其直接链接。其他引用为学术文献。 🏗️ 方法概述和架构本文提出的EONE模型是一个端到端的分析-合成系统，旨在学习可直接部署于嵌入式DSP的引擎声音参数化表示。其核心架构分为四个阶段，如图1所示： ...

HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems #语音识别 #数据集 #基准测试 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.4/10 | 前50% | #语音识别 | #数据集 | #基准测试 | arxiv 👥 作者与机构 Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland ...

How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures

📄 How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures #自监督学习 #迁移学习 9/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前50% | #自监督学习 | #自监督学习 | #迁移学习 | arxiv 👥 作者与机构作者：Abhijit Sinha, Hemant Kumar Kathania, Mohit Joshi, Harishankar Kumar, Shrikanth Narayanan, Sudarsana Reddy Kadiri。机构：印度锡金国立技术学院 (National Institute of Technology Sikkim)，美国南加州大学信号分析与解释实验室 (Signal Analysis and Interpretation Lab, University of Southern California)。 ...

Imitation Learning for Elder-Facing Speech Synthesis

📄 Imitation Learning for Elder-Facing Speech Synthesis #语音合成 #强化学习 #低资源 5.5/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.5/10 | 前50% | #语音合成 | #强化学习 | #低资源 | arxiv 👥 作者与机构作者：Dongrui Han, Weidong Chen, Jiawen Kang, Mingyu Cui, Helen Meng, Xixin Wu 机构：1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 Tencent Hunyuan, China ...