TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion

📄 TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion #语音转换 #扩散模型 #自监督学习 6.8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #自监督学习 | #扩散模型 | arxiv 👥 作者与机构 作者:Constantin Alexander Auga 机构:Hasso Plattner Institute / University of Potsdam, Potsdam, Germany 💡 毒舌点评 这篇工作挺扎实,属于“把已有好工具用对地方”的典范。用潜在扩散模型处理风格嵌入,而不是在声谱图上硬刚,这思路很聪明,直接避免了生成声谱图常见的相位撕裂问题,保住了语音自然度(WVMOS 3.25 vs. 2.56)。消融实验设计得很规矩,一步步把MLP换成扩散、再加说话人条件,证明了每一步都有收益。作者也很诚实地承认了自己方法在极端情绪(如极度愤怒或无聊)上的短板,因为没做时长预测,语速跟不上。但问题是,这论文的“新颖性”有点虚。说是“首次”在嘈杂环境SEC中用LDM,但本质上是把DreamVoice或PromptVC那套“文本驱动LDM生成风格”的框架,里的文本条件换成了情绪嵌入,再套上一个现成的SEC任务。这更像是工程上的适配和验证,理论或方法论上的突破有限。实验只做了客观指标,主观听感完全缺失,对于语音合成任务来说,这是个明显的评审漏洞。开源方面几乎为零,连复现的关键细节(如完整的损失权重、优化器设置)都没给,让“plug-and-play”打了折扣。 ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 319 words

Towards Event-Robust Acoustic Scene Classification

📄 Towards Event-Robust Acoustic Scene Classification #数据增强 #大语言模型 6.5/10 | 创新 1.0/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1.3/1 | 影响 1.0/1.5 | 开源 1.0/1.5 | 复现 0.8/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #数据增强 | #数据增强 | #大语言模型 | arxiv 👥 作者与机构 Yiqiang Cai, Bohan Hu, Yu Yang, Pengwei Lu, Shengchen Li, Xi Shao. 机构包括西安交通大学-利物浦大学、中电智恒信息技术服务有限公司、中国电信江苏分公司、南京邮电大学。 💡 毒舌点评 这篇论文本质上是一个“问题暴露器”而非“解决方案”。作者敏锐地指出了一个真实且重要的问题——未知前景声音事件对声学场景分类的破坏性影响,这很可贵。然而,他们构建了一个大型合成数据集(ESAS),然后把一堆现有模型“吊打”一番,最后两手一摊说“大家快来研究这个问题吧”。数据集构建工作扎实,评估实验也面面俱到,但论文的核心贡献停留在“诊断”层面,未能提供任何“治疗”方案。对于追求方法创新的顶会来说,这就像一位医生做了详尽的检查报告却没开出药方。预训练模型(BEATs, PaSST)的表现虽然最好,但这是它们的固有能力,而非本文的贡献。最让人皱眉的是,论文声称使用LLM进行“语义分组”,但具体如何保证语义相关性?这个“受约束的语义过滤器”到底有多强的约束力?文中描述得相当模糊。总体而言,这是一份高质量的“体检报告”,但患者(事件鲁棒ASC)的治疗方案依旧缺席。 📌 核心摘要 本文针对声学场景分类(ASC)系统在面对未知前景声音事件时鲁棒性不足的问题,提出了事件偏移声学场景(ESAS)数据集。该数据集以真实场景录音(CochlScene)为背景,通过大语言模型(GPT-4)指导的语义分组,将来自FSD50K的前景声音事件进行混合,构建了包含背景、已知事件和未知事件三类子集的评估基准。论文在多个从轻量级CNN到大规模预训练Transformer的SOTA模型上进行了全面评估。实验结果表明,现有ASC模型在处理包含未知事件的声学样本时,分类精度出现严重崩溃,暴露了当前表示学习范式在事件偏移条件下的根本性缺陷。ESAS数据集旨在推动未来对事件鲁棒ASC的研究。 🔗 开源详情 代码:https://github.com/bohanhu118/Interspeech2026_ESAS (提供ESAS数据集构建和部分评估的代码)。 模型权重:论文中未提供任何预训练模型(如BEATs, PaSST)的权重托管链接。所评估的模型依赖其各自原始论文的开源仓库。 数据集:ESAS数据集。论文声明数据集与代码一同在上述GitHub仓库中提供。 Demo:论文中未提及。 复现材料:论文提及在合成数据时保留了全面的元数据(JSON文件)以保障可复现性,但未提供完整的训练配置、检查点或详细的实验复现指南。 论文中引用的开源项目: FSD50K (数据集): https://zenodo.org/record/4060432 CochlScene (数据集): https://github.com/steffi0803/CochlScene BEATs (模型): https://github.com/microsoft/unilm/tree/master/beats PaSST (模型): https://github.com/koutini/pscnn-passt 🏗️ 方法概述和架构 本文的核心工作是构建并提出了一个专门用于评估ASC系统事件鲁棒性的新基准——ESAS数据集。其构建流程是一个多阶段的处理管道(详见论文图1),旨在模拟现实世界中声学场景与前景事件的复杂混合。 ...

2026-06-08 · 更新于 2026-06-16 · 1 min · 212 words

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

📄 Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation #语音合成 #多任务学习 #扩散模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.6/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #多任务学习 | #扩散模型 | arxiv 👥 作者与机构 作者:Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie 机构:1 Northwestern Polytechnical University, China; 2 Kuaishou Technology, China; 3 Beijing Institute of Technology, China; 4 Institute of Automation, Chinese Academy of Sciences, China; 5 University of Science and Technology of China, China; 6 Shanghai Jiao Tong University, China 邮箱:ziyu_zhang@mail.nwpu.edu.cn, lxie@nwpu.edu.cn ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 386 words

VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track

📄 VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track #集成学习 #音频事件检测 3.9/10 | 创新 1.2/2 | 严谨 0/1.5 | 实验 0.6/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.7/1.5 📝 3.9/10 | 前50% | #音频问答 | #集成学习 | #音频事件检测 | arxiv 👥 作者与机构 Wenming Tu, Xiang Hao, Jing Wang, Yixuan Peng, Bohan Li, Ziyang Ma, Tao Liu, Shuai Fan, Kai Yu, Zilong Zheng 上海交通大学计算机科学与工程学院 X-LANCE实验室,中国上海 AISpeech有限公司,中国苏州 中国科学院自动化研究所,中国北京 ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 415 words

VoxCPM2 Technical Report

📄 VoxCPM2 Technical Report #语音合成 #语音克隆 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.5/10 | 前50% | #语音合成 | #语音克隆 | #多语言 | arxiv 👥 作者与机构 核心贡献者:Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Jiancheng Gui, Jiaheng Wu, Ziyang Wang, Xudong Shen, Runchuan Ye, Zhisheng Zhang, Jiuyang Zhou, Bingsong Bai, Weiyue Sun, Mengyuan Deng, Qundong Shi, Zhiyong Wu, Zhiyuan Liu 其他贡献者:Biyuan Lin, Caixian Chen, Chao Jia, Chenzhe Jing, Daixi Zeng, Jiayi Zhang, Jie Zhou, Jilong Ma, Jie Sun, Ling Zheng, Minmin Fan, Siyuan Huang, Shuo Wang, Susu Bai, Wenxi Yang, YingJiao Wang, Yitong Wang, Zhen Luo, Zhizheng Yang, Zhong Zhuang 机构:清华大学深圳国际研究生院人机语音交互实验室(THUHCSI),清华大学自然语言处理实验室(THUNLP),ModelBest ...

2026-06-08 · 更新于 2026-06-16 · 5 min · 1038 words

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

📄 Watch, Remember, Reason: Human-View Video Understanding with MLLMs #多模态模型 #流式处理 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #流式处理 | arxiv 👥 作者与机构 作者:Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 机构:J. Meng, Y. Tan, Y. Tong 隶属于北京大学智能科学与技术学院;Q. Xu, L. Qi 隶属于武汉大学;K. Gao, Y. Li 隶属于上海交通大学;J. Li 隶属于南洋理工大学;H. Wang, W. Liu 隶属于中国科学院自动化研究所(CASIA);Q. Zhou 隶属于东京大学;G. Cheng 隶属于利物浦大学;J. Zhang 隶属于浙江大学;L. Kong 隶属于新加坡国立大学;M. Yang 隶属于加州大学默塞德分校。 ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 247 words

Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

📄 Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path #音频生成 #理论分析 8.7/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前25% | #音频生成 | #理论分析 | arxiv 👥 作者与机构 作者:Thomas Sesmat, Gabriel Meseguer-Brocal, Geoffroy Peeters 机构:论文正文未明确列出作者机构,但致谢部分提及工作由法国巴黎萨克雷电信学院提供计算资源支持。 💡 毒舌点评 这篇论文的工作,说好听点是“把显而易见的事情理论化”,说难听点就是“在噪声和数据之间的中间点发现了模型拟合训练数据残差”这一现象,并为其穿上了“钟形曲线”和“闭式解”的理论外衣。其核心创新点——那个看起来很美的闭式解\(\lambda_F^*\),被其赖以生存的“各向同性高斯”假设牢牢锁死在玩具模型的范畴。一旦遇到现实世界里稍有复杂度的潜在空间(如CelebA),这理论就哑火了,只剩下那个依然普适但不够“性感”的钟形曲线。作者试图用一个在特定假设下才成立的峰值预测来撑起理论贡献的门面,这多少有点“拿着放大镜找金矿”的嫌疑。至于那个作为“概念验证”的成员推理攻击(MIA),用了一个极其简单的MLP分类器,且在最具理论优势的MAESTRO数据集上取得了0.91的AUC,这固然不错,但论文对此攻击的实际威胁模型(白盒、需完整访问插值路径)避而不谈,使其现实意义大打折扣。最后,开源情况的含糊其辞(提到有代码但不提供链接)更是给这篇顶会水准论文的严谨性抹上了一层阴影。整体而言,这是一篇技术细节扎实但格局受限、理论贡献存在“硬伤”、应用价值被高估的论文。 📌 核心摘要 论文研究了Rectified Flow(RF)生成模型在训练过程中如何编码训练数据的成员身份信息(即“成员信号”)。通过分析定义RF训练的线性插值路径 \(X_\lambda = (1-\lambda)X_0 + \lambda X_1\),作者证明了训练集与测试集在重建误差上存在一个沿插值参数 \(\lambda\) 分布的“钟形”差异。该差异源于模型在特定 \(\lambda\) 处拟合了训练样本特有的残差。在数据噪声和分布均为各向同性高斯的假设下,论文推导出了该差异峰值位置 \(\lambda_F^*\) 的闭式表达式。作者在多个音频和图像数据集上实验验证了理论预测,并展示了将此钟形差异结构作为特征,构建成员推理攻击(MIA)的概念验证方法,其性能优于将扩散模型攻击方法适配到RF的基线方法。 ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 625 words

Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

📄 Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders #语音识别 #Whisper 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.9/10 | 前50% | #语音识别 | #Whisper | arxiv 👥 作者与机构 论文作者:Aparin, Popov, Sadekova, Yermekova (全名:Georgii Aparin, Vadim Popov, Tasnima Sadekova, Assel Yermekova)。 机构:1 AI Foundation and Algorithm Lab;2 National University of Science and Technology MISIS;3 National Research University Higher School of Economics。 ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 627 words

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-06-16 · 23 min · 4800 words

A Model of Multi-turn Human Persuadability Using Probabilistic Belief Tracing

📄 A Model of Multi-turn Human Persuadability Using Probabilistic Belief Tracing 8.2/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.2/10 | 前50% | arxiv 👥 作者与机构 Jared Moore, Noah Goodman, Nick Haber, Max Kleiman-Weiner 斯坦福大学,华盛顿大学 💡 毒舌点评 这篇论文试图将说服研究从“前后对比”的简单粗暴测量,升级到“逐轮信念追踪”的精细过程分析,想法是好的,甚至有点理想化。它贡献了一个实验平台和一套评估框架,并构建了一个基于贝叶斯网络(BN)的“模拟靶子”。然而,仔细审视其“证据链”,会发现几个关键环节略显脆弱,整体说服力打了折扣。首先,作为核心证据的“人类行为数据”样本量偏小(核心分析N=32或84),统计效力存疑,特别是对于得出普遍性结论而言。其次,方法的“客观性”高度依赖于LLM——修辞标注、BN结构生成和条件概率拟合均由LLM完成,却未充分报告其内部一致性或验证其“认知合理性”,这使得整个建模过程建立在了一个可能不稳固的“黑箱”基础上。再者,模拟器的评估虽设计了多个维度,但关键的“重放误差”实验仅在一个命题上进行,泛化能力存疑;而“LLM裁判”评估本身也陷入循环论证的风险。最后,论文声称将分析推向“过程级”,但发现的行为模式(如两种轨迹聚类)解释深度有限,与其宣称的“认知科学价值”尚有距离。总体而言,这是一个方法论上的有益尝试,框架设计有亮点,但支撑核心主张(尤其是BN模拟器的“真实性”与“优越性”)的实验证据链存在多个需要加固的薄弱点。 📌 核心摘要 本文针对当前LLM说服研究主要依赖“信念前后测”的局限,提出了一个名为PersuasionTrace的多轮说服过程研究框架。该框架包含一个实验平台,用于收集人类被试在多轮说服对话中的逐轮信念轨迹数据,并对说服论点进行修辞维度(logos/pathos/ethos)标注。基于收集的人类数据,作者构建了一个基于贝叶斯网络(BN)的“人类说服易感性”模拟器,该模拟器维护显式的潜在信念状态,并通过“原子化-贝叶斯更新-语言化”三步管道模拟信念动态。主要实验结论包括:1)人类信念更新轨迹呈现高变化与低变化两种聚类模式;2)人类对不同修辞策略的易感性存在差异;3)所提出的BN模拟器在“人类相似性”评估中接近人类参考基准,并在“天真说服”抵抗性、立场偏差等多个诊断性评估中优于未结构化的LLM基线模拟器。论文的核心贡献在于将说服效果的评估从端点变化推进到过程保真度,并开源了相关平台和数据。 🔗 开源详情 代码:https://github.com/jlcmoore/persuasiontrace 模型权重:未提及开源可下载的模型权重。论文中使用的大语言模型(如 gpt-5, gpt-4.1, gpt-5.1, gpt-5.4-mini, gemini-3-flash-preview 等)均通过其商业API进行调用。 数据集:DebateGPT 数据集 (https://huggingface.co/datasets/frasalvi/debategpt, 开源协议:CC-BY-SA 4.0)。此外,论文还使用了自生成和整理的信念节点图、修辞标注数据及人类信念轨迹数据,这些包含在代码仓库中。 Demo:https://converse.analogi.se 复现材料:论文在附录中提供了详细的人类实验队列定义(表1)、模拟器队列定义(表2)、贝叶斯网络信念图的构建过程(附录B.7.1)、完整的提示模板(附录C,图16-28)以及评估指标的计算公式(附录B.8-B.10)。所有数据和代码均包含在代码仓库中。 论文中引用的开源项目: DebateGPT 数据集:https://huggingface.co/datasets/frasalvi/debategpt (开源协议:CC-BY-SA 4.0) spectrum-llama-3.1-8b-v1 模型:https://huggingface.co/analogio/spectrum-llama-3.1-8b-v1 (开源协议:Llama 3.1 Community License) 🏗️ 方法概述和架构 PersuasionTrace是一个包含实验平台与计算模型的综合框架,旨在研究与模拟多轮说服过程中的信念动态。 ...

2026-06-05 · 更新于 2026-06-16 · 1 min · 204 words