A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization

📄 A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization #语音匿名化 #说话人识别 7.1/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #语音匿名化 | #说话人识别 | arxiv 👥 作者与机构 作者: Orane Dufour (1), Paul Magron (1), Mickael Rouvier (2), Emmanuel Vincent (1)。机构: 1. Université de Lorraine, CNRS, Inria, LORIA, France; 2. LIA, Avignon University, France。邮箱: {orane.dufour, paul.magron, emmanuel.vincent}@inria.fr, mickael.rouvier@univ-avignon.fr。 ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 228 words

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) (注:机构详情未在论文正文中明确列出,脚注显示了项目资助信息) ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 359 words

Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 作者:Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构:1 Trinity College Dublin, Ireland;2 Imperial College London, UK 💡 毒舌点评 这篇论文根本不是在发明一个“更好”的AVSR模型,而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文,却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”,但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法(构建严格分布匹配的MV2LRS3集),得出了一个令人尴尬的结论:我们引以为傲的AVSR模型,在离开精心维护的LRS3温室后,表现得一塌糊涂。多模态融合不仅没帮忙,反而成了拖累。最讽刺的是,论文名为“评估真实泛化能力”,但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头,用来审视自己工作的实际意义,而不是仅仅在LRS3刷榜。 ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 480 words

Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference

📄 Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference #音频生成 6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #音频生成 | #音频生成 | arxiv 👥 作者与机构 第一作者:Jiahui Zhao;其他作者:Tianrui Wang, Chunyu Qiang, Cheng Gong, Xijuan Zeng, Feng Deng, Longbiao Wang。 机构:天津大学(1),快手科技(2)。 💡 毒舌点评 “创新”稍显保守:把参考音频拆成音色和节奏分别处理,这想法不算石破天惊。说“首次”或“新颖”有点过了,更像是工程上把已知的两个编码器(BEATs和Style Conditioner)合理地拼了一下。真正的挑战和创新点(如果有的话)在于这种拆分在生成任务上到底比“整体条件”好了多少,以及是否真的在“控制”。 实验“充分”但“不惊艳”:VGGSound数据集+MMAudio微调,标准操作。消融实验(表1)逻辑清晰,证明了各模块都有贡献。但和最SOTA的V2A方法比了吗?只和自家MMAudio的几个变体比,说服力打折。风格相似性提升显著(表2),但以牺牲多少生成多样性或引入多少伪影为代价?论文似乎回避了这个问题。 开源“态度”存疑:给个匿名demo链接,代码权重都不给。想复现?自己搭MMAudio环境再“微调”800步?这对社区共享和技术复现非常不友好。作为预印本可以理解,但降低其短期实际影响力。 局限性“轻描淡写”:作者自己提到了在人声上效果弱,归因于节奏编码器的训练偏差。但更根本的问题是:1)这种固定的“音色-节奏”二分法是否真的普适?2)“控制”的程度和边界在哪?能插值吗?能只改节奏不改音色吗?论文没有深入探讨。 部分结论“过度外推”:从“在VGGSound上改善风格相似性”直接跳到“使模型可控”,有点跳跃。这更像是在特定设定下的风格模仿,距离真正的、可交互的“控制”还有距离。标题中的“Controlling”略显激进。 📌 核心摘要 本文提出了AudioIM,一个用于视频到音频(V2A)生成、并能控制生成音频音色和节奏的属性感知框架。现有V2A方法通常将参考音频作为整体条件信号,难以实现对风格属性的细粒度控制。为此,AudioIM采用两项关键技术:1)掩码训练策略:在训练时部分遮蔽音频潜在表示,使模型学习在部分观测条件下进行流匹配推断,从而在推理时能利用提示音频的潜在特征提供细粒度风格信息。2)双风格编码器:使用基于BEATs的音色编码器和基于Style Conditioner的节奏编码器,分别从参考音频中提取音色和节奏特征,并通过全局和帧级条件注入生成骨干网络。在VGGSound数据集上的实验表明,AudioIM在保持语义对齐和时间同步性能的同时,显著提升了生成音频与参考音频的风格相似性(SS-MOS从基线3.22提升至4.06)。消融研究验证了各组件的有效性。论文指出该方法在非人声音效(特别是乐器声)上效果更显著,而对人声的风格控制较弱。 ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 552 words

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构 作者:Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构: ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 509 words

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

📄 Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models #语音合成 #强化学习 #参数高效微调 #多模态模型 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | #语音合成 | #强化学习 | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构 作者:Zhixian Zhao, Shuiyuan Wang, Wenjie Tian, Jingbin Hu, Ziyu Zhang, Lei Xie 机构:Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China ...

2026-06-08 · 更新于 2026-06-16 · 4 min · 691 words

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

📄 BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation #声源定位 #多任务学习 #语音增强 8.5/10 | 创新 8/2 | 严谨 7/1.5 | 实验 8/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 2/1.5 | 复现 8/0.5 | 工程 7/1.5 🔥 8.5/10 | 前25% | #声源定位 | #多任务学习 | #语音增强 | arxiv 👥 作者与机构 作者:Hanyu Meng, Eliathamby Ambikairajah, Vidhyasaharan Sethu, Qiquan Zhang, Haizhou Li 机构:1 The University of New South Wales, Sydney, Australia; 2 Tongyi Speech Lab, Alibaba Group, Hangzhou, China; 3 School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-08 · 更新于 2026-06-16 · 4 min · 741 words

Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition

📄 Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition #语音识别 #对比学习 #数据增强 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #对比学习 | #数据增强 | arxiv 👥 作者与机构 作者:Tung X. Nguyen, Hieu Minh Truong, Giang-Son Nguyen, Nhu Vo, Wray Buntine, Dung D. Le 机构:VinUniversity (越南), University of Technology Sydney (澳大利亚), Monash University (澳大利亚) ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 371 words

DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

📄 DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast #扩散模型 #对比学习 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.5/10 | 前25% | #扩散模型 | #对比学习 | arxiv 👥 作者与机构 Zhengkun Ge, Xiaoqian Liu, Haoran Zhang, Yuan Ge, Junxiang Zhang:School of Computer Science and Engineering, Northeastern University, Shenyang, China. Zhengtao Yu:Kunming University of Science and Technology. Jingbo Zhu, Tong Xiao:Northeastern University, Shenyang, China; NiuTrans Research, Shenyang, China. ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 530 words

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构 作者:Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。 机构:dots团队,小红书公司(Xiaohongshu Inc.),上海交通大学X-LANCE实验室。 ...

2026-06-08 · 更新于 2026-06-16 · 1 min · 188 words