论文速递 | 语音/音乐/音频论文速递

SwiftAudio: Data-Efficient Caption-Only Distillation for One-Step Text-to-Audio Diffusion-based Generation

📄 SwiftAudio: Data-Efficient Caption-Only Distillation for One-Step Text-to-Audio Diffusion-based Generation #知识蒸馏 #扩散模型 #生成模型 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #知识蒸馏 | #知识蒸馏 | #扩散模型 #生成模型 | arxiv 👥 作者与机构论文作者为Binh Mai, Tran Quoc Bao Le, Hung Dinh, Cong Tran，均隶属于越南邮电技术学院 (Posts and Telecommunications Institute of Technology, Hanoi, Vietnam)。通讯作者为Cong Tran (congtt@ptit.edu.vn)。 ...

SyncCache: Exploiting Asymmetric Dynamics for Fast Audio-Driven Portrait Animation

📄 SyncCache: Exploiting Asymmetric Dynamics for Fast Audio-Driven Portrait Animation #语音合成 #扩散模型 7.5/10 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构作者：Juncheng Ma, Yuxuan Du, Yanan Sun, Zhening Xing, Changlin Li, Zhenyu Tang, Bo Li, Peng-Tao Jiang, Li Yuan, Daquan Zhou, Yonghong Tian 机构：北京大学深圳研究生院，上海人工智能实验室，腾讯混元，vivo 💡 毒舌点评这工作方向挺实在，但读下来感觉“非对称性”这个点子虽然合理，可有点被过度包装了。说白了不就是知道人脸动背景不动，音频信号得一直算嘛？方法上，那个空间掩码探查和模态解耦的思路在同类工作里不算新鲜，亮点主要在于把缓存选择建模成动态规划，这算是个不错的工程优化。不过，论文自我标榜为“首个”针对DiT音频动画的缓存方法，这“首创性”的宣称值得商榷，毕竟核心思想（缓存稳定特征、跳过计算）在很多领域都有应用。实验上，在两个特定模型上刷点确实不错，但缺乏对不同掩码质量、不同音频复杂度的鲁棒性分析，结论显得有点过于乐观。最大的问题是，方法高度依赖预训练模型（HunyuanVideo-Avatar, Wan-S2V）的内部结构和现有掩码，通用性和可迁移性存疑。开源方面，只给了基础模型链接，自己的代码没放，这对顶会论文来说是扣分项。 📌 核心摘要本文提出SyncCache，一种针对基于扩散Transformer (DiT) 的音频驱动肖像动画的训练无关推理加速方法。核心思想是识别并利用任务固有的两种非对称性：空间上，高频动态（人脸、唇部）集中于前景，低频静态背景稳定；模态上，音频块轻量但控制高频同步信号，视觉DiT块计算密集。方法包含三个组件：1）空间非对称探测：利用人类掩码加权第一层输出的误差，对人脸区域变化更敏感，以决定何时刷新缓存；2）模态解耦缓存：在完整计算步骤中缓存视觉块间的稳定残差，在复用步骤中跳过视觉块计算但持续计算音频块；3）内存自适应最优选择：通过一个连续缓存比率σ控制缓存容量，并使用动态规划离线确定在给定σ下最优的缓存边界子集，以最小化残差的时间不稳定性，实现零在线开销的内存自适应。实验在两个主流模型和公开数据集上进行，结果表明SyncCache在大幅降低延迟（最高4.12倍加速）的同时，能保持甚至略微提升生成质量和唇形同步精度，显著优于现有缓存方法。 🔗 开源详情代码：论文未提供 SyncCache 自身实现代码的明确链接。模型权重：论文使用了两个开源模型进行评估，其权重可从官方仓库获取： HunyuanVideo-Avatar: https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar Wan-S2V: https://github.com/Wan-Video/Wan2.1 数据集：评估数据集为 EMTD Dataset。论文未提供该数据集的直接获取链接。根据描述，该数据集“主要由单人说话和半身人视频组成”。 Demo：论文未提及在线演示链接。复现材料：论文未提供详细的训练配置、检查点或完整附录。报告了关键实验设置（如使用8块A800 GPU、FlashAttention、FSDP配置、人类掩码权重\(\omega=2\)等）。论文中引用的开源项目：包括Diffusion Transformers (DiT)、HunyuanVideo、Wan2.1、FlashAttention、Hallo3、FantasyTalking、Hallo、OmniAvatar、EchoMimic、TeaCache、MagCache、TaylorSeer、HiCache、EasyCache、DeltaDiT、ClusCa、SpeCa、CGCache、FoRA、OmniCache等。 🏗️ 方法概述和架构 SyncCache的框架如图3所示，旨在通过解耦空间和模态的非对称动力学来加速基于DiT的音频驱动肖像动画推理。其核心流程可分为三个相互关联的组件： ...

Tone-Conditioned Curriculum Learning for Low-Resource Bantu Speech Recognition

📄 Tone-Conditioned Curriculum Learning for Low-Resource Bantu Speech Recognition #语音识别 #低资源 #课程学习 7.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.3/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #课程学习 | arxiv 👥 作者与机构 Kesego Mokgosi (d23126641@mytudublin.ie), Vukosi Marivate, Sitwala Mundia, Unarine Netshifhefhe, Tsholofelo Hope Mogale, Thapelo Sindane 1 Technological University Dublin, Ireland 2 Data Science for Social Impact, University of Pretoria, South Africa 3 Lelapa AI ...

UniSAE: Unified Speech Attribute Editing on Speaker, Emotion and Low-Level Content via Discrete Phonetic Posteriorgram Modelling

📄 UniSAE: Unified Speech Attribute Editing on Speaker, Emotion and Low-Level Content via Discrete Phonetic Posteriorgram Modelling #语音合成 #语音编辑 #扩散模型 #数据增强 7.3/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #数据增强 | #语音编辑 #扩散模型 | arxiv 👥 作者与机构第一作者 Chuanbo Zhu 与合作者 Wuyou Zhou, Rongxiu Zhong, Shilei Zhang, Kun Qian 来自上海交通大学。通讯作者 Yike Guo 与 Wei Xue 同样来自上海交通大学，并关联北京通用人工智能研究院（BigAI）。 ...

What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR

📄 What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR #语音识别 #自监督学习 #基准测试 #数据集 7.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #语音识别 | #自监督学习 | #基准测试 #数据集 | arxiv 👥 作者与机构作者：Hawau Olamide Toyin1, Srinivasan Umesh2, Hanan Aldarmaki1 机构：1MBZUAI, UAE; 2SPRING Lab, IIT Madras, India 电子邮件：{hawau.toyin,hanan.aldarmaki}@mbzuai.ac.ae 💡 毒舌点评这篇文章好比是给ASR领域做了一次“体检”，但它查出的不是病，而是一个长期被忽视的“诊断标准混乱”问题。作者没有发明什么新模型，而是像一个严谨的审计员，把11个现有模型放在两套不同的账本（意图转录 vs. 逐字转录）下重新算了一遍。结果很有意思：在“意图”账本下排名靠前的“优等生”，到了“逐字”账本下可能就泯然众人。这记耳光打得响亮，直接指向了当前评估实践的盲区——我们总在问“哪个模型最好？”，却忘了先问“‘好’的标准是什么？”。当然，审计报告也有局限：只审计了英语病房（FluencyBank）的病例，没去多语言社区医院（更多数据集）交叉验证；也没深入剖析“优等生”和“差生”的大脑构造（模型机制）到底有何不同。但作为一份“行业标准自查报告”，它的警示价值远大于技术花活。 ...

ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models

📄 ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models #音频分类 #提示学习 #参数高效微调 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #音频分类 | #提示学习 | #参数高效微调 | arxiv 👥 作者与机构作者：Asif Hanif, Mohammad Yaqub 机构：Mohamed Bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE 💡 毒舌点评这篇论文解决的是一个实际且重要的问题：提示学习在提升基类性能的同时，损害了音频语言模型对新类的零样本泛化能力。作者观察到的现象（如图1和表1所示）具有说服力，提出的ZEBRA方法作为一种“即插即用”的框架，思路直观且有效。其核心在于“锚定”预训练表示空间并抑制过拟合，这是合理的。 ...

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Agent-Computer Observation Interfaces Enable Dynamic Computer Use

📄 Agent-Computer Observation Interfaces Enable Dynamic Computer Use #语音识别 #基准测试 8.4/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前10% | #语音识别 | #基准测试 | arxiv 👥 作者与机构论文作者：Bojie Li, Noah Shi。机构：Pine AI, University of Washington（华盛顿大学）。 💡 毒舌点评这篇论文清晰地识别并切入了计算机使用代理（CU Agent）一个被长期忽视但至关重要的设计维度：观察接口。与SWE-agent在行动接口上的开创性工作相呼应，论文提出的AOI（代理-计算机观察接口）作为一个模型无关的“中间件”层，巧妙且系统地解决了现有CU代理在动态视觉和音频感知上的“盲聋”问题。其核心价值不在于训练新模型，而在于为现有模型赋能，这是一个工程上更务实、推广门槛更低的思路。然而，审稿人必须指出，论文的评估环境存在明显的“温室效应”。所有实验均在高度可控的Chromium浏览器和合成音频中进行，这与真实世界中充斥着原生应用、复杂音频环境（背景噪音、多人对话）、系统级弹窗和多显示器交互的桌面使用场景相去甚远。虽然作者承认了外部有效性的局限，但这一局限极大地削弱了其声称的“通用性”和“实用性”。此外，每个配置仅进行一次100任务试验，统计功效有限，尤其对于那些差异不大的组件间比较（如不同关键帧选择策略），结论的稳健性需要更多重复实验来支撑。最后，论文最深刻的洞察之一——“视觉叙述是价值核心，而关键帧图像本身重要性有限，甚至可能有害（如Gemini 3）”——虽然极具启发性，但也暴露了当前多模态模型在处理视觉信息时的脆弱性和低效性。AOI本质上是在“修补”模型感知层的缺陷，而非从根本上提升模型对动态世界的理解能力。这篇论文为社区贡献了一个优秀的工程解决方案和一个高质量的动态感知基准，但通往真正“动态计算机使用”的道路，仍然需要模型侧和接口侧的共同革新。 📌 核心摘要本文指出，当前的计算机使用代理（CU Agent）在观察接口上存在系统性缺陷：它们将观察与行动绑定（每3-5秒一张截图，无音频），导致在截图之间对动态视觉内容（视频、动画、通知）和音频（语音、提示音）完全“盲聋”。为此，作者提出了代理-计算机观察接口（AOI），一个模型无关的感知层。AOI通过三个门控组件解耦了连续、自适应的观察与离散的行动：1）自适应关键帧捕获（像素变化门控），2）音量门控音频转录（Whisper），3）CU模型生成的、作为持久文本记忆的视觉叙述。在静态无声内容上，AOI几乎无额外开销，保持了标准循环。作者同时提出了DynaCU-Bench，一个包含100个动态浏览器任务和50个静态对照任务的基准测试。在涵盖7B到前沿规模的多个闭源和开源CU模型上的实验表明，AOI在不进行任何模型重训的情况下，将所有模型在动态任务上的成功率提升了17至48个百分点。消融实验揭示了关键洞察：关键帧的选择策略不重要；视觉信息的主要价值来自将其转化为持久文本叙述的过程；AOI组件并非固定组合，其最优配置因模型而异（例如，在Gemini 3 Flash上，关键帧图像流会因图像令牌稀释而降低性能）。 🔗 开源详情代码：是，已开源。仓库地址：https://github.com/19PINE-AI/aoi （论文中明确给出）。模型权重：否。AOI是一个模型无关的感知层，用于包装和增强现有模型。论文评估的模型（Claude, GPT, Gemini, Grok, EvoCUA, Fara, Qwen3-VL）均来自其各自的官方或第三方渠道，非本文作者发布。数据集：是，已开源。论文引入了 DynaCU-Bench（100个动态浏览器任务 + 50个静态对照任务）作为评估基准。根据论文“我们发布AOI以及DynaCU-Bench”的表述，该数据集应随代码仓库一同开源。 Demo：是，提供了在线演示。地址：https://01.me/research/aoi （论文中明确给出）。复现材料：论文在附录I中提供了详细的实现细节，包括软件环境、硬件配置、超参数设置等。具体材料应包含在上述代码仓库中。论文中引用的开源项目： SWE-agent：https://github.com/princeton-nlp/SWE-agent （论文参考文献中引用）。 CLIP：OpenAI CLIP ViT-B/16 用于关键帧提取。 Whisper：OpenAI Whisper large-v3 用于语音转录。 EvoCUA：https://github.com/meituan/EvoCUA （论文中提及，Meituan发布）。 Agent S3：https://github.com/simular-ai/Agent-S （论文中提及，Simular AI发布）。 OpenCUA：https://github.com/xingyaoww/opencua （论文中提及，Wang et al.发布）。 NLWeb：https://github.com/microsoft/NLWeb （论文中提及，Microsoft发布）。 🏗️ 方法概述和架构 AOI是一个轻量级的Python层（约2600行代码），作为中间件插入在环境与任何现有的、基于图像的CU模型之间。其核心设计原则是解耦连续、自适应、多模态的观察与离散的行动。标准CU代理的观察空间S被限制为单一RGB帧（S = {一张截图}），且每个行动间隔（3-5秒）仅采样一次。AOI扩展了S，使其能够覆盖间隔期间发生的动态视觉变化和音频输入。 ...

AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification

📄 AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification #说话人识别 #多模态模型 #自监督学习 #数据增强 #语音识别 #计算机视觉 7.8/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.8/10 | 前25% | #说话人识别 | #自监督学习 | #多模态模型 #数据增强 | arxiv 👥 作者与机构论文作者为 Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, 和 Fei Huang。所有作者均隶属于 Honor Device Co., Ltd.，单位地点包括南京和上海。 ...

Child-Centric Voice Anonymization in Single and Multi-Speaker Speech via Domain-Adapted SSL Models

📄 Child-Centric Voice Anonymization in Single and Multi-Speaker Speech via Domain-Adapted SSL Models #语音匿名化 #自监督学习 7.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #语音匿名化 | #自监督学习 | arxiv 👥 作者与机构作者: Pranav Tushar (新加坡科技学院, 1), Xiao Xiao Miao (昆山杜克大学, 2), Rong Tong (新加坡科技学院, 1)。机构: 1 Singapore Institute of Technology, Singapore; 2 Duke Kunshan University, China。邮箱: tpranav2001@gmail.com, pranav.tushar@singaporetech.edu.sg, xiaoxiao.miao@dukekunshan.edu.cn, tong.rong@singaporetech.edu.sg。 💡 毒舌点评这篇论文做了一件正确且必要的事：把成人世界里玩得挺溜的语音匿名化技术，认真地适配到了常被忽视的儿童语音领域。思路清晰，实验也做得比较扎实，像个标准的好学生作业。但就像用一套精心设计的西装去改造一套儿童西装，虽然用了新的布料（领域自适应），但剪裁方法（SSL分解-替换-合成框架）本身并不新鲜。最大的亮点不是“发明了新衣服”，而是“证明了给孩子做衣服必须考虑孩子的身材”（儿童领域自适应的必要性），并且“试穿了不同场景”（多说话人）。然而，论文也坦诚地展示了当前工具的窘境——几乎所有评估工具都是给成人设计的，这使得论文报告的性能数字本身可能就带着“成人视角”的滤镜，是个需要读者自行脑补的局限。总体是一篇扎实、诚恳，但突破性有限的工作。 ...