生成模型 | 语音/音乐/音频论文速递

Do Joint Audio-Video Generation Models Understand Physics?

📄 Do Joint Audio-Video Generation Models Understand Physics? #基准测试 #模型评估 #音视频 #跨模态 #生成模型 ✅ 7.5/10 | #基准测试 #模型评估 | arxiv 👥 作者与机构第一作者：Zijun Cui (University of Texas at Dallas) 通讯作者：Yapeng Tian (University of Texas at Dallas) 作者列表：Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas) 💡 毒舌点评本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench，其场景演进分类法（稳态、事件转换、环境转换）和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而，其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架，未能充分触及模型是否真正理解物理因果链，而非仅仅学会了感知层面的统计关联。 ...

Audio-Visual Intelligence in Large Foundation Models

📄 Audio-Visual Intelligence in Large Foundation Models #多模态模型 #跨模态 #预训练 #生成模型 #音视频 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：You Qin（未说明）， Kai Liu（未说明）， Shengqiong Wu（未说明）， Kai Wang（未说明）， Shijian Deng（未说明）， Yapeng Tian（未说明）， Junbin Xiao（未说明）， Yazhou Xing（未说明）， Yinghao Ma（未说明）， Bobo Li（未说明）， Roger Zimmermann（未说明）， Lei Cui（未说明）， Furu Wei（未说明）， Jiebo Luo（未说明）， Hao Fei（未说明） 💡 毒舌点评这是一篇雄心勃勃的综述，旨在为快速发展的音视频智能领域建立一个以大型基础模型为核心的统一分类体系和全景图，其系统性整合工作价值显著。然而，作为一篇理论框架性的综述，它本质上是领域地图的绘制，而非对具体技术难题的攻坚，因此对于寻求具体技术实现或实验验证细节的读者，其直接指导意义有限。 ...

语音/音乐/音频论文速递 2026-05-09

语音/音乐/音频论文速递 2026-05-09 共分析 3 篇论文 ⚡ 今日概览 📥 抓取 3 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #跨模态 1篇 █ #音频生成 1篇 █ #移动代理 1篇 █ 📊 论文评分排行榜（3 篇，按分数降序）排名论文评分分档主任务 🥇 Audio-Visual Intelligence in Large Foundation Models 8.0分前25% #跨模态 🥈 PersonaGesture: Single-Reference Co-Speech Gesture Pers 7.0分前25% #音频生成 🥉 X-OmniClaw Technical Report: A Unified Mobile Agent for 6.5分前50% #移动代理 📋 论文列表 🥇 Audio-Visual Intelligence in Large Foundation Models 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv ...

RenCon 2025: Revival of the Expressive Performance Rendering Competition

📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition #音乐生成 #音乐信息检索 #模型评估 #生成模型 ✅ 7.0/10 | 前50% | #音乐生成 | #生成模型 | #音乐信息检索 #模型评估 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Huan Zhang (Queen Mary University of London, London, UK) 通讯作者：未说明（论文未明确标注通讯作者）作者列表：Huan Zhang (Queen Mary University of London), Taegyun Kwon (Korea Advanced Institute of Science and Technology, Daejeon, Korea), Anders Friberg (KTH Royal Institute of Technology, Stockholm, Sweden), Junyan Jiang (New York University, New York, USA), Hayeon Bang (Korea Advanced Institute of Science and Technology, Daejeon, South Korea), Hyeyoon Cho (Korea Advanced Institute of Science and Technology, Daejeon, South Korea), Gus Xia (Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE), Akira Maezawa (Yamaha Corporation, Hamamatsu, Japan), Simon Dixon (Queen Mary University of London), Dasaem Jeong (Sogang University, Seoul, South Korea) 💡 毒舌点评亮点在于论文成功复兴并系统化了停滞十余年的音乐表演渲染竞赛，其严谨的两阶段赛制、对人类基准的纳入以及对评估方法的深入分析（如性能蠕虫图），为该领域建立了极具价值的当代基准。短板是论文本质是竞赛报告而非方法论创新，虽然分析细致，但对于寻求新型生成算法或模型突破的读者而言，信息增量有限，更多是“测量”而非“发明”。 ...

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

📄 Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement #语音增强 #麦克风阵列 #波束成形 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音增强 | #麦克风阵列 | #波束成形 #生成模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Dongheon Lee (Meta Reality Labs Research 1, Korea Advanced Institute of Science and Technology (KAIST) 2) 通讯作者：Juan Azcarreta (Meta Reality Labs Research) 作者列表：Dongheon Lee (Meta Reality Labs Research 1, KAIST 2)、Ashutosh Pandey (Meta Reality Labs Research)、Sanjeel Parekh (Meta Reality Labs Research)、Daniel Wong (Meta Reality Labs Research)、Jacob Donley (Meta Reality Labs Research)、Buye Xu (Meta Reality Labs Research)、Juan Azcarreta (Meta Reality Labs Research) 💡 毒舌点评亮点：论文核心贡献非常聚焦，Spatial-Magnifier模型针对“空间上采样”这一特定任务进行了专门的架构设计（选择模块、DCA模块），而非简单套用现有语音增强网络；SARL框架提出的特征级条件化（SARL-F）是一种新颖且有效的思路，实验消融证明了其优越性。短板：方法整体依赖于预训练的MC-SE模型作为下游，其性能天花板受制于此；此外，论文虽然展示了在模拟数据和特定阵列上的优秀性能，但缺乏在真实世界设备和复杂噪声环境下的端到端验证，且未开源任何实现细节，限制了其直接影响力。 ...

Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning

📄 Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning #音乐信息检索 #强化学习 #生成模型 #模仿学习 ✅ 7.5/10 | 前25% | #音乐信息检索 | #强化学习 | #生成模型 #模仿学习 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（The Hong Kong University of Science and Technology）通讯作者：Xiaoyu Zhang（City University of Hong Kong）作者列表： Zijian Zhao（The Hong Kong University of Science and Technology） Dian Jin（The Hong Kong Polytechnic University） Zijing Zhou（The University of Hong Kong） Xiaoyu Zhang（City University of Hong Kong） 💡 毒舌点评亮点：论文巧妙地将复杂的多灯光控制问题拆解为“总体分布预测”和“分布到单灯的分解”两个阶段，后者通过创新的三阶段模仿学习（结合HER、AIRL、GRPO）在无专家演示的情况下实现，设计思路严谨且富有工程巧思。短板：所有验证仅在由8个点光源构成的简化模拟环境中进行，真实舞台灯光涉及灯具物理属性、空间布局、动态效果等多重复杂因素，模拟结果与实际应用之间可能存有显著鸿沟。 ...

MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech

📄 MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech #音频安全 #语音合成 #信号处理 #扩散模型 #生成模型 ✅ 7.0/10 | 前25% | #音频安全 | #信号处理 | #语音合成 #扩散模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Yutong Jin（Queen’s University, Department of Electrical and Computer Engineering）通讯作者：Qi Li（Queen’s University, Department of Electrical and Computer Engineering）作者列表：Yutong Jin（Queen’s University）、Qi Li（Queen’s University）、Lingshuang Liu（University of Waterloo）、Jianbing Ni（Queen’s University） 💡 毒舌点评亮点在于巧妙利用了Mel频谱图作为TTS流程的“公共接口”，在不改动扩散或GAN声码器的情况下实现了即插即用的水印嵌入，工程实用性强。短板是验证机制依赖于存储参考Mel谱，这在大规模、分布式部署场景下可能带来存储和管理挑战，且论文对实际部署环境下的攻击模型讨论略显不足。 ...

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #生成模型 #扩散模型 #动作单元 #大语言模型 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #动作单元 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiayi Lyu (中国科学院大学) 通讯作者：Jian Xue (中国科学院大学) 作者列表： Jiayi Lyu (中国科学院大学) Leigang Qu (National University of Singapore) Wenjing Zhang (中国科学院大学) Hanyu Jiang (中国科学院大学) Kai Liu (Zhejiang University) Zhenglin Zhou (Zhejiang University) Xiaobo Xia (National University of Singapore) Jian Xue (中国科学院大学) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评亮点在于首次尝试将大型音频语言模型（ALM）作为“情感理解-表情生成”的推理引擎，将模糊的语音情感线索解耦为结构化、可解释的动作单元（AU）序列，这一思路为跨模态生成任务提供了新颖的中间表示范式。短板则是第一阶段的AU预测精度完全依赖ALM的“想象”能力，其生成的AU序列可能并不完全忠于原始音频的真实口型运动，导致第二阶段生成时唇音同步性可能妥协，消融实验也表明其Sync得分略有下降。 ...

Confident and Adaptive Generative Speech Recognition via Risk Control

📄 Confident and Adaptive Generative Speech Recognition via Risk Control #语音识别 #大语言模型 #生成模型 #不确定性量化 ✅ 7.5/10 | 前25% | #语音识别 | #生成模型 | #大语言模型 #不确定性量化学术质量 6.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Amit Damri (特拉维夫大学电气与计算机工程学院) 通讯作者：Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 作者列表：Amit Damri (特拉维夫大学电气与计算机工程学院)、Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 💡 毒舌点评这篇论文把“先学习后测试”这一风险控制工具玩明白了，用在ASR纠错里动态调整假设集大小，理论上很优雅，也确实省了不少计算。但它的“自适应”更像一个聪明的调参模块，而非解决语音识别核心难题的“银弹”，实际部署可能还得先过数据集校准这一关，通用性有待观察。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/amitdamritau/adaptive-ger。模型权重：论文未提及公开模型权重。训练使用的是公开的LLaMA-2-7B/13B模型及LoRA微调，但未提供微调后的权重。数据集：使用了公开的HyPoradise基准数据集（TedLium-3， CHiME-4， CommonVoice）和FLEURS数据集，论文说明了数据获取方式和划分。 Demo：论文中未提及在线演示。复现材料：在附录C中提供了详细的LLM训练配置，包括超参数（学习率、batch size、LoRA设置）、提示模板、计算硬件要求。在附录A中提供了风险控制实现的详细算法和参数选择策略。提供了充分的复现信息。论文中引用的开源项目：Whisper (Radford et al., 2023)， LLaMA-2 (Touvron et al., 2023)， PEFT库 (Mangrulkar et al., 2022)， evaluate库， HyPoradise基准 (Chen et al., 2023)， RobustGER (Hu et al., 2024a)， GenTranslate (Hu et al., 2024b)。 📌 核心摘要要解决什么问题：现有的生成式语音识别纠错方法通常为所有输入使用固定数量的候选转录文本（N-best列表），这在简单输入上造成计算浪费，在复杂输入上可能引入低质量候选而降低纠错性能。同时，这些方法缺乏性能的理论保证。方法核心是什么：提出一个自适应框架，利用ASR模型的置信度分数，动态决定每个音频输入应传递给LLM纠错模型的最优候选假设数量。核心是采用“学习后测试”框架，将候选集大小选择建模为风险控制问题，以可控的方式最小化相对于最佳可能性能（oracle）的预期性能退化。与已有方法相比新在哪里：首次将无分布假设的风险控制理论（特别是LTT框架）应用于生成式ASR纠错。它从固定的N值选择转变为基于输入复杂度的自适应选择，并提供了预期性能退化有界的高概率理论保证。主要实验结果如何：在HyPoradise基准的三个数据集（TedLium-3， CHiME-4， CommonVoice）上验证。结果表明，该方法平均可将假设集大小减少23%至52%，同时保持或略微提升（相对WER变化在-0.13%至+2.28%之间）纠错性能。风险控制成功率（超过理论最小值1-δ）得到实证验证。关键结果对比如下表所示：测试集 GER基线 WER (%) 本文方法 Set Size 本文方法 WER (%) 相对大小减少相对WER变化 TedLium-3 7.53 2.3 7.52 54% -0.13% CHiME-4 6.24 2.7 6.37 46% +2.06% CommonVoice 8.32 1.9 8.51 62% +2.28% 实际意义是什么：为LLM增强的ASR纠错系统提供了一种高效且可靠的部署策略。通过动态分配计算资源（假设集大小），可以在不损害（甚至可能提升）识别质量的前提下，显著降低推理成本，对实时或资源受限的应用场景有价值。主要局限性是什么：框架的性能依赖于对分数归一化参数（γ， τ）的先验选择，虽然论文探索了基于熵的自动化选择和Pareto测试的多参数联合优化，但在完全未知的声学条件下部署仍需校准。此外，该方法优化的是假设集选择环节，其效果受限于底层ASR和LLM纠错模型的固有能力。 🏗️ 模型架构本文提出的不是一个端到端的新模型，而是一个插件式的自适应选择框架，它作用于现有“ASR -> N-best列表 -> LLM纠错”流程中的第二步。 ...

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #生成模型 #图像生成 #语音编码 #图像压缩 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）作者列表：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland） 💡 毒舌点评这篇论文精准地“修理”了向量量化在深度学习应用中那个著名的老毛病——梯度消失，提出的DiVeQ和SF-DiVeQ方法就像是给量化层装了一个“梯度导管”，既保持了推理时硬编码的离散性，又让训练信号能顺畅回流，实验部分更是“地毯式轰炸”，在多个任务和数据集上全面碾压了包括NSVQ、RT在内的现有花式方案。不足之处在于SF-DiVeQ的初始化有点“娇气”，需要先跑几个epoch“热身”，而且虽然解决了码本错位问题，但本质上仍是在“码本空间”内做文章，对于如何突破固定码本大小的表达能力瓶颈并未触及。 ...