生成模型 | 语音/音频论文速递

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

📄 Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement #语音增强 #麦克风阵列 #波束成形 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音增强 | #麦克风阵列 | #波束成形 #生成模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Dongheon Lee (Meta Reality Labs Research 1, Korea Advanced Institute of Science and Technology (KAIST) 2) 通讯作者：Juan Azcarreta (Meta Reality Labs Research) 作者列表：Dongheon Lee (Meta Reality Labs Research 1, KAIST 2)、Ashutosh Pandey (Meta Reality Labs Research)、Sanjeel Parekh (Meta Reality Labs Research)、Daniel Wong (Meta Reality Labs Research)、Jacob Donley (Meta Reality Labs Research)、Buye Xu (Meta Reality Labs Research)、Juan Azcarreta (Meta Reality Labs Research) 💡 毒舌点评亮点：论文核心贡献非常聚焦，Spatial-Magnifier模型针对“空间上采样”这一特定任务进行了专门的架构设计（选择模块、DCA模块），而非简单套用现有语音增强网络；SARL框架提出的特征级条件化（SARL-F）是一种新颖且有效的思路，实验消融证明了其优越性。短板：方法整体依赖于预训练的MC-SE模型作为下游，其性能天花板受制于此；此外，论文虽然展示了在模拟数据和特定阵列上的优秀性能，但缺乏在真实世界设备和复杂噪声环境下的端到端验证，且未开源任何实现细节，限制了其直接影响力。 ...

Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning

📄 Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning #音乐信息检索 #强化学习 #生成模型 #模仿学习 ✅ 7.5/10 | 前25% | #音乐信息检索 | #强化学习 | #生成模型 #模仿学习 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（The Hong Kong University of Science and Technology）通讯作者：Xiaoyu Zhang（City University of Hong Kong）作者列表： Zijian Zhao（The Hong Kong University of Science and Technology） Dian Jin（The Hong Kong Polytechnic University） Zijing Zhou（The University of Hong Kong） Xiaoyu Zhang（City University of Hong Kong） 💡 毒舌点评亮点：论文巧妙地将复杂的多灯光控制问题拆解为“总体分布预测”和“分布到单灯的分解”两个阶段，后者通过创新的三阶段模仿学习（结合HER、AIRL、GRPO）在无专家演示的情况下实现，设计思路严谨且富有工程巧思。短板：所有验证仅在由8个点光源构成的简化模拟环境中进行，真实舞台灯光涉及灯具物理属性、空间布局、动态效果等多重复杂因素，模拟结果与实际应用之间可能存有显著鸿沟。 ...

MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech

📄 MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech #音频安全 #语音合成 #信号处理 #扩散模型 #生成模型 ✅ 7.0/10 | 前25% | #音频安全 | #信号处理 | #语音合成 #扩散模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Yutong Jin（Queen’s University, Department of Electrical and Computer Engineering）通讯作者：Qi Li（Queen’s University, Department of Electrical and Computer Engineering）作者列表：Yutong Jin（Queen’s University）、Qi Li（Queen’s University）、Lingshuang Liu（University of Waterloo）、Jianbing Ni（Queen’s University） 💡 毒舌点评亮点在于巧妙利用了Mel频谱图作为TTS流程的“公共接口”，在不改动扩散或GAN声码器的情况下实现了即插即用的水印嵌入，工程实用性强。短板是验证机制依赖于存储参考Mel谱，这在大规模、分布式部署场景下可能带来存储和管理挑战，且论文对实际部署环境下的攻击模型讨论略显不足。 ...

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #生成模型 #扩散模型 #动作单元 #大语言模型 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #动作单元 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiayi Lyu (中国科学院大学) 通讯作者：Jian Xue (中国科学院大学) 作者列表： Jiayi Lyu (中国科学院大学) Leigang Qu (National University of Singapore) Wenjing Zhang (中国科学院大学) Hanyu Jiang (中国科学院大学) Kai Liu (Zhejiang University) Zhenglin Zhou (Zhejiang University) Xiaobo Xia (National University of Singapore) Jian Xue (中国科学院大学) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评亮点在于首次尝试将大型音频语言模型（ALM）作为“情感理解-表情生成”的推理引擎，将模糊的语音情感线索解耦为结构化、可解释的动作单元（AU）序列，这一思路为跨模态生成任务提供了新颖的中间表示范式。短板则是第一阶段的AU预测精度完全依赖ALM的“想象”能力，其生成的AU序列可能并不完全忠于原始音频的真实口型运动，导致第二阶段生成时唇音同步性可能妥协，消融实验也表明其Sync得分略有下降。 ...

Confident and Adaptive Generative Speech Recognition via Risk Control

📄 Confident and Adaptive Generative Speech Recognition via Risk Control #语音识别 #大语言模型 #生成模型 #不确定性量化 ✅ 7.5/10 | 前25% | #语音识别 | #生成模型 | #大语言模型 #不确定性量化学术质量 6.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Amit Damri (特拉维夫大学电气与计算机工程学院) 通讯作者：Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 作者列表：Amit Damri (特拉维夫大学电气与计算机工程学院)、Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 💡 毒舌点评这篇论文把“先学习后测试”这一风险控制工具玩明白了，用在ASR纠错里动态调整假设集大小，理论上很优雅，也确实省了不少计算。但它的“自适应”更像一个聪明的调参模块，而非解决语音识别核心难题的“银弹”，实际部署可能还得先过数据集校准这一关，通用性有待观察。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/amitdamritau/adaptive-ger。模型权重：论文未提及公开模型权重。训练使用的是公开的LLaMA-2-7B/13B模型及LoRA微调，但未提供微调后的权重。数据集：使用了公开的HyPoradise基准数据集（TedLium-3， CHiME-4， CommonVoice）和FLEURS数据集，论文说明了数据获取方式和划分。 Demo：论文中未提及在线演示。复现材料：在附录C中提供了详细的LLM训练配置，包括超参数（学习率、batch size、LoRA设置）、提示模板、计算硬件要求。在附录A中提供了风险控制实现的详细算法和参数选择策略。提供了充分的复现信息。论文中引用的开源项目：Whisper (Radford et al., 2023)， LLaMA-2 (Touvron et al., 2023)， PEFT库 (Mangrulkar et al., 2022)， evaluate库， HyPoradise基准 (Chen et al., 2023)， RobustGER (Hu et al., 2024a)， GenTranslate (Hu et al., 2024b)。 📌 核心摘要要解决什么问题：现有的生成式语音识别纠错方法通常为所有输入使用固定数量的候选转录文本（N-best列表），这在简单输入上造成计算浪费，在复杂输入上可能引入低质量候选而降低纠错性能。同时，这些方法缺乏性能的理论保证。方法核心是什么：提出一个自适应框架，利用ASR模型的置信度分数，动态决定每个音频输入应传递给LLM纠错模型的最优候选假设数量。核心是采用“学习后测试”框架，将候选集大小选择建模为风险控制问题，以可控的方式最小化相对于最佳可能性能（oracle）的预期性能退化。与已有方法相比新在哪里：首次将无分布假设的风险控制理论（特别是LTT框架）应用于生成式ASR纠错。它从固定的N值选择转变为基于输入复杂度的自适应选择，并提供了预期性能退化有界的高概率理论保证。主要实验结果如何：在HyPoradise基准的三个数据集（TedLium-3， CHiME-4， CommonVoice）上验证。结果表明，该方法平均可将假设集大小减少23%至52%，同时保持或略微提升（相对WER变化在-0.13%至+2.28%之间）纠错性能。风险控制成功率（超过理论最小值1-δ）得到实证验证。关键结果对比如下表所示：测试集 GER基线 WER (%) 本文方法 Set Size 本文方法 WER (%) 相对大小减少相对WER变化 TedLium-3 7.53 2.3 7.52 54% -0.13% CHiME-4 6.24 2.7 6.37 46% +2.06% CommonVoice 8.32 1.9 8.51 62% +2.28% 实际意义是什么：为LLM增强的ASR纠错系统提供了一种高效且可靠的部署策略。通过动态分配计算资源（假设集大小），可以在不损害（甚至可能提升）识别质量的前提下，显著降低推理成本，对实时或资源受限的应用场景有价值。主要局限性是什么：框架的性能依赖于对分数归一化参数（γ， τ）的先验选择，虽然论文探索了基于熵的自动化选择和Pareto测试的多参数联合优化，但在完全未知的声学条件下部署仍需校准。此外，该方法优化的是假设集选择环节，其效果受限于底层ASR和LLM纠错模型的固有能力。 🏗️ 模型架构本文提出的不是一个端到端的新模型，而是一个插件式的自适应选择框架，它作用于现有“ASR -> N-best列表 -> LLM纠错”流程中的第二步。 ...

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #生成模型 #图像生成 #语音编码 #图像压缩 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）作者列表：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland） 💡 毒舌点评这篇论文精准地“修理”了向量量化在深度学习应用中那个著名的老毛病——梯度消失，提出的DiVeQ和SF-DiVeQ方法就像是给量化层装了一个“梯度导管”，既保持了推理时硬编码的离散性，又让训练信号能顺畅回流，实验部分更是“地毯式轰炸”，在多个任务和数据集上全面碾压了包括NSVQ、RT在内的现有花式方案。不足之处在于SF-DiVeQ的初始化有点“娇气”，需要先跑几个epoch“热身”，而且虽然解决了码本错位问题，但本质上仍是在“码本空间”内做文章，对于如何突破固定码本大小的表达能力瓶颈并未触及。 ...

ICLR 2026 - 生成模型论文列表

ICLR 2026 - 生成模型共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 DiVeQ: Differentiable Vector Quantization Using the Reparame 8.0分前25% 🥈 AUHead: Realistic Emotional Talking Head Generation via Acti 7.5分前25% 📋 论文详情 🥇 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）作者列表：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland） 💡 毒舌点评 ...

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #音频生成 #多模态模型 #扩散模型 #自监督学习 #生成模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #多模态模型 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yasaman Haghighi（Ecole Polytechnique Fédérale de Lausanne (EPFL)）通讯作者：Alexandre Alahi（Ecole Polytechnique Fédérale de Lausanne (EPFL)）作者列表：Yasaman Haghighi（EPFL）、Bastien van Delft（EPFL）、Mariam Hassan（EPFL）、Alexandre Alahi（EPFL） 💡 毒舌点评这篇论文的亮点在于其极致的“自给自足”哲学——用模型自己最强的层当老师，去教最弱的层，完全抛开了笨重的外部模型（如DINOv2），这个想法既优雅又实用，在多个模态上都跑通了，训练加速效果非常惊人。但短板是，这种“强层指导弱层”的启发式规则选择（比如跳过最后20%的层）感觉有点“经验主义”，理论上的解释（良性循环）目前更多是一种假设，缺乏更深层次的数学证明或机理分析，让人忍不住想问：这种对齐会不会在后期“扼杀”特征多样性，或者让模型过早陷入某种次优的表示空间？ 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/vita-epfl/LayerSync.git。模型权重：论文中未提及公开预训练模型权重。数据集：使用的是公开数据集（ImageNet， MTG-Jamendo， HumanML3D， CLEVRER， MixKit），论文中未说明获取方式，但这些是常见公开数据集。 Demo：论文中未提及在线演示。复现材料：非常充分。论文附录（Section L, M）详细列出了所有实验的超参数设置（表18， 19）、训练硬件、采样器配置、评估指标细节等。算法伪代码（Algorithm 1）也在附录中给出。依赖的开源项目：主要依赖于SiT（Ma et al., 2024）作为基础模型架构，以及Stable Diffusion的VAE用于图像编码。 📌 核心摘要这篇论文旨在解决使用外部大型预训练模型（如视觉语言模型）来引导扩散模型中间层表示时所带来的计算开销大、数据依赖强、跨模态迁移难的问题。作者提出了一种名为LayerSync的自包含、即插即用的正则化方法。其核心思想是：扩散模型内部不同层学习的特征质量存在异质性，深层的特征语义更丰富。因此，可以利用模型自身的这些深层强特征作为“内在引导信号”，通过最大化浅层弱特征与深层强特征之间的相似度，来正则化和提升浅层特征的学习。与已有的外部引导方法（如REPA）相比，LayerSync完全不依赖额外的模型或数据，计算开销几乎为零；与同属自包含范畴的Dispersive Loss方法相比，它提供了更具方向性的学习信号。实验表明，LayerSync在图像生成任务上可将训练加速超过8.75倍（FID改善23.6%），并在音频、人类动作和视频生成任务上均一致提升了生成质量和训练效率。此外，该方法还改善了模型各层的内部表征质量。其局限性包括：关键的层选择策略依赖启发式规则，且“良性循环”的理论支撑有待加强。 ...

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音视频 #扩散模型 #流匹配 #跨模态 #生成模型 🔥 8.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #跨模态学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song (延世大学人工智能系， CineLingo) 通讯作者：Jibin Song (邮箱：sjbpsh1@yonsei.ac.kr， jibinsong@cinelingo-labs.com) 作者列表：Jibin Song (延世大学， CineLingo)、Mingi Kwon (延世大学， CineLingo)、Jaeseok Jeong (延世大学， CineLingo)、Youngjung Uh (延世大学， CineLingo) 💡 毒舌点评亮点：本文没有空谈同步的重要性，而是针对“MSE损失对动态区域监督不足”和“条件引导策略”这两个关键痛点，分别提出了动作感知损失（Loss层面）和音频同步引导（推理层面）的成套解决方案，并辅以新的评估指标CycleSync，形成了一个完整、闭环的技术方案，实验也证明了有效性。短板：新提出的CycleSync指标本质上是“视频->音频->对比”的循环测试，其准确性严重依赖于所使用的预训练V2A模型的保真度和泛化能力，这给评估引入了一个不透明的、外部的“黑箱”偏差，使得绝对分数的解读需要更加谨慎。 🔗 开源详情代码：论文明确承诺将发布代码，但文中未提供具体的GitHub或其他代码仓库链接。模型权重：论文明确承诺将发布训练好的模型，但未提供具体链接。数据集：使用的是公开数据集AVSync15和TheGreatestHits，论文中未提及是否发布新的数据集。 Demo：论文未提及提供在线演示。复现材料：提供了详细的实现细节，包括模型架构选择、损失函数公式、训练硬件、训练步数、关键超参数（如λ, w, δ, 批大小虽未明确但其他信息详尽），以及用户研究设置。这些信息充足，具备较高的可复现性。论文中引用的开源项目：视频生成骨干：Pyramid Flow (Jin et al., 2024a) 音频编码器：DenseAV (Hamilton et al., 2024) 文本编码器：CLIP (Radford et al., 2021) V2A模型（用于CycleSync评估）：V-AURA (Viertola et al., 2025) 其他对比基线：TempoTokens (Yariv et al., 2023), AVSyncD (Zhang et al., 2024) 📌 核心摘要本文致力于解决音频到视频（A2V）生成中，现有模型难以实现音频与视频运动之间精细时间同步的问题。论文提出了Syncphony，一个基于预训练扩散Transformer（DiT）骨干的生成框架。其方法核心是在DiT架构的后期层中引入音频交叉注意力，并通过两个关键技术提升同步性能：1) 动作感知损失，在训练时对高运动区域施加更大的损失权重，引导模型更关注与音频事件因果相关的运动；2) 音频同步引导，在推理时通过一个禁用了音频层的“异步模型”来引导完整模型，放大音频信号对运动的影响而不损害视觉质量。与已有的间接映射（如调制注意力权重、投影到文本空间）或从零构建时序层的方法不同，本文直接、精细地注入音频特征，并利用强大的预训练视频骨干保证生成质量。为评估同步性，论文还提出了新指标CycleSync，通过视频重建音频来间接衡量生成视频是否保留了原始音频的时序结构。在AVSync15和TheGreatestHits数据集上的实验表明，Syncphony在同步准确性（CycleSync得分更高）和视觉质量（FVD/FID更低）上均优于现有方法。该工作的实际意义在于为高质量、高同步性的视频生成提供了有效方案，但其局限性包括：动作感知损失的权重基于真值运动幅度，未显式区分音频相关与无关运动；CycleSync指标的可靠性受底层V2A模型影响；生成的视频分辨率（380×640）和时长（5秒）仍有提升空间。 ...

Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation

📄 Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation #声源定位 #数据增强 #生成模型 #空间音频 🔥 8.5/10 | 前25% | #声源定位 | #数据增强 | #生成模型 #空间音频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Anton Ratnarajah（论文中未提及机构）通讯作者：未说明作者列表：Anton Ratnarajah（未说明）、Mehmet Ergezer（未说明）、Arun Nair（未说明）、Mrudula Athi（未说明） 💡 毒舌点评亮点在于将生成式RIR合成与严格的质量过滤流程工程化，成功地将距离估计的MAE降低了一个数量级（约60%），证明了在有限真实数据下，高质量的合成数据可以极大提升下游任务性能。短板在于其核心的距离估计模型本身是现成的（论文[2]），创新边界止于如何更有效地“喂”数据给现有模型，且对小于1米的近场估计能力明显不足，显示了生成模型在极端条件下的局限性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及数据集的具体获取链接或开源协议。文中提及了GWA、Treble、C4DM和VCTK等数据集名称。 Demo：论文中未提及。复现材料：论文中未提及具体的训练配置、检查点或附录材料链接。论文中引用的开源项目： FastRIR（快速漫射房间脉冲响应生成器）：论文中提及为开源项目，但未提供具体链接。其常见代码仓库地址为：https://github.com/RoyChao19477/Fast-RIR。 MESH2IR：论文中提及并引用了相关文献[4, 3]，但未提供具体链接。其常见代码仓库地址为：https://github.com/sp-uhh/mesh2ir。注：以上两个开源项目的链接基于其广泛认知的代码仓库，论文原文仅在引用部分提及名称与参考文献编号。补充信息 [核心摘要/论文自我声明的局限性] 补充：论文在误差分析部分明确指出，模型在距离大于1米时保持一致的性能，误差通常在0.5米左右。这是一个重要的性能基线，已有分析未具体提及。 [模型架构/创新点] 补充：在修改FastRIR架构时，论文明确采用了MESH2IR [4, 3] 中提出的RIR表示方案，其目的是确保在不同源-接收距离下RIR的能量分布保持一致。这是实现“位置专用条件生成”的关键技术细节之一，已有分析仅提及名称但未强调其目的。 [论文自我声明的局限性] 补充：论文对近距离（<1米）误差增大的原因进行了更具体的归因分析：1）生成模型在该近距离范围内的训练示例有限；2）非常近距离的声学现象具有独特性，若无专门训练数据则难以建模。这比已有分析中仅指出“样本不足”更为具体。 📌 核心摘要解决的问题：在房间声学和说话人距离估计（SDE）任务中，真实测量的房间脉冲响应（RIR）数据稀疏且昂贵，限制了SDE模型的性能，尤其是在中远距离。方法核心：采用一个修改的生成式RIR模型（基于FastRIR），该模型仅以说话人和听者的位置为条件进行训练，以生成大量合成RIR数据。随后，设计了一个严格的质量过滤流程（基于T60、DRR等声学指标），筛选出与真实数据分布一致的高质量合成RIR，用于微调现有的SDE模型。创新之处：与简单使用现成RIR生成器相比，本文创新在于：a) 专注于位置条件的生成模型改造；b) 建立了明确的、基于声学物理指标的质量过滤标准；c) 针对GWA和Treble两种不同模拟特性的数据集分别进行微调，以提升领域适应性。主要实验结果：使用约26万条过滤后的合成RIR进行微调后，SDE模型的平均绝对误差（MAE）显著降低。对于GWA测试房间，MAE从基线的1.66m降至0.6m；对于Treble测试房间，从2.18m降至0.69m。消融实验表明，针对特定数据集微调的专用模型能进一步获得5%-10%的MAE提升。具体结果见下表及图2。数据集基线模型 MAE (m) 本文模型 MAE (m) GWA Rooms (11-20) 1.66 0.6 Treble Rooms (1-10) 2.18 0.69 图2展示了模型在所有测试房间（顶行）、Treble房间（中行）和GWA房间（底行）上的性能。左列是真实距离分布，中列是预测距离分布，右列是预测与真实距离的散点图。结果显示预测值与真实值高度相关，尤其在GWA房间上表现更佳（MAE 0.6m，相关系数更高）。 ...