Iclr-2026

ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析共分析 133 篇 ICLR 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音合成（10篇）音频生成（9篇）语音识别（9篇）基准测试（9篇）音乐生成（9篇）语音对话系统（8篇）音频分类（6篇）音频问答（6篇）语音情感识别（5篇）多模态模型（5篇）音视频（4篇）音频检索（4篇）语音分离（3篇）模型评估（2篇）语音翻译（2篇）音乐信息检索（2篇）生成模型（2篇）音乐理解（2篇）视频生成（2篇）跨模态生成（1篇）脑编码（1篇）模型可解释性（1篇）音视频深度伪造检测（1篇）图像生成（1篇）数据集（1篇）语音增强 #对抗样本（1篇）语音大模型（1篇）音频编辑（1篇）音视频事件检测（1篇）生态计算（1篇）视频描述生成（1篇）视频摘要（1篇）语音问答（1篇）基准测试 #数据集（1篇）音频安全（1篇）神经网络架构（1篇）语音转换 #语音匿名化（1篇）声源定位（1篇）序列解耦（1篇）空间音频（1篇）音频分离（1篇）机器人操作（1篇）动作生成（1篇）音频场景理解（1篇）跨模态检索（1篇）语音增强（1篇）多模态推理（1篇）语音合成评估（1篇）语音生成（1篇）生物声学（1篇）模型比较（1篇）音视频联合推理（1篇）语音识别 #语音合成（1篇） ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

A Brain-Inspired Gating Mechanism Unlocks Robust Computation in Spiking Neural Networks

📄 A Brain-Inspired Gating Mechanism Unlocks Robust Computation in Spiking Neural Networks #脉冲神经网络 #鲁棒性 #语音识别 #生物启发 #时序建模 ✅ 7.5/10 | 前25% | #语音识别 | #脉冲神经网络 | #鲁棒性 #生物启发学术质量 7.5/7 | 选题价值 7.6/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qianyi Bai（天津大学智能与计算学院/计算机科学与技术学院）通讯作者：Qiang Yu（天津大学智能与计算学院）作者列表：Qianyi Bai（天津大学智能与计算学院/计算机科学与技术学院）、Haiteng Wang（天津大学智能与计算学院/未来技术学院）、Qiang Yu（天津大学智能与计算学院） 💡 毒舌点评论文的亮点在于为脉冲神经网络（SNN）引入了一个有扎实神经生物学背景的门控机制（动态电导），并通过理论分析和丰富的语音/时序任务实验，有力地证明了该机制对提升网络鲁棒性的显著效果，实验数据翔实。短板则在于，虽然方法有生物学启发，但实验评估高度集中在语音/音频时序任务，对于其在更广泛的视觉、多模态任务中的通用性和优势验证不足；此外，动态电导的引入增加了计算开销，论文对能效优势的分析略显单薄。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的Ti46Alpha， TIDIGITS， SHD， SSC数据集，论文未提及额外发布数据。 Demo：未提及。复现材料：提供了详细的数学公式、伪代码（算法1）、网络架构描述、训练超参数（表5）和实验设置，复现指南较为充分。论文中引用的开源项目：未明确引用。 📌 核心摘要问题：现有的脉冲神经网络（SNN）由于神经元模型过于简化（如LIF），缺乏生物神经元中动态电导所体现的门控机制，导致其在应对噪声和时序变化时的鲁棒性不足。方法核心：论文提出了动态门控神经元（DGN）。其核心是引入了与神经元活动相关的突触电导动态调节机制（公式3-8）。该机制根据输入脉冲历史自适应地调整膜电位衰减速率，实现了一种生物启发的“门控”功能，可选择性地过滤输入信息并抑制噪声。创新点：与之前SNN中静态或工程化的门控（如GLIF）不同，DGN的门控源于动态电导这一生物学原理，在功能上与LSTM中的遗忘门和输入门有理论上的相似性。论文为该模型的噪声稳定性提供了基于随机微分方程的理论分析（公式13）。实验结果：在多个语音识别基准测试中，DGN模型（无论是前馈还是循环版本）均取得了优异性能。例如，在TIDIGITS数据集上，前馈DGN达到98.59% 准确率，循环DGN达到99.10% 的SOTA水平。在抗噪和抗攻击实验中，DGN显著优于LIF、ALIF等传统神经元及LSTM。例如在TIDIGITS加性噪声（p=0.006）下，前馈DGN准确率（95.34%）比LIF（46.83%）高出约48个百分点。实际意义：该工作为构建更鲁棒、更具生物合理性的SNN提供了新范式，有望提升神经形态芯片在嘈杂、非结构化环境（如边缘计算、语音交互）中的可靠性和适应性。主要局限性：验证主要集中在语音/音频时序分类任务上；DGN相比标准LIF神经元增加了可学习参数（C_i）和计算步骤，会提升模型复杂度和推理开销；论文未提供与更先进、更复杂的SNN架构（如基于Transformer的SNN）的直接对比。 🏗️ 模型架构论文的核心贡献是提出了一个新的神经元单元——动态门控神经元（DGN），并可将其组装成前馈或循环SNN。 ...

A cross-species neural foundation model for end-to-end speech decoding

📄 A cross-species neural foundation model for end-to-end speech decoding #语音识别 #自监督学习 #跨模态 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #跨模态 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Yizi Zhang（Columbia University）， Linyang He（Columbia University）（*表示共同第一作者）通讯作者：未明确说明（论文中提供了通讯邮箱，但未明确标注“Corresponding Author”）作者列表：Yizi Zhang（Columbia University）， Linyang He（Columbia University）， Chaofei Fan（Stanford University）， Tingkai Liu（Microsoft）， Han Yu（Columbia University）， Trung Le（University of Washington）， Jingyuan Li（Amazon）， Scott Linderman（Stanford University）， Lea Duncker（Columbia University）， Francis R Willett（Stanford University）， Nima Mesgarani（Columbia University）， Liam Paninski（Columbia University） 💡 毒舌点评这篇论文堪称BCI语音解码领域的“系统集成大师”，它巧妙地将跨物种预训练、Transformer编码器和音频LLM这几个当前最时髦的模块组装成一个性能SOTA的端到端框架，展现了强大的工程整合能力和扎实的实验功底。然而，其核心创新更多在于“组合”而非“发明”，且最终端到端性能仍未超越精心调优的级联系统，这或许暗示了“神经信号直接生成文本”这条路还有很长的坡要爬。 ...

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

📄 A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers #扩散模型 #图像生成 #多任务学习 #模型评估 #基准测试 🔥 8.5/10 | 前25% | #图像生成 | #扩散模型 | #多任务学习 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Trung X. Pham（韩国科学技术院，KAIST）通讯作者：Chang D. Yoo（韩国科学技术院，KAIST）作者列表：Trung X. Pham（KAIST）、Kang Zhang（KAIST）、Ji Woo Hong（KAIST）、Chang D. Yoo（KAIST） 💡 毒舌点评本文首次系统性地揭示了扩散Transformer条件嵌入中高达99%的角相似性和超过66%的维度冗余，这是一个反直觉且重要的发现，为模型压缩和条件机制设计指明了新方向。但遗憾的是，论文对“为何如此”的理论解释仍停留在假设阶段（如“训练动态导致稳定信号”），缺乏更深入的数学分析或机制性验证，使得这个精彩观察的理论深度打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文分析基于多个公开发布的预训练模型检查点（DiT， MDT， SiT， REPA， LightningDiT， MG， X-MDPT， MDSGen等），并指明使用其官方发布的XL/Large/B-Size模型。数据集：分析所用数据集为公开的ImageNet-1K， DeepFashion， VGGSound。 Demo：未提及。复现材料：论文提供了详细的实验设置（如生成5000个样本，使用特定评估代码），关键超参数（剪枝阈值τ），以及大量的附录图表，为复现分析提供了充分信息。论文中引用的开源项目：引用了被分析模型的官方代码仓库（如Peebles & Xie 2023对应DiT， Yu et al. 2025对应REPA等），以及评估工具（LightningDiT的评估代码）。 📌 核心摘要这篇论文旨在解决对Transformer基扩散模型中条件嵌入（conditional embedding）结构理解不足的问题。方法核心是对多个SOTA扩散Transformer（如DiT， REPA等）的条件向量进行系统分析，揭示其普遍存在的“语义瓶颈”现象。与已有方法相比，本文是首个聚焦于条件嵌入内部结构（而非模型架构或训练目标）的系统性研究。主要实验结果表明：在ImageNet-1K类条件任务中，不同类别的条件向量余弦相似度超过99%；在连续条件任务（如姿态引导图像生成）中，相似度超过99.9%。同时，语义信息集中在约1-2%的高幅度维度（“头部”），其余维度（“尾部”）贡献极小。即使剪枝掉多达66%的尾部维度，生成质量（FID）和语义一致性（CLIP）也能保持甚至略有提升。实际意义在于揭示了当前条件编码方案存在巨大冗余，为设计更高效、更轻量的条件注入机制（如稀疏条件、更紧凑的嵌入）提供了实证依据和设计启示。主要局限性是论文提出的解释（如“AdaLN放大头部维度”、“抑制尾部噪声”）主要是假设和定性分析，缺乏定量验证或理论证明。 ...

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #零样本 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pengjun Fang（香港科技大学）通讯作者：未明确说明。论文列出了多位作者及其单位，通常通讯作者会在投稿系统中标注，但此处文本未明确指出。根据作者列表顺序和惯例，可能为Qifeng Chen或Harry Yang，但为避免猜测，此处标记为“未说明”。作者列表： Pengjun Fang（香港科技大学） Yingqing He（香港科技大学） Yazhou Xing（香港科技大学） Qifeng Chen（香港科技大学） Ser-Nam Lim（中佛罗里达大学） Harry Yang（中佛罗里达大学） 💡 毒舌点评 AC-Foley的亮点在于用“听觉范例”替代“文字描述”来指挥AI配音，这巧妙绕过了语言在描述“微妙质感”时的无力感，并通过精心设计的两阶段训练确保了模型不是简单复读机。然而，其短板也明显：当视频或参考音本身涉及多重声源交叠或节奏极端错配时（比如用猫叫配急促打字），模型的协调能力就会捉襟见肘，暴露了其在处理复杂声景和时序冲突上的稚嫩。 🔗 开源详情代码：论文中未提及代码仓库链接。仅在伦理声明中提及未来将以Apache 2.0许可证发布模型。模型权重：未提及公开预训练权重。数据集：使用公开数据集（VGGSound, AudioCaps2.0, WavCaps），并说明了其许可证（见附录F）。 Demo：未提供在线演示链接。复现材料：提供了详尽的训练细节（优化器、学习率schedule、batch size、训练硬件与时间）、网络结构参数（隐藏维度、block数量），以及消融实验的设置，复现信息较为充分。引用的开源项目/模型：论文依赖并提及了以下开源工作：CLIP（视觉/文本编码器）、Synchformer（同步特征提取器）、BigVGAN（声码器）、ImageBind（多模态嵌入，用于数据筛选和评估）、AdamW（优化器）。 📌 核心摘要这篇论文（ICASSP 2026 / ICLR 2026）针对现有视频到音频（V2A）生成方法中依赖文本控制导致的语义粒度粗和描述模糊两大瓶颈，提出了AC-Foley，一种参考音频引导的视频到音频合成框架。其核心方法是直接将参考音频的声学特征作为条件信号，通过多模态Transformer和基于流匹配的生成模型，合成与视频同步且具有参考音频音色特性的声音。与已有方法相比，AC-Foley的新颖之处在于：1) 用音频直接控制，实现了细粒度音色迁移和零样本声音生成；2) 提出了包含重叠与非重叠条件的两阶段训练策略，解决了参考音频的时间适配与泛化问题。 ...

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #音频分离 #流匹配 #音视频 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：未说明（论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”）通讯作者：未说明作者列表：Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。（注：1指浙江大学，2指独立作者，具体实验室或部门未在文中提供） 💡 毒舌点评亮点：这是首个将流匹配范式成功引入视频引导声音分离的工作，并敏锐地指出了其与传统文本生成任务在“多条件生成”上的本质差异，为后续研究者提供了清晰的思路和新的挑战性基准。短板：模型架构（拼接+FFN Transformer）略显“直给”，缺乏更精巧的跨模态交互设计；虽然实验充分，但“流匹配”相对于“扩散模型”在本任务中的具体优势论证（如表7所示）并不构成压倒性差距，说服力有提升空间。 ...

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #心理声学 #信号处理 🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Will Schwarzer（马萨诸塞大学阿默斯特分校）通讯作者：Will Schwarzer（马萨诸塞大学阿默斯特分校）作者列表：Will Schwarzer（马萨诸塞大学阿默斯特分校）、Philip S. Thomas（马萨诸塞大学阿默斯特分校）、Andrea Fanelli（Dolby Laboratories）、Xiaoyu Liu（Meta） 💡 毒舌点评论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境（模拟过空传播）和严格心理声学掩蔽的实用化设定，这是一项重要且扎实的安全研究。然而，攻击的成功高度依赖于白盒梯度访问，且论文坦承通用对抗扰动和跨模型迁移基本无效，这限制了其直接展示的“威胁”的即时实用性，更像是一份详尽的系统性风险报告。 🔗 开源详情代码：提供公开代码仓库链接：https://github.com/willschwarzer/adv-dns-public。模型权重：论文研究的对象是四个已有公开检查点的开源DNS模型（Demucs/Denoiser, Full-SubNet+, FRCRN, MP-SENet），并详细列出了使用的具体版本和提交哈希（见附录G表4）。攻击本身是针对这些模型生成的，未提及公开攻击模型权重。数据集：使用来自ICASSP 2022 DNS Challenge 4公开数据集的音频（干净语音、噪声、RIR），并注明了引用和许可（CC-BY-4.0 for 数据， MIT for 代码）。 Demo：论文中未提及在线演示。但提供了指向攻击样本在线试听页面的链接（https://sites.google.com/view/adv-dns/），用于评估主观不可感知性和攻击效果。复现材料：提供了极其详尽的复现信息，包括：所有实验设置（SNR，混响，模型）、优化算法及超参数（Adam，学习率，梯度裁剪，迭代次数）、心理声学模型具体参数、STFT参数、人类研究协议、统计检验方法等。代码仓库应包含运行实验所需脚本。论文中引用的开源项目：OpenAI Whisper（用于ASR评估和过滤数据）、MP-SENet、Denoiser (Demucs)、FRCRN (ClearerVoice-Studio)、FullSubNet-Plus、MaskGCT（用于生成目标攻击语音）、DNS-Challenge数据集与代码、DNSMOS P.835、NISQA、ViSQOL。所有引用的项目及其版本、许可证在附录G的表4中详细列出。 📌 核心摘要问题：深度语音去噪（DNS）模型在安全关键应用（如助听器、应急通信）中广泛使用，但其对抗鲁棒性尚未被充分研究。论文旨在评估这些模型是否对精心设计的、人耳难以察觉的对抗噪声脆弱。方法：核心方法是提出一个基于心理声学掩蔽的对抗攻击框架。该框架通过计算掩蔽阈值（包括频率掩蔽和时域前后掩蔽）来约束扰动的功率谱密度，使其在原始语音信号中“隐藏”。优化采用投影梯度下降，损失函数为短时客观可懂度（STOI）。此外，框架通过维纳解卷积和梯度下降投影来模拟和应对扰动在房间脉冲响应（RIR）下的传播，以实现模拟过空攻击。创新：与已有工作（如使用简单p范数约束或未充分考虑感知掩蔽）相比，该工作的创新在于：a) 集成了增强的、包含时域掩蔽的心理声学模型，并引入偏移量调节掩蔽阈值，更好地平衡攻击成功率与不可感知性；b) 系统性地将攻击扩展到模拟真实声学环境（混响、不同背景噪声水平、过空传播）；c) 对多种开源DNS模型在不同设置下的鲁棒性进行了全面的机制分析，揭示了梯度流动（而非模型大小）是关键因素。主要实验结果：论文测试了Demucs, Full-SubNet+, FRCRN, MP-SENet四个模型。关键发现：a) 所有模型都能在人耳无法察觉的扰动下被驱动输出无意义语音（STOI提升从正值变为负值，见图1）；b) 攻击在从极干净（70dB SNR）到嘈杂、混响的环境下均成功；c) Full-SubNet+因梯度爆炸展现出一定“伪鲁棒性”，但此保护机制已知可被绕过；d) 人类研究（15名音频专家）证实攻击后的音频几乎无法转写，且扰动通常不可察觉；e) 模拟过空攻击对除Full-SubNet+外的模型同样有效（见图5）；f) 简单的高斯噪声防御仅能部分缓解，但攻击者可能自适应（见图4）。通用扰动和跨模型迁移效果有限。图1：在不同背景信噪比（SNR）和混响条件下，四个DNS模型在加入不可察觉的对抗扰动前后，其输出相对于干净语音的STOI变化（ΔSTOI）。攻击成功地将ΔSTOI从正值（增强）变为负值（劣化），表明模型输出变得比含噪输入更不可懂。 ...

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #基准测试 | #基准测试 | #模型评估 #音频大模型学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Li（论文中标注为共同第一作者，其机构为清华大学计算机系）通讯作者：Xinfeng Li（论文中标注为†，其机构为南洋理工大学）作者列表： Kai Li（清华大学计算机系， Institute for AI, BNRist） Can Shen（北京师范大学-香港浸会大学联合国际学院，BNBU） Yile Liu（早稻田大学，Waseda University） Jirui Han（独立研究者） Kelong Zheng（华中科技大学，HUST） Xuechao Zou（北京交通大学，BJTU） Lionel Z. Wang（未说明具体机构，作者列表归属南洋理工大学） Shun Zhang（清华大学） Xingjian Du（罗切斯特大学） Hanjun Luo（浙江大学） Yingbin Jin（香港理工大学） Xinxin Xing（独立研究者） Ziyang Ma（上海交通大学，及12号单位） Yue Liu（新加坡国立大学） Yifan Zhang（中国科学院，CAS） Junfeng Fang（新加坡国立大学） Kun Wang（南洋理工大学） Yibo Yan（香港科技大学（广州）） Gelei Deng（南洋理工大学） Haoyang Li（香港理工大学） Yiming Li（南洋理工大学） Xiaobin Zhuang（字节跳动） Tianlong Chen（北卡罗来纳大学教堂山分校） Qingsong Wen（松鼠AI学习） Tianwei Zhang（南洋理工大学） Yang Liu（南洋理工大学） Haibo Hu（香港理工大学） Zhizheng Wu（香港中文大学（深圳）） Xiaolin Hu（清华大学计算机系， Institute for AI, BNRist） Eng-Siong Chng（南洋理工大学） Wenyuan Xu（浙江大学） XiaoFeng Wang（南洋理工大学） Wei Dong（南洋理工大学） Xinfeng Li（南洋理工大学） 💡 毒舌点评本文最大的亮点在于其雄心和系统性：它是第一个为ALLM量身定做可信度评估框架的工作，直指音频模态引入的“非语义”攻击面，如情绪操纵、口音偏见和环境声伪造，这比单纯评估文本安全要深刻得多。然而，其短板也相当明显：作为一个“评估”工作，它严重依赖GPT-4o和Qwen3作为评估器，这本质上是用一个黑箱模型去评判另一个黑箱模型的可信度，其评估结果本身的“可信度”值得打个问号；此外，部分实验（如隐私推断）的自动化评估结果与常识或直觉可能存在偏差（如论文所示，所有模型在隐私推断上几乎全部失败），需要更深入的人类评估来验证。 ...

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音频大模型 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyue Tian (Hong Kong University of Science and Technology) 通讯作者：Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 作者列表：Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 💡 毒舌点评本文的亮点在于构建了一个工程上非常扎实的统一框架，其设计的多模态自适应融合模块（MAF）有效解决了不同模态信号干扰的问题，并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于，尽管实验全面，但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入，对于“任何东西”（如图像、草图等）的泛化能力论证不足，更像一个“文本/视频/音频到音频”的强统一模型。 ...

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #生成模型 #扩散模型 #动作单元 #大语言模型 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #动作单元 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiayi Lyu (中国科学院大学) 通讯作者：Jian Xue (中国科学院大学) 作者列表： Jiayi Lyu (中国科学院大学) Leigang Qu (National University of Singapore) Wenjing Zhang (中国科学院大学) Hanyu Jiang (中国科学院大学) Kai Liu (Zhejiang University) Zhenglin Zhou (Zhejiang University) Xiaobo Xia (National University of Singapore) Jian Xue (中国科学院大学) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评亮点在于首次尝试将大型音频语言模型（ALM）作为“情感理解-表情生成”的推理引擎，将模糊的语音情感线索解耦为结构化、可解释的动作单元（AU）序列，这一思路为跨模态生成任务提供了新颖的中间表示范式。短板则是第一阶段的AU预测精度完全依赖ALM的“想象”能力，其生成的AU序列可能并不完全忠于原始音频的真实口型运动，导致第二阶段生成时唇音同步性可能妥协，消融实验也表明其Sync得分略有下降。 ...