Iclr-2026

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #音频生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mason Long Wang (MIT CSAIL) 通讯作者：未说明作者列表：Mason Long Wang (MIT CSAIL), Cheng-Zhi Anna Huang (MIT CSAIL) 💡 毒舌点评亮点在于，它提出了一个优雅且系统性的框架，将傅里叶分析引入生成模型的潜空间，为音乐生成提供了一个全新的、连续的“时间尺度”控制轴，概念上比现有的离散层次控制（如RVQ层）更直观。短板是，虽然实验在MTG-Jamendo等数据集上表现优异，但音乐生成模型的通用评估依然困难，且用户研究规模有限（29人），对“音乐连贯性”等主观感受的量化仍具挑战。 🔗 开源详情代码：论文中提供了公开的代码仓库链接（https://github.com/maswang32/latentfouriertransform/）。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：主要使用公开数据集MTG-Jamendo、GTZAN、Maestro，论文未提供其私有处理版本。 Demo：论文中提到提供在线音频演示（https://masonlwang.com/latentfouriertransform/）。复现材料：论文附录（Appendix A）提供了极其详细的实验设置信息，包括：各版本编码器（MLP, U-Net, DAC）的具体架构和超参数、解码器（扩散模型）架构、训练细节（优化器、学习率、batch size、迭代次数、warmup、EMA等）、其他超参数（掩码生成参数、扩散参数）、数据集说明、实验具体设置（频率带划分、用户研究细节）、隔离实验和可解释性实验的方法。这些信息足以支持复现。论文中引用的开源项目：BigVGAN（声码器）、DAC（音频编码器）、Essentia、Librosa、VGGish等。 📌 核心摘要要解决什么问题：现有基于粗到细生成范式的音乐生成模型（如扩散模型、自回归模型）难以对生成过程进行中、小尺度特征的精细控制。用户通常只能控制全局属性（如文本描述）或特定语义属性（如音高、响亮），无法直接指定并控制音乐中不同时间尺度（如和弦进行、颤音）的模式。方法核心是什么：论文提出了“潜空间傅里叶变换”（LATENTFT）框架。它使用一个扩散自编码器将音频编码为潜向量时间序列，并对该序列进行离散傅里叶变换（DFT），得到“潜频谱”。在训练时，对潜频谱进行随机掩码（保持频带相关性和对数频率轴），然后用掩码后的潜序列作为条件，训练扩散解码器重构音频。与已有方法相比新在哪里：控制维度新：首次在生成模型中引入对“潜空间频率”（对应音乐模式的时间尺度）的直接、连续控制，类似于音频均衡器（EQ）在音色上的作用，但作用对象是音乐结构。训练策略新：核心创新在于训练时的潜频域掩码策略。通过在训练中随机遮蔽潜频谱的不同频段，使模型学会从部分频谱信息中恢复完整音乐，从而支持推理时用户指定的、针对特定时间尺度的控制。任务定义新：将音乐生成/融合任务从属性条件或简单特征混合，提升到了基于时间尺度的、可解释的条件混合。主要实验结果如何：论文在条件生成和融合两个任务上，与多种基线（掩码Token模型、引导梯度、ILVR、DAC/RAVE后处理、频谱图滤波、交叉合成）进行了对比。在MTG-Jamendo数据集上的关键结果如下表所示，LATENTFT在各项指标上均显著优于基线，尤其是在音频质量（FAD）和条件遵循（如响度、节奏相关性）方面。方法条件生成 FAD ↓ 条件生成节奏相似度 ↑ 融合 FAD ↓ 融合节奏相似度 ↑ LATENTFT-MLP 0.337 0.963 1.387 0.873 LATENTFT-UNet 0.348 0.966 1.357 0.878 ILVR 1.537 0.839 2.696 0.858 Guidance 1.061 0.813 1.466 0.832 DAC 7.016 0.838 6.257 0.792 （表1：MTG-Jamendo测试集上的条件生成与融合结果） ...

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音识别 #语音合成 #语音大模型 #预训练 #自回归模型 ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成学术质量 7.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing )，工作于 Meta 期间完成。通讯作者：Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表： Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs )，工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评亮点在于精准识别了语音-文本模型因序列长度悬殊导致的“计算不公平”问题，并借鉴了文本领域的字节级Transformer思想，设计出一套从静态、对齐到课程学习的渐进式语音分块方案，有效提升了模型效率和跨模态性能。短板是部分最有效方案（如对齐分块）在推理时仍依赖外部对齐模型（Wav2Vec2+CTC），课程学习虽缓解了此问题，但完全无对齐依赖的端到端训练方案更具吸引力；此外，论文聚焦于预训练和补全任务，对更复杂的生成、理解或实时对话任务的探索尚待深入。 ...

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #音频生成 #多模态模型 #扩散模型 #自监督学习 #生成模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #多模态模型 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yasaman Haghighi（Ecole Polytechnique Fédérale de Lausanne (EPFL)）通讯作者：Alexandre Alahi（Ecole Polytechnique Fédérale de Lausanne (EPFL)）作者列表：Yasaman Haghighi（EPFL）、Bastien van Delft（EPFL）、Mariam Hassan（EPFL）、Alexandre Alahi（EPFL） 💡 毒舌点评这篇论文的亮点在于其极致的“自给自足”哲学——用模型自己最强的层当老师，去教最弱的层，完全抛开了笨重的外部模型（如DINOv2），这个想法既优雅又实用，在多个模态上都跑通了，训练加速效果非常惊人。但短板是，这种“强层指导弱层”的启发式规则选择（比如跳过最后20%的层）感觉有点“经验主义”，理论上的解释（良性循环）目前更多是一种假设，缺乏更深层次的数学证明或机理分析，让人忍不住想问：这种对齐会不会在后期“扼杀”特征多样性，或者让模型过早陷入某种次优的表示空间？ 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/vita-epfl/LayerSync.git。模型权重：论文中未提及公开预训练模型权重。数据集：使用的是公开数据集（ImageNet， MTG-Jamendo， HumanML3D， CLEVRER， MixKit），论文中未说明获取方式，但这些是常见公开数据集。 Demo：论文中未提及在线演示。复现材料：非常充分。论文附录（Section L, M）详细列出了所有实验的超参数设置（表18， 19）、训练硬件、采样器配置、评估指标细节等。算法伪代码（Algorithm 1）也在附录中给出。依赖的开源项目：主要依赖于SiT（Ma et al., 2024）作为基础模型架构，以及Stable Diffusion的VAE用于图像编码。 📌 核心摘要这篇论文旨在解决使用外部大型预训练模型（如视觉语言模型）来引导扩散模型中间层表示时所带来的计算开销大、数据依赖强、跨模态迁移难的问题。作者提出了一种名为LayerSync的自包含、即插即用的正则化方法。其核心思想是：扩散模型内部不同层学习的特征质量存在异质性，深层的特征语义更丰富。因此，可以利用模型自身的这些深层强特征作为“内在引导信号”，通过最大化浅层弱特征与深层强特征之间的相似度，来正则化和提升浅层特征的学习。与已有的外部引导方法（如REPA）相比，LayerSync完全不依赖额外的模型或数据，计算开销几乎为零；与同属自包含范畴的Dispersive Loss方法相比，它提供了更具方向性的学习信号。实验表明，LayerSync在图像生成任务上可将训练加速超过8.75倍（FID改善23.6%），并在音频、人类动作和视频生成任务上均一致提升了生成质量和训练效率。此外，该方法还改善了模型各层的内部表征质量。其局限性包括：关键的层选择策略依赖启发式规则，且“良性循环”的理论支撑有待加强。 ...

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 🔥 8.0/10 | 前25% | #语音情感识别 | #时频分析 | #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Alaa Nfissi（数据科学实验室（DOT-Lab）， Université TÉLUQ；康考迪亚大学信息系统工程学院（Concordia Institute for Information Systems Engineering））通讯作者：未明确说明作者列表：Alaa Nfissi（数据科学实验室（DOT-Lab）， Université TÉLUQ；康考迪亚大学信息系统工程学院）、Wassim Bouachir（数据科学实验室（DOT-Lab）， Université TÉLUQ）、Nizar Bouguila（康考迪亚大学信息系统工程学院）、Brian Mishara（魁北克大学蒙特利尔分校心理学系；蒙特利尔自杀、伦理问题及临终实践研究与干预中心） 💡 毒舌点评这篇论文的亮点在于它不满足于简单地使用或微调现有前端，而是试图从数学原理上重新定义一个更灵活、可学习的时频分析框架（LFST），体现了扎实的信号处理功底和理论建模能力。然而，其主要短板在于计算效率：论文附录的复杂度分析显示，LFST+STEE在FLOPs、延迟和内存占用上远超STFT、LEAF等基线，这使得“紧凑”的STEE编码器所节省的参数优势在端到端系统中可能被前端的计算成本抵消，削弱了其实用吸引力。 🔗 开源详情代码：论文中明确提供了GitHub代码仓库链接：https://github.com/alaaNfissi/LFST-for-SER。模型权重：论文中未提及公开的模型权重。数据集：NSPL-CRISE为私有数据集（经IRB批准使用），论文中未提及公开获取方式。IEMOCAP和EMO-DB为公开数据集，论文中提供了引用。 Demo：论文中未提及在线演示。复现材料：论文提供了详尽的超参数设置（Table 8）、训练细节（Section 4.2）、算法伪代码（Algorithm 1-3）和技术附录，为复现提供了充分信息。论文中引用的开源项目：论文未明确提及依赖的外部开源工具或模型（除作为基线对比的方法外）。 📌 核心摘要要解决什么问题：传统语音情感识别（SER）的前端（如STFT、小波变换）存在固定的时间-频率（TF）分辨率权衡，且参数需人工调优，无法自适应任务需求。已有超小波变换（Superlet）局限于整数阶，存在阶跃伪影。方法核心：提出可学习分数阶超小波变换（LFST）作为全可微的前端。LFST通过学习每个频带上的分数阶阶数（通过对数域几何平均实现）、单调对数频率网格和频率依赖的基频周期，生成TF幅度图S和相位一致性图κ。结合一个可学习非对称硬阈值（LAHT）模块对S去噪。之后，设计了紧凑的频谱时序情感编码器（STEE），利用深度可分离卷积、混合TF块、自适应FiLM门控和轴向自注意力处理S和κ，输出情感分类。新在哪里：相比固定前端或先前非可学习的超小波，LFST首次将超小波的阶数、频率网格和周期全部设为可学习参数，并进行了端到端训练。同时，引入了物理意义明确的相位一致性κ通道和LAHT去噪模块，形成了一个理论完备、可数据驱动的TF表示学习框架。主要实验结果：在IEMOCAP（4类）上，准确率87.5%，F1值86.8%；在EMO-DB（7类）上，准确率91.4%，F1值90.4%；在NSPL-CRISE（5类，电话语音）上，准确率76.9%，F1值76.6%。在与相同STEE编码器下的STFT、小波、固定超小波、LEAF前端对比中，LFST在三个数据集上均取得最佳性能。关键消融显示，在NSPL-CRISE上，移除κ导致F1下降9.7个百分点，移除LAHT下降2.5个百分点。实际意义：为语音及音频分析提供了一种可学习、可解释、数学基础扎实的TF表示学习前端，可替代传统固定设计，并可能应用于其他需要精细时频分析的场景。主要局限性：系统计算成本较高，LFST前端的FLOPs和内存占用远高于STFT等轻量级前端，限制了部署。此外，研究未在更大规模、更多语言的数据集上验证，也未与强大的预训练SSL模型进行直接性能对比。 🏗️ 模型架构整个系统（LFST+STEE）处理流程为：原始波形 → LFST前端 → 两通道TF图（幅度S，相位一致性κ） → STEE编码器 → 情感类别。所有组件端到端可训练。 ...

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #多模态模型 #自监督学习 #跨模态检索 #零样本 #模型评估 ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评这篇论文理论与实践结合得不错，Theorem 1为“分裂字典”问题提供了理论保证，而提出的组稀疏+掩码方案在CLIP/CLAP上也确实有效提升了多模态概念的数量和语义性。但最大的短板是实验上缺乏代码开源，对于一篇方法论论文来说，这大大削弱了其即时影响力和社区复现验证的价值，使得“方法有效性”部分打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开训练好的SAE/GSAE/MGSAE模型权重。数据集：使用了公开数据集（CC3M, JamendoMaxCaps, MusicBench等），论文中未说明是否提供额外的处理脚本。 Demo：未提及在线演示。复现材料：论文在附录A.2中提供了较为详细的实验设置，包括数据集、超参数范围选择方法、训练步数等，有助于复现。论文中引用的开源项目：引用了dictionary_learning工具库（Marks et al., 2024）作为TopK SAE的实现基础。 📌 核心摘要这篇论文旨在解决稀疏自编码器（SAE）应用于多模态对齐嵌入（如CLIP）时产生的“分裂字典”问题，即学习到的稀疏特征大多只对单一模态激活，损害了跨模态对齐。核心方法包括：理论上证明了在对齐嵌入空间上，存在比分裂字典对齐性更好的非分裂字典；提出组稀疏自编码器（GSAE）和掩码组稀疏自编码器（MGSAE），通过组稀疏损失（鼓励配对样本的稀疏码具有相同支撑集）和跨模态随机掩码来引导学习多模态字典。与标准SAE相比，该方法显著增加了跨模态激活的神经元数量，减少了“死神经元”，并提升了跨模态零样本任务的性能。例如，在CLIP图像/文本任务上，MGSAE在CIFAR-10上的零样本分类准确率达到84.2%，比标准TopK SAE高出18.5个百分点；在CLAP音频/文本任务上，MGSAE在NSynth乐器分类上达到35.4%，远超SAE的26.5%。该工作的实际意义在于为多模态模型的可解释性分析和可控生成提供了更好的分解工具，其主要局限是依赖配对的多模态数据进行训练，且未提供开源代码。 ...

LLM2Fx-Tools: Tool Calling for Music Post-Production

📄 LLM2Fx-Tools: Tool Calling for Music Post-Production #音乐信息检索 #大语言模型 #多模态模型 #数据集 ✅ 7.0/10 | 前25% | #音乐信息检索 | #大语言模型 | #多模态模型 #数据集学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：SeungHeon Doh（KAIST, Sony AI）、Junghyun Koo（Sony AI）（共同第一作者）通讯作者：未明确说明作者列表：SeungHeon Doh (KAIST, Sony AI), Junghyun Koo (Sony AI), Marco A. Martínez-Ramírez (Sony AI), Woosung Choi (Sony AI), Wei-Hsiang Liao (Sony AI), Qiyu Wu (Sony Group Corporation), Juhan Nam (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 💡 毒舌点评亮点是这篇论文首次将LLM的工具调用范式引入到音频效果链生成任务，框架设计完整（从感知、推理到执行），并配套发布了高质量的对话式数据集LP-Fx，为后续研究建立了不错的基础。短板是实验验证范围主要局限于单声道、单乐器音频，在真正复杂的多轨混音场景下有效性存疑，且“可解释性”在面对多效果器组合产生的复杂听感时可能大打折扣。 ...

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音合成 #状态空间模型 #流式处理 #跨语言 ✅ 6.5/10 | 前50% | #语音合成 | #状态空间模型 | #流式处理 #跨语言学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Sahil Kumar (PhD Program in Mathematics, Yeshiva University, New York, NY 10033, USA) 通讯作者：Youshan Zhang* (School of Artificial Intelligence, Chuzhou University, Anhui, 239000, China) 作者列表：Sahil Kumar（叶史瓦大学数学博士项目）、Namrataben Patel（叶史瓦大学数学博士项目）、Honggang Wang（叶史瓦大学计算机科学与工程系）、Youshan Zhang（滁州学院人工智能学院） 💡 毒舌点评亮点在于其设计的彻底性：为了证明SSM可以完全取代注意力，论文把TTS条件路径里的注意力模块剥得干干净净，只剩下一个训练时用的对齐器，这种“手术式”的架构验证值得肯定。短板则是性能提升实在像“技术微调”多过“范式突破”，在严格控制的条件下，MOS的些许涨跌更像是统计噪声的边缘胜利，让人怀疑其实际部署中的感知差异。 ...

MAPSS: Manifold-based Assessment of Perceptual Source Separation

📄 MAPSS: Manifold-based Assessment of Perceptual Source Separation #模型评估 #自监督学习 #信号处理 #语音分离 #音频质量 🔥 8.5/10 | 前25% | #模型评估 | #自监督学习 | #信号处理 #语音分离学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Amir Ivry（Technion - Israel Institute of Technology, Electrical and Computer Engineering）通讯作者：未明确指定（根据邮箱顺序推测为Amir Ivry）作者列表：Amir Ivry（Technion - Israel Institute of Technology）、Samuele Cornell（Carnegie Mellon University, Language Technologies Institute）、Shinji Watanabe（Carnegie Mellon University, Language Technologies Institute） 💡 毒舌点评亮点在于其优雅的数学框架（流形+马氏距离）将“分离度”和“保真度”评估解耦，并为每个测量值提供了理论误差边界，这在音频评估指标中非常罕见。然而，其性能高度依赖一个预先定义的、手工设计的“失真库”来构建感知流形，这似乎将评估的泛化能力瓶颈从模型转移到了这个失真库的覆盖面上，且对时间对齐的敏感性可能限制其在实际延迟系统中的应用。 ...

MARS-Sep: Multimodal-Aligned Reinforced Sound Separation

📄 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation #语音分离 #强化学习 #多模态模型 #对比学习 #跨模态 ✅ 7.5/10 | 前25% | #语音分离 | #强化学习 | #多模态模型 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zihan Zhang (Zhejiang University) 通讯作者：Tao Jin (Zhejiang University) 作者列表：Zihan Zhang (Zhejiang University)， Xize Cheng (Zhejiang University)， Zhennan Jiang (Institute of Automation, Chinese Academy of Sciences)， Dongjie Fu (Zhejiang University)， Jingyuan Chen (Zhejiang University)， Zhou Zhao (Zhejiang University)， Tao Jin (Zhejiang University) 💡 毒舌点评亮点：该工作巧妙地将大语言模型对齐的RLHF范式“降维打击”式地应用于声音分离任务，通过设计因子化Beta掩码策略和多模态融合奖励，系统性地解决了传统方法中信号指标优化与语义保真度脱节的核心矛盾，实验设计全面且具有说服力。短板：方法的核心——多模态奖励模型严重依赖预训练的ImageBind编码器，其表征能力的天花板可能间接限制了MARS-Sep所能达到的最终性能上限，且论文中缺乏对这一依赖性风险的深入讨论。 ...

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #大语言模型 #语音识别 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sara Papi（Fondazione Bruno Kessler (Italy)）通讯作者：未说明（论文未明确指定通讯作者）作者列表：Sara Papi (Fondazione Bruno Kessler)， Maike Züfle (Karlsruhe Institute of Technology)， Marco Gaido (Fondazione Bruno Kessler)， Beatrice Savoldi (Fondazione Bruno Kessler)， Danni Liu (Karlsruhe Institute of Technology)， Ioannis Douros (Fondazione Bruno Kessler)， Luisa Bentivogli (Fondazione Bruno Kessler)， Jan Niehues (Karlsruhe Institute of Technology) 💡 毒舌点评亮点：论文填补了多模态、跨语言、长上下文指令跟随评测的关键空白，创建了一个系统对齐、人工标注的高质量基准，对推动通用多模态大模型发展有明确价值。短板：论文的核心贡献是建立评测基准，而非提出新的建模方法，对现有模型“能力不足”的诊断虽清晰，但并未直接提供解决方案；评测模型均为已发表的开源或商用模型，缺乏对自身新方法的验证。 ...