Posts

Multimodal Latent Language Modeling with Next-Token Diffusion

📄 Multimodal Latent Language Modeling with Next-Token Diffusion #语音合成 #多模态模型 6.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.1/10 | 前50% | #语音合成 | #自回归模型 | #多模态模型 | arxiv 👥 作者与机构第一作者: Yutao Sun (Tsinghua University) 通讯作者: Furu Wei (Microsoft Research), Jianyong Wang (Tsinghua University) 作者列表: Yutao Sun (Tsinghua University), Hangbo Bao (Microsoft Research), Wenhui Wang (Microsoft Research), Zhiliang Peng (Microsoft Research), Li Dong (Microsoft Research), Shaohan Huang (Microsoft Research), Yaoyao Chang (未说明), Jianyong Wang (Tsinghua University), Furu Wei (Microsoft Research) 💡 毒舌点评本文在“一切皆为token”的统一多模态框架上迈出了扎实的一步，用next-token diffusion巧妙绕开了VQ-VAE的信息瓶颈，σ-VAE的方差约束设计也切中自回归生成的exposure bias要害。但ImageNet上的图像生成实验，LatentLM-L（479M, FID 2.24）实际上并未超越同体量的MAR（479M, FID 1.78），论文将其归入非因果类进行对比虽分类合理，但未能提供等计算量对比来证明因果框架自身能弥补这一差距；此外，仅在200B tokens上训练的1.3B多模态LLM远未达到收敛，声称的scaling优势仍需更大规模验证；TTS人类评估仅24人，略显单薄。 ...

Multimodal Meta-Verifier with Explicit Structured Recalibration

📄 Multimodal Meta-Verifier with Explicit Structured Recalibration #多模态模型 #强化学习 5.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.2/10 | 后50% | #多模态模型 | #强化学习 | arxiv 👥 作者与机构第一作者：Xinchen Zhang（清华大学）、Bowei Liu（清华大学）通讯作者：Yujiu Yang（清华大学）、Ling Yang（普林斯顿大学）作者列表：Xinchen Zhang（清华大学）、Bowei Liu（清华大学）、Jiale Liu（宾夕法尼亚州立大学）、Chufan Shi（南加州大学）、Yizhen Zhang（清华大学）、Junhong Liu（未说明）、Youliang Zhang（清华大学）、Zhiheng Li（清华大学）、Yujiu Yang（清华大学）、Ling Yang（普林斯顿大学） 💡 毒舌点评这篇论文的核心洞察——将元验证信号从文本迁移到符号化表征（边界框），并采用数据层面的解耦训练——在工程上是清晰且有效的，在ViVerBench和代理生成任务上的提升也佐证了其价值。然而，论文的理论贡献是对“梯度被乘法门控”这一现象的符号重述，深度有限；更致命的是，它全程回避了与同领域直接竞争对手（如RewardDance、UnifiedReward）在视觉验证基准上的定量比较，使其声称的“避免奖励黑客”和“高效”论点缺乏最关键的硬性证据。对于语音/音频领域读者而言，此工作因完全扎根于图像模态而不具备直接影响力。 📌 核心摘要该论文旨在解决多模态视觉验证器中反馈信号粗糙（仅依赖二元正确/错误判断）的问题，提出了一种多模态元验证范式，利用验证器自身生成的结构化依据（而非决策信号）来提供更细粒度的训练信号。方法核心包含两个发现：第一，使用符号化输出（如边界框或点）代替文本解释作为元验证依据，使得能够使用基于规则的奖励（IoU）而非脆弱的模型奖励，从而在源头规避奖励黑客问题，并提升训练效率；第二，将二元判断和元验证任务在数据层面进行解耦，分别服从独立的奖励模型进行强化学习训练，相比联合优化能提供持续、稳定的梯度信号，从而显著提升性能。与已有工作相比，该方法从DeepSeekMath-V2等纯文本的元验证框架中获得灵感，首次将其系统性地迁移至多模态空间验证，并针对视觉表征结构化的特性，提出了基于规则的结构化奖励与解耦训练策略。主要实验结果显示：在ViVerBench基准上，经解耦训练的OmniVerifier-M1（基于Qwen3-VL-8B）取得了0.680分，优于联合训练的0.671分和基线的0.654分；基于该验证器构建的代理视觉生成系统M1-TTS，在GPT-Image-1.5基础上，将WISE和T2I-CoreBench上的综合得分分别从0.83提升至0.88和从0.782提升至0.800。表 1: ViVerBench & 效率分析（来自论文Table 1） ...

Multiple Choice Learning of Low-Rank Adapters for Language Modeling

📄 Multiple Choice Learning of Low-Rank Adapters for Language Modeling #多模态模型 #大语言模型 8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8/10 | 前25% | #多模态模型 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构第一作者：Victor Letzelter（LTCI, Télécom Paris, Institut Polytechnique de Paris；Valeo.ai）、Hugo Malard（LTCI, Télécom Paris, Institut Polytechnique de Paris）（同等贡献）通讯作者：Victor Letzelter（letzelter.victor@hotmail.fr）作者列表：Victor Letzelter（LTCI, Télécom Paris, Institut Polytechnique de Paris；Valeo.ai）、Hugo Malard（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Mathieu Fontaine（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Gaël Richard（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Slim Essid（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Andrei Bursuc（Valeo.ai）、Patrick Pérez（Kyutai） 💡 毒舌点评本文巧妙地将 Multiple Choice Learning 与 LoRA 结合，为自回归语言模型的多模态输出提供了参数高效的解决方案。但理论分析建立在苛刻的“组件不重叠”假设上，对真实语言数据中普遍存在的模式重叠问题避而不谈，且缺乏对各个适配器所学语义的深入剖析，使方法的“多样性”仅停留在指标层面，其内部分工机制仍是一个黑箱。 ...

MusicDET: Zero-Shot AI-Generated Music Detection

📄 MusicDET: Zero-Shot AI-Generated Music Detection #音频伪造检测 #零样本 #生成对抗网络 6.1/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.6/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.1/10 | 前50% | #音频伪造检测 | #生成对抗网络 | #零样本 | arxiv 👥 作者与机构第一作者：Chaolei Han（东南大学网络空间安全学院）通讯作者：Hongsong Wang（东南大学计算机科学与工程学院，新一代人工智能技术与交叉应用重点实验室（东南大学），教育部）/ Jie Gui（东南大学网络空间安全学院，紫金山实验室，区块链应用监管与管理工程研究中心（东南大学），教育部）作者列表：Chaolei Han（东南大学网络空间安全学院）、Hongsong Wang（东南大学计算机科学与工程学院，新一代人工智能技术与交叉应用重点实验室（东南大学），教育部）、Jie Gui（东南大学网络空间安全学院，紫金山实验室，区块链应用监管与管理工程研究中心（东南大学），教育部） 💡 毒舌点评本文将Normalizing Flows首次引入AI生成音乐检测，并构建了一个仅需真实音乐训练的零样本框架，思路简洁且具有实用性。然而，方法的技术深度有限，核心架构基本复用了Glow流程，实验中对真实后处理的鲁棒性极差（如MP3压缩后EER飙升至41.75%），且写作中多处符号与表格排版混乱，影响了可信度和可读性。 📌 核心摘要本文针对AI生成音乐检测中，现有鉴别器依赖已知生成器训练、跨生成器泛化差的痛点，提出了一种全新的零样本设定（仅用真实音乐训练）。方法核心是基于频率引导的Normalizing Flows（MusicDET）对真实音乐的时频能量谱分布进行概率建模，通过评估样本似然度来判断是否为AI生成。与以往需要生成器样本训练的分类器相比，该框架天然具有生成器无关的泛化能力。实验在FakeMusicCaps和SONICS数据集上进行，零样本MusicDET在FakeMusicCaps上的平均EER为4.51%，显著优于所有非零样本基线（如W2V2-AASIST的11.46%、SpecTTTra-α的17.63%）；当利用少量AI样本引入class-conditional先验后，EER可进一步降至0.89%；在SONICS上class-conditional MusicDET甚至达到0.00%的EER。在ASVspoof 2019 LA和CtrSVDD上的迁移实验也展现出一定通用性。论文还评估了模型在EnCodec重建音乐上的检测能力，并进行了Leave-one-subdomain-out的泛化测试。实际意义在于为音乐鉴伪提供了一种无需持续更新生成器指纹的轻量级检测方案。主要局限是对严重音频后处理（如强压缩、加噪、变调）极为敏感，零样本检测EER在MP3 64kbps压缩下飙升至41.75%，且模型分析局限于时频谱能量，对旋律、和声等高层音乐结构建模不足。 🔗 开源详情代码：https://github.com/Chaolei98/MusicDET 模型权重：论文中未提及数据集： FakeMusicCaps (Comanducci et al., 2025)：基于 MusicCaps 提示词，使用 5 个文本到音乐生成器合成的数据集，论文中未提供直接下载链接，可参考原论文获取。 SONICS (Rahman et al., 2025)：包含真实音乐（来自 Genius Lyrics Dataset）和 Suno/Udio 生成的音乐，论文中未提供直接下载链接，可参考原论文获取。 ASVspoof 2019 LA (Todisco et al., 2019)：公开数据集，可通过 https://datashare.ed.ac.uk/handle/10283/3336 获取。 CtrSVDD (Zang et al., 2024)：论文中未提供直接下载链接，可参考原论文获取。 FMA-medium (Defferrard et al., 2017): 用于EnCodec重建评测，可通过 https://github.com/mdeff/fma 获取。 Demo：论文中未提及复现材料：预处理：所有音频重采样到 16kHz、单声道，裁剪/填充至 4 秒。 STFT 参数：n_fft=512, hop_length=160, win_length=512。训练超参数：batch size 64，Adam 优化器，初始学习率 5e-4，训练 10 epoch。数据增强：使用 SpecAugment 随机遮罩时频区域。模型结构：频带数=2，每个频带内流步骤数 K=2，真实音乐高斯先验均值为 5，假音乐先验均值为 -5（类条件设置）。硬件：单卡 NVIDIA RTX 4090（24GB 显存）。未提供训练检查点。论文中引用的开源项目： MusicGen：https://github.com/facebookresearch/audiocraft EnCodec：https://github.com/facebookresearch/encodec AASIST：https://github.com/clovaai/aasist MERT：https://github.com/yizhilll/MERT Wav2Vec 2.0 (fairseq)：https://github.com/pytorch/fairseq WavLM：https://github.com/microsoft/unilm/tree/master/wavlm SpecAugment：https://github.com/tensorflow/lingvo ViT (Vision Transformer)：https://github.com/google-research/vision_transformer ConvNeXt：https://github.com/facebookresearch/ConvNeXt Glow：https://github.com/openai/glow 🏗️ 方法概述和架构 MusicDET的整体架构是一个基于Normalizing Flows的单类（真实音乐）密度估计器，其核心流程如下： ...

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

📄 NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating #音频事件检测 #长音频处理 #高效推理 5.5/10 | 创新 1/2 | 严谨 0.7/1.5 | 实验 0.8/1.5 | 清晰 0.4/1 | 影响 0.5/1.5 | 开源 0.8/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 📝 5.5/10 | 前50% | #音频事件检测 | #音频大模型 | #长音频处理 #高效推理 | arxiv 👥 作者与机构第一作者：Zhongju Yuan（WAVES Research Group, Ghent University, Gent, Belgium）通讯作者：Zhongju Yuan（zhongju.yuan@ugent.be）作者列表：Zhongju Yuan（Ghent University）、Geraint A. Wiggins（Vrije Universiteit Brussel; Queen Mary University of London）、Dick B.M. Botteldooren（Ghent University） 💡 毒舌点评这篇论文将“选择性注意”包装成一个神经启发的波动力学问题，想法有趣，但数学与工程落地之间存在不小的鸿沟。OWM的Bragg共振最优性证明看似漂亮，但从离散格点方程跳跃到连续介质近似的过程略显随意，部分定理（如Theorem 2.3）在连续假设下漂亮但实际系统离散、有界，理论对实际设计的指导意义有限。此外，实验仅在两个数据集上进行，主要性能提升（17.1% AP）令人印象深刻，但对比基线AudioQwen全量推理表现过弱（53.50% AP），且论文未与任何基于深度特征的时序模型基线（如简单的GRU/LSTM漂移检测器）对比，让人难以判断OWM复杂的波动力学机制是否真有必要。自适应阈值依赖多个手动设定的参数（W=20, α=0.2），其跨场景泛化能力存疑。论文自我定位为“训练自由”方法，但严重依赖两个大规模预训练模型（PANN和AudioQwen），这种“自由”是建立在他人训练成果之上的。 ...

Native Active Perception as Reasoning for Omni-Modal Understanding

📄 Native Active Perception as Reasoning for Omni-Modal Understanding #多模态模型 6.8/10 | 创新 1.6/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #音视频理解 | #强化学习 | #多模态模型 | arxiv 👥 作者与机构第一作者：Zhenghao Xing（香港中文大学）、Ruiyang Xu（上海交通大学）、Yuxuan Wang（阿里巴巴通义千问团队）通讯作者：Jin Xu（jxu3425@gmail.com）、Pheng-Ann Heng（pheng@cse.cuhk.edu.hk）完整作者列表：Zhenghao Xing1, Ruiyang Xu2, Yuxuan Wang3, Jinzheng He3, Ziyang Ma2,4, Qize Yang3, Yunfei Chu3, Jin Xu3, Junyang Lin3, Chi-Wing Fu1, Pheng-Ann Heng1 （共同一作；1 香港中文大学计算机科学与工程系；2 上海交通大学；3 阿里巴巴通义千问团队，Qwen Team；4 南洋理工大学） 💡 毒舌点评这篇工作在“让MLLM学会像人一样主动看视频”的agentic范式上做出了优雅且扎实的尝试——将长视频理解重塑为POMDP中的迭代感知过程，并用TAURA解决了GRPO在多轮推理中的信用分配难题，让7B模型在LVBench上正面击败了10倍大的静态模型，这个结果本身具备足够的冲击力。然而，对于语音/音频领域的审稿人而言，这份工作的吸引力会打折扣：论文的核心卖点是交互范式和视频理解效率，音频在这里更像是个“锦上添花”的模态输入，而非被深入研究的感知对象。尽管“全模态”的旗号已经打出，但论文并未在诸如长播客理解、复杂声学场景对话、ASR等纯音频任务上验证方法的迁移性，其“Omni”的宣称尚缺乏来自音频社区的严苛审视。如果投到纯音频会议，这艘船可能因为“货物不对板”而吃水过深。 ...

Neural-Inspired Modeling of Auditory Selection and Compensation for Audio-Visual Speech Separation

📄 Neural-Inspired Modeling of Auditory Selection and Compensation for Audio-Visual Speech Separation #音视频语音分离 #语音增强 #多模态模型 6.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.2/10 | 前50% | #音视频语音分离 | #多模态模型 | #语音增强 | arxiv 👥 作者与机构第一作者：Xinmeng Xu（岭南大学人工智能系，Department of Artificial Intelligence, Lingnan University）通讯作者：Haoran Xie（岭南大学人工智能系，Department of Artificial Intelligence, Lingnan University）作者列表：Xinmeng Xu（岭南大学人工智能系）、Haoran Xie（岭南大学人工智能系）、Xiaohui Tao（南昆士兰大学数学物理与计算学院，School of Mathematics, Physics and Computing, University of Southern Queensland）、Lin Li（武汉理工大学计算机科学与人工智能学院，School of Computer Science and Artificial Intelligence, Wuhan University of Technology）、S. Joe Qin（岭南大学人工智能系） 💡 毒舌点评这篇论文从认知神经科学中搬来“听觉选择”和“跨模态补偿”的双阶段机制，并在AVSS架构中将其显式化为ASM和CCM模块，想法干净且有洞察力。在LRS2/3和VoxCeleb2上以6.3M的参数稳定超越包括AV-CrossNet在内的现有SOTA，且多说话人重叠和视觉降质下的表现更加突出。然而，致命伤是完全闭源：无代码、无模型、无Demo链接，这在2024年后的ML顶会中极度罕见且难以接受。此外，Section 3.1的信息论不等式与模块设计之间存在一条明晃晃的鸿沟：Eq. 2中的β项从未在损失函数中出现过，其“理论指导设计”的说法本质上是一种后验包装。总体而言，这是一篇工程扎实但理论过度声称、且因闭源而严重削弱影响力的工作。 ...

NeuroCLUS: A Foundation Model with Functional Clustering for Intracranial Neural Decoding

📄 NeuroCLUS: A Foundation Model with Functional Clustering for Intracranial Neural Decoding #语音识别 #自监督学习 #预训练 #图神经网络 #医疗音频 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6/10 | 前50% | #语音识别 | #自监督学习 | #预训练 #图神经网络 | arxiv 👥 作者与机构第一作者：Hui Zheng（Independent Researcher）通讯作者：Hui Zheng（icml2026.neuroclus@gmail.com）作者列表：Hui Zheng（Independent Researcher）、Hai-Teng Wang（Independent Researcher） 💡 毒舌点评这项工作敏锐地捕捉到了现有iEEG基础模型在tokenization粒度上的核心矛盾——要么太细（单通道）要么太粗（全脑聚合），提出的两阶段功能聚类策略直击要害，在Du-IN语音生成任务上甚至大幅超越了专门的SOTA模型（65.92% vs 62.70%），这点值得称赞。然而，完全忽略解码任务中至关重要的时序动态聚类（即功能模块可能随时间漂移这一基本神经科学事实），仅用静态的功能依赖图指导token聚合，导致模型对复杂认知过程的适应性存疑；同时“独立研究者”的身份与高达10k小时的预训练数据和8张A100的算力需求存在一定张力，缺少代码和模型权重也使得“SOTA”声称暂时难以验证。 ...

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

📄 Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion 5.8/10 | 创新 0.9/2 | 严谨 0.9/1.5 | 实验 0.6/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | arxiv 👥 作者与机构第一作者：Lijiang Li（南京大学计算机软件新技术国家重点实验室、南京大学智能科学与技术学院）通讯作者：Chaoyou Fu（南京大学计算机软件新技术国家重点实验室、南京大学智能科学与技术学院）作者列表：Lijiang Li（南京大学）、Zuwei Long（腾讯优图实验室）、Yunhang Shen（腾讯优图实验室）、Heting Gao（腾讯优图实验室）、Haoyu Cao（腾讯优图实验室）、Xing Sun（腾讯优图实验室）、Caifeng Shan（南京大学）、Ran He（中国科学院自动化研究所）、Chaoyou Fu（南京大学） 💡 毒舌点评本文提出将mask-based discrete diffusion应用于any-to-any多模态系统，这一方向选择确实体现了对非自回归范式潜力的洞察。三阶段渐进式训练、SDVI数据集构建以及position penalty等推理trick形成了一套相对完整的技术方案。但问题也很突出：实验对比基线严重过时（LLaVA、InstructBLIP均为2023年工作），text-to-image的CLIP分数（CLIP-T 0.236）远低于实用水平，ASR的WER 6.69%更是不可接受。作者声称的"comparable or even better"需要更充分的证据，与2024-2025年主流系统的对比完全缺失。SDVI数据集依赖语音合成，其质量对结论的影响未被讨论。某些关键设计（如自适应长度系数）过于经验化，缺乏敏感性分析。 📌 核心摘要本文提出Omni-Diffusion，首个完全基于mask-based discrete diffusion的any-to-any多模态语言模型，统一处理文本、图像、语音的理解与生成。其核心方法是将多模态数据统一离散token化——使用MAGViT-v2作为图像tokenizer（下采样因子f=16，codebook size 8192）、SenseVoiceSmall作为语音编码器、GLM-4-Voice decoder作为语音解码器（token rate 12.5Hz，codebook size 16384）。在预训练的Dream-7B扩散语言模型上，通过扩展vocabulary来统一建模多模态离散token的联合分布，并在mask-token prediction框架下训练。与现有autoregressive多模态系统（如AnyGPT、NExT-GPT等）不同，Omni-Diffusion用扩散模型的并行解码替代自回归生成，天然支持图像inpainting等任务。 ...

Omni-Perception Policy Optimization for Multimodal Emotion Reasoning

📄 Omni-Perception Policy Optimization for Multimodal Emotion Reasoning 7.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #音视频理解 | #强化学习 | arxiv 👥 作者与机构第一作者: Zhiyuan Han (University of Science and Technology of China, SenseTime Research, Institute of Artificial Intelligence, Hefei Comprehensive National Science Center) 通讯作者: Xun Yang (University of Science and Technology of China), Beier Zhu (University of Science and Technology of China) 作者列表: Zhiyuan Han (USTC, SenseTime, Hefei Institute), Beier Zhu (USTC), Wenwen Tong (SenseTime), Pengyang Shao (National University of Singapore), Peipei Song (USTC), Xinyi Wang (USTC), Jiangnan Chen (SenseTime), Lewei Lu (SenseTime), Xun Yang (USTC) 💡 毒舌点评论文精准地抓住了现有情感多模态大模型“思考链中缺乏可靠感知”的痛点，将感知可靠性分解为利用率和忠实度两个可量化原则，并设计了细粒度线索覆盖奖励与模态特定token的KL惩罚，构思巧妙。附录中的信息论分析试图为协同效应提供理论支撑，虽然略显牵强，但不失为一次有趣的尝试。然而，全文最致命的硬伤在于零开源的姿态：声称构建了诊断基准MEP-Bench并刷新了多项SOTA，却未提供任何代码、模型权重或数据集，这使得“可复现”和“促进社区发展”的承诺显得苍白无力。 ...