Posts

OmniFit: Bridging Modalities via Layer-Adaptive Token Compression for Omnimodal Large Language Models

📄 OmniFit: Bridging Modalities via Layer-Adaptive Token Compression for Omnimodal Large Language Models #音视频理解 #模型压缩 #多模态模型 #高效推理 6.3/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.1/0.5 | 工程 1.1/1.5 ✅ 6.3/10 | 前50% | #音视频理解 | #模型压缩 | #多模态模型 #高效推理 | arxiv 👥 作者与机构第一作者：Zining Wang（北京航空航天大学计算机科学与工程学院，复杂与关键软件环境国家重点实验室）通讯作者：Xianglong Liu（北京航空航天大学计算机科学与工程学院，复杂与关键软件环境国家重点实验室）其他作者：Zhihang Yuan（北京大学）、Yingjie Zhai（华为技术有限公司）、Wenshuo Li（华为技术有限公司）、Han Shu（华为技术有限公司）、Ruihao Gong（复杂与关键软件环境国家重点实验室）、Jinyang Guo（北京航空航天大学计算机科学与工程学院/人工智能学院，复杂与关键软件环境国家重点实验室） 💡 毒舌点评这篇论文的动机分析（层间异质性和跨模态锚点驱动）是一次漂亮的现象学观察，作者花了大力气证明“为什么”需要层自适应和跨模态对齐。但坦白说，方法论上更像一个“证件照”：SVD、DPC-KNN、余弦相似度这套组合拳看起来体面，深究下去却没有真正的新算法原理。核心卖点“training-free”既是铠甲也是软肋——轻量化部署确实友好，但也意味着它永远只能做“事后诸葛亮”，无法改变模型自身对冗余信息的处理逻辑。实验覆盖面广是优点，但依然缺少对深层why的拷问：为什么基于静态编码器输出的余弦相似度，能成为深层复杂语义交互的良好代理？这篇工作给了一个“够用”的解释，但离“令人信服”还有距离。 ...

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

📄 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation 6.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.9/10 | 前50% | #音视频生成 | #流匹配 | arxiv 👥 作者与机构第一作者：Donghao Zhou（香港中文大学）、Guisheng Liu（字节跳动）（共同第一作者）通讯作者：Shilei Wen（字节跳动）、Pheng-Ann Heng（香港中文大学）作者列表： Donghao Zhou（香港中文大学） Guisheng Liu（字节跳动） Hao Yang（字节跳动） Jiatong Li（字节跳动，项目负责人） Jingyu Lin（蒙纳士大学） Xiaohu Huang（香港大学） Yichen Liu（字节跳动） Xin Gao（字节跳动） Cunjian Chen（蒙纳士大学） Shilei Wen（字节跳动） Chi-Wing Fu（香港中文大学） Pheng-Ann Heng（香港中文大学） 💡 毒舌点评论文在工程整合上展现出成熟的工业级执行力，统一通道注入与解耦再联合训练策略切实解决了多模态视频生成的数据异构难题，并贡献了专用于HOIVG的HOIVG-Bench基准。然而，方法内核本质上是对现有技术（通道拼接、线性插值融合、窗口注意力）的高超缝合，缺少方法论层面的本质突破；与级联基线的对比设计合理，但实验部分仍缺乏关键的消融（如融合比例的具体影响、姿态引入阶段的严格对照），且评测只覆盖5秒片段，长视频质量、推理效率与规模化边界均未触及。音频条件的评测仍属视频领域的附属品，门控向量的分析虽有启发性，但距离纯粹的语音/音频社区直接影响有限。若无法公开模型与数据，其复现价值和社区推动力将大打折扣。 ...

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

📄 OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models #音视频问答 #模型压缩 7.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #音视频问答 | #模型压缩 | arxiv 👥 作者与机构第一作者（共一）：Yue Ding（中国科学院自动化研究所模式识别国家重点实验室；快手科技Kling团队）与 Yiyan Ji（南京大学）通讯作者：Qiang Liu（中国科学院自动化研究所模式识别国家重点实验室）作者列表：Yue Ding（中科院自动化所；快手科技）、Yiyan Ji（南京大学）、Jungang Li（香港科技大学（广州））、Xuyang Liu（四川大学）、Xinlong Chen（中科院自动化所）、Junfei Wu（中科院自动化所）、Bozhou Li（北京大学）、Bohan Zeng（北京大学）、Yang Shi（北京大学）、Yushuo Guan（快手科技）、Yuanxing Zhang（快手科技）、Jiaheng Liu（南京大学）、Qiang Liu（中科院自动化所）、Pengfei Wan（快手科技）、Liang Wang（中科院自动化所） 💡 毒舌点评这篇论文的“视觉先行、再引导音频”两阶段压缩，直觉干净，实验也漂亮——35% tokens就能战平甚至略超 full-token baseline，效率提升显著。但自信别太早：核心实验全在 Qwen2.5-Omni 上跑，换到 Qwen3-Omni 马上掉点（DailyOmni 70.5 vs. 70.8 full），说明方法的普适性没那么神。STVP 那套“按位置算余弦距离就当时间显著性”的操作，本质上仍在像素级做差分，真正的物体运动、遮挡这些时序动态它根本没建模，却好意思标榜“temporal redundancy”处理。Chunk 级剪枝更是直接摆烂，跨 chunk 长程依赖直接放弃，这可是 long-form 理解的基本盘。想法好、工程值钱，但别急着说自己是范式开创者。 ...

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

📄 OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention #音视频问答 #强化学习 #后训练 #对比学习 #自监督学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #音视频问答 | #强化学习 | #后训练 #对比学习 | arxiv 👥 作者与机构第一作者：Zhangquan Chen（清华大学，THU；实习于腾讯HY）通讯作者：Ruqi Huang（清华大学深圳国际研究生院，sz.tsinghua.edu.cn）、Jiale Tao（腾讯HY，jialetao.std@gmail.com）作者列表：Zhangquan Chen（清华大学）、Jiale Tao（腾讯HY）、Ruihuang Li（腾讯HY）、Yihao Hu（湖南大学，HNU）、Ruitao Chen（腾讯HY）、Zhantao Yang（腾讯HY）、Xinlei Yu（新加坡国立大学，NUS）、Haodong Jing（西安交通大学，XJTU）、Manyuan Zhang（香港中文大学，CUHK）、Shuai Shao（腾讯HY）、Biao Wang（腾讯HY）、Qinglin Lu（腾讯HY）、Ruqi Huang（清华大学深圳国际研究生院） 💡 毒舌点评这篇论文精准地抓住了“多模态模型一加音频就变傻”的痛点，提出的两阶段RL框架，特别是用自监督时间-字幕对齐来驱动查询密集型局部定位，设计思路相当巧妙，拿掉了过程级标注这个昂贵的门槛。然而，死穴和亮点一样突出：整个奖励函数几乎把身家性命都押在了外部judge模型的质量上，论文对judge偏差传播和reward hacking的风险几乎没有展开讨论，这让人对训练信号的可靠性打上一个大大的问号；更致命的是，所有代码、模型权重和训练数据均未开源，号称“第一个RL框架”却把复现门槛拉满，使得那些漂亮的SOTA数字目前只能被视为“纸上SOTA”，在第三方验证之前说服力大打折扣。 ...

Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech

📄 Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech #语音合成 #扩散模型 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构第一作者：Vadim Popov（Huawei Noah’s Ark Lab, National Research University Higher School of Economics）通讯作者：Vadim Popov（popov.vadim1@huawei.com）作者列表：Vadim Popov（Huawei Noah’s Ark Lab, National Research University Higher School of Economics）、Wenju Gu（Huawei Noah’s Ark Lab）、Tasnima Sadekova（Huawei Noah’s Ark Lab, National Research University Higher School of Economics）、Georgii Aparin（Huawei Noah’s Ark Lab, National University of Science and Technology MISIS）、Assel Yermekova（Huawei Noah’s Ark Lab） 💡 毒舌点评这篇论文巧妙地将 FSQ 的几何结构注入了连续扩散混合生成的理论框架, 从路径测度 KL 散度给出了一个漂亮的解释, 并用一套完整的 TTS 系统秀了肌肉。但理论的华美长袍下藏着“等先验”的致命伤疤, 一旦面对真实世界中不平衡的 token 分布, 所谓“最优性”可能瞬间沦为纸上谈兵, 而作者在实验中对此几乎是讳莫如深。 ...

PADS-TAL: Padding-Annealed Diffusion Sampling in Text-Aware Latent Space for Robust and Diverse Text-to-Music Generation

📄 PADS-TAL: Padding-Annealed Diffusion Sampling in Text-Aware Latent Space for Robust and Diverse Text-to-Music Generation #音乐生成 6.6/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.6/10 | 前50% | #音乐生成 | #扩散模型 | arxiv 👥 作者与机构第一作者：Taekoan Yoo（NHN Corp. AI Tech Lab.）通讯作者：Kyeongbo Kong（Pusan National University）作者列表：Taekoan Yoo、Wonkyung Jung、Kyunghun Kim（均为NHN Corp. AI Tech Lab.），Kyeongbo Kong（Pusan National University） 💡 毒舌点评论文在“文本到音乐扩散模型的多样性退化”这个真实痛点上有清晰motivation，PADS的直觉（只扰动padding、不碰语义token）简洁有效，TAL的MoE-mVAE设计在表示层面为genre一致生成提供了结构支撑，两者组合在消融中表现一致。但整体创新层次不高——两个组件本质都是已有技术的迁移和改造（CADS→PADS，MoE-mVAE→TAL），缺乏新的方法论贡献。更令人担心的是，genre作为“全局语义”的唯一代理，严重窄化了T2M多样性问题的定义；实验上MelBench被处理成器乐子集，削弱了genre结论的外部效度；对比基线仅围绕CADS展开，与其他多样性增强方法的对比局限在Fig. 10的trade-off曲线上，未做深入调参和讨论。按顶会标准看，问题定义有价值、方案合理、实验基本完整，但贡献的深度和广度均未达到突破性水平。 ...

PCRNet: Phase-aware Complex Refinement Network for EEG-based Auditory Attention Decoding

📄 PCRNet: Phase-aware Complex Refinement Network for EEG-based Auditory Attention Decoding #实时处理 6.4/10 | 创新 0.8/2 | 严谨 0.9/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #实时处理 | #实时处理 | arxiv 👥 作者与机构第一作者：Xiran Chen（安徽大学，计算机科学与技术学院，光电信息获取与防护技术国家重点实验室），Xiaoke Yang（同等贡献第一作者，同上）通讯作者：Cunhang Fan（安徽大学，计算机科学与技术学院，光电信息获取与防护技术国家重点实验室）作者列表：Xiran Chen, Xiaoke Yang, Jian Zhou, Zhao Lv, Cunhang Fan（均属于安徽大学上述学院与国家重点实验室） 💡 毒舌点评本文试图通过引入相位信息来给EEG听觉注意解码注入新的方法论血液，这思路本身不差，但实际落地更像是一次工程上的模块搬家。TCC、MTA、RSI、DDI等组件拼装感强烈，本质上是对现有时间注意力、扩张卷积、复数频谱处理等技术的整合与重命名。虽然文中强调"相位感知"，但所谓的"精炼"其实就是将实部和虚部分别送入结构对称的卷积块，再用一个从幅度谱生成的掩码打回去，这和真正的神经生理学相位校准机制相差甚远，解释性不足，有过度包装之嫌。论文最大的硬伤在于没有进行任何跨被试（LOSO）实验，这导致其宣称的SOTA性能在个体差异面前可能极度脆弱，无法说服审稿人其具有真实的泛化能力。极短的0.1s窗口下KUL数据集达到98.4%的准确率近乎完美，这在信噪比极低的EEG信号中显得反常，不排除存在微妙的时间信息泄露或过拟合于特定被试。 📌 核心摘要问题：现有EEG听觉注意解码方法大多仅依赖幅度或功率谱特征，忽略了EEG信号相位信息在编码神经振荡与时间结构中的关键作用。这限制了模型在低信噪比环境下区分结构化神经模式与随机噪声的能力。方法：提出PCRNet，包含时序上下文校准（TCC）模块和双域集成（DDI）模块。TCC利用多尺度时序注意力（MTA）结合门控机制，在进入频域分析前对Q、K、V投影进行精细校准；DDI则并行运行一个时序扩张卷积分支和一个基于残差频谱接口（RSI）块的频谱分支，RSI在复数域中通过可学习的幅度重要性门控对实部和虚部分别进行精炼、动态抑制噪声频段，再经逆傅里叶变换重构特征。新意：与以往只关注能量/幅度的主流方法不同，PCRNet明确地在复数域操作，对实部和虚部进行独立的特征混合和精炼，并引入数据驱动的幅度掩码以实现相位感知的频谱滤波，旨在保留并重校准因噪声受损的相位结构。主要实验结果：在KUL、DTU和AVED三个公开数据集上，与包括SSF-CNN、MBSSFCC、DBPNet、DARNet、SSF-DST、MHANet在内的六种现有方法对比，PCRNet在所有决策窗口（0.1s, 1s, 2s）下均取得了最高的平均准确率，尤其在KUL数据集的0.1s窗口下达到98.4%的准确率。参数总量仅为0.03M。实际意义：极低的模型参数量和极短决策窗下的高性能，使其在神经导向助听器等需要低功耗、低延迟的边缘计算实时脑机接口应用中展现出潜力。主要局限性：仅在受试者内（within-subject）划分下进行评估，完全缺乏跨被试（cross-subject）或留一被试（LOSO）的必要泛化性验证；所有数据集均为实验室受控短时程实验范式，未涉及真实场景下的连续流式处理；对相位增益的解释停留在模型消融，缺乏与神经生理学机制的深入关联分析。 🔗 开源详情代码：https://github.com/SunshineGreeny/PCRNet 模型权重：论文中未提及数据集：使用公开数据集KUL、DTU、AVED，但未提供具体获取链接 Demo：论文中未提及复现材料：论文第3.3节提供了训练配置和网络参数等实现细节，但未提供单独的配置文件、检查点或复现脚本。论文中引用的开源项目：PyTorch (https://pytorch.org/) 🏗️ 方法概述和架构 PCRNet是一个端到端的神经网络，旨在从EEG信号中解码听觉注意对象（左耳或右耳）。其输入是经过公共空间模式（CSP）预处理的EEG片段 \(\tilde{E} \in \mathbb{R}^{C \times T}\)（C为通道数，T为时间点），输出为二分类标签。 ...

PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐生成 #对比学习 #CNN #工业应用 8/10 | 创新 1.3/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8/10 | 前25% | #音乐生成 | #对比学习 | #CNN #工业应用 | arxiv 👥 作者与机构第一作者：Davide Marincione（Department of Computer Science, Sapienza University of Rome, Italy）通讯作者：Davide Marincione（Sapienza University of Rome）、Michele Mancusi（Sapienza University of Rome; Moises Systems, Inc.）作者列表： Davide Marincione（Sapienza University of Rome）、Michele Mancusi（Sapienza University of Rome; Moises Systems, Inc.）、Giorgio Strano（Sapienza University of Rome）、Luca Cerovaz（Sapienza University of Rome; Paradigma, Inc.）、Donato Crisostomi（Sapienza University of Rome）、Roberto Ribuoli（Sapienza University of Rome）、Emanuele Rodolà（Sapienza University of Rome; Paradigma, Inc.） 💡 毒舌点评这篇工作的核心洞察——用傅里叶移位定理将时间对齐映射为复数相位旋转——确实漂亮，让等变设计从“能用”变成“应该用”。在stem检索任务上以不到一半参数拿到69%的相对提升，训练速度是前SOTA的7倍，效率优势让人眼前一亮。不过，方法对周期性假设的依赖过于刚性，一旦遇到速度漂移或非周期性节奏，所谓“相位相干性”就变成了空中楼阁。人耳评估的样本量和被试规模也仅能勉强支撑与部分强基线的显著差异，跨到“与人类判断高度相关”的强宣称还差一口气，更别提在零样本节拍跟踪上与监督模型的鸿沟了。 ...

PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs

📄 PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs #空间音频 #Transformer #大语言模型 #参数高效微调 #多通道 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前25% | #空间音频 | #Transformer | #大语言模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Artem Dementyev (Google DeepMind, Cambridge, USA) 通讯作者：Artem Dementyev (Google DeepMind, Cambridge, USA) 作者列表：Artem Dementyev (Google DeepMind, Cambridge, USA)、Wazeer Zulfikar (Media Lab, MIT, Cambridge, USA)、Sinan Hersek (Google AR, Seattle, WA)、Pascal Getreuer (Google DeepMind, Cambridge, USA)、Anurag Kumar (Google DeepMind, Cambridge, USA)、Vivek Kumar (Google DeepMind, Cambridge, USA) 💡 毒舌点评在LLM普遍缺乏空间听觉的当下，提出几何无关的空间音频编码器并与Gemma集成，切入点精准，但实验验证过分依赖合成数据，如同在声学真空里练出绝世武功，一到真实环境的混响、遮挡和噪声面前就难免露怯。定向转录准确率仅44%-52%，离实用还很遥远，更像是给LLM装上了一副度数不太准的眼镜。 ...

PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios

📄 PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios #音视频问答 #基准测试 #多模态模型 #流式处理 #数据集 7.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #音视频问答 | #多模态模型 | #基准测试 #流式处理 | arxiv 👥 作者与机构第一作者：Xudong Lu（香港中文大学 MMLab）通讯作者：Rui Liu（华为研究，liu.rui2@huawei.com）、Hongsheng Li（香港中文大学 MMLab，hsli@ee.cuhk.edu.hk）作者列表：Xudong Lu（香港中文大学 MMLab）、Huankang Guan（华为研究）、Yang Bo（华为研究）、Jinpeng Chen（华为研究）、Xintong Guo（华为研究）、Shuhan Li（华为研究）、Fang Liu（香港城市大学）、Peiwen Sun（香港中文大学 MMLab）、Xueying Li（上海交通大学）、Wei Zhang（上海交通大学）、Xue Yang（上海交通大学）、Rui Liu（华为研究）、Hongsheng Li（香港中文大学 MMLab） 💡 毒舌点评这篇论文发现了一个真实且普遍的“模型太猴急”问题，用精心设计的流式基准把主流 MLLM 都打回了原形，Forward 任务的惨淡分数极具说服力。但作为 benchmark 论文，它过度依赖 Gemini 3 Pro 做数据生成和 Qwen3-235B 做评估，一旦这两个闭源/强模型更新，基准的稳定性和公平性就很微妙；而且在多模态流式领域，作者把“音频”当成了加分项来宣传，结果消融实验却显示开音频反而让 Forward 性能更差，这个自曝其短的结论让人既敬佩又哭笑不得。 ...