Posts

CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks

📄 CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks #音视频理解 #参数高效微调 #LoRA #多模态模型 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.3/10 | 前25% | #音视频理解 | #参数高效微调 | #LoRA #多模态模型 | arxiv 👥 作者与机构第一作者：Wish Suharitdamrong（Surrey Institute for People-Centred AI, University of Surrey; Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey）通讯作者：Wish Suharitdamrong（ws00372@surrey.ac.uk）作者列表：Wish Suharitdamrong（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Tony Alex（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Muhammad Awais（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Sara Atito（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey） 💡 毒舌点评 CoLA 将 LoRA 的低秩分解巧妙扩展为双路径结构，为双编码器多模态适配提供了一条简洁的跨模态融合范式；视觉‑语言与音频‑视觉两组任务上的实验也较为扎实，并首次实现了基于 PEFT 的多任务视觉定位。然而，该方法本质上仍是对 LoRA 的线性外推，理论分析仅停留在秩和线性跨度层面，未能给出更深的表征交互机制；且跨模态路径在推理时不可合并带来的开销，在资源敏感场景中会成为硬伤。此外，损失函数完全缺失，复现存在实质性缺口。 ...

ConsMSA: Semantic Distribution Consistency Learning for Multimodal Sentiment Analysis

📄 ConsMSA: Semantic Distribution Consistency Learning for Multimodal Sentiment Analysis #多模态模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.1/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构第一作者：Pan Wang（匹兹堡大学电子与计算机工程系，Amazon）通讯作者：Pan Wang (pan.wang@pitt.edu) 和 Jingtong Hu (jthu@pitt.edu) 作者列表：Pan Wang（匹兹堡大学电子与计算机工程系，Amazon）、Lipeng Ke（Amazon, Sunnyvale）、Huajun Ying（Amazon, Sunnyvale）、Pritish Mohapatra（Amazon, Sunnyvale）、Rohan Sarkar（Amazon, Sunnyvale）、Suresh Lakhani（Amazon, Sunnyvale）、Sankar Venkataraman（Amazon, Sunnyvale）、Jingtong Hu（匹兹堡大学电子与计算机工程系） 💡 毒舌点评这篇论文把“语义分布一致性”的概念玩得很溜，统一了模态内冗余和模态间冲突这两个老大难问题。方法上把JS散度、置信度gate和token剪枝打包成一套整洁的信号驱动框架，工程味道很浓，压缩实验也够硬核。可惜创新点偏“组合式精致”，底层模块都是老面孔，且完全不开源，这在顶会上相当于是断了自己复现验证的后路，诚意不足。 ...

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

📄 Convex Low-resource Accent-Robust Language Detection in Speech Recognition #语音识别 #迁移学习 #低资源 #理论分析 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6/10 | 前50% | #语音识别 | #迁移学习 | #低资源 #理论分析 | arxiv 👥 作者与机构第一作者：Miria Feng（斯坦福大学电气工程系）通讯作者：Miria Feng（miria00@stanford.edu）作者列表：Miria Feng（斯坦福大学电气工程系）、William Tan（斯坦福大学计算机科学系）、Mert Pilanci（斯坦福大学电气工程系） 💡 毒舌点评本文将凸神经网络的理论工具精准地“搬”进了语音识别语言检测任务，在极低资源下拿到了漂亮的一致性好成绩，理论与系统落地的结合点找得准，凸优化免调参的特性是实证亮点。但检测头只做语言分类，并未触碰 ASR 转录瓶颈本身；对比基线缺乏与主流 LID 专用模型的正面较量；且特征空间证书因缺乏编码器 Lipschitz 的精确估计而难以兑现为实用的音频空间鲁棒性保证，理论保证与工程实际之间存在明显落差。 📌 核心摘要本文针对多方言口音环境下自动语音识别（ASR）语言检测错误频发、尤其低资源方言样本稀缺导致传统微调过拟合的问题，提出 Convex Language Detection (CLD) 框架。方法核心是利用两层 ReLU 网络的凸重构形式，将 ASR 编码器冻结，仅通过凸规划训练一个检测头；该凸程序用 ADMM 在 JAX 上多 GPU 求解，得到全局最优解，并基于 variation norm 推导出 Lipschitz 证明和可计算的 margin 稳定性证书。相比传统神经网络需要大量数据和超参调优，CLD 在低资源（100-10000 样本）场景下保持高语言检测准确率并显著降低 WER。主要实验分别在二分类（英语 vs 中文，各含5种口音）和多分类（5种语言，24种口音）上进行，使用 Whisper-Small、Whisper-Large-V3 和 MMS-1B 作为骨干编码器；CLD 在500样本二分类上达到96.95%准确率，远超微调Whisper的72.07%和普通NN的55.80%；多分类中 Whisper-Large-V3 配合 CLD 达到98.06%准确率，WER降至28.60；训练时间仅为普通NN的7.7%。该方法为低资源多方言场景提供了一种可即插即用的稳健语言检测模块，但仅改善语言识别错误，对同一语言内方言转录错误仍受限于原始解码器。 ...

Decoupling The "What" and "Where" With Polar Coordinate Positional Embedding

📄 Decoupling The “What” and “Where” With Polar Coordinate Positional Embedding #音乐生成 7.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 7.8/10 | 前25% | #音乐生成 | #Transformer | arxiv 👥 作者与机构第一作者：Anand Gopalakrishnan（The Swiss AI Lab IDSIA, USI & SUPSI, Lugano, Switzerland；通讯地址为 Harvard University）通讯作者：Anand Gopalakrishnan, Michael C. Mozer（University of Colorado, Boulder；Google）作者列表：Anand Gopalakrishnan, Robert Csordás (OpenAI, San Francisco, USA；工作完成于 Stanford University 期间), Jürgen Schmidhuber (The Swiss AI Lab IDSIA, USI & SUPSI；KAUST, Thuwal, Saudi Arabia), Michael C. Mozer 💡 毒舌点评这篇 paper 的切入点选得巧，一眼看穿了 RoPE 里“what”和“where”纠缠带来的麻烦，一刀切下去直接把问题肢解了。数学上的改动无非是把坐标系擦了重画，但长度外推的效果确实让人侧目——不用插值不用微调，10倍上下文直接扛住，这波操作很秀。不过，作者似乎太陶醉于这一干净的“解耦”动作，对于“为什么解耦了就突然能外推了”这个问题，给了一堆实验观察，唯独缺了那个能让人彻底信服的理论闭环。另外，音乐和基因组领域的实验虽然贴了金，但 774M 的模型规模在当下连入门都算不上，离真正让大模型生产流水线买单，还差着几个量级的实证。 ...

DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing

📄 DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing 8/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音乐生成 | #扩散模型 | arxiv 👥 作者与机构第一作者：Kaiyang Ji、Bingsheng Qian（共同一作，上海科技大学）通讯作者：Jingya Wang（上海科技大学）作者列表：Kaiyang Ji（上海科技大学，InstAdapt）、Bingsheng Qian（上海科技大学，InstAdapt）、Binghuan Wu（上海科技大学）、Kangyi Chen（上海科技大学）、Ye Shi（上海科技大学，InstAdapt）、Jingya Wang（上海科技大学） 💡 毒舌点评这篇论文展现了一个令人印象深刻的实时音频驱动角色控制系统。它成功将扩散forcing框架移植到“零前瞻、低延迟”的流式场景，并搭建了从因果音频编码到虚拟人/物理机器人执行的完整闭环。其工程野心和部署完备性远超同类工作。然而，剥开华丽系统外壳，核心方法多是将已知训练技巧（混合调度、历史加噪）在新的任务组合上进行精巧重组，而非提出根本性的新扩散范式或序列建模原理。对DRAMA++等更强SOTA的遗漏比较，以及缺乏超长时间运行（>10分钟）下的系统性稳定性测试，让其在顶会的“方法贡献”维度上显得略显单薄。这是一份出色的系统答卷，但作为顶会核心方法论文，必须经受住“究竟改变了什么底层认知”的严苛拷问。 📌 核心摘要问题与挑战：论文旨在解决严格因果、低延迟约束下的实时音频驱动角色控制问题。作者明确指出，现有系统多依赖未来上下文进行离线生成，在流式部署中会出现反应延迟、节拍失步和长期滚动中的误差累积，且缺乏在硬实时计算预算下的闭环验证。方法核心：提出DiscoForcing框架：（1）一个因果音乐编码器（VQ-PAE），从滑动窗口音频中提取解耦的离散节奏码和连续相位对齐特征；（2）一个基于扩散forcing的潜在序列模型，通过异质噪声水平训练，并采用包含随机、单调和梯形噪声进程的混合时间调度策略；（3）一个基于时间引导的历史加噪采样方案，巧妙地权衡流式响应速度与长程稳定性。关键设计：推理时，维护一个固定长度的FIFO去噪窗口，对较远的历史token按梯形噪声轮廓重新加噪，引导模型更关注当前音频信号，解决了自回归模型因依赖陈旧历史而产生的锁定和漂移问题。实验优势：在FineDance和AIST++上，DiscoForcing在FID_k（23.84, 18.87）和FID_g（8.62, 11.57）上全面优于离线基线（EDGE, Lodge, MEGA）和流式基线（CLoSD, DART, MotionStreamer），且节拍对齐BAS具有竞争力。人类偏好研究中总体偏好率达70%以上，物理人形机器人跟踪成功率达85.3%。实际意义：提供了一个从音频到物理执行的端到端、可部署的实时交互系统，为生成式序列模型在具身智能和交互环中的可行性提供了系统级验证范本。主要局限性：（1）默认行为偏向训练数据中的舞蹈风格，对显著偏离分布的音乐（如古典乐）泛化能力存疑；（2）作者坦承系统在某些极端音频变化下仍需更丰富的表达覆盖；（3）论文未讨论潜在的音乐版权、运动数据伦理及合成人像滥用风险，但在文末影响声明中进行了补充说明。 🔗 开源详情代码：论文未提供实际代码仓库链接，但在附录A.1明确承诺将开源代码库、配置文件、预训练模型以及基于ROS2的系统。项目页面为 https://discoforcing.github.io/ 。模型权重：未提供。数据集：使用公开数据集FineDance、AIST++和部分BABEL数据。未提供自建数据集的下载链接。 Demo：未提供在线演示链接，但详细说明了构建的Unity虚拟角色和Unitree G1物理机器人部署平台。复现材料：论文附录A提供了非常详细的补充材料，包括 (1) 运动VAE（基于Wan2.1）和扩散Transformer的具体架构、训练参数（优化器、学习率、批次大小、训练步数、余弦退火策略）；(2) 详细的算法流程，包括训练（算法2）与带子步的推理（算法3）伪代码；(3) 完整的运动处理与恢复算法（算法4，5，6）；(4) 详细的因果音乐处理与流式缓存设计；(5) 基于ROS2的系统架构与各模块延迟分析。这些材料理论上为复现提供了良好支撑。引用的开源/第三方项目：DeepPhase4Audio（VQ-PAE实现基础）、Wan2.1（运动VAE实现基础）、SMPL（人体模型）、Librosa（音频特征提取）、AMASS/BABEL（训练数据）等。 🏗️ 方法概述和架构 DiscoForcing是一个面向部署的端到端流式音频驱动角色控制系统，由三个紧耦合模块构成，并通过ROS2在30Hz下进行低延迟异步通信。 ...

Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox

📄 Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox #语音属性识别 #后训练 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 🔥 8/10 | 前25% | #语音属性识别 | #后训练 | arxiv 👥 作者与机构第一作者：Jiacheng Pang（University of Southern California, Institute for Creative Technologies）通讯作者：Ashutosh Chaubey（University of Southern California, Institute for Creative Technologies）作者列表：Jiacheng Pang、Ashutosh Chaubey、Mohammad Soleymani（均为 USC Institute for Creative Technologies） 💡 毒舌点评作者用精心设计的对抗基准 VoxParadox 漂亮地揭露了 Audio LLM 对非语言声学线索的视而不见，这种“语言-声学矛盾”的构造思路比现有任何副语言评测都更致命。随后提出的 PCLM+DPO 方案在两项基线上带来超过 47 个百分点的绝对准确率提升，效果令人印象深刻，“听而非读”的转向肉眼可见。然而，PCLM 终究是事后补丁，层选择靠直觉而非系统验证，DPO 负样本构造过于简单，且 200 例人工验证的基准本身在部分主观任务上一致性堪忧。 ...

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

📄 DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation #音视频生成 #扩散模型 #多模态模型 #说话人验证 #多任务学习 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音视频生成 | #扩散模型 | #多模态模型 #说话人验证 | arxiv 👥 作者与机构第一作者：Xu Guo（清华大学）通讯作者：Xiangwang Hou（清华大学）、Songtao Zhao（字节跳动）作者列表：Xu Guo（清华大学）、Fulong Ye（字节跳动）、Qichao Sun（字节跳动）、Liyang Chen（清华大学）、Bingchuan Li（字节跳动）、Pengze Zhang（字节跳动）、Jiawei Liu（字节跳动）、Songtao Zhao（字节跳动）、Qian He（字节跳动）、Xiangwang Hou（清华大学） 💡 毒舌点评这篇文章的工程野心令人印象深刻——硬生生把三个各自为战的音视频生成任务塞进一个框架，双边对称注入、多阶段课程学习、双层级解耦，把身份绑定和任务冲突这些硬骨头啃了一遍。但读完之后如鲠在喉：Syn-RoPE本质上是RoPE的Margin分区技巧，结构化字幕是MLLM提示工程的产物，三阶段训练是课程学习的实例化——这些精巧的“组合创新”固然有效，却掩盖不了方法层面未见根本性突破的事实。更要命的是，一个号称“统一框架”的顶会投稿，代码和模型权重双双缺失，数据集获取方式也语焉不详，这严重削弱了其学术可信度和传播潜力。论文把“统一”的故事讲得挺好，但开源精神上显然还没“统一”过来。 ...

Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy

📄 Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy #语音增强 #语音增强 #扩散模型 8.4/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.4/10 | 前25% | #语音增强 | #扩散模型 | arxiv 👥 作者与机构第一作者：Ke Xue（北京理工大学网络空间安全学院）通讯作者：Rongfei Fan（北京理工大学网络空间安全学院）作者列表：Ke Xue（北京理工大学网络空间安全学院）、Rongfei Fan（北京理工大学网络空间安全学院）、Kai Li（清华大学计算机科学与技术系、BNRist）、Shanping Yu（北京理工大学网络空间安全学院）、Puning Zhao（中山大学网络空间安全学院）、Jianping An（北京理工大学网络空间安全学院） 💡 毒舌点评亮点：在轻量级语音增强方向上，DVPD用不到PGUSE 40%的参数量和MACs，在大部分指标上实现了反超，效率-质量权衡玩得漂亮。TLB策略作为从图像扩散模型（FreeU）迁移到语音频谱的"拿来主义"式改造，以零训练成本的即插即用特性在多个U-Net扩散模型上生效，为后续语音扩散推理优化立了一个低成本标杆。短板：整体框架套壳"预测+扩散并行分支"并未跳出现有范式，更像在PGUSE的骨架上做了精巧的频谱感知化装修。TLB虽好，但其分层调参本质上是基于测试集PESQ的oracle选择，实际部署中DNSMOS的映射关系仅做了三档粗糙划分，严格来说存在一定的"test-set tuning"嫌疑，其在新场景下的无参考自适应能力还未被严格验证。论文的理论贡献更多在工程洞察（频谱物理先验编码）而非方法论突破，这使得其离真正顶会oral级影响力尚有一步之遥。 📌 核心摘要论文要解决的核心问题是：现有扩散语音增强模型将频谱图当作普通2D图像进行空间均匀处理，忽略了音频频谱内在的非均匀信息密度（低频谐波密集、高频能量稀疏）和强各向异性（水平和垂直维度分别对应谐波和瞬态），导致计算效率低、参数冗余大的问题。核心方法是提出DVPD（Dual-View Predictive Diffusion），从"视觉纹理"与"声学物理"双重视角设计轻量级语音增强框架，包含三个关键创新组件：（a）频率自适应非均匀压缩编码器（FANC），对0-2kHz不加压缩以保留谐波完整性，对2-4kHz、>4kHz频段以递增压缩比和异构膨胀卷积核进行差异化处理；（b）轻量级图像基础频谱感知模块（LISA），通过三阶段动态条纹卷积（沿频率轴和时间轴）捕获频谱的各向异性特征，其中动态核由全局上下文经过卷积和tanh生成；（c）训练无关无损增强策略（TLB），在推理阶段对U-Net的跳跃连接和主干特征按2kHz分界进行分频段调制，并根据输入样本的质量层级自适应地选择不同的放缩因子组合。与PGUSE等SOTA并行预测-扩散架构相比，DVPD的核心新颖性在于将频谱图的内在物理结构显式编码进网络设计中：FANC的非均匀压缩和LISA的各向异性动态卷积是对频谱声学特性的针对性建模，而非简单采用空间均匀的通用卷积。TLB策略将FreeU式的U-Net特征调制技巧迁移到语音增强，并针对语音频谱的低频谐波完整性要求和高频噪声残留问题做了分频段设计。主要实验结果如下表所示（WSJ0-UNI测试集）： Method Para. MACs Type PESQ↑ ESTOI↑ CSIG↑ CBAK↑ COVL↑ WV-MOS↑ Degraded - - - 1.67±0.60 0.70±0.18 2.41±1.15 1.92±0.60 2.01±0.87 1.79±2.13 MP-SENet 2.26M 34.58G P 2.71±0.89 0.88±0.13 3.99±0.76 2.90±0.58 3.38±0.89 4.16±0.25 PGUSE 5.1M 26.3G D+P 2.95±0.91 0.91±0.06 4.01±0.77 2.61±0.60 3.53±0.91 3.44±0.66 DVPD (w/o TLB) 1.9M 10.2G D+P 2.99±0.88 0.91±0.12 4.06±0.71 2.93±0.57 3.43±0.87 4.16±0.25 DVPD (w/ TLB) 1.9M 10.2G D+P 3.15±0.79 0.92±0.05 4.21±0.37 3.01±0.47 3.51±0.99 4.27±0.31 DVPD以1.9M参数、10.2G MACs在WSJ0-UNI上取得PESQ 3.15，显著超过PGUSE（5.1M, 26.3G MACs, PESQ 2.95）。即使不使用TLB策略，DVPD（2.99 PESQ）也已超过PGUSE，且纯预测分支DVPD-P仅0.61M参数、2.41G MACs即可达到与2.26M/34.58G MACs的MP-SENet相当的性能（PESQ 2.70 vs 2.71）。 ...

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

📄 E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs #音视频问答 #基准测试 #多模态模型 #强化学习 6.9/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.5/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.9/10 | 前50% | #音视频问答 | #强化学习 | #基准测试 #多模态模型 | arxiv 👥 作者与机构第一作者：Xianjie Liu（阿里巴巴淘宝天猫集团阿里妈妈技术部，实习期间完成此项工作）通讯作者：Yiman Hu（阿里巴巴淘宝天猫集团阿里妈妈技术部, 项目负责人）、Liang Wu（阿里巴巴淘宝天猫集团阿里妈妈技术部）、Jian Xu（阿里巴巴淘宝天猫集团阿里妈妈技术部）、Bo Zheng（阿里巴巴淘宝天猫集团阿里妈妈技术部）作者列表： Xianjie Liu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Yiman Hu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Liang Wu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Ping Hu（Vin University，未说明具体学院/实验室） Yixiong Zou（华中科技大学，未说明具体学院/实验室） Jian Xu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Bo Zheng（阿里巴巴淘宝天猫集团阿里妈妈技术部） 💡 毒舌点评这篇论文精准切入了一个被顶会圈子长期忽视、却蕴藏巨大商业价值的领域——电商短视频理解。其提出的多模态密度评估框架是整个工作的点睛之笔，为“这任务为什么难”提供了量化的、有说服力的证据。然而，如果说方法部分展现的是专业团队的水准，那么论文呈现的排版质量则近乎草稿级别：严重的文本渲染错乱和表格乱码问题，贯穿全文，这不仅严重损害了专业形象，也让人怀疑作者对细节的态度。更关键的是，对于音频领域的读者而言，本文对语音信号的处理极其“粗暴”——将丰富的人类语言表达（韵律、情感、强调）简化为一串被计数的词汇，这与现代语音/副语言分析的前沿水平存在显著断层。 ...

EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs

📄 EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs #音视频理解 #模型压缩 #多模态模型 6.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.3/10 | 前50% | #音视频理解 | #模型压缩 | #多模态模型 | arxiv 👥 作者与机构第一作者：Chao Gong（复旦大学，蚂蚁集团）通讯作者：Huijia Zhu（蚂蚁集团），Jingjing Chen（复旦大学）作者列表：Chao Gong（复旦大学，蚂蚁集团）、Depeng Wang（蚂蚁集团）、Zhipeng Wei（UC Berkeley）、Ya Guo（蚂蚁集团）、Huijia Zhu（蚂蚁集团）、Jingjing Chen（复旦大学） 💡 毒舌点评论文敏锐地捕捉到稀疏采样下位置编码的频谱混叠这一被忽视的理论瓶颈，并用 Nyquist 视角给出了优雅的 Sync-RoPE 解决方案，实验上也做到了近乎无损的极致压缩。但方法对 RoPE 结构的依赖过强，本质上是对一个特定位置编码的后处理补丁，而非通用的时序建模理论。CS2 模块带来的固定开销在极短序列场景下是高射炮打蚊子，虽然作者在 rebuttal 中补充了效率分析，但跨架构泛化性仍是一道硬伤。 ...