模型压缩 | 语音/音乐/音频论文速递

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

📄 OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models #音视频问答 #模型压缩 7.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #音视频问答 | #模型压缩 | arxiv 👥 作者与机构第一作者（共一）：Yue Ding（中国科学院自动化研究所模式识别国家重点实验室；快手科技Kling团队）与 Yiyan Ji（南京大学）通讯作者：Qiang Liu（中国科学院自动化研究所模式识别国家重点实验室）作者列表：Yue Ding（中科院自动化所；快手科技）、Yiyan Ji（南京大学）、Jungang Li（香港科技大学（广州））、Xuyang Liu（四川大学）、Xinlong Chen（中科院自动化所）、Junfei Wu（中科院自动化所）、Bozhou Li（北京大学）、Bohan Zeng（北京大学）、Yang Shi（北京大学）、Yushuo Guan（快手科技）、Yuanxing Zhang（快手科技）、Jiaheng Liu（南京大学）、Qiang Liu（中科院自动化所）、Pengfei Wan（快手科技）、Liang Wang（中科院自动化所） 💡 毒舌点评这篇论文的“视觉先行、再引导音频”两阶段压缩，直觉干净，实验也漂亮——35% tokens就能战平甚至略超 full-token baseline，效率提升显著。但自信别太早：核心实验全在 Qwen2.5-Omni 上跑，换到 Qwen3-Omni 马上掉点（DailyOmni 70.5 vs. 70.8 full），说明方法的普适性没那么神。STVP 那套“按位置算余弦距离就当时间显著性”的操作，本质上仍在像素级做差分，真正的物体运动、遮挡这些时序动态它根本没建模，却好意思标榜“temporal redundancy”处理。Chunk 级剪枝更是直接摆烂，跨 chunk 长程依赖直接放弃，这可是 long-form 理解的基本盘。想法好、工程值钱，但别急着说自己是范式开创者。 ...

Quaternion Self-Attention with Shared Scores

📄 Quaternion Self-Attention with Shared Scores #语音增强 #高效推理 #模型压缩 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.3/10 | 前50% | #语音增强 | #Transformer | #高效推理 #模型压缩 | arxiv 👥 作者与机构第一作者：Shogo Yamauchi（The Asahi Shimbun Company, Tokyo, Japan）通讯作者：Shogo Yamauchi（The Asahi Shimbun Company）、Tohru Nitta（Tokyo Woman’s Christian University, Tokyo, Japan）、Hideaki Tamori（The Asahi Shimbun Company）作者列表：Shogo Yamauchi（The Asahi Shimbun Company）、Tohru Nitta（Tokyo Woman’s Christian University）、Hideaki Tamori（The Asahi Shimbun Company） 💡 毒舌点评用一个四元数内积替换汉密尔顿积做注意力打分，把4路独立softmax砍成1路，在语音增强上RTF最高砍半，还证明了组件独立本质是冗余——这个洞察确实漂亮。但实验仅限0.8M以下的小模型，跟2019年的Tay et al.基线比完就收工，连线性注意力、FlashAttention这类通用加速方案的影子都没见着，更别说拿Mamba来硬碰硬。整个评估像在自家花园里赛跑，说服力打折严重。声明的"首次提出共享分数"也值得商讨，因为实数Transformer从Vaswani et al.起就在用一个标量分数矩阵，本文本质是给四元数空间做了同样的事。 ...

RT-Tango: Real-Time Distributed Binaural Speech Enhancement for Low-Power Hearing Aid Devices

📄 RT-Tango: Real-Time Distributed Binaural Speech Enhancement for Low-Power Hearing Aid Devices #语音增强 #模型压缩 #助听器 5.5/10 | 创新 0.6/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 📝 5.5/10 | 前50% | #语音增强 | #模型压缩 | #助听器 | arxiv 👥 作者与机构第一作者：Zahra Benslimane（Université Paris-Saclay, CEA, List）通讯作者：未说明，疑似第一作者（zahra-hafida.benslimane@cea.fr）作者列表：Zahra Benslimane（Université Paris-Saclay, CEA, List）、Pierre Chouteau（Université Paris-Saclay, CEA, List，原文脚注1同属该机构）、Martyna Poreba（Université Paris-Saclay, CEA, List）、Fabrice Auzanneau（Université Paris-Saclay, CEA, List）、Michal Szczepanski（Université Paris-Saclay, CEA, List）、Fabian Chersi（Université Paris-Saclay, CEA, List）、Romain Serizel（Université de Lorraine, CNRS, Inria, LORIA） 💡 毒舌点评 RT-Tango在极低计算预算下，通过一套组合拳将分布式双耳增强打进了8 ms延迟的世界，工程上的"压榨"做得相当扎实。但论文的实验视野极其狭窄，蜷缩在一个小型模拟数据集和一组特定的声学配置上，且完全回避了与任何主流单/双通道增强SOTA的直接对标。“高效"的旗帜固然亮眼，但缺乏真实硬件验证和开源承诺，让"实用性强"的口号听起来更像是一个美好的愿望。 ...

AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

📄 AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation #多模态模型 #语音合成 #自回归模型 #模型压缩 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前25% | #语音合成 | #模型压缩 | #多模态模型 #自回归模型 | arxiv 👥 作者与机构作者：Kien T. Pham, I Chieh Chen, Qifeng Chen, Long Chen (通讯作者)。机构：香港科技大学（The Hong Kong University of Science and Technology）。 ...

FlexiSLM: A Dynamic and Controllable Frame Rate Spoken Language Model

📄 FlexiSLM: A Dynamic and Controllable Frame Rate Spoken Language Model #自监督学习 #语音合成 #语音识别 #模型压缩 7.2/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #模型压缩 | arxiv 👥 作者与机构本文由香港中文大学（深圳）和字节跳动联合完成。作者为：Jiaqi Li, Chaoren Wang, Xiaohai Tian, Mingjie Chen, Xinyu Liang, Xu Li, Yufan Lin, Junwen Qiu, Jun Zhang, Lu Lu, Haizhou Li, Zhizheng Wu。其中，通讯作者为jiaqili3@link.cuhk.edu.cn和wuzhizheng@cuhk.edu.cn。 ...

AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression

📄 AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression #多模态模型 #模型压缩 8.4/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.4/10 | 前25% | #多模态模型 | #模型压缩 | arxiv 👥 作者与机构作者：Yijing Chen, Wenhui Tan, Xiaoyi Yu, Yuyue Wang, Xin Cheng, Kaisi Guan, Hao Jiang, Xiangyang Li, Guojie Zhu, Ruihua Song 机构：中国人民大学高瓴人工智能学院，华为技术有限公司 ...

Neuromorphic Speech Enhancement with Dual-Branch Spiking Neural Networks

📄 Neuromorphic Speech Enhancement with Dual-Branch Spiking Neural Networks #语音增强 #模型压缩 7.0/10 ✅ 7.0/10 | 前50% | #语音增强 | #模型压缩 | arxiv 👥 作者与机构作者：Taiyu Meng, Wenbin Jiang, Haoyi Zhang, Yuhan Zhou, Haibing Yin 机构：杭州电子科技大学通信工程学院 💡 毒舌点评这篇工作像一篇扎实的“工程优化”报告，而非一个足以震撼顶会的“科学突破”。GSU-DBNet的设计逻辑清晰，就像一个精心组装的乐高模型，每个积木（双分支、双路径、GSU）都有其已知的出处和用途。其最大的亮点可能在于“消融实验”对GSU单元的深入探讨，这在SNN设计中确实有价值。然而，论文的野心似乎止步于此：它满足于在单一标准数据集（VoiceBank+DEMAND）上刷出一个不错的SOTA，并用“参数量低”来包装“低功耗”的愿景，却从未在神经形态硬件或真实功耗数据上迈出哪怕一步。这种“口头神经形态”在顶会审稿人看来是可疑的。论文反复强调的“二进制输出瓶颈”理论，更像是一个事后总结的观察，而非一个有坚实信息论或动力学系统分析支撑的创新理论贡献。总之，这是一篇完成度较高、但创新天花板明显的工作。 📌 核心摘要本文针对SNN在语音增强任务中性能不及ANN的问题，提出了一种名为GSU-DBNet的双分支脉冲神经网络架构。该架构的核心是采用了参数高效的门控脉冲单元（GSU）作为基础循环单元。GSU-DBNet遵循编码器-分离器-解码器范式：编码器提取特征；分离器通过双路径GSU模块（频率路径使用双向GSU捕捉全局频谱依赖，时间路径使用单向GSU建模因果时序）进行时空特征增强；解码器采用双分支结构，一个分支估计复数掩码并结合DeepFilter进行相位感知重建，另一个分支估计幅度掩码。两个分支的输出通过加权平均融合。在VoiceBank+DEMAND基准测试中，GSU-DBNet仅用394K参数即达到了3.04的PESQ分数，在多个指标上超越了现有SNN方法，并显著减少了与代表性ANN模型相比的参数量。消融实验验证了双分支和双路径设计的必要性，并发现二进制输出的瓶颈使得简单的单门GSU设计优于多门变体。 🔗 开源详情代码仓库：未提供。模型权重：未提供。数据集：未提供（实验使用公开的VoiceBank+DEMAND数据集）。在线演示：提供了音频样本的在线演示链接（https://meng-taiyu.github.io/dpnet-demo/），但此链接不包含可复现训练过程的代码或模型。 🏗️ 方法概述和架构 GSU-DBNet的整体架构如图1所示，遵循编码器-分离器-解码器范式，旨在联合建模语音的幅度谱和复数谱。编码器：首先对带噪语音进行短时傅里叶变换（STFT），取其实部、虚部和幅度谱，拼接成3通道的频谱输入。编码器包含三个卷积块，每个块由Conv2d、GroupNorm、PReLU和CBAM注意力模块组成。前两个块通过步长卷积逐步压缩频率维度并增加通道数，第三个块使用 \(1 \times 1\) 卷积将通道数提升至64，生成一个64通道的潜在特征图。双路径GSU分离器：这是模型的核心时空建模部分，由两个堆叠的双路径GSU块（DP-GSU）组成（图2b）。每个DP-GSU块对输入特征沿频率和时间两个维度交替进行建模：频率路径：将特征沿时间维度折叠，使用双向门控脉冲单元（BiGSU）处理，以捕捉跨频率的全局依赖关系。BiGSU能够同时利用过去和未来的上下文信息。时间路径：将特征沿频率维度折叠，使用单向门控脉冲单元（GSU）进行处理，以建模因果的时间依赖关系，确保实时性。每条路径处理后都接有一个线性投影层、GroupNorm层，并通过残差连接将输出与路径输入相加，以稳定训练。门控脉冲单元（GSU）： GSU是基本的循环单元（图2a）。它受LIF神经元启发，通过一个门控机制更新膜电位 \(c_t\)，并通过阶跃函数 \(\Theta\) 产生二进制脉冲输出 \(h_t\)。具体而言，给定当前输入 \(x_t\) 和上一时刻输出 \(h_{t-1}\)，GSU先计算一个联合线性投影 \(\mathbf{g}_t\)，并将其拆分为两部分。第一部分用于计算遗忘门 \(f_t = \sigma(\mathbf{g}_t^{(1)})\)。膜电位更新为 \(c_t = f_t \odot c_{t-1} + (1-f_t) \odot \mathbf{g}_t^{(2)}\)。这里，\((1-f_t)\) 充当隐式输入门，这种单门设计使得GSU的循环层参数量约为LSTM的一半。最终输出为二进制脉冲 \(h_t = \Theta(c_t)\)。这种二进制输出特性是SNN低功耗的关键，但也构成了信息瓶颈。论文还定义了多门变体SLSTM-2G（解耦遗忘门和输入门）和SLSTM-3G（额外加入输出门），用于消融研究。 ...

CAAD: Contrastive Audio-Aware Distillation for Efficient Speech Language Models

📄 CAAD: Contrastive Audio-Aware Distillation for Efficient Speech Language Models #语音识别 #模型压缩 #多模态模型 #语音情感识别 #对比学习 8.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.9/10 | 前25% | #语音识别 | #知识蒸馏 | #模型压缩 #多模态模型 | arxiv 👥 作者与机构第一作者：Chun-Wei Chen，第二作者：Tzu-Quan Lin，第三作者：Ke-Han Lu，第四作者：Wei-Ping Huang，第五作者：Hung-Yi Lee。机构：台湾大学电机工程学研究所、台湾大学通讯工程学研究所、台湾大学人工智能卓越研究中心（NTU AI-CoRE）。 💡 毒舌点评本文直击了语音语言模型蒸馏中“继承偏差而非克服偏差”的痛点，并提出了一个巧妙且高效的解决方案。其核心洞察——将推理时的对比解码（CD）逻辑训练时内化到学生权重——是清晰且有价值的。同步教师强制策略的设计也确实解决了传统对比蒸馏训练开销大的瓶颈。然而，这种巧妙设计严重依赖一个核心假设：由LLM基于元数据生成的“伪真实标签（Pseudo-GT）”是高质量且无偏的锚点。论文对此论证不足，这使得整个框架的上限存疑。实验虽然扎实，但仅在单一架构和压缩比上验证，普适性存疑。更关键的是，CAAD学生模型性能虽优于Std. KD，但仍不及教师模型的CD解码，这一差距的原因分析缺失。这像是一位学生学会了老师的“内功心法”（对比逻辑），但“内力”（模型容量）仍不及老师本人施展的威力。总的来说，这是一篇技术实现巧妙、实验导向明确的工作，但其核心组件的可靠性和结论的普适性需要更严格的审视。 📌 核心摘要本文针对语音语言模型参数庞大且标准蒸馏会继承语言先验偏差的问题，提出了对比音频感知蒸馏（CAAD）。CAAD的核心是通过同步教师强制策略，利用文本元数据生成的伪真实标签（Pseudo-GT）作为锚点，使教师模型能高效计算“音频感知”和“仅文本”两条路径的对比分布。学生模型通过优化与“音频感知目标”的KL散度，将这种对比推理能力内化到单路径模型中，从而在不增加推理延迟的前提下，提升模型对音频信息的依赖并减轻语言偏差。实验在DeSTA2（8B教师到3B学生）上表明，CAAD在通用任务（Dynamic-SUPERB）上相比标准蒸馏有约8%的性能提升，在模态冲突任务（MCR-BENCH）上显著降低了语言偏见（Shift值从100%降至79.03%）。 🔗 开源详情代码：https://github.com/ChenWils/Contrastive_Audio-Aware_Distillation.git 模型权重：论文中未提及具体链接。数据集：论文中提及了AccentDB、DailyTalk、IEMOCAP、PromptTTS、VCTK、VoxCeleb以及MCR-BENCH中的MELD子集，但未提供具体下载链接。 Demo：论文中未提及。复现材料：论文中提及了训练配置（使用RTX A6000 GPU训练70小时，优化器为FusedAdam，学习率 \(1 \times 10^{-4}\)，\(\lambda=0.7\)，\(\tau=2.0\)），但未提供具体检查点或附录。论文中引用的开源项目：未提及具体开源项目链接。 🏗️ 方法概述和架构 CAAD框架旨在将教师模型在推理时使用的对比解码（CD）能力，高效地蒸馏到单路径的学生模型中，避免推理时双路径计算带来的延迟。该框架分为两个阶段，如图1所示。阶段1：伪真实标签（Pseudo-GT）生成此阶段为后续的同步蒸馏准备统一的锚点序列。给定音频输入 \(X^{A}\)，首先提取文本元数据 \(M\)（如性别、情绪、声学环境等）。然后，利用教师模型的LLM骨干（如Llama3-8B-Instruct），以元数据 \(M\) 为条件，自回归生成一个结构化的描述性文本序列 \(Y^{pseudo} = \{y_1, y_2, ..., y_L\}\)。这个序列 \(Y^{pseudo}\) 被视为一个高质量的、与音频内容对齐的伪真实标签，将作为阶段2中教师模型双路径生成的固定输入序列，以实现训练过程的并行化。论文还探索了另一种直接从连续音频嵌入生成 \(Y^{pseudo}\) 的基线，但消融实验（表3）表明，基于文本元数据的锚点具有更高的保真度。阶段2：对比音频感知蒸馏在此阶段，教师模型 \(\mathcal{T}\) 和学生模型 \(\mathcal{S}\) 同时使用阶段1生成的 \(Y^{pseudo}\) 作为输入序列的一部分，进行同步计算。 ...

Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior

📄 Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior #参数高效微调 #语音识别 #语音情感识别 #模型压缩 #大语言模型 7.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.4/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #参数高效微调 | #语音情感识别 #模型压缩 | arxiv 👥 作者与机构论文作者为 Vyom Agarwal, Mokshda Gangrade, Siddharth Pal, Jerry Wu。文中未明确提及作者所属机构。 💡 毒舌点评这篇论文像是在用显微镜仔细观察一个众所周知的工程事实：模型越大、输入越多、算的越细，效果一般会越好，但算力不是无限的。其核心贡献“三轴框架”(\(x_N, x_T, x_V\))更像是一种标准化的观察视角，而非突破性的算法或理论。方法上，本质上是“控制变量法”（Star-Sweep）在模型缩放场景下的应用，组合了现成的LoRA和DAMA技术。实验很扎实，表格列得很满，Pareto前沿图也画了，结论基本符合直觉（例如收益递减、存在最优输入长度）。但“创新性”令人尴尬，更像是在ICASSP发的工作硬往顶会挤。审稿人看到“extends this idea to the audio domain”这种话大概会翻白眼。最大的亮点可能是清晰地揭示了ASR和SER任务在缩放特性上的本质差异（平滑前沿 vs. 稀疏前沿），但这更像是一个细致的实证发现，而非方法上的突破。 ...

FlowFake: Liquid Networks for Audio Deepfake Detection

📄 FlowFake: Liquid Networks for Audio Deepfake Detection #模型压缩 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.5/10 | 前25% | #模型压缩 | #模型压缩 | arxiv 👥 作者与机构作者：Shivaay Dhondiyal, Divyansh Sharma, Dinesh Kumar Vishwakarma 单位：Delhi Technological University, New Delhi, India 💡 毒舌点评这篇论文想法确实新颖，把液态网络（LTC）这种常微分方程（ODE）驱动的东西塞进音频伪造检测，逻辑上说得通，就是要捕捉“轨迹异常”。理论部分像样，BIBO稳定性和误差界都给整出来了，还煞有介事地分析了梯度衰减和噪声鲁棒性，比很多只丢个模块的水文强。在跨数据集这个硬骨头任务上，用34K的微型参数量，能在某些组合上打败几百M参数的SSL模型，参数效率的故事讲得很漂亮。但是，别急着鼓掌。实验设计有点“偏科”，消融实验就在ITW一个数据集上搞，LTC各组件在其他更难的任务上是不是真这么关键，存疑。跟同类轻量模型（比如LCNN）的对比深度不够，显得参数效率优势的论据有点单薄。最要命的是，在数据充足、分布偏移不大的场景（比如MLAAD训练测FoR），大模型轻松碾压，论文自己也承认了，这说明你的“结构先验”优势是有适用边界的。另外，对LLM时代的新合成武器（比如VALL-E、Bark这类）毫无防备，显得前瞻性不足。总结：有创新有干货，但实验不够均衡，结论下得有点满，是个扎实的工作，离完美还有距离。 📌 核心摘要本文针对音频深度伪造检测中跨数据集泛化能力不足的核心挑战，提出了FlowFake架构。作者认为现有检测器失败在于其固定的帧级统计聚合结构丢失了伪造语音的多时间尺度轨迹异常信息。FlowFake首次将液态时间常数（LTC）网络引入该领域，其隐藏状态通过一个可学习的常微分方程（ODE）演化，每个神经元具有自适应的时间常数，理论上能同时捕获快速的频谱（约10ms）和缓慢的韵律（约2s）异常。该模型仅约34K参数，但具有严格的BIBO稳定性证明和四阶龙格-库塔法（RK4）积分误差界。在严格的“留一数据集”跨域评估中，FlowFake表现出色，例如在FakeOrReal上训练，在ASVspoof 2019上达到75.29%准确率；在MLAAD v1上训练，在ASVspoof 2019上达到79.97%准确率，并在WaveFake上实现90.41%的零样本准确率。其性能在多个跨域组合上超越了RawGAT-ST、Whisper-DF等基线，并以仅0.01%的参数量达到了与300倍参数量的SSL Wav2vec2模型相当的性能。论文通过理论分析和实验证明，连续时间建模是音频伪造检测的一个有前景的结构先验。 🔗 开源详情代码：论文中提及代码已发布于GitHub，但未在正文中给出具体URL链接。因此，具体仓库链接未知。 ...