模型压缩 | 语音/音乐/音频论文速递

Tokenizer Transplantation: Mitigating Autoregressive Collapse in Edge-Efficient Bengali ASR

📄 Tokenizer Transplantation: Mitigating Autoregressive Collapse in Edge-Efficient Bengali ASR 标签：#语音识别 #模型压缩 #领域适应 #低资源 #多语言 8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.8/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #模型压缩 | #领域适应 #低资源 | arxiv 👥 作者与机构第一作者：Sanjid Hasan（Khulna University of Engineering & Technology, Department of Computer Science and Engineering (CSE)）通讯作者：未说明作者列表：Sanjid Hasan（Khulna University of Engineering & Technology, Department of Computer Science and Engineering (CSE)）、Md. Abdur Rahman（Khulna University of Engineering & Technology, Department of Computer Science and Engineering (CSE)） 💡 毒舌点评论文对轻量级模型在形态丰富语言上失败的根本原因（tokenizer fertility）诊断精准，提出的“transplantation”管线工程价值突出，为同类问题提供了可复用的“外科手术”范本。然而，实验部分过于依赖单数据集（Lipi-Ghor）的端到端验证，缺乏关键的组件消融研究（例如，只做词表替换但不做两阶段恢复的效果如何），使得方法各部分的贡献边界模糊，说服力略有折扣。 ...

A Quantized Native Runtime for On-Device Semantic Audio Generation

📄 A Quantized Native Runtime for On-Device Semantic Audio Generation 标签：#音乐生成 #高效推理 #模型压缩 #音频理解 #Transformer 8.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐生成 | #模型压缩 | #高效推理 #音频理解 | arxiv 👥 作者与机构第一作者：Matteo Spanio 第二作者：Antonio Rodà 通讯作者：未说明作者列表：Matteo Spanio（未说明具体机构）、Antonio Rodà（未说明具体机构） 💡 毒舌点评本文最大的亮点在于将llama.cpp式的“依赖无关、即插即用”工程哲学系统性地、严谨地应用于Stable Audio 3这一先进音频扩散模型的部署，并以部署导向的量化研究和运行时原生激活引导作为核心支撑，实验设计扎实，展现了强大的工程落地能力。然而，开源不彻底（模型权重、引导方向向量等关键材料未提供）以及量化研究和引导实验均局限于单一模型家族（Stable Audio 3），使其影响力在更广泛的音频社区大打折扣，更像一个优秀的内部技术验证而非可立即复用的通用工具。此外，引导案例研究虽然方法学严谨，但其声称的“可控属性”仅限于甜、酸、苦三种，且控制窗口狭窄，整体影响力有限。 ...

It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement

📄 It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement 标签：#语音增强 #知识蒸馏 #模型压缩 #音频理解 #Transformer 6.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #知识蒸馏 | #模型压缩 #音频理解 | arxiv 👥 作者与机构第一作者：Zahra Benslimane (Univ. Lorraine, CNRS, Inria, LORIA, France) 通讯作者：Romain Serizel (Sorbonne Université, CNRS, LIP6, France) (论文中标注 † 为通讯作者) 作者列表：Zahra Benslimane (Univ. Lorraine, CNRS, Inria, LORIA, France), Pierre Chouteau (Univ. Lorraine, CNRS, Inria, LORIA, France), Martyna Poreba (Univ. Lorraine, CNRS, Inria, LORIA, France), Fabrice Auzanneau (Univ. Lorraine, CNRS, Inria, LORIA, France), Michal Szczepanski (Univ. Lorraine, CNRS, Inria, LORIA, France), Fabian Chersi (Univ. Lorraine, CNRS, Inria, LORIA, France), Romain Serizel (Sorbonne Université, CNRS, LIP6, France) 💡 毒舌点评论文的核心洞察——空间滤波能补偿量化带来的掩膜估计误差——确实有启发性，为混合系统的低功耗部署提供了新思路。然而，实验设置略显“保守”：所有评估均基于单一噪声方位角（仅右侧45°和90°），且目标声源固定在正前方。论文未测试更复杂或动态的声学场景（如混响、移动噪声源、多干扰源），这限制了结论的普适性。此外，与当前最先进的轻量级增强模型缺乏直接对比，使其在技术谱系中的位置不甚明了。 ...

It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement

📄 It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement 标签：#语音增强 #模型压缩 #多通道 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.3/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #模型压缩 | #多通道 | arxiv 👥 作者与机构第一作者：Zahra Benslimane（法国南锡大学，洛林大学）通讯作者：未说明作者列表：Zahra Benslimane（法国南锡大学，洛林大学）、Pierre Chouteau（法国南锡大学）、Martyna Poreba（法国南锡大学）、Fabrice Auzanneau（法国南锡大学）、Michal Szczepanski（法国南锡大学）、Fabian Chersi（法国南锡大学）、Romain Serizel（洛林大学） 💡 毒舌点评论文的核心价值在于揭示了混合神经-空间系统中空间滤波器对量化噪声的鲁棒性，并据此提出了一套务实、有效的系统级压缩流水线（架构简化 -> QAT -> ERB压缩 -> 分组LSTM），为助听器等边缘设备的语音增强部署提供了清晰的工程路线图。其硬伤在于：1) 所有压缩技术（量化、分组LSTM、ERB）均为现有成熟组件的组合，缺乏算法层面的突破；2) 所有实验均在模拟数据上完成，缺乏真实硬件部署验证（延迟、功耗）；3) 完全不开源代码、模型和训练数据，极大削弱了其学术影响力和可复用性。 ...

Compress the Cache, Not the Speech Embedding: KV Compression for Efficient Speech LLMs

📄 Compress the Cache, Not the Speech Embedding: KV Compression for Efficient Speech LLMs #语音识别 #语音大模型 #模型压缩 #高效推理 7/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7/10 | 前50% | #语音识别 | #模型压缩 | #语音大模型 #高效推理 | arxiv 👥 作者与机构第一作者：Ke-Han Lu（台湾大学，工作于Microsoft实习期间完成）通讯作者：Keqi Deng（Microsoft, USA）作者列表： Ke-Han Lu（台湾大学 / Microsoft, USA） Keqi Deng（Microsoft, USA） Ruchao Fan（Microsoft, USA） Rui Zhao（Microsoft, USA） Jinyu Li（Microsoft, USA） 💡 毒舌点评这篇论文的核心洞察——“在LLM内部压缩语音KV Cache，而不在Adapter层提前丢弃信息”——精准地抓住了Speech LLM推理效率的核心矛盾。实验证据链相当完整，从层间相似性分析（发现深层冗余）到注意力图可视化（验证浅层对齐前移），逻辑自洽。在4倍压缩下反超无压缩基线的现象足够吸睛，工业部署价值明确。然而，方法本质上是将通用的KV Cache压缩思想适配到语音场景，技术内核（学习门控+softmax池化）过于朴素，缺乏实质性的理论突破。实验仅限ASR任务和Qwen3-1.7B单一backbone，对于语音翻译、语音问答、情感识别等更依赖高层语义理解的语音任务完全未涉及，这使得其宣称的"高效通用Speech LLM方案"显得操之过急。与参数量更大的开源模型（如Phi4-mm）WER接近但未展开深度对比，略显可惜。整个故事虽好，但更像是为"在语音LLM内部而非外部压缩"这个idea精心设计的一场成功演示，而非具备普适性的方法论创新。 ...

OmniFocus: Query-Guided Modality-Balanced Token Compression for Omni-Modal Large Language Models

📄 OmniFocus: Query-Guided Modality-Balanced Token Compression for Omni-Modal Large Language Models #多模态模型 #模型压缩 #音视频问答 5.9/10 | 创新 1/2 | 严谨 0.9/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.9/10 | 前50% | #音视频问答 | #模型压缩 | #多模态模型 | arxiv 👥 作者与机构第一作者：Shijie Cao（School of Advanced Interdisciplinary Sciences, University of Chinese Academy of Sciences; Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences）通讯作者：论文中未明确标注通讯作者，但根据邮箱模式与作者排序推断，Yaojie Lu 为 senior 作者，通常担任通讯作者。作者列表：Shijie Cao（University of Chinese Academy of Sciences; Institute of Software, Chinese Academy of Sciences）、Qingyu Zhang（Institute of Software, Chinese Academy of Sciences）、Boxi Yu（University of Limerick）、Yuzhong Zhang（CUHK, Shenzhen）、Boxi Cao（Institute of Software, Chinese Academy of Sciences）、Yaojie Lu（Institute of Software, Chinese Academy of Sciences）、Hongyu Lin（Institute of Software, Chinese Academy of Sciences）、Xianpei Han（Institute of Software, Chinese Academy of Sciences）、Le Sun（Institute of Software, Chinese Academy of Sciences） 💡 毒舌点评本文提出了一个思路清晰但技术深度一般的训练无关 token 压缩策略。亮点在于正确识别了单模态（音频）引导压缩会系统性地损害视觉模态性能的问题，并给出了直觉上合理的对称解决方案。然而，方法本质上是基于余弦相似度的启发式采样，缺乏理论创新，且在“前沿模型全量微调”和“关键任务精度”这两端都不讨好，其性能优势在多数 benchmark 上仅 1-2 个百分点，属于典型的边缘提升，难以在顶级会议中产生显著吸引力。提交时未提供可用的代码或复现材料，进一步削弱了其可信度。 ...

EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs

📄 EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs #音视频理解 #模型压缩 #多模态模型 6.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.3/10 | 前50% | #音视频理解 | #模型压缩 | #多模态模型 | arxiv 👥 作者与机构第一作者：Chao Gong（复旦大学，蚂蚁集团）通讯作者：Huijia Zhu（蚂蚁集团），Jingjing Chen（复旦大学）作者列表：Chao Gong（复旦大学，蚂蚁集团）、Depeng Wang（蚂蚁集团）、Zhipeng Wei（UC Berkeley）、Ya Guo（蚂蚁集团）、Huijia Zhu（蚂蚁集团）、Jingjing Chen（复旦大学） 💡 毒舌点评论文敏锐地捕捉到稀疏采样下位置编码的频谱混叠这一被忽视的理论瓶颈，并用 Nyquist 视角给出了优雅的 Sync-RoPE 解决方案，实验上也做到了近乎无损的极致压缩。但方法对 RoPE 结构的依赖过强，本质上是对一个特定位置编码的后处理补丁，而非通用的时序建模理论。CS2 模块带来的固定开销在极短序列场景下是高射炮打蚊子，虽然作者在 rebuttal 中补充了效率分析，但跨架构泛化性仍是一道硬伤。 ...

IVQ: Structured and Lightweight Vector Quantization via Binary Hierarchical Composition Inspired by

📄 IVQ: Structured and Lightweight Vector Quantization via Binary Hierarchical Composition Inspired by \(\textit{IChing}\) #音频编码 #音乐生成 #多模态模型 #模型压缩 8.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 🔥 8.2/10 | 前25% | #音频编码 | #模型压缩 | #音乐生成 #多模态模型 | arxiv 👥 作者与机构第一作者：Heda Zuo（浙江大学计算机科学与技术学院）通讯作者：Weitao You（浙江大学计算机科学与技术学院）作者列表：Heda Zuo（浙江大学计算机科学与技术学院）、Junxian Wu（浙江大学计算机科学与技术学院）、Fengjie Lu（浙江大学计算机科学与技术学院）、Pei Chen（浙江大学计算机科学与技术学院）、Lingyun Sun（浙江大学计算机科学与技术学院）、Weitao You（浙江大学计算机科学与技术学院） 💡 毒舌点评这篇论文的野心在于用东方哲学包装一个本质上属于残差积量化（Residual-Product VQ）的技术方案，并试图将《易经》的符号系统强制映射为一种结构先验。但难能可贵的是，这种包装并非纯粹的概念点缀，而是真正催生了极简码本（4×2个基向量）与几何对称约束的有效结合，从根本上解决了码本坍缩，并实现了100%的利用率。在“大力出奇迹”的Scaling Law时代，这种追求结构优雅和极致轻量化的反向探索具有启发性。但哲学隐喻增加了不必要的阅读障碍，且实验规模与当前主流大模型相差甚远，使其实用性仍存疑。 ...

LightAVSeg: Lightweight Audio-Visual Segmentation

📄 LightAVSeg: Lightweight Audio-Visual Segmentation #模型压缩 #高效推理 #多模态模型 #知识蒸馏 6.3/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.3/10 | 前50% | #模型压缩 | #模型压缩 | #高效推理 #多模态模型 | arxiv 👥 作者与机构第一作者：Qing Zhong (华中农业大学信息学院) 通讯作者：Guodong Ding (新加坡国立大学计算学院) 作者列表：Qing Zhong (华中农业大学信息学院), Guodong Ding (新加坡国立大学计算学院), Lingqiao Liu (阿德莱德大学计算机科学学院), Zaiwen Feng (华中农业大学信息学院), Lin Yuanbo Wu (华威大学工学院 / 浙江越秀外国语学院), Angela Yao (新加坡国立大学计算学院) 💡 毒舌点评这篇论文抓住了一个真实痛点：AVS模型在移动端的部署瓶颈。解耦”语义过滤“和”空间定位“的思路清晰，但本质上是将多模态融合中”音频提供全局语义“这一已知洞察工程化为通道调制，范式贡献有限。移动端8倍加速的数据亮眼，但164ms的延迟对于”实时交互“仍显尴尬，且与Mamba等同期线性复杂度工作的对比缺失，让优越性存疑。代码和模型不开源，在这个领域几乎是原罪，让所有工程化承诺都悬于空中。 ...

OmniFit: Bridging Modalities via Layer-Adaptive Token Compression for Omnimodal Large Language Models

📄 OmniFit: Bridging Modalities via Layer-Adaptive Token Compression for Omnimodal Large Language Models #音视频理解 #模型压缩 #多模态模型 #高效推理 6.3/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.1/0.5 | 工程 1.1/1.5 ✅ 6.3/10 | 前50% | #音视频理解 | #模型压缩 | #多模态模型 #高效推理 | arxiv 👥 作者与机构第一作者：Zining Wang（北京航空航天大学计算机科学与工程学院，复杂与关键软件环境国家重点实验室）通讯作者：Xianglong Liu（北京航空航天大学计算机科学与工程学院，复杂与关键软件环境国家重点实验室）其他作者：Zhihang Yuan（北京大学）、Yingjie Zhai（华为技术有限公司）、Wenshuo Li（华为技术有限公司）、Han Shu（华为技术有限公司）、Ruihao Gong（复杂与关键软件环境国家重点实验室）、Jinyang Guo（北京航空航天大学计算机科学与工程学院/人工智能学院，复杂与关键软件环境国家重点实验室） 💡 毒舌点评这篇论文的动机分析（层间异质性和跨模态锚点驱动）是一次漂亮的现象学观察，作者花了大力气证明“为什么”需要层自适应和跨模态对齐。但坦白说，方法论上更像一个“证件照”：SVD、DPC-KNN、余弦相似度这套组合拳看起来体面，深究下去却没有真正的新算法原理。核心卖点“training-free”既是铠甲也是软肋——轻量化部署确实友好，但也意味着它永远只能做“事后诸葛亮”，无法改变模型自身对冗余信息的处理逻辑。实验覆盖面广是优点，但依然缺少对深层why的拷问：为什么基于静态编码器输出的余弦相似度，能成为深层复杂语义交互的良好代理？这篇工作给了一个“够用”的解释，但离“令人信服”还有距离。 ...