AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

📄 AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation #多模态模型 #语音合成 #自回归模型 #模型压缩 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前25% | #语音合成 | #模型压缩 | #多模态模型 #自回归模型 | arxiv 👥 作者与机构 作者:Kien T. Pham, I Chieh Chen, Qifeng Chen, Long Chen (通讯作者)。 机构:香港科技大学(The Hong Kong University of Science and Technology)。 ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 380 words

FlexiSLM: A Dynamic and Controllable Frame Rate Spoken Language Model

📄 FlexiSLM: A Dynamic and Controllable Frame Rate Spoken Language Model #自监督学习 #语音合成 #语音识别 #模型压缩 7.2/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #模型压缩 | arxiv 👥 作者与机构 本文由香港中文大学(深圳)和字节跳动联合完成。作者为:Jiaqi Li, Chaoren Wang, Xiaohai Tian, Mingjie Chen, Xinyu Liang, Xu Li, Yufan Lin, Junwen Qiu, Jun Zhang, Lu Lu, Haizhou Li, Zhizheng Wu。其中,通讯作者为jiaqili3@link.cuhk.edu.cn和wuzhizheng@cuhk.edu.cn。 ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 324 words

AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression

📄 AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression #多模态模型 #模型压缩 8.4/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.4/10 | 前25% | #多模态模型 | #模型压缩 | arxiv 👥 作者与机构 作者:Yijing Chen, Wenhui Tan, Xiaoyi Yu, Yuyue Wang, Xin Cheng, Kaisi Guan, Hao Jiang, Xiangyang Li, Guojie Zhu, Ruihua Song 机构:中国人民大学高瓴人工智能学院,华为技术有限公司 ...

2026-06-24 · 更新于 2026-07-02 · 3 min · 495 words

Neuromorphic Speech Enhancement with Dual-Branch Spiking Neural Networks

📄 Neuromorphic Speech Enhancement with Dual-Branch Spiking Neural Networks #语音增强 #模型压缩 7.0/10 ✅ 7.0/10 | 前50% | #语音增强 | #模型压缩 | arxiv 👥 作者与机构 作者:Taiyu Meng, Wenbin Jiang, Haoyi Zhang, Yuhan Zhou, Haibing Yin 机构:杭州电子科技大学通信工程学院 💡 毒舌点评 这篇工作像一篇扎实的“工程优化”报告,而非一个足以震撼顶会的“科学突破”。GSU-DBNet的设计逻辑清晰,就像一个精心组装的乐高模型,每个积木(双分支、双路径、GSU)都有其已知的出处和用途。其最大的亮点可能在于“消融实验”对GSU单元的深入探讨,这在SNN设计中确实有价值。然而,论文的野心似乎止步于此:它满足于在单一标准数据集(VoiceBank+DEMAND)上刷出一个不错的SOTA,并用“参数量低”来包装“低功耗”的愿景,却从未在神经形态硬件或真实功耗数据上迈出哪怕一步。这种“口头神经形态”在顶会审稿人看来是可疑的。论文反复强调的“二进制输出瓶颈”理论,更像是一个事后总结的观察,而非一个有坚实信息论或动力学系统分析支撑的创新理论贡献。总之,这是一篇完成度较高、但创新天花板明显的工作。 📌 核心摘要 本文针对SNN在语音增强任务中性能不及ANN的问题,提出了一种名为GSU-DBNet的双分支脉冲神经网络架构。该架构的核心是采用了参数高效的门控脉冲单元(GSU)作为基础循环单元。GSU-DBNet遵循编码器-分离器-解码器范式:编码器提取特征;分离器通过双路径GSU模块(频率路径使用双向GSU捕捉全局频谱依赖,时间路径使用单向GSU建模因果时序)进行时空特征增强;解码器采用双分支结构,一个分支估计复数掩码并结合DeepFilter进行相位感知重建,另一个分支估计幅度掩码。两个分支的输出通过加权平均融合。在VoiceBank+DEMAND基准测试中,GSU-DBNet仅用394K参数即达到了3.04的PESQ分数,在多个指标上超越了现有SNN方法,并显著减少了与代表性ANN模型相比的参数量。消融实验验证了双分支和双路径设计的必要性,并发现二进制输出的瓶颈使得简单的单门GSU设计优于多门变体。 🔗 开源详情 代码仓库:未提供。 模型权重:未提供。 数据集:未提供(实验使用公开的VoiceBank+DEMAND数据集)。 在线演示:提供了音频样本的在线演示链接(https://meng-taiyu.github.io/dpnet-demo/),但此链接不包含可复现训练过程的代码或模型。 🏗️ 方法概述和架构 GSU-DBNet的整体架构如图1所示,遵循编码器-分离器-解码器范式,旨在联合建模语音的幅度谱和复数谱。 编码器: 首先对带噪语音进行短时傅里叶变换(STFT),取其实部、虚部和幅度谱,拼接成3通道的频谱输入。编码器包含三个卷积块,每个块由Conv2d、GroupNorm、PReLU和CBAM注意力模块组成。前两个块通过步长卷积逐步压缩频率维度并增加通道数,第三个块使用 \(1 \times 1\) 卷积将通道数提升至64,生成一个64通道的潜在特征图。 双路径GSU分离器: 这是模型的核心时空建模部分,由两个堆叠的双路径GSU块(DP-GSU)组成(图2b)。每个DP-GSU块对输入特征沿频率和时间两个维度交替进行建模: 频率路径: 将特征沿时间维度折叠,使用双向门控脉冲单元(BiGSU)处理,以捕捉跨频率的全局依赖关系。BiGSU能够同时利用过去和未来的上下文信息。 时间路径: 将特征沿频率维度折叠,使用单向门控脉冲单元(GSU)进行处理,以建模因果的时间依赖关系,确保实时性。 每条路径处理后都接有一个线性投影层、GroupNorm层,并通过残差连接将输出与路径输入相加,以稳定训练。 门控脉冲单元(GSU): GSU是基本的循环单元(图2a)。它受LIF神经元启发,通过一个门控机制更新膜电位 \(c_t\),并通过阶跃函数 \(\Theta\) 产生二进制脉冲输出 \(h_t\)。具体而言,给定当前输入 \(x_t\) 和上一时刻输出 \(h_{t-1}\),GSU先计算一个联合线性投影 \(\mathbf{g}_t\),并将其拆分为两部分。第一部分用于计算遗忘门 \(f_t = \sigma(\mathbf{g}_t^{(1)})\)。膜电位更新为 \(c_t = f_t \odot c_{t-1} + (1-f_t) \odot \mathbf{g}_t^{(2)}\)。这里,\((1-f_t)\) 充当隐式输入门,这种单门设计使得GSU的循环层参数量约为LSTM的一半。最终输出为二进制脉冲 \(h_t = \Theta(c_t)\)。这种二进制输出特性是SNN低功耗的关键,但也构成了信息瓶颈。论文还定义了多门变体SLSTM-2G(解耦遗忘门和输入门)和SLSTM-3G(额外加入输出门),用于消融研究。 ...

2026-06-24 · 更新于 2026-07-02 · 2 min · 277 words

CAAD: Contrastive Audio-Aware Distillation for Efficient Speech Language Models

📄 CAAD: Contrastive Audio-Aware Distillation for Efficient Speech Language Models #语音识别 #模型压缩 #多模态模型 #语音情感识别 #对比学习 8.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.9/10 | 前25% | #语音识别 | #知识蒸馏 | #模型压缩 #多模态模型 | arxiv 👥 作者与机构 第一作者:Chun-Wei Chen,第二作者:Tzu-Quan Lin,第三作者:Ke-Han Lu,第四作者:Wei-Ping Huang,第五作者:Hung-Yi Lee。机构:台湾大学电机工程学研究所、台湾大学通讯工程学研究所、台湾大学人工智能卓越研究中心(NTU AI-CoRE)。 💡 毒舌点评 本文直击了语音语言模型蒸馏中“继承偏差而非克服偏差”的痛点,并提出了一个巧妙且高效的解决方案。其核心洞察——将推理时的对比解码(CD)逻辑训练时内化到学生权重——是清晰且有价值的。同步教师强制策略的设计也确实解决了传统对比蒸馏训练开销大的瓶颈。然而,这种巧妙设计严重依赖一个核心假设:由LLM基于元数据生成的“伪真实标签(Pseudo-GT)”是高质量且无偏的锚点。论文对此论证不足,这使得整个框架的上限存疑。实验虽然扎实,但仅在单一架构和压缩比上验证,普适性存疑。更关键的是,CAAD学生模型性能虽优于Std. KD,但仍不及教师模型的CD解码,这一差距的原因分析缺失。这像是一位学生学会了老师的“内功心法”(对比逻辑),但“内力”(模型容量)仍不及老师本人施展的威力。总的来说,这是一篇技术实现巧妙、实验导向明确的工作,但其核心组件的可靠性和结论的普适性需要更严格的审视。 📌 核心摘要 本文针对语音语言模型参数庞大且标准蒸馏会继承语言先验偏差的问题,提出了对比音频感知蒸馏(CAAD)。CAAD的核心是通过同步教师强制策略,利用文本元数据生成的伪真实标签(Pseudo-GT)作为锚点,使教师模型能高效计算“音频感知”和“仅文本”两条路径的对比分布。学生模型通过优化与“音频感知目标”的KL散度,将这种对比推理能力内化到单路径模型中,从而在不增加推理延迟的前提下,提升模型对音频信息的依赖并减轻语言偏差。实验在DeSTA2(8B教师到3B学生)上表明,CAAD在通用任务(Dynamic-SUPERB)上相比标准蒸馏有约8%的性能提升,在模态冲突任务(MCR-BENCH)上显著降低了语言偏见(Shift值从100%降至79.03%)。 🔗 开源详情 代码:https://github.com/ChenWils/Contrastive_Audio-Aware_Distillation.git 模型权重:论文中未提及具体链接。 数据集:论文中提及了AccentDB、DailyTalk、IEMOCAP、PromptTTS、VCTK、VoxCeleb以及MCR-BENCH中的MELD子集,但未提供具体下载链接。 Demo:论文中未提及。 复现材料:论文中提及了训练配置(使用RTX A6000 GPU训练70小时,优化器为FusedAdam,学习率 \(1 \times 10^{-4}\),\(\lambda=0.7\),\(\tau=2.0\)),但未提供具体检查点或附录。 论文中引用的开源项目:未提及具体开源项目链接。 🏗️ 方法概述和架构 CAAD框架旨在将教师模型在推理时使用的对比解码(CD)能力,高效地蒸馏到单路径的学生模型中,避免推理时双路径计算带来的延迟。该框架分为两个阶段,如图1所示。 阶段1:伪真实标签(Pseudo-GT)生成 此阶段为后续的同步蒸馏准备统一的锚点序列。给定音频输入 \(X^{A}\),首先提取文本元数据 \(M\)(如性别、情绪、声学环境等)。然后,利用教师模型的LLM骨干(如Llama3-8B-Instruct),以元数据 \(M\) 为条件,自回归生成一个结构化的描述性文本序列 \(Y^{pseudo} = \{y_1, y_2, ..., y_L\}\)。这个序列 \(Y^{pseudo}\) 被视为一个高质量的、与音频内容对齐的伪真实标签,将作为阶段2中教师模型双路径生成的固定输入序列,以实现训练过程的并行化。论文还探索了另一种直接从连续音频嵌入生成 \(Y^{pseudo}\) 的基线,但消融实验(表3)表明,基于文本元数据的锚点具有更高的保真度。 阶段2:对比音频感知蒸馏 在此阶段,教师模型 \(\mathcal{T}\) 和学生模型 \(\mathcal{S}\) 同时使用阶段1生成的 \(Y^{pseudo}\) 作为输入序列的一部分,进行同步计算。 ...

2026-06-23 · 更新于 2026-07-02 · 2 min · 356 words

Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior

📄 Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior #参数高效微调 #语音识别 #语音情感识别 #模型压缩 #大语言模型 7.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.4/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #参数高效微调 | #语音情感识别 #模型压缩 | arxiv 👥 作者与机构 论文作者为 Vyom Agarwal, Mokshda Gangrade, Siddharth Pal, Jerry Wu。文中未明确提及作者所属机构。 💡 毒舌点评 这篇论文像是在用显微镜仔细观察一个众所周知的工程事实:模型越大、输入越多、算的越细,效果一般会越好,但算力不是无限的。其核心贡献“三轴框架”(\(x_N, x_T, x_V\))更像是一种标准化的观察视角,而非突破性的算法或理论。方法上,本质上是“控制变量法”(Star-Sweep)在模型缩放场景下的应用,组合了现成的LoRA和DAMA技术。实验很扎实,表格列得很满,Pareto前沿图也画了,结论基本符合直觉(例如收益递减、存在最优输入长度)。但“创新性”令人尴尬,更像是在ICASSP发的工作硬往顶会挤。审稿人看到“extends this idea to the audio domain”这种话大概会翻白眼。最大的亮点可能是清晰地揭示了ASR和SER任务在缩放特性上的本质差异(平滑前沿 vs. 稀疏前沿),但这更像是一个细致的实证发现,而非方法上的突破。 ...

2026-06-23 · 更新于 2026-07-02 · 2 min · 352 words

FlowFake: Liquid Networks for Audio Deepfake Detection

📄 FlowFake: Liquid Networks for Audio Deepfake Detection #模型压缩 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.5/10 | 前25% | #模型压缩 | #模型压缩 | arxiv 👥 作者与机构 作者:Shivaay Dhondiyal, Divyansh Sharma, Dinesh Kumar Vishwakarma 单位:Delhi Technological University, New Delhi, India 💡 毒舌点评 这篇论文想法确实新颖,把液态网络(LTC)这种常微分方程(ODE)驱动的东西塞进音频伪造检测,逻辑上说得通,就是要捕捉“轨迹异常”。理论部分像样,BIBO稳定性和误差界都给整出来了,还煞有介事地分析了梯度衰减和噪声鲁棒性,比很多只丢个模块的水文强。在跨数据集这个硬骨头任务上,用34K的微型参数量,能在某些组合上打败几百M参数的SSL模型,参数效率的故事讲得很漂亮。但是,别急着鼓掌。实验设计有点“偏科”,消融实验就在ITW一个数据集上搞,LTC各组件在其他更难的任务上是不是真这么关键,存疑。跟同类轻量模型(比如LCNN)的对比深度不够,显得参数效率优势的论据有点单薄。最要命的是,在数据充足、分布偏移不大的场景(比如MLAAD训练测FoR),大模型轻松碾压,论文自己也承认了,这说明你的“结构先验”优势是有适用边界的。另外,对LLM时代的新合成武器(比如VALL-E、Bark这类)毫无防备,显得前瞻性不足。总结:有创新有干货,但实验不够均衡,结论下得有点满,是个扎实的工作,离完美还有距离。 📌 核心摘要 本文针对音频深度伪造检测中跨数据集泛化能力不足的核心挑战,提出了FlowFake架构。作者认为现有检测器失败在于其固定的帧级统计聚合结构丢失了伪造语音的多时间尺度轨迹异常信息。FlowFake首次将液态时间常数(LTC)网络引入该领域,其隐藏状态通过一个可学习的常微分方程(ODE)演化,每个神经元具有自适应的时间常数,理论上能同时捕获快速的频谱(约10ms)和缓慢的韵律(约2s)异常。该模型仅约34K参数,但具有严格的BIBO稳定性证明和四阶龙格-库塔法(RK4)积分误差界。在严格的“留一数据集”跨域评估中,FlowFake表现出色,例如在FakeOrReal上训练,在ASVspoof 2019上达到75.29%准确率;在MLAAD v1上训练,在ASVspoof 2019上达到79.97%准确率,并在WaveFake上实现90.41%的零样本准确率。其性能在多个跨域组合上超越了RawGAT-ST、Whisper-DF等基线,并以仅0.01%的参数量达到了与300倍参数量的SSL Wav2vec2模型相当的性能。论文通过理论分析和实验证明,连续时间建模是音频伪造检测的一个有前景的结构先验。 🔗 开源详情 代码:论文中提及代码已发布于GitHub,但未在正文中给出具体URL链接。因此,具体仓库链接未知。 ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 411 words

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

📄 Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow #Transformer #流匹配 #多模态模型 #模型压缩 7.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前50% | #Transformer | #Transformer | #流匹配 #多模态模型 | arxiv 👥 作者与机构 Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang* ...

2026-06-19 · 更新于 2026-07-02 · 4 min · 658 words

CraBERT: Efficient Phoneme Encoder Pre-Training via Cascade Fusion of Subword Representations for Text-to-Speech

📄 CraBERT: Efficient Phoneme Encoder Pre-Training via Cascade Fusion of Subword Representations for Text-to-Speech #自监督学习 #低资源 #数据增强 #模型压缩 7.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构 论文作者:Dong Yang, Yuki Saito, Wataru Nakata, and Hiroshi Saruwatari。 所属机构:The University of Tokyo, Japan。 ...

2026-06-16 · 更新于 2026-07-02 · 2 min · 351 words

Probing Low Frame Rate Degradation in Neural Audio Codecs

📄 Probing Low Frame Rate Degradation in Neural Audio Codecs #语音生成 #模型压缩 8.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.6/10 | 前25% | #语音生成 | #模型压缩 | arxiv 👥 作者与机构 作者:Alex Gichamba, Moise Busogi 机构:Carnegie Mellon University Africa, Rwanda 联系邮箱:angicham@andrew.cmu.edu, mbusogi@andrew.cmu.edu 💡 毒舌点评 优点: 论文选题重要,直指神经音频编解码器在实际部署中的关键瓶颈。实验设计非常扎实,通过严谨的控制变量消融,成功揭示了问题根源是训练配置而非理论极限,结论令人信服且实用。文章写作清晰,逻辑链条完整。 不足: 研究范围相对狭窄,结论主要基于DAC框架的消融,对其他架构(如BigCodec)在低帧率下的表现探讨不足。实验部分虽然详尽,但消融设计(固定K=19)本身可能引入新的偏差(例如,更长的T_clip是否带来了训练效率或泛化能力的变化?)。此外,缺乏主观听感评估(MOS),仅依赖客观指标和UTMOS,对于“可懂度”的判断可能不够全面。最终结论“低帧率更易获得”在实际部署(需要重新训练)中可能需要更审慎的表述。 📌 核心摘要 本文系统研究了神经音频编解码器在低帧率(<12.5 Hz)下性能急剧下降的原因。通过在DAC框架上进行从1.6 Hz到100 Hz的帧率消融实验,作者复现了先前报告的6.25 Hz质量悬崖。通过设计对照实验,作者证明了该现象并非由理论上的音素碰撞或码本饱和导致。根本原因是标准训练流程中固定音频片段时长(T_clip)的设定:在低帧率下,这导致每个训练样本的令牌序列过短(如6.25 Hz时仅2个令牌),解码器无法学习令牌间的连贯性。当改为固定训练序列长度(K=19)后,6.25 Hz模型的性能(WER从107.4%降至15.37%)得到大幅恢复。进一步实验表明,该修正可使模型在3.125 Hz和1.6 Hz(比特率低至192 bps)下仍保持可懂的语音重建,证明了低帧率编解码器的推理效率潜力比以往认为的更易实现。 ...

2026-06-16 · 更新于 2026-07-02 · 3 min · 634 words