Spiking Attention Network: A Hybrid Neuromorphic Approach to Underwater Acoustic Localization and Zero-Shot Adaptation

📄 Spiking Attention Network: A Hybrid Neuromorphic Approach to Underwater Acoustic Localization and Zero-Shot Adaptation #声源定位 #脉冲神经网络 #注意力机制 #零样本 #鲁棒性 ✅ 7.0/10 | 前25% | #声源定位 | #脉冲神经网络 | #注意力机制 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Quoc Thinh Vo (Drexel University, Department of Electrical and Computer Engineering) 通讯作者:David K. Han (Drexel University, Department of Electrical and Computer Engineering) 作者列表:Quoc Thinh Vo (Drexel University, Department of Electrical and Computer Engineering), David K. Han (Drexel University, Department of Electrical and Computer Engineering) 💡 毒舌点评 本文的亮点在于将生物启发的脉冲神经网络(SNN)与成熟的ResNet、Conformer架构混合,用于处理原始水声信号,避免了传统方法繁琐的特征预处理,并展示了在零样本设置下的出色泛化能力;但短板在于其核心的LIF神经元模型相对简化,且所有实验均基于单一数据集(SWellEx-96),在更多样、更复杂海洋环境下的普适性有待进一步验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 308 words

Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

📄 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning #音视频 #脉冲神经网络 #零样本 #音频分类 #多模态模型 ✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 通讯作者:Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 作者列表:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hongtao Chen(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Jisheng Chu(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hengyu Man(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Xiaopeng Fan(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 💡 毒舌点评 亮点:论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点,提出的STFE和ETS模块设计目标明确,且通过减少时间步长实现了可观的能耗降低。短板:模型在复杂长视频(ActivityNet)上表现出的“过拟合已见类别、损害未知类别泛化”的现象,恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性,这一核心矛盾在论文中未得到充分讨论和解决。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开数据集(VGGSound, UCF101, ActivityNet),未提及额外数据。 Demo:未提供在线演示。 复现材料:提供了主要超参数(见03.细节详述),但缺少优化器、学习率调度、数据预处理/增强细节、完整训练配置文件等。 论文中引用的开源项目:引用了预训练模型SeLaVi[17](“Labelling unlabelled videos from scratch with multi-modal self-supervision”),但未提供其具体开源链接。 总体开源情况:论文中未提及开源计划。 📌 核心摘要 问题:现有音视频零样本学习(AVZSL)方法普遍存在时间线索利用不足的问题,常依赖简单的特征平均或基础脉冲神经元,无法捕捉深层时间依赖,且能效有待优化。 方法核心:提出脉冲时序增强网络(STEN)。其核心是在Spikeformer架构中集成可学习三元脉冲神经元(LTS) 和时空融合模块(STFE),并通过增强时序Spikeformer(ETS) 自适应整合相邻时间步信息。 新意:相比已有方法(如AVMST),STEN通过LTS增强特征表示能力,通过STFE联合建模时间局部动态和通道依赖,通过ETS捕获微观时序变化。同时利用脉冲神经网络(SNN)的事件驱动稀疏性,通过优化时间步长大幅降低能耗。 主要实验结果: 在VGGSound数据集上,GZSL调和平均(HM)达到8.04,比基线AVMST(7.68)提升4.7%,ZSL指标提升13.6%。 在UCF101数据集上,GZSL的HM达到34.27,比AVMST(29.91)提升14.6%,Seen类准确率大幅提升。 在ActivityNet数据集上,Seen类指标提升40.8%,但Unseen类和HM略有下降。 能效方面,与AVMST相比,SNN能耗降低41.7%,总能耗降低15.6%。 实际意义:为AVZSL任务提供了一种在保持竞争力的同时,显著降低计算能耗的解决方案,有助于将该技术部署到资源受限的边缘设备。 主要局限性:在时序更复杂、视频更长的ActivityNet数据集上,模型表现出对已见类别过拟合的倾向,牺牲了在未见类别上的泛化能力,表明其时间建模策略的稳健性有待提升。此外,论文未提及开源计划,可复现性存疑。 🏗️ 模型架构 STEN的整体架构如图1所示。其处理流程可分为四个主要阶段: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 332 words

StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks

📄 StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks #歌唱语音合成 #流匹配 #音频生成 #语音转换 #零样本 ✅ 7.5/10 | 前25% | #歌唱语音合成 | #流匹配 | #音频生成 #语音转换 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jingyue Huang (University of California San Diego, Smule Labs) 通讯作者:未说明 作者列表:Jingyue Huang(△University of California San Diego, ◦Smule Labs)、Qihui Yang(△University of California San Diego, ◦Smule Labs)、Fei-Yueh Chen(†University of Rochester, ◦Smule Labs)、Julian McAuley(△University of California San Diego)、Randal Leistikow(◦Smule Labs)、Perry R. Cook(◦Smule Labs)、Yongyi Zang(◦Smule Labs) 💡 毒舌点评 亮点在于它敏锐地抓住了唱歌音高曲线“既要符合乐谱,又要保留歌手个人风格”这个核心矛盾,并用一个优雅的掩码填充框架将其统一解决,体现了扎实的工程直觉和对音乐的理解。短板是,虽然实验覆盖了多个任务,但其作为“通用模块”的潜力在很大程度上依赖于下游系统本身,论文并未深入探讨在极端风格差异或复杂旋律转移场景下的鲁棒性边界。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 355 words

Synthesized Data Selection via Score Distribution Matching for Te Reo Māori Automatic Speech Recognition

📄 Synthesized Data Selection via Score Distribution Matching for Te Reo Māori Automatic Speech Recognition #语音识别 #数据增强 #低资源 #迁移学习 #零样本 🔥 8.0/10 | 前25% | #语音识别 | #数据增强 | #低资源 #迁移学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhihan Wang(温州理工学院) 通讯作者:Ruili Wang(温州理工学院;梅西大学数学与计算科学学院) 作者列表:Zhihan Wang(温州理工学院)、Feng Hou(未说明)、Ruili Wang(温州理工学院,梅西大学数学与计算科学学院) 💡 毒舌点评 论文的亮点在于为低资源语音识别中“合成数据越多越好”这一常见误区提供了清晰、可操作的解决方案(分数分布匹配),实验对比也做得非常扎实。短板则是方法高度依赖于预训练Whisper模型自身的打分能力,若该模型对目标语言本身识别不准,整个选择策略的基础就会动摇,论文对此缺乏深入讨论。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/zwan074/score-distribution-matching。 模型权重:未提及公开本文中使用的Zero-Voice TTS模型权重或最终微调的ASR模型权重。 数据集:未提及是否公开其自行收集并标注的27小时Te Reo Māori语音数据集。 Demo:未提供在线演示。 复现材料:提供了核心算法代码链接。训练超参数(如学习率、batch size)在论文中有说明。但未提供完整的训练配置文件、模型检查点或复现所需的详细步骤。 论文中引用的开源项目:主要依赖预训练模型Whisper-large-v3。 📌 核心摘要 问题:在低资源自动语音识别(ASR)中,使用零样本TTS生成的合成数据进行微调会遇到“域不匹配”问题,即合成语音的分布与真实语音有差异,导致单纯增加合成数据量无法持续提升性能,甚至会变差。 方法核心:提出一种基于分数分布匹配的合成数据选择方法。该方法首先利用预训练的Whisper-large-v3模型为真实数据和合成数据计算字符错误率(CER)作为质量分数;然后,将真实数据的分数分布拟合为一个先验分布(Beta分布);最后,通过拒绝采样算法,从合成数据中筛选出一个子集,使其分数分布与真实数据的先验分布对齐。 创新与不同:与依赖外部预训练资源(如英语说话人嵌入、判别器)的现有方法(如Synt++, Wang et al.)不同,本方法仅依赖目标语言本身的预训练ASR模型(Whisper)进行打分,更适合资源极度匮乏的场景。同时,它显式地考虑并平衡了合成数据中不同质量样本的分布,而非简单设定质量阈值。 实验结果:在Te Reo Māori(毛利语)ASR任务上,使用真实数据(27小时)+ 经本方法筛选的合成数据(从520小时中选出约230小时)微调Whisper-large-v3,达到了最优性能:WER 21.4%, CER 9.9%。这显著优于仅使用真实数据(WER 28.3%),也优于其他所有基线方法,包括Adapter Double-way Fine-tuning(WER 22.6%, CER 11.0%)。具体结果对比见下表: 方法 测试集WER (%) 测试集CER (%) Whisper-large-v3 (无微调) 37.9 13.8 27小时真实数据 28.3 12.8 + 360小时未筛选合成数据 22.9 11.2 + 520小时未筛选合成数据 24.3 11.5 Synt++ [17] 24.6 12.2 Wang et al. [18] 23.8 11.5 Adapter Double-way Fine-tuning [19] 22.6 11.0 本文方法 (True + Score-distribution-matching) 21.4 9.9 实际意义:为低资源、濒危语言的ASR模型训练提供了一种有效且计算高效的合成数据筛选策略,能最大化利用有限的真实数据和TTS生成能力,对相关领域的研究者和工程师有直接应用价值。 主要局限性:方法的有效性严重依赖于预训练ASR模型(此处为Whisper)在目标语言上的初始性能(用于计算CER)。如果基础模型对目标语言识别很差,则CER作为质量分数的可靠性存疑。此外,论文未深入分析最终筛选出的合成数据子集(230小时)具有哪些具体特征。 🏗️ 模型架构 论文未提出新的神经网络模型架构,而是提出一个数据选择算法流程。整体流程如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 262 words

T-Cache: Fast Inference For Masked Generative Transformer-Based TTS Via Prompt-Aware Feature Caching

📄 T-Cache: Fast Inference For Masked Generative Transformer-Based TTS Via Prompt-Aware Feature Caching #语音合成 #实时处理 #零样本 #语音大模型 🔥 9.0/10 | 前25% | #语音合成 | #实时处理 | #零样本 #语音大模型 学术质量 6.2/7 | 选题价值 1.7/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Obed Irihose(电子科技大学信息与通信工程学院) 通讯作者:Le Zhang(电子科技大学信息与通信工程学院) 作者列表:Obed Irihose(电子科技大学信息与通信工程学院)、Le Zhang(电子科技大学信息与通信工程学院) 💡 毒舌点评 论文巧妙地将图像/音频生成领域的特征缓存技巧“移植”并针对TTS特性(提示序列稳定性、两阶段结构)进行了深度定制,实现了显著且可靠的加速,是典型的“把好钢用在刀刃上”的工程创新。不过,其创新本质是对现有技术的精巧组合与适配,而非提出新的缓存理论或生成范式,因此距离“里程碑”式突破尚有一步之遥。 🔗 开源详情 代码:提供了代码仓库链接:https://tksavy.github.io/tcache/。 模型权重:论文提到基于开源MaskGCT实现,但未明确T-Cache自身是否发布独立权重。暗示代码仓库可能包含使用T-Cache加速后的模型或脚本。 数据集:评估使用了公开的LibriSpeech, SeedTTS, ESD, L2-Arctic等数据集,但未说明T-Cache自身是否包含或发布新数据集。 Demo:提供了在线音频样例的链接:https://tksavy.github.io/tcache/。 复现材料:论文给出了关键超参数(T, N, τ)、硬件环境(RTX 3090)和评估指标,具有较好的复现指导性。 论文中引用的开源项目:引用了MaskGCT作为基线实现,以及DeepCache, LazyMAR, AudioCache等相关缓存工作的代码或思想。 论文中提及了代码和音频样例的获取地址,因此有开源计划。 📌 核心摘要 问题:基于掩码生成Transformer(MGT)的文本到语音(TTS)系统(如MaskGCT)虽然支持并行生成且质量高,但其迭代式反掩码过程需要数十步解码,导致推理计算成本高昂,难以实时部署。 方法核心:提出T-Cache,一种训练无关的插拔式缓存加速机制。其核心是通过分析发现相邻解码步骤间,提示令牌(参考语音、文本)的特征高度相似,而输入令牌特征变化显著。因此,T-Cache在注意力层和MLP层分别缓存并重用提示相关特征,仅更新输入部分特征。此外,通过存储条件与无条件分支的输出差值来缓存分类器自由引导(CFG)信息,并发现可在语义到声学(S2A)阶段跳过CFG以进一步加速。 与已有方法相比:不同于直接迁移到MGT-TTS的图像域缓存方法(如ToCa, FORA),或简单的减少解码步数,T-Cache是首个针对MGT-TTS设计的、结合了提示感知缓存、条件缓存和阶段特异性CFG优化的综合加速方案。 主要实验结果:在LibriSpeech、SeedTTS等多个数据集上,T-Cache相比基线模型(MaskGCT)实现了2.61至3.41倍的推理加速,同时在语音自然度(MOS)、说话人相似度(CSIM)等核心指标上保持相当甚至略有提升,显著优于其他迁移的缓存方法。关键消融实验证实了非线性缓存步调度、阶段CFG优化等设计的有效性。详见下表: 方法 数据集 WER↓ CSIM↑ MOS↑ Spd.↑ Baseline (T=25) LibriSpeech test-clean 9.68% 0.95 3.86 1.00× Baseline (T=10) LibriSpeech test-clean 13.86% 0.95 3.70 1.99× FORA [11] LibriSpeech test-clean 15.62% 0.95 3.69 1.89× ToCa [9] LibriSpeech test-clean 17.12% 0.95 3.54 1.62× TaylorSeer [14] LibriSpeech test-clean 17.92% 0.95 3.59 2.11× T-Cache (Ours) LibriSpeech test-clean 10.50% 0.94 3.95 2.85× Baseline (T=25) SeedTTS test-en 2.75% 0.95 3.56 1.00× Baseline (T=10) SeedTTS test-en 4.06% 0.95 3.48 2.28× T-Cache (Ours) SeedTTS test-en 3.06% 0.95 3.80 3.41× 实际意义:显著降低了MGT-TTS的推理延迟和计算开销,使其更接近实时应用的要求,对语音合成产品的端侧或云端高效部署具有直接价值。 主要局限性:论文坦承,T-Cache会增加显存占用(因为需要缓存特征),这是未来需要改进的方向。另外,在某些极端情况下(如Accent Similarity指标)可能有轻微性能下降。 🏗️ 模型架构 T-Cache本身并非一个独立模型,而是一种应用于现有MGT-TTS模型(以MaskGCT为基线)的推理加速方法。其核心思想是在模型推理的Transformer层中插入缓存模块。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 357 words

Task Vector in TTS: Toward Emotionally Expressive Dialectal Speech Synthesis

📄 Task Vector in TTS: Toward Emotionally Expressive Dialectal Speech Synthesis #语音合成 #流匹配 #零样本 #低资源 #情感方言 ✅ 7.0/10 | 前50% | #语音合成 | #流匹配 | #零样本 #低资源 学术质量 5.8/7 | 选题价值 1.0/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:未说明(作者列表标注“Pengchao Feng1,2∗, Yao Xiao1∗”为共同第一作者) 通讯作者:Xie Chen1,2†(上海交通大学X-LANCE实验室) 作者列表:Pengchao Feng(1上海交通大学X-LANCE实验室, 2上海创新研究院),Yao Xiao(1上海交通大学X-LANCE实验室),Ziyang Ma(1上海交通大学X-LANCE实验室),Zhikang Niu(1上海交通大学X-LANCE实验室, 2上海创新研究院),Shuai Fan(1上海交通大学X-LANCE实验室),Yao Li(3上海航空电器有限公司),Sheng Wang(1上海交通大学X-LANCE实验室, 3上海航空电器有限公司),Xie Chen(1上海交通大学X-LANCE实验室, 2上海创新研究院) 💡 毒舌点评 亮点在于其“分而治之”的策略,通过独立建模再分层整合,巧妙地绕过了缺乏方言情感联合标注数据的难题,并在实验上证明了其优于简单串联或直接合并的基线。短板则是该方法的泛化能力存疑,在对另一个主流TTS框架(CosyVoice)上尝试时效果不佳,暗示其可能过度依赖于特定的F5-TTS架构特性,通用性打了折扣。 🔗 开源详情 代码:论文中提供了代码仓库链接(https://the-bird-f.github.io/Expressive-Vectors)。 模型权重:未提及公开模型权重。 数据集:方言数据集为内部数据,未提及公开获取方式。情感数据集引用了公开的ESD。 Demo:提供了在线演示页面(与代码链接相同)。 复现材料:给出了E-Vector和LoRA的关键超参数(α, r),但未提供完整的训练配置、检查点或附录。 论文中引用的开源项目:依赖于F5-TTS模型。此外,评估使用了Seed ASR和3D-Speaker模型。 📌 核心摘要 要解决什么问题:在语音合成领域,如何在缺乏大量方言与情感联合标注数据的情况下,生成同时具有特定方言口音和丰富情感表达的语音。 方法核心是什么:提出了一种两阶段方法“分层表达向量(HE-Vector)”。第一阶段,基于F5-TTS模型,通过微调并提取“任务向量”来独立构建表示方言和情感的“表达向量(E-Vector)”。第二阶段,设计了一个“分层合并策略”,将方言E-Vector应用于模型的文本嵌入层和早期DiT块(负责音素发音),将情感E-Vector应用于后期DiT块(负责韵律语调),从而在推理时融合两种风格。 与已有方法相比新在哪里:相比于直接合并不同风格的任务向量(会导致风格干扰)或采用双阶段流水线(易造成误差累积),该方法的核心创新在于提出了基于模型层功能分工的“分层整合”机制,使得方言和情感特征能更独立、更少干扰地被建模和融合,且无需联合标注数据。 主要实验结果如何:在方言合成任务上,E-Vector增强模型(α=3.0)在8个方言上的平均MOS达到3.18,显著优于CosyVoice2(2.62)和全量微调模型(1.85)。在情感方言合成任务上,HE-Vector框架取得最佳平均MOS(2.83),优于完全合并E-Vector(2.76)、双阶段流水线(2.56)和CosyVoice2(1.87)。具体MOS对比见下表: 方法 平均MOS (方言合成) 平均MOS (情感方言合成) CosyVoice2 2.62 1.87 FT (微调) 1.85 未提供 FT-last (过度微调) 2.85 未提供 E-Vector (α=3.0) 3.18 未提供 LoRA E-Vector 2.35 未提供 Fully E-Vector 未提供 2.76 Dual-stage 未提供 2.56 HE-Vector (Ours) 未提供 2.83 实际意义是什么:为低资源甚至零样本下的复杂表达性语音合成(如方言+情感)提供了一种数据高效的解决方案,有助于方言文化遗产保护和更自然的个性化语音交互。 主要局限性是什么:E-Vector的构建基于任务向量的线性缩放,而论文分析指出风格迁移的参数变化并非严格线性;该方法在其他TTS架构(如CosyVoice)上效果不佳,表明其通用性有限;实验中使用的方言和情感数据集部分为内部数据,未完全公开。 🏗️ 模型架构 本文提出的方法(HE-Vector)是一个两阶段的框架,旨在增强预训练TTS模型(F5-TTS)以实现可控的表达性语音合成。整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 260 words

TASU: Text-only Alignment for Speech Understanding

📄 TASU: Text-only Alignment for Speech Understanding #语音识别 #语音大模型 #对齐 #预训练 #零样本 ✅ 7.0/10 | 前25% | #语音识别 | #对齐 | #语音大模型 #预训练 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jing Peng(上海交通大学X-LANCE实验室,MoE人工智能重点实验室,江苏省语言计算重点实验室) 通讯作者:Kai Yu†(上海交通大学X-LANCE实验室,MoE人工智能重点实验室,江苏省语言计算重点实验室) 作者列表:Jing Peng(上海交通大学X-LANCE实验室等)、Yi Yang(上海交通大学X-LANCE实验室等)、Xu Li(思必驰科技股份有限公司)、Yu Xi(上海交通大学X-LANCE实验室等)、Quanwei Tang(苏州大学计算机科学与技术学院NLP实验室,思必驰科技股份有限公司)、Yangui Fang(华中科技大学电子信息与通信学院,思必驰科技股份有限公司)、Junjie Li(上海交通大学X-LANCE实验室等)、Kai Yu(上海交通大学X-LANCE实验室等) 💡 毒舌点评 亮点:论文巧妙地通过CTC后验模拟(CPS)将“文本-文本”对齐伪装成“语音-文本”对齐,思路新颖且实验验证了其在零样本ASR和多任务理解上的可行性,为解决语音大模型数据依赖问题提供了低成本路径。短板:尽管在MMSU上超越了几个知名模型,但其绝对准确率(40.48%)与顶尖多模态模型(如Qwen2.5-Omni的60.57%)相比仍有不小差距,表明纯文本对齐范式在捕获复杂语音语义信息上可能存在天花板。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/PigeonDan1/ps-slm.git 模型权重:未提及公开模型权重。 数据集:使用了公开数据集(LibriSpeech, SlideSpeech, CommonVoice4, CoVoST2, SLURP),但未说明论文专用数据集是否公开。 Demo:未提及。 复现材料:论文详细描述了模型架构、训练数据(名称)、关键训练超参数(学习率、CPS参数等)、评估基准和设置,提供了较好的复现基础。 论文中引用的开源项目/模型:依赖SenseVoice-Small作为语音编码器,Qwen2.5-1.5B作为LLM主干,Wenet作为评估工具。 📌 核心摘要 这篇论文旨在解决当前语音大语言模型(Speech LLMs)对齐训练依赖大规模音文配对数据、计算成本高且泛化能力有限的问题。为此,作者提出了TASU(Text-only Alignment for Speech Understanding),一种新颖的、仅使用文本数据进行跨模态对齐的范式。其核心方法包括两个部分:标签同步解码(LSD)和CTC后验模拟(CPS)。LSD用于在推理时对语音编码器输出的CTC后验进行压缩和去冗余,而CPS则在训练时将文本转录转化为模拟的“伪CTC后验”,从而仅用文本数据训练一个可训练的投影器(Projector),同时保持大语言模型(LLM)主干网络冻结。主要实验结果显示,在纯文本训练下,TASU实现了具有竞争力的零样本语音识别(在LibriSpeech上WER与使用配对数据的基线SLAM差距小于1.5%),并可作为课程学习的预训练阶段提升域泛化能力;在语音理解多任务测试中,TASU在MMSU基准上的准确率(40.32%)超越了SLAM-LLM(36.70%)、SALMONN-13B(25.84%)和GLM-4-Voice(35.51%)等模型。其实际意义在于大幅降低了语音大模型对齐阶段的数据门槛和训练成本。主要局限性在于,与当前最先进的、使用海量数据预训练的多模态模型相比,其绝对性能仍有差距,且CPS生成的伪后验与真实语音后验的分布差异有待进一步缩小。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 366 words

Thinking While Listening: Simple Test Time Scaling for Audio Classification

📄 Thinking While Listening: Simple Test Time Scaling for Audio Classification #音频分类 #预训练 #测试时缩放 #大语言模型 #零样本 ✅ 6.5/10 | 前50% | #音频分类 | #测试时缩放 | #预训练 #大语言模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Prateek Verma(斯坦福大学电气工程系) 通讯作者:未说明 作者列表:Prateek Verma(斯坦福大学电气工程系)、Mert Pilanci(斯坦福大学电气工程系) 💡 毒舌点评 本文将LLM领域的“测试时缩放”概念移植到音频分类,思路清晰,用轻量级的GPT-2微调击败百亿参数大模型的结果也颇具启发性。但遗憾的是,论文在方法细节的深度打磨和与最新技术的全面比较上显得有些“想得不够深”,比如缺乏不同音频编码器、不同聚合策略的系统消融,更像是一个概念验证报告而非坚实的技术突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及是否公开了微调后的嵌入矩阵或任何其他模型权重。 数据集:使用了公开数据集ESC-50和FSD-50K,但未提供预处理脚本或划分细节。 Demo:未提及。 复现材料:提供了一些关键超参数(如补丁长度、采样次数范围、训练轮数、学习率),但缺少优化器、批量大小、随机种子、完整配置文件等核心复现信息。 论文中引用的开源项目:引用了AST[17], YAMNet[18], GPT-2[20], AudioSet[21], ESC-50[26], FSD-50K[27]。 📌 核心摘要 问题:论文旨在探索如何将大型语言模型中的“推理”和“测试时缩放”能力引入音频分类任务,在模型权重固定的情况下,仅通过增加推理时的计算来提升性能。 方法核心:提出“边听边想”框架。首先,利用预训练的音频模型(如AST, YAMNet)对输入音频进行补丁级(如500ms)的因果预测,通过多次采样为每个补丁生成一个包含类别和置信度的“推理轨迹”。然后,将这个轨迹输入一个冻结的大语言模型(如GPT-2, GPT-OSS-20B),利用其推理能力聚合轨迹信息,做出最终分类。 与已有方法相比新在哪里:传统音频分类管道(如AST)直接输出单个概率向量。本文方法在推理时构建了动态的、基于证据累积的“推理链”,并将分类任务转化为LLM可以处理的序列推理问题。其创新在于将音频模型的输出(而非原始音频)作为LLM的推理输入,并利用测试时缩放来提升性能。 主要实验结果:在ESC-50数据集(单标签)上,冻结的AST模型通过增加采样轨迹长度(从1到32)并用GPT-2聚合,准确率从79.3%提升至88.3%,接近全量微调的88.8%。在FSD-50K数据集(多标签)上,增加采样轨迹长度同样能持续提升AUC。论文中关键实验结果表格如下: 表1: ESC-50数据集上,基于YAMNet骨干网络,不同采样长度下零样本文本推理模型的准确率对比 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 252 words

VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings

📄 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings #语音克隆 #零样本 #语音合成 #流匹配 #音频安全 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Bharath Krishnamurthy (北德克萨斯大学) 通讯作者:Ajita Rattani (北德克萨斯大学) 作者列表:Bharath Krishnamurthy (北德克萨斯大学), Ajita Rattani (北德克萨斯大学) 💡 毒舌点评 这篇论文堪称生物识别安全领域的一声警钟,它用优雅的技术(解纠缠表示学习)和极低的成本(5秒音频),制造出了一个足以让现有语音验证系统头疼不已的“合成身份”。其亮点在于将看似复杂的攻击变得异常简单高效;短板则是,这种“降维打击”式的技术突破,也立刻暴露了当前ASV系统在应对此类高级、细粒度伪造时的脆弱性,给防御方带来了前所未有的压力。 🔗 开源详情 代码:论文中提供了代码仓库链接:Vcbsl/VoxMorph。 模型权重:论文中未明确提及是否公开预训练模型权重,但鉴于其代码开源,权重很可能包含在内或后续会提供。 数据集:公开。论文明确声明“we release the first publicly available dataset of 10, 000 high-fidelity voice morphs”,并提供了项目页面链接。 Demo:论文中未提及在线演示。 复现材料:论文提供了充分的复现信息,包括:数据集(LibriSpeech)、评估指标(FAD, KLD, WER, MMPMR/FMMPMR)及其计算方式、使用的基线模型(ViM, Vevo, MorphFader)、硬件环境(RTX 5000 Ada GPU)以及详细的消融实验设置。 引用的开源项目:论文引用并依赖了多个开源项目/模型,包括:GE2E(说话人验证)、CAM++(说话人验证)、自回归语言模型(如LLaMA)、条件流匹配模型(如COSYVOICE)、HiFTNet(声码器)、ECAPA-TDNN、HuBERT、Wav2Vec2(用于编码器消融)、Resemblyzer(用于评估)、Wav2Vec2-Base-960h(用于WER计算)。 📌 核心摘要 解决的问题:现有的语音身份变形(VIM)攻击方法存在严重缺陷:计算成本高、不可扩展(需要为每对说话人微调)、依赖声学相似的说话人对,且生成语音质量低。这些限制了其作为实际威胁的可行性。 方法核心:提出VoxMorph,一个零样本框架。其核心是将声音解纠缠为韵律嵌入(说话风格)和音色嵌入(核心身份)。对两个说话人的这两种嵌入分别使用球面线性插值进行混合,然后将融合的嵌入输入一个三阶段合成管线:自回归语言模型生成声学令牌(由融合韵律引导),条件流匹配网络生成梅尔频谱图(由融合音色引导),最后神经声码器生成波形。 与已有方法相比新在哪里:a) 零样本与可扩展性:仅需5秒音频,无需微调即可生成变形语音。b) 解纠缠表示:将风格与身份分离,可独立精细控制,避免了传统单一嵌入混合产生的声学伪影。c) 先进合成架构:利用自回归模型和流匹配模型的强大生成能力,确保了高保真度。d) 首个大规模数据集:发布包含10,000个样本的数据集用于防御研究。 主要实验结果:在严格安全阈值(0.01% FAR)下,VoxMorph-v2实现了67.8%的完全匹配变形成功率(FMMPMR),比之前最优方法(ViM的2.61%)高出数十倍。音频质量(FAD)比基线提升2.6倍,可理解性错误(WER)降低73%。详细对比见下表: 方法 FAD↓ (vs Real) WER↓ KLD↓ MMPMR (%) @ 0.01% FMMPMR (%) @ 0.01% MorphFader [16] 8.96 1.84 0.4332 0.0 0.0 Vevo [3] 9.14 0.54 0.1899 82.40 9.00 ViM [14] 7.52 1.06 0.3501 2.61 0.00 VoxMorph-v1 5.03 0.33 0.1404 78.60 60.60 VoxMorph-v2 4.90 0.19 0.1385 99.80 67.80 实际意义:证明了语音变形攻击已从理论走向实用,对自动说话人验证(ASV)系统构成切实、可扩展的安全威胁。同时,通过开源代码、模型和大规模数据集,为社区研究和开发下一代变形攻击检测(MAD)对策提供了关键工具和基准。 主要局限性:a) 攻击属性:该技术本身是一种攻击手段,存在滥用风险。b) 评估局限:评估主要在LibriSpeech数据集上进行,且攻击的是特定ASV系统(Resemblyzer),对真实世界、多场景、多模态ASV系统的威胁程度有待进一步验证。c) 多说话人变形:当前方法聚焦于两两变形,未来可扩展至更多说话人融合。 🏗️ 模型架构 VoxMorph是一个端到端的零样本语音身份变形框架,其整体架构如图1所示,包含提取、插值、合成三个核心阶段。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 399 words

VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency

📄 VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency #语音合成 #自回归模型 #流式处理 #零样本 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #零样本 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系) 通讯作者:未说明 作者列表:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系)、Gustav Eje Henter(KTH皇家理工学院,语音、音乐与听觉系)、Gabriel Skantze(KTH皇家理工学院,语音、音乐与听觉系) 💡 毒舌点评 亮点:这篇论文最精妙的地方在于,它通过将文本编码器(Phoneme Transformer)设计为增量式,并限制了前瞻长度,巧妙地实现了“收到一个词就开口说”的极低延迟,同时利用单调对齐和分层预测保证了合成质量的连贯性。短板:尽管模型效率很高,但训练数据规模(9k小时)在当下这个“数据为王”的大模型时代只能算中等,这可能限制了其在超大规模、多语言或更复杂说话风格下的泛化能力上限,论文也承认了数据规模是未来工作之一。 🔗 开源详情 代码:提供代码仓库链接:https://herimor.github.io/voxtream 模型权重:论文中未明确提及是否公开训练好的VoXtream模型权重。仅提到引用了开源的CSM模型和ReDimNet。 数据集:使用了Emilia和HiFiTTS-2数据集,这两个都是公开数据集。但论文中未提供其预处理后的具体获取方式。 Demo:提供在线演示链接:https://herimor.github.io/voxtream 复现材料:论文给出了模型架构的详细描述、主要的训练超参数(学习率、batch size、优化器、epoch数)、硬件环境(A100 GPU)。但未提供完整的训练脚本、配置文件或检查点。 引用的开源项目:g2p(音素转换)、Mimi编解码器、Montreal Forced Aligner (MFA)、CSM模型、ReDimNet说话人编码器、Llama架构。 总体开源情况:论文提供了核心的推理代码和演示,但训练所需的完整复现材料(如预处理数据、详细训练配置、预训练模型权重)并未完全公开。 📌 核心摘要 问题:当前流式文本转语音(TTS)系统存在较高的初始延迟(从输入文本到发出第一个音素的时间),或需要复杂的多阶段流水线,影响了实时交互体验。 方法核心:提出VoXtream,一个完全自回归的零样本流式TTS模型。其核心是一个三层Transformer架构:(1) 增量音素Transformer(PT)逐步编码输入文本并允许有限前瞻;(2) 时间Transformer(TT)基于音素和过去音频预测语义令牌和时长令牌;(3) 深度Transformer(DT)基于前两者生成声学令牌。关键设计是基于“停留/切换”标志的单调音素对齐预测。 创新点:与先前工作相比,VoXtream首次实现了从接收到第一个词就开始生成语音的增量处理模式,无需等待整个句子或固定数量的未来词。它将文本编码、时序预测和声学生成解耦到三个专用模块中,平衡了延迟与质量。 实验结果:在公开流式TTS模型中达到了最低的首次分组延迟(FPL):102ms(使用torch.compile加速后)。在9k小时数据上训练,其质量(WER, SPK-SIM, UTMOS)可与甚至超越许多使用更大规模数据训练的非流式和流式基线模型。在主观MUSHRA评测中,其流式版本的自然度与部分非流式模型相当。在长文本流式场景下,其自然度显著优于CosyVoice2。 实际意义:为需要极低延迟响应的实时语音应用(如语音助手、同步翻译、对话AI)提供了一个高效且高质量的解决方案,推动了流式语音合成技术的实用化。 主要局限性:训练数据规模(9k小时)中等;在零样本说话人相似度上,仍低于使用更大规模数据和非自回归解码器(如流匹配)的顶级模型(如CosyVoice2);长文本流式合成的稳定性有待进一步验证。 🏗️ 模型架构 VoXtream的架构(见图1)旨在实现从文本流到音频流的端到端、低延迟转换。它由三个核心Transformer模块组成,数据流如下: ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 482 words