MURMUR: An Efficient Inference System for Long-Form ASR

📄 MURMUR: An Efficient Inference System for Long-Form ASR #语音识别 8.3/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前50% | #语音识别 | #语音识别 | arxiv 👥 作者与机构 Wei-Tzu Lee, Keisuke Kamahori, Baris Kasikci University of Washington (华盛顿大学) 💡 毒舌点评 这篇论文的问题意识很好,瞄准了长语音识别中精度与延迟的核心矛盾。作者通过将“分块大小”这一常被忽视的超参数显性化,并利用注意力稀疏性进行KV缓存优化,提供了实用的系统级解决方案。然而,其贡献的深度和普适性值得商榷:1) 核心优化严重依赖一个特定的、目前尚不普及的模型(VibeVoice-ASR),这使得结论的“系统性”大打折扣;2) 所谓的“创新”更多是工程上的巧妙组合(分块+StreamingLLM式驱逐),而非算法层面的根本突破;3) 实验仅在英语上进行,对语言普遍性的声明过于保守。审稿人承认其工程价值,但对其作为“研究贡献”的显著性表示怀疑。 📌 核心摘要 本文提出了Murmur,一个针对长上下文ASR模型的推理优化系统。系统在两个层面工作:在chunk层面,将chunk大小作为可调超参数,通过实证分析发现300秒是一个平衡精度和延迟的中间点;在chunk内部,利用语音token注意力的稀疏性(少于25%的语音token在超过85%的层中贡献了99%的注意力权重),设计了基于滑动窗口的KV缓存驱逐策略,分别对输出token和语音token进行驱逐。在AMI-IHM数据集上,Murmur在匹配单次推理精度的同时,将延迟降低了4.2倍,其中语音token驱逐策略贡献了主要的加速(4.2倍),而精度退化小于1%的相对tcpWER。 🔗 开源详情 代码:https://github.com/uw-syfi/Murmur (Murmur实现,Apache 2.0许可证) 模型权重:论文中未提供 VibeVoice-ASR 模型的具体权重下载链接(如HuggingFace Hub)。VibeVoice-ASR本身是一个开源模型(MIT许可证),但需要用户自行查找其官方发布地址。 数据集: AMI Meeting Corpus:CC BY 4.0。论文未提供直接下载链接。 TED-LIUM 3:CC BY-NC-ND 3.0。论文未提供直接下载链接。 Earnings21:CC BY-SA 4.0。论文��提供直接下载链接。 Demo:论文中未提及。 复现材料:附录提供了关键配置、消融实验数据、归一化步骤,是重要的复现信息。但未提供预训练检查点或完整的配置文件。 论文中引用的其他开源项目:WhisperX (提供了GitHub链接), vLLM (提供了GitHub链接), pyannote.audio, StreamingLLM, faster-whisper等,均未在论文正文中提供其具体的GitHub或项目主页链接(尽管部分项目广为人知)。 🏗️ 方法概述和架构 Murmur系统处理长语音音频的流程分为三个阶段:分块并行推理、chunk内KV缓存驱逐、输出拼接与跨chunk对齐。 ...

2026-06-02 · 更新于 2026-06-16 · 1 min · 127 words

Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification

📄 Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification #参数高效微调 #模型融合 #音频分类 6.4/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 6.4/10 | 前25% | #音频分类 | #参数高效微调 | #模型融合 | arxiv 👥 作者与机构 Amirmohammad Mohammadi: 德克萨斯A&M大学,电气与计算机工程系博士生。 Joshua Peeples: 德克萨斯A&M大学,电气与计算机工程系助理教授。 Alexandra Van Dine: 麻省理工学院林肯实验室,先进水下系统与技术组助理组长。 💡 毒舌点评 这篇论文瞄准了一个实际且重要的领域(水下声学分类),并试图用一个听起来很“高级”的数学工具(Choquet积分)来解决多模态融合问题。然而,其核心贡献——那个所谓的“可微分Choquet积分融合层”——更像是一场精心包装的数学体操,而非一个稳健的工程解决方案。作者声称其能“动态路由”到“被最少腐蚀”的表示,但在实验中,当模型容量足够时(完全微调),这个复杂机制的“动态性”却消失了(权重恒为0.5),这恰恰暴露了其理论动机与工程实践之间的脱节。论文在解释“为什么这样工作”时用力过猛,但在证明“它确实这样工作”以及“它比简单方法好多少”上却显乏力。实验设计上,与简单基线(如Concatenation Fusion)的缺失对比是硬伤,让人怀疑其复杂性的必要性。此外,将水下声学分类——一个明确的音频信号处理任务——包装成与“Foundation Model”相关的工作,多少有些蹭热点之嫌,其核心创新与通用基础模型的发展关联甚微。 📌 核心摘要 本文针对水下声学分类中单一表示(波形或频谱图)信息不全的问题,提出了一种参数高效的双编码器架构。该架构使用冻结的预训练模型(AVES处理波形,AST处理频谱图)作为骨干,并集成参数高效微调(PEFT)模块(如LoRA、HPT)进行领域适配。核心创新在于引入了一个基于Choquet积分的可微分决策级融合机制。该机制通过一个基于sigmoid的“软排序门控”实现,能够根据两个编码器对各类别的置信度差异,动态调整融合时对波形或频谱图特征的依赖(通过可学习的模糊测度权重)。在DeepShip和ShipsEar数据集上的实验表明,该双编码器PEFT框架在仅训练少量参数(约10万)的情况下,分类准确率优于单编码器基线,并且通过分析学习到的模糊测度和梯度显著性图,提供了一定的决策可解释性,展示了模型在不同类别上对输入表示的动态依赖。 ...

2026-06-02 · 更新于 2026-06-16 · 3 min · 567 words

PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects

📄 PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects #多语言 #低资源 #语音识别 #语音合成 8.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 #语音合成 | arxiv 👥 作者与机构 论文作者为 Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He。主要机构包括清华大学深圳国际研究生院、清华大学电子工程系以及京东AI研究。 ...

2026-06-02 · 更新于 2026-06-16 · 2 min · 244 words

Privacy-preserving Prosody Representation Learning

📄 Privacy-preserving Prosody Representation Learning #自监督学习 4.9/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 4.9/10 | 前50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Kevin Everson, Mari Ostendorf 华盛顿大学电气与计算机工程系 💡 毒舌点评 这篇工作瞄准了一个非常实际且重要的痛点——语音中的韵律信息不可避免地携带了说话人身份,这对隐私是个大威胁。作者的思路是清晰的:用声门波形作为“纯净”输入,同时用目标归一化和对抗学习从学习目标端把说话人信息“挤出去”。方法组合有一定新颖性,实验也基本证明了思路的有效性。然而,审稿人的挑剔在于:1) 你声称方法有效,但最重要的基线(ProsodyBERT, PE-Wav2Vec)因为代码问题没法比,这让“优越性”的宣称打了折扣;2) 评估数据集太小太单一(BU Radio只有7个播音员),像在温室里测试抗风能力,泛化性存疑;3) 说话人识别准确率从0.64降到0.14,听起来不错,但0.14对一个真正的攻击者来说够低吗?论文对此避而不谈。总之,是个扎实但不够大胆的工作,解决了特定场景下的一个子问题,距离通用的隐私保护语音表示还有距离。 📌 核心摘要 本文提出一种新的自监督韵律表示学习方法,旨在学习既能有效捕捉韵律信息又能解耦说话人身份的语音表示,以应对隐私泄露风险。核心方法包括:以鲁棒的估计声门波形作为模型输入,以减少词汇信息泄露;利用包含周期性(P)、归一化对数基频(logF0)、ΔlogF0和第一梅尔倒谱系数(c1)的声学-韵律特征进行离线聚类生成隐藏单元标签,并在生成时对logF0进行说话人归一化;训练目标为标准掩码预测损失、跨度边界损失和新增的对抗性说话人识别损失的加权和。实验在音高重建、短语边界检测和音节重音检测三个韵律任务以及VoxCeleb1说话人识别任务上进行评估。结果表明,所提编码器在韵律任务上优于HuBERT-base基线和原始韵律特征,同时其说话人识别准确率显著降低(联合策略相对降低66%),证明了说话人解耦策略在维持韵律建模性能的同时有效削弱了身份信息泄露。 🔗 开源详情 代码: 主模型代码仓库:https://github.com/kpeverson/speaker_disentangled_prosody 下游任务评估工具包(s3prl修改版):https://github.com/kpeverson/s3prl_tobi 模型权重:论文中未提供。 数据集: 训练集:GigaSpeech(论文提及使用了其转录部分,但未提供直接下载链接或明确开源协议)。 评���集:LibriTTS(用于音高重建)、BU Radio Corpus(用于短语边界和音节重音检测)、VoxCeleb1(用于说话人识别)。论文提及了这些数据集,但未提供统一的下载链接或开源信息。 Demo:论文中未提及。 复现材料:论文中未提供独立的补充材料包。关键复现信息在文中提及:使用fairseq,在4个NVIDIA A40或L40 GPU上训练500K步,平均批大小~30。 论文中引用的开源项目(隐含链接): fairseq:https://github.com/facebookresearch/fairseq torchcrepe:https://github.com/marl/torchcrepe s3prl:https://github.com/s3prl/s3prl (论文使用其修改版本) pYAAPT:用于音高重建任务中提取基频。 🏗️ 方法概述和架构 本文提出的韵律编码器架构如图1所示,灵感来源于ProsodyBERT和HuBERT,但引入了针对隐私保护的改进。其方法可概括为输入特征工程、伪标签生成与目标设计、自监督训练框架三个核心部分。 ...

2026-06-02 · 更新于 2026-06-16 · 2 min · 301 words

Project SPARROW and the Future of Conservation Technology

📄 Project SPARROW and the Future of Conservation Technology #计算机视觉 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #计算机视觉 | #计算机视觉 | arxiv 👥 作者与机构 共同第一作者:Juan M. Lavista Ferres, Carl Chalmers, Bruno Demuro Segundo, Zhongqi Miao 合作作者:Andres Hernandez Celis, Federico Alves Torres, Isai Daniel Chacon Silva, Anthony Cintron Roman, Allen Kim, Meygha Machado, Luana Marotti, Amy Michaels, Daniela Ruiz Lopez, Catherine Romero, Rahul Dodhia, Inbal Becker-Reshef, Pablo Arbelaez 机构: ...

2026-06-02 · 更新于 2026-06-16 · 2 min · 356 words

Quality Audio Prototyping: a prototype system for unified sound retrieval and procedural generation

📄 Quality Audio Prototyping: a prototype system for unified sound retrieval and procedural generation #音频检索 6.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #音频检索 | #音频检索 | arxiv 👥 作者与机构 论文中未明确提及作者具体姓名及所属机构。 💡 毒舌点评 这篇论文好比在厨房里把现有的搅拌机、烤箱和菜谱App用一根网线连接起来,然后宣称解决了烹饪的所有痛点。系统集成做得扎实,但每个组件都非自研,创新主要体现在“把它们放在一起”这个动作上。MUSHRA评分普遍不高(最佳优化仅40-52分),用户评估样本小(16人)且方式不一,这让“实用性”的结论打了折扣。它像一篇优秀的工程项目报告,但距离NeurIPS/ICML/ICLR所期待的算法或理论创新还有显著距离。 📌 核心摘要 本文针对声音设计工作流中检索与程序化生成工具割裂的问题,提出了名为QuAP的原型系统。该系统集成了基于MobileNetV3的内容检索引擎、六个经优化的嵌入式程序化音频模型(物理/模态/减法合成),以及一个基于规则(非LLM)的感知参数引导助手。核心创新在于将检索与生成统一于一个迭代式的、以创作者为中心的界面中,旨在减少从叙事概念到声音实现的“程序距离”。评估包括三部分:1)MUSHRA主观测试显示六个模型中五个经特征驱动优化后质量显著提升;2)消融研究表明MobileNetV3在FSD50K数据集上的检索性能优于ResNet18-IBN基线;3)对16名从业者的小规模用户评估确认了工具的工作流效用,所有参与者认为参数助手降低了交互门槛并保留了创作自主权。 🔗 开源详情 代码:论文中未提及代码仓库链接(如GitHub)。 模型权重:论文中未提及模型权重的具体下载链接。 数据集: FSD50K:用于嵌入模型的微调和评估。论文中未提供特定链接,但该数据集为公开数据集。 6KSFX:用于程序化音频模型的特征优化。论文中未提供特定链接。 AudioSet:用于预训练音频嵌入模型。论文中未提供特定链接,但该数据集为公开数据集。 Demo:在线演示链接:论文中未提及。 复现材料: 项目网站:https://saop-project.netlify.app (提供优化细节)。 视频教程:https://quap.netlify.app (用户评估中提及)。 论文中提及一项相关研究正在审稿中 [25],但未提供具体链接。 论文中引用的开源项目: JUCE:用于开发QuAP原型系统。链接:https://juce.com FAISS:用于高效向量检索。链接:论文中引用了文献 [4],未提供直接URL。 Essentia:用于提取低级音频特征。链接:论文中引用了文献 [22],未提供直接URL。 Nemisindo:用于提供嵌入的程序化音频合成引擎。链接:https://nemisindo.com Splice:商业工具参考。链接:https://splice.com Krotos:商业工具参考。链接:https://krotos.com ElevenLabs:商业工具参考。链接:https://elevenlabs.com iZotope:商业工具参考。链接:https://www.izotope.com 🏗️ 方法概述和架构 QuAP系统旨在将声音检索与程序化生成统一于单一环境,其架构分为离线与在线两个主要阶段,并包含四个核心组件。如图1所示,系统架构清晰地展示了数据流与交互。 ...

2026-06-02 · 更新于 2026-06-16 · 1 min · 210 words

RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection

📄 RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection #数据集 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前50% | #数据集 | #自监督学习 | #基准测试 | arxiv 👥 作者与机构 Wenze Ren¹, Ke-Han Lu¹, Kai-Wei Chang⁴, Tiantian Feng⁷, Ching Fang⁸, Zhi-Chi Liao², Dao Thi Hai Yen², Syu-Siang Wang⁶, Yu Tsao³, Chi-Te Wang⁵, Shih-Hau Fang² ¹ National Taiwan University, ² National Taiwan Normal University, ³ Academia Sinica, ⁴ Massachusetts Institute of Technology, ⁵ Far Eastern Memorial Hospital, ⁶ Yuan Ze University, ⁷ University of Southern California, ⁸ Taipei Municipal Zhongshan Girls High School ...

2026-06-02 · 更新于 2026-06-16 · 5 min · 854 words

SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors

📄 SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors #参数高效微调 #低资源 #多语言 #多模态模型 7.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 #多语言 | arxiv 👥 作者与机构 作者: Yekaterina Yegorova, Argyrios Gerogiannis, Haolong Zheng, Julia Hockenmaier, Chang D. Yoo, Mark A. Hasegawa-Johnson 机构: 1University of Illinois Urbana-Champaign, 2Korea Advanced Institute of Science and Technology (注:原文作者列表为“Argyrios Gerogiannis”,已有分析中为“Gerogiannis”,已修正。) ...

2026-06-02 · 更新于 2026-06-16 · 1 min · 143 words

SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation

📄 SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation #语音识别 #多语言 #语音合成 #预训练 5.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0/1.5 📝 5.3/10 | 前50% | #语音识别 | #预训练 | #多语言 #语音合成 | arxiv 👥 作者与机构 作者:Priyaranjan Pattnayak 单位:Oracle America Inc. 联系邮箱:priyaranjanpattnayak@gmail.com 领域:cs.CL (计算语言学) 💡 毒舌点评 这是一篇典型的“解决问题比方法创新更重要”的论文。核心思想——计算WER前先统一脚本——在业界实践中早已是常识,作者自己也承认不是新概念。论文的贡献主要在于系统性地量化了印度语言ASR中脚本不匹配效应,并为一个实用的评估补充指标提供了详尽的实证依据。它就像一个精心制作的工具说明书,虽然工具本身(标准化后再计算)不复杂,但说明书(实验设计和验证)非常扎实。对于顶会来说,缺乏方法论的突破或理论深度是一个明显短板。不过,其清晰的定位(伴侣指标)和严谨的验证过程,使其在特定应用场景(多语言ASR评估)中仍有一定价值。 📌 核心摘要 本文针对多语言ASR评估中,假设文本为罗马化而参考文本为原生脚本时传统WER被高估的问题,提出了Script-Normalized WER (SN-WER)。这是一个仅用于评估的伴侣指标,其核心是在计算WER前,使用确定性转写器将参考和假设文本都转换为该语言的规范脚本(通常为原生脚本)。通过在5种印度语言、2个数据集和3个ASR模型上的系统评估,论文证明:1)SN-WER能在干净数据集(FLEURS)上显著缩小因脚本不匹配造成的模型评估差距(最高达12%);2)在噪声数据集(Common Voice)上,SN-WER效果较小,能更好地暴露真实的识别缺陷;3)SN-WER对真正的识别错误保持与WER几乎相同的敏感性;4)方法对转写器选择和规范化选项鲁棒。作者强调SN-WER应作为WER/CER的补充报告,而非替代品,特别适用于脚本选择与下游任务无关的场景(如搜索、索引)。 🔗 开源详情 代码:论文中未提及提供SN-WER的实现代码或评估脚本。 模型权重:论文中使用的ASR模型(Whisper-large-v3, Whisper-small, MMS)均为公开模型,可通过HuggingFace Hub等平台获取,但论文本身未提供直接链接或特定版本。 数据集: FLEURS: https://huggingface.co/datasets/google/fleurs Common Voice v17: https://commonvoice.mozilla.org/en/datasets 论文明确使用了这些数据集。 Demo:未提及。 复现材料:未提供训练配置、检查点、附录等详细复现材料。论文重点在于提出评估方法(SN-WER),并提供了完整的评估框架描述(转写工具、归一化步骤)和结果分析表格,为自行实现提供了蓝图。 论文中引用的开源项目: Whisper (OpenAI):https://github.com/openai/whisper Massively Multilingual Speech (MMS, Meta AI):https://github.com/facebookresearch/fairseq/tree/main/examples/mms ICU (International Components for Unicode):https://icu.unicode.org/ FLEURS 数据集:https://huggingface.co/datasets/google/fleurs Common Voice 数据集:https://commonvoice.mozilla.org/en/datasets IAST-style和ITRANS-style转写方案的具体实现通常集成在ICU或如indic-transliteration等开源库中,但论文未提供特定库链接。 🏗️ 方法概述和架构 SN-WER是一个评估流水线,旨在量化多语言ASR评估中由脚本不匹配导致的WER失真。其核心架构可拆分为以下几个关键组件: ...

2026-06-02 · 更新于 2026-06-16 · 3 min · 488 words

SpeechEditBench: A Bilingual Multi-Attribute Benchmark for Instruction-Guided Speech Editing

📄 SpeechEditBench: A Bilingual Multi-Attribute Benchmark for Instruction-Guided Speech Editing #语音编辑 #多任务学习 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音编辑 | #多任务学习 | arxiv 👥 作者与机构 Hanlin Zhang (香港城市大学计算机科学系, 共同第一作者), Daxin Tan (华为Leibniz研究中心AI实验室, 共同第一作者), Dehua Tao (华为Leibniz研究中心AI实验室), Xiao Chen (华为Leibniz研究中心AI实验室, †共同通讯作者), Haochen Tan (华为Leibniz研究中心AI实验室), Linqi Song (香港城市大学计算机科学系, †共同通讯作者)。 ...

2026-06-02 · 更新于 2026-06-16 · 4 min · 712 words