低资源 | 语音/音频论文速递

Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation

📄 Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation #语音合成 #语音大模型 #预训练 #领域适应 #低资源 ✅ 7.0/10 | 前50% | #语音合成 | #领域适应 | #语音大模型 #预训练 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Jiaxu He（未说明具体机构，根据作者列表顺序和通常惯例推断为第一作者）通讯作者：Jie Li（星尘AGI实验室，中国电信人工智能科技有限公司）作者列表： Jiaxu He（未说明） Chao Wang（青海师范大学） Jie Lian（未说明） Yuqing Cai（电子科技大学） Yongxiang Li（未说明） Renzeg Duojie（西藏大学） Jie Li（星尘AGI实验室，中国电信人工智能科技有限公司） 💡 毒舌点评这篇论文好比为一座急需保护的少数民族语言“孤岛”搭建了一座通往现代AI技术的“桥梁”，其系统工程思维和社会价值值得肯定，但这座桥的建材（模型、数据）全是“非开源”的黑箱，严重限制了后续研究者的通行能力。它证明了“大模型+小数据”的路线在低资源语言上行得通，却未能深入揭示“为什么行得通”以及“不同部分各贡献了多少”，更像一份出色的工业产品报告而非一篇具有深度算法剖析的学术论文。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。补充信息 [模型架构] 补充：论文在阐述所采用的“自回归语言模型+流匹配”两阶段架构时，明确指出了该架构的设计动机：相比纯自回归模型，它能更好地平衡语义一致性、生成效率、语音质量和训练稳定性。这是对选择此特定大模型作为骨干的技术路线分析的重要补充，体现了作者在技术选型上的考量。 📌 核心摘要要解决的问题：藏语语音合成面临三大核心挑战：语音资源极度稀缺、方言差异显著（卫藏、安多、康方言）、保守的书面语与多变的口语之间存在复杂的映射关系，导致开发高质量TTS系统困难重重。方法核心：基于一个自研的、经过大规模中英及多方言预训练的语音大模型（采用自回归语言模型+流匹配架构），通过三个关键技术进行适配：a) 设计统一的数据质量增强管道处理低质量多源数据；b) 提出藏语导向的文本表示与分词器适配策略（音节级建模和基于藏语语料的BPE）；c) 采用跨语言自适应训练策略，通过轻量化微调将预训练模型的能力迁移到藏语。与已有方法相比新在哪里：这是首个工业级的、基于大模型的藏语TTS系统。其创新点不在于提出全新的模型架构，而在于构建了一套从数据处理、文本表示到模型迁移的完整、实用的低资源适配技术路线，并验证了不同文本分词策略对系统性能的影响。主要实验结果：在主观评估中，音节级建模系统的MOS得分为4.28，发音准确率为97.6%；BPE建模系统的MOS得分为4.35，发音准确率为96.6%。两者均显著优于作为基线的商业API（X-API：MOS 3.74，发音准确率93.8%）。结果表明，BPE在自然度上略优，而音节建模在准确性上更佳。系统 MOS 发音准确率(%) X-API（商业基线） 3.74 93.8 音节级建模系统 4.28 97.6 BPE建模系统 4.35 96.6 实际意义：该工作为资源稀缺的少数民族语言语音合成提供了一套可行的、基于大模型的技术解决方案，有望应用于教育、广播、公共服务等领域，促进信息无障碍和民族文化数字化传播，并为其他低资源语言的语音技术发展提供参考。主要局限性：a) 论文未公开模型、代码和数据集，可复现性极差；b) 实验评估较为初步，主要依赖MOS和发音准确率，缺乏对韵律、情感、长段稳定性等的深入分析；c) 技术创新更多体现在工程整合与应用，算法层面的深度和新颖性有限；d) 目前主要针对卫藏方言，对其他方言的覆盖是未来工作。 🏗️ 模型架构该系统是一个基于大模型的模块化语音合成框架，整体架构如图2所示。其核心流程如下： ...

语音/音频论文速递 2026-05-05

语音/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜（33 篇，按分数降序）排名论文评分分档主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

📄 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates #语音合成 #自监督学习 #流匹配 #多语言 #低资源 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Jiaqi Li（香港中文大学（深圳）、微软）通讯作者：未明确说明作者列表：Jiaqi Li（香港中文大学（深圳）、微软）、Yao Qian（微软）、Yuxuan Hu（微软）、Leying Zhang（上海交通大学）、Xiaofei Wang（微软）、Heng Lu（微软）、Manthan Thakker（微软）、Jinyu Li（微软）、Sheng Zhao（微软）、Zhizheng Wu（香港中文大学（深圳）、深圳湾实验室、澳门城市大学、Amphion Technology Co., Ltd.） 💡 毒舌点评 FlexiCodec在极低帧率（3-12.5Hz）下实现了高质量的语音重建和强大的语义保持，其动态帧率分配策略被实验数据强力支持，显著优于将现有固定帧率模型强行降低帧率的做法。然而，论文在评估模型对真实世界复杂场景（如强背景噪声、多人重叠说话）的鲁棒性方面着墨较少，且多语言泛化能力的验证仅限于微调，这可能是未来需要深入探索的方向。 🔗 开源详情代码：提供代码仓库链接：https://github.com/amphionteam/flexicodec 模型权重：论文中提及“Code is available at”，结合项目主页链接（https://flexicodec.github.io），通常意味着会开源模型权重。论文中已提供中文微调模型“FlexiCodec-ZH tune”。数据集：训练使用公开的Librilight-Large数据集。评估使用公开的LibriSpeech、TIMIT和Emilia数据集。 Demo：提供在线演示页面：https://flexicodec.github.io 复现材料：提供了极其详细的训练配置（优化器、学习率、批大小、步数、硬件）、模型超参数（层数、维度、码本大小、Transformer配置）、损失函数、评估指标、基线模型重训练细节以及消融实验设置。附录部分包含大量补充信息。引用的开源项目：SenseVoice-Small（ASR特征提取）、DAC（编解码器基础架构）、Vocos（TTS声码器）、Amphion工具包。 📌 核心摘要要解决什么问题：传统高帧率神经音频编解码器会导致语音语言模型序列过长，计算成本高。现有低帧率（如12.5Hz）编解码器在进一步降低帧率时会严重丢失语义信息，限制了下游任务性能。方法核心是什么：本文提出FlexiCodec，一种采用动态帧率的低比特率神经音频编解码器。其核心是利用预训练ASR模型提取的语义特征来指导帧合并，自适应地在语音信息稀疏区域（如静音、长元音）减少帧数，在信息密集区域保留更多细节。模型采用双流编码（ASR特征流+波形特征流）、Transformer瓶颈模块进行帧合并/解合并，并使用有限标量量化（FSQ）进行语义token化。与已有方法相比新在哪里：FlexiCodec是首个在低于10Hz平均帧率下实现高质量、可重构语音的编解码器之一。其创新在于：(1) 动态帧率分配：打破了固定帧率的限制，允许在推理时通过阈值连续控制帧率（3-12.5Hz）；(2) ASR特征引导语义编码与合并：使用更具语义集中性的ASR特征（而非SSL特征）同时用于语义量化和指导合并过程，提升了语义保持；(3) 创新的帧合并/解合并模块：引入Transformer对合并前后的序列进行精细化处理，减少伪影。主要实验结果如何：在核心语义测试中（RVQ-1 WER），FlexiCodec��6.25Hz平均帧率下WER为4.15%，远优于重训练的基线DualCodec（31.5%）和DAC（88.2%）。对比表5显示，其在语义保持上也优于许多更高帧率的编解码器。在音频质量上（PESQ, UTMOS等），FlexiCodec在不同比特率类别下均取得最优或接近最优的成绩。下游TTS实验表明，FlexiCodec-TTS（6.25Hz AR）在WER（3.2%）和主观评分（NMOS 3.32, QMOS 3.40）上与CosyVoice等强基线相当，但自回归阶段加速高达7.3倍。消融研究证实，动态帧率策略在6.25Hz下能将RVQ-1 WER相对提升26%，ASR特征相比SSL特征在低帧率下具有决定性优势（WER从27.3%降至4.15%）。模型帧率 (Hz) WER(RVQ1) ↓ WER(RVQ1:8) ↓ PESQ ↑ UTMOS ↑ DualCodec (重训练) 6.25 31.5 3.42 2.74 4.08 FlexiCodec 6.25 4.15 2.53 2.76 4.18 FlexiCodec (无动态帧率) 6.25 5.22 2.73 2.76 4.18 5. 实际意义是什么：FlexiCodec通过显著降低音频token帧率，为构建更高效、低延迟的语音语言模型和语音合成系统提供了关键基础技术。其动态、可控的帧率设计为适应不同计算资源和应用场景提供了灵活性。 6. 主要局限性是什么：论文未充分探讨在极端噪声或高度重叠语音等复杂声学场景下的性能；多语言支持依赖于在特定语言上微调，零样本跨语言语义保持能力有限；动态帧率合并过程的可解释性虽有可视化，但合并决策的边界条件与语音语言学单位的精确对应关系仍需深入研究。 🏗️ 模型架构 FlexiCodec的整体架构如图1所示，其核心是双流特征提取与动态帧率处理。 ...

From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings

📄 From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings #音频分类 #生物声学 #迁移学习 #预训练 #低资源 ✅ 6.5/10 | 前50% | #音频分类 | #迁移学习 | #生物声学 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Christiaan M. Geldenhuys（南非斯泰伦博斯大学电气与电子工程系）通讯作者：Thomas R. Niesler（南非斯泰伦博斯大学电气与电子工程系）作者列表：Christiaan M. Geldenhuys（南非斯泰伦博斯大学电气与电子工程系）、Thomas R. Niesler（南非斯泰伦博斯大学电气与电子工程系） 💡 毒舌点评亮点：这是一篇异常扎实的“系统性比较”论文，像一份详尽的调研报告，将二十多种预训练音频嵌入模型在大象叫声分类上测了个遍，实验规模和对比维度令人印象深刻。短板：其核心贡献是“验证了一个大家觉得大概率可行的想法”（即预训练嵌入能跨物种迁移），而非提出新架构或新范式；且由于最强模型（Perch 2.0）的训练数据可能包含大象录音，严格意义上的“跨物种”结论打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中未提及数据集获取链接。 Demo：论文中未提及。复现材料：论文附录A提供了完整的实验结果表格（Table 3），但论文中未提及训练配置、检查点等具体复现材料。论文中引用的开源项目： Xeno-canto：鸟类声音数据库，用于BirdNET和Perch 1.0等模型的训练。链接：https://xeno-canto.org/ Macaulay Library of Natural Sounds：康奈尔鸟类学实验室的自然声音库。链接：https://search.macaulaylibrary.org/ AudioSet：由Google维护的音频事件数据集，用于VGGish、BEATs等模型的预训练。链接：https://research.google.com/audioset/ LibriSpeech ASR：用于wav2vec 2.0和HuBERT预训练的语音数据集。链接：https://www.openslr.org/12 FSD50k：音频事件检测数据集，用于AVES和Perch 2.0的训练。链接：https://zenodo.org/record/4060432 VGGSound：视听数据集，用于AVES的训练。链接：https://www.robots.ox.ac.uk/~vgg/data/vggsound/ iNaturalist：自然观察平台，用于Perch 2.0的训练。链接：https://www.inaturalist.org/ Tierstimmenarchiv：德国的动物声音档案馆，用于Perch 2.0的训练。链接：https://www.tierstimmenarchiv.de/ MeerKAT数据集：用于animal2vec预训练的猫鼬叫声数据集。链接：https://zenodo.org/record/3834810 LDC：语言数据联盟，托管本研究中使用的亚洲象数据集。链接：https://www.ldc.upenn.edu/ Hugging Face：多个预训练模型权重的官方托管平台。链接：https://huggingface.co/ BEATs：预训练音频嵌入模型。相关论文与代码：https://arxiv.org/abs/2112.06607；代码仓库：https://github.com/microsoft/unilm/tree/master/beats wav2vec 2.0：自监督语音表示学习模型。相关论文与代码：https://arxiv.org/abs/2006.11477；代码仓库：https://github.com/facebookresearch/wav2vec2 HuBERT：自监督语音表示学习模型。相关论文与代码：https://arxiv.org/abs/2106.07447；代码仓库：https://github.com/facebookresearch/hubert XLS-R：多语言语音表示学习模型。相关论文与代码：https://arxiv.org/abs/2111.09296；代码仓库：https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec/xls_r BirdNET：鸟类声音识别模型。链接：https://birdnet.cornell.edu/；代码仓库：https://github.com/kahst/BirdNET-Analyzer Perch 1.0：鸟类声音嵌入模型。代码仓库：https://github.com/google-research/perch Perch 2.0：多物种声音嵌入模型。代码仓库：https://github.com/google-research/perch AVES：动物声音嵌入模型。代码仓库：https://github.com/earthspecies-project/aves BirdAVES：鸟类声音嵌入模型。代码仓库：https://github.com/earthspecies-project/aves animal2vec：动物声音嵌入模型。代码仓库：https://github.com/google-research/google-research/tree/master/animal2vec 补充信息 [细节详述] 补充：论文明确说明批次大小未具体说明，训练硬件也未提及（原文：“The batch size is not specified.” “The training hardware is not stated.”）。这属于关键训练细节的缺失。 [细节详述] 补充：在模型架构部分，论文对各嵌入模型的预训练数据集有更详细的说明与对比。例如： Perch 2.0：其训练数据包含来自Tierstimmenarchiv和iNaturalist的录音，这两个数据源可能包含大象录音。论文作者手动验证了评测数据未出现在公开可访问的源语料库中，但无法确定Perch 2.0的完整训练集。这直接影响了对其“跨物种”结论的纯粹性评估。 Speech Models：论文明确指出，XLS-R 在LDC数据集上优于wav2vec2.0，归因于其在更大、更多样化的多语言语音数据集上预训练，而wav2vec2.0和HuBERT在LibriSpeech（高质量、近录音棚条件）上预训练，与野外录音环境不匹配。论文推测，wav2vec2.0使用的量化码本目标可能使其产生的表示对非语音信号的信息量较少。 [实验结果] 补充：论文在讨论部分（Section 7）明确指出，AERD在mAP指标上相比最佳嵌入模型具有更明显的优势。例如，在LDC数据集上，AERD的AP曲线在大部分召回率范围内都位于嵌入模型之上，AP差距约为0.18。这一观察解释了为何AUC接近而mAP差距较大的现象，并强调了不同评估指标的重要性。 [评分理由] 补充：论文自我声明的局限性（Section 8）除了已提及的“缺乏细粒度呼叫标注”和“未开源”外，还包括：“缺乏上下文信息（环境、社会背景、时间模式），这些信息可能提升下游性能和生态相关性。” [核心摘要/评分理由] 补充：论文在引言和结论中强调了实际应用场景与权衡。例如，指出预训练嵌入分类器在需要高精度、允许一定召回率损失的场景下（如人工审核初筛、存在-不存在调查、人象冲突早期预警）可能优于端到端微调模型，因为后者可能产生更多假警报，影响社区信任。这是对选题价值（1.0分）的补充，表明其应用不仅在于“即插即用”，还涉及特定部署场景下的性能权衡。 [创新点] 补充：论文的层分析（Section 6.2）设计动机明确包含实际部署考量：如果中间层表征足以进行分类，则只需保留预训练模型的一小部分参数（如wav2vec2.0和HuBERT的第二层，仅占全网络约10%的参数），从而满足远程保护环境中计算资源有限的设备端处理需求。分析中已提及此结论，但未明确其“设计动机”部分。 📌 核心摘要本文研究了在数据稀缺的生物声学领域，能否利用在非目标物种或非生物声学领域预训练的音频嵌入模型，无需微调即可有效分类大象叫声。方法核心：采用“固定嵌入+轻量分类器”范式。研究者从通用音频（VGGish， BEATs）、语音（wav2vec2.0， HuBERT， XLS-R）和生物声学（Perch， BirdNET等）领域的预训练模型中提取固定声学嵌入向量，并在其上训练逻辑回归、多层感知机（MLP）、循环神经网络（RNN/GRU/LSTM）等轻量级监督分类器。与已有方法的新颖之处：这是首次对如此广泛的预训练模型（特别是语音Transformer）在大象叫声分类任务上进行全面、系统的跨物种迁移学习评估。它严格评估了“域外”和“跨物种”嵌入的有效性，并提供了详细的层分析。主要实验结果：在非洲 bush 大象（EV数据集）和亚洲大象（LDC数据集）的呼叫分类任务上，不微调的预训练嵌入性能可接近从头训练的端到端监督模型（AERD）。最佳模型Perch 2.0在EV数据集上AUC达0.849，在LDC数据集上AUC达0.935，与AERD的差距在2.2个百分点以内。严格意义上的“跨物种”模型Perch 1.0表现也很强。层分析发现，对于语音Transformer模型（如wav2vec2.0），中间层（如第2层）表征就能取得有竞争力的性能，意味着模型可大幅压缩。主要实验结果表格见下： ...

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #语音翻译 #多模态模型 #多语言 #低资源 #大语言模型 🔥 8.5/10 | 前25% | #语音翻译 | #多模态模型 | #多语言 #低资源学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Yexing Du（哈尔滨工业大学，鹏城实验室）通讯作者：Youcheng Pan（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学，鹏城实验室）作者列表：Yexing Du（哈尔滨工业大学，鹏城实验室）、 Youcheng Pan（鹏城实验室）、 Zekun Wang（哈尔滨工业大学）、 Zheng Chu（哈尔滨工业大学）、 Yichong Huang（哈尔滨工业大学）、 Kaiyuan Liu（哈尔滨工业大学，鹏城实验室）、 Bo Yang（鹏城实验室）、 Yang Xiang（鹏城实验室）、 Ming Liu（哈尔滨工业大学，鹏城实验室）、 Bing Qin（哈尔滨工业大学，鹏城实验室） 💡 毒舌点评亮点：论文思路非常聪明，绕过了图像多模态翻译的数据瓶颈，利用语音（尤其是TTS生成的合成语音）作为补充信息源，实现了多语言覆盖的飞跃。短板：框架对上游TTS模型的质量和语言覆盖有强依赖，论文中自进化机制的“正样本”筛选标准（S2 > S1）略显简单粗暴，可能无法捕获语音信息更复杂的交互模式。此外，论文声称“语音提供韵律线索”，但在实验中缺乏对韵律特征的具体分析或可视化，更多是效果验证。 ...

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #自监督学习 #低资源 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #自监督学习 | #低资源 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Ismail Lamaakal*（Mohammed First University, Multidisciplinary Faculty of Nador） Chaymae Yahyati*（Mohammed First University, Multidisciplinary Faculty of Nador） Khalid El Makkaoui（Mohammed First University, Multidisciplinary Faculty of Nador） Ibrahim Ouahbi（Mohammed First University, Multidisciplinary Faculty of Nador） Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI）（*表示共同第一作者） 💡 毒舌点评论文的亮点在于将“不确定性”这个通常需要复杂计算的概念，巧妙地转化为对网络内部“可预测性”的衡量，并以此构建了一个极度轻量、无需额外状态、完美适配MCU的单次推理方案，实用性极强。但其短板是“自监督”的标签略有牵强，更像是为不确定性估计任务设计的辅助回归损失；此外，论文对tap位置选择、rank大小等关键设计选择的敏感性分析不够深入，给实际部署时的调优留下了“黑箱”。 ...

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #迁移学习 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #迁移学习 | #参数高效微调 #多语言学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）通讯作者：Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）作者列表： Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院） Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院） Jia Qi Yip（南洋理工大学计算与数据科学学院） Kwok-Yan Lam（南洋理工大学数字信任中心 & 计算与数据科学学院） Eng Siong Chng（南洋理工大学数字信任中心 & 计算与数据科学学院） 💡 毒舌点评亮点：论文巧妙地将“模型平均”的思想压缩到了单一LoRA适配器的初始化阶段，通过将多个奇异向量求和来构建更“博学”的冻结矩阵A，这个想法精巧且实现简单。短板：实验验证仅限于多语言ASR，作者自己也承认对需要“局部”知识适应的任务（如NLU）无效，这让人怀疑该方法是普适的参数高效技巧，还是一个仅对特定任务类型（全局风格/口音迁移）有效的“特解”。 ...

语音/音频论文速递 2026-05-04

语音/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜（14 篇，按分数降序）排名论文评分分档主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #音视频 #自回归模型 #低资源 #预训练 🔥 8.5/10 | 前25% | #语音识别 | #自回归模型 | #音视频 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Alexandros Haliassos（NatWest AI Research & Imperial College London）通讯作者：未明确说明作者列表：Alexandros Haliassos（NatWest AI Research & Imperial College London），Rodrigo Mira（NatWest AI Research），Stavros Petridis（NatWest AI Research & Imperial College London） 💡 毒舌点评这篇论文把CTC这个“老实人”的稳健和注意力“艺术家”的表达力在伪标签阶段强行撮合，用“老师傅带路”的方式训练学生，既省了计算又抗了噪，想法相当机灵。但可惜的是，这种“撮合”在分布外场景下也暴露了局限性，当CTC预测本身出错时，错误的传导依然存在，且论文对更极端的分布偏移（如完全不同的语言或方言）验证不足。 ...

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #鲁棒性 #模型评估 #实时处理 #低资源 ✅ 7.0/10 | 前25% | #音频分类 | #自监督学习 | #鲁棒性 #模型评估学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador, Oujda, Morocco）、Chaymae Yahyati（同上，标注为共同第一作者并主导项目）通讯作者：未说明作者列表：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador, Oujda 60000, Morocco）、Chaymae Yahyati（同上）、Khalid El Makkaoui（同上）、Ibrahim Ouahbi（同上）、Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI, ENSAK, Khouribga 54000, Morocco） 💡 毒舌点评亮点：在毫瓦级MCU的严苛约束下，这篇论文找到了一条不依赖多次推理或复杂状态的确定性不确定性计算路径——用“层间预测误差”这个巧妙的代理指标，这比死磕softmax置信度或堆叠模型要聪明得多。短板：虽然实验做得很全面，但核心的“深度方向惊奇信号”是否比其他轻量方法（如能量分数、Mahalanobis距离）真的优越，似乎更多体现在工程可行性上，理论深度和普适性说服力略显不足，更像是一个为特定场景优化的“补丁”方案。 ...