低资源 | 语音/音乐/音频论文速递

Efficient ASR Training with Conversations that Never Happened

📄 Efficient ASR Training with Conversations that Never Happened #语音识别 #数据增强 #低资源 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #数据增强 | #低资源 | arxiv 👥 作者与机构论文作者： Máté Gedeon（隶属布达佩斯技术与经济大学电信与人工智能系、SpeechTex Ltd.）， Péter Mihajlik（隶属布达佩斯技术与经济大学电信与人工智能系、ELTE语言学研究中心）。机构：布达佩斯技术与经济大学（Dept. of Telecommunications and Artificial Intelligence）， SpeechTex Ltd.， ELTE语言学研究中心。 💡 毒舌点评这篇论文的动机（为低资源语言/对话场景生成训练数据）是扎实且有实际意义的。核心想法——利用LLM生成对话文本，再经由TTS和说话人模拟转化为语音——本身是合理且可扩展的。然而，论文的“新意”更多是将已有组件（LLM、TTS、说话人模拟）组合成一个管线，并在特定语言（匈牙利语）上进行了详尽的实验。真正的创新点（元数据条件下的语音选择、对比评估）更多体现在工程实践和实验设计上，而非提出一种根本性的新方法。论文对结果的解读比较中肯，承认了生成器选择和混合的复杂性。但是，作者对关键的“说话人感知对话模拟”阶段（Stage III）描述得过于简略，将其作为黑盒引用前作，这削弱了本文方法的完整性。此外，实验的泛化性完全依赖于一个语言资源（匈牙利语BEA-Dialogue）和一个ASR架构（FastConformer），尽管作者声称可移植性，但缺乏证据。对于一篇定位为“高效训练”的工作，论文没有讨论其方法的计算成本（生成、合成、训练的总开销）与传统数据收集的对比，这是一个明显的疏漏。最终的组合模型（4-scale + sim）性能超越2700小时零样本基线，结果很亮眼，但这主要归功于合成数据与目标语料的高度匹配，而非方法本身的革命性。 ...

FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations

📄 FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations #语音识别 #低资源 #强化学习 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前50% | #语音识别 | #强化学习 | #低资源 | arxiv 👥 作者与机构 Haolong Zheng (University of Illinois Urbana Champaign), Siyin Wang (Tsinghua University), Xulin Fan (University of Illinois Urbana Champaign), Zengrui Jin (Tsinghua University), Mark Hasegawa-Johnson (University of Illinois Urbana Champaign) ...

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构论文作者：Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构：腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者：Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点：宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰，且能互补。实验设计比较扎实，消融研究有力地支撑了各自组件的贡献。然而，方法的工程实现存在明显的“补丁”感，尤其是第二阶段多轨道模型却沿用第一阶段（或基线）为混合信号训练的伴奏解码器，这就像声称做了精细分轨烹饪，最后却用同一个大锅炒在一起，严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点，但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练（如DPO、对齐优化）的开源系统相比，本系统在部分主观指标上仍有差距，这进一步说明了其“潜力”与“现状”的差距。总体而言，这是一篇扎实的系统性工作，但缺乏一个令人惊艳的、完全自洽的闭环。 ...

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构：名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心，北京航空航天大学 (Beihang University) 生物与医学工程学院，TARVO, Inc.。通讯作者为 Ding Ma。 ...

PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects

📄 PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects #多语言 #低资源 #语音识别 #语音合成 8.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 #语音合成 | arxiv 👥 作者与机构论文作者为 Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He。主要机构包括清华大学深圳国际研究生院、清华大学电子工程系以及京东AI研究。 ...

SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors

📄 SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors #参数高效微调 #低资源 #多语言 #多模态模型 7.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 #多语言 | arxiv 👥 作者与机构作者: Yekaterina Yegorova, Argyrios Gerogiannis, Haolong Zheng, Julia Hockenmaier, Chang D. Yoo, Mark A. Hasegawa-Johnson 机构: 1University of Illinois Urbana-Champaign, 2Korea Advanced Institute of Science and Technology （注：原文作者列表为“Argyrios Gerogiannis”，已有分析中为“Gerogiannis”，已修正。） ...

WAXAL-NET: Finetuned Edge ASR Across 19 African Languages

📄 WAXAL-NET: Finetuned Edge ASR Across 19 African Languages #语音识别 #低资源 #参数高效微调 8/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0/1.5 🔥 8/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构 Victor Tolulope Olufemi1,2, Oreoluwa Babatunde2, Ramsey Njema1, Bolarinwa Gbotemi2, Wanchi Lucia Yen1, John Uzodinma1, Sunday Ajayi1, Oluwademilade Williams2, Kausar Moshood2, Innocent Elendu Anyaele1, Akebert Arefaine1, Candace Hunzwi1, Wongel Dawit Daniel1, Emmilly Namuganga1, Cleophas Kadima1, Athanase Bahizire1, Onitsiky Ranaivoson1, Emmanuel Aaron1, Nicholaus Ladislaus1, Idris Muhammed1, Jonathan Enoch Simenya1, Martin Koome1, Matewos Tegete Endaylalu1, Peter Ifeoluwa Adeyemo1, Hondi Prisca Birindwa1, Ukachi Agnes Eze-Mbey1, Yacoba Oduro-Yeboah1, Pericles Adjovi1, Mikel K. Ngueajio1, Toluwani Aremu3, Prasenjit Mitra1。 1CMU Africa, 2LyngualLabs, 3MBZUAI。 ...

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分前25% #语音合成 4. MOSS-Audio Technical Report 9.2分前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分前50% #多模态模型 26. Kinship Verification Using Voice 6.9分前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度中 👥 作者与机构论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学（深圳）以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”，而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点，但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”，而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”，但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”，这听起来很时髦，但论文里只用了两个模型做了个“概念验证”，说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本，充满了链接、格式说明和“我们发布了…”的宣告。给5.5分，是对其指出正确问题并迈出第一步的鼓励，但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题，本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计：1) 面向真实场景的前端语音任务压力测试（Track I）；2) 全栈语音理解能力的横向对比评估（Track II）；3) 通过智能体辅助的代码转换流程，实现基于统一协议和开源数据的受控从头训练初步探索（Track III）。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分（RPS）指标。实验发现，在干净条件下级联管道在核心感知任务上仍有竞争力，情感识别是普遍挑战，且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情代码：项目主页：https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线：https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线：https://anonymous.4open.science/r/ReproAgent-9898 模型权重：论文中未提及开源模型权重。数据集：论文中提及了多个开源数据集（VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason），并指出测试和训练套件已发布在ModelScope：https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo：论文中未提及。复现材料：论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程，该流程可将论文和代码转换为可运行的swift训练流程，并提供版本化的转换计划和验证报告。论文中引用的开源项目： meeteval：用于计算DER和cpWER的后端工具。 sacrebleu：用于计算BLEU和chrF2的工具。 swift：用于可控训练的开源框架。（注：以上工具在论文脚注中提供了链接） 🏗️ 方法概述和架构 SURE是一个端到端的实验套件，其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...