低资源 | 语音/音乐/音频论文速递

WAXAL-NET: Finetuned Edge ASR Across 19 African Languages

📄 WAXAL-NET: Finetuned Edge ASR Across 19 African Languages #语音识别 #低资源 #参数高效微调 8/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0/1.5 🔥 8/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构 Victor Tolulope Olufemi1,2, Oreoluwa Babatunde2, Ramsey Njema1, Bolarinwa Gbotemi2, Wanchi Lucia Yen1, John Uzodinma1, Sunday Ajayi1, Oluwademilade Williams2, Kausar Moshood2, Innocent Elendu Anyaele1, Akebert Arefaine1, Candace Hunzwi1, Wongel Dawit Daniel1, Emmilly Namuganga1, Cleophas Kadima1, Athanase Bahizire1, Onitsiky Ranaivoson1, Emmanuel Aaron1, Nicholaus Ladislaus1, Idris Muhammed1, Jonathan Enoch Simenya1, Martin Koome1, Matewos Tegete Endaylalu1, Peter Ifeoluwa Adeyemo1, Hondi Prisca Birindwa1, Ukachi Agnes Eze-Mbey1, Yacoba Oduro-Yeboah1, Pericles Adjovi1, Mikel K. Ngueajio1, Toluwani Aremu3, Prasenjit Mitra1。 1CMU Africa, 2LyngualLabs, 3MBZUAI。 ...

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分前25% #语音合成 4. MOSS-Audio Technical Report 9.2分前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分前50% #多模态模型 26. Kinship Verification Using Voice 6.9分前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度中 👥 作者与机构论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学（深圳）以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”，而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点，但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”，而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”，但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”，这听起来很时髦，但论文里只用了两个模型做了个“概念验证”，说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本，充满了链接、格式说明和“我们发布了…”的宣告。给5.5分，是对其指出正确问题并迈出第一步的鼓励，但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题，本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计：1) 面向真实场景的前端语音任务压力测试（Track I）；2) 全栈语音理解能力的横向对比评估（Track II）；3) 通过智能体辅助的代码转换流程，实现基于统一协议和开源数据的受控从头训练初步探索（Track III）。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分（RPS）指标。实验发现，在干净条件下级联管道在核心感知任务上仍有竞争力，情感识别是普遍挑战，且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情代码：项目主页：https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线：https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线：https://anonymous.4open.science/r/ReproAgent-9898 模型权重：论文中未提及开源模型权重。数据集：论文中提及了多个开源数据集（VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason），并指出测试和训练套件已发布在ModelScope：https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo：论文中未提及。复现材料：论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程，该流程可将论文和代码转换为可运行的swift训练流程，并提供版本化的转换计划和验证报告。论文中引用的开源项目： meeteval：用于计算DER和cpWER的后端工具。 sacrebleu：用于计算BLEU和chrF2的工具。 swift：用于可控训练的开源框架。（注：以上工具在论文脚注中提供了链接） 🏗️ 方法概述和架构 SURE是一个端到端的实验套件，其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...

Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels

📄 Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels #口音识别 #低资源 🔥 8.3/10 | 前50% | #口音识别 | #低资源 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度高 👥 作者与机构 Pedro H. L. Leite, PEE/COPPE, 巴西里约热内卢联邦大学 (UFRJ)； Pedro Benevenuto Valadares, 巴西坎皮纳斯州立大学 (UNICAMP) 电气与计算机工程学院； Luiz W. P. Biscainho, 巴西里约热内卢联邦大学 (UFRJ) 电子工程系与电气工程研究生院。工作部分由巴西国家科学与技术发展委员会 (CNPq) 资助。 💡 毒舌点评这篇论文在立意上就很有自知之明——既然搞不到靠谱的标签，那就干脆别用了。思路很“土”但很实用：用强制对齐器当“语音手术刀”，精准切出/s/、/r/、/d/-/t/这几个发音关键点，再用传统的声学特征（谱矩、MFCC）和对齐器自身的概率分布去分析，居然在几个特定任务上吊打了那些从头训到尾、动辄几百维的通用SSL巨兽（如XLS-R）。这像是拿着显微镜和手术刀的外科医生，在特定手术上战胜了带着全套影像设备但目标不明确的全科医生。方法的可解释性是一大亮点，每个特征系数都能在语言学图谱上找到对应。不过，这种“精准打击”策略也注定了其泛化能力的天花板——作者也承认，仅靠这三个音位变量远不足以覆盖巴西丰富的口音差异。最大的槽点在于开源情况：代码和模型权重都没提供，复现全靠一个展示结果的网页，这在顶会论文里是减分项。实验设计上，跨数据集评估只做了PE vs SP的二分类，四分类实验的数据源虽多但类别定义（如“mineiro”）稍显主观，且每个类别样本量差异很大（24-135人），结果说服力打了点折扣。 📌 核心摘要本文提出一种无需社会语言学标签、仅依赖声学标签来提取巴西葡萄牙语（pt-BR）口音特征的新工作流。核心思想是：大型自监督学习（SSL）语音模型虽然强大，但其训练目标会稀释掉细粒度的社会语音信息。因此，本文主张利用强制对齐器（ZIPA）在语音中精确定位特定的口音标记音位（/s/尾音、/r/尾音、/d/-/t/腭化），并在这些时间点提取低维、可解释的声学特征（谱矩、MFCC）和对齐器概率分布。实验表明，在针对这些特定音位变量的分类任务上，所提出的局部特征（如“ZIPA v2 (7D)”向量）能够达到甚至超越大型SSL模型（如HuBERT、XLS-R）的性能，尤其在跨数据集评估中展现出优势。这证明了在特定语音任务中，基于领域知识的精准特征工程可以比通用的高维表征更有效、更可解释。 🔗 开源详情代码：论文中未提供代码仓库链接。仅有一个伴侣网页（https://gpa-smt-ufrj.github.io/accent-features）用于展示实验结果。模型权重： XLSR-53 葡萄牙语微调模型：提供了链接 https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-portuguese。论文提出的口音标记检测模型（如“ZIPA v2 (7D)”向量对应的分类器权重）：未提供。数据集： CORAA：未提供直接链接，但提及为常用数据集。 Mozilla Common Voice：未提供直接链接。 ColingPB：提供链接 https://repositorio.ufpb.br/jspui/handle/123456789/23184。 BRSpeechDF：未提供直接链接。 CML-TTS：未提供直接链接。 Certas Palavras：未提供直接链接。 CETUC：未提供直接链接。 gneutralspeech (male/female)：未提供直接链接。 TAGARELA：提供链接 https://huggingface.co/datasets/freds0/TAGARELA。 Sotaque Brasileiro：提供链接 https://sotaque-brasileiro.github.io/。 Ynoguti：未提供直接链接。 C-ORAL Brasil：未提供直接链接，但提及通过CORAA分发。数据集获取方式：部分可直接获取（如ColingPB, TAGARELA），部分为公开数据集（如Common Voice），部分需根据作者/机构信息进一步查询。 Demo：未提及。复现材料：伴侣网页包含消融研究结果，但未明确说明是否提供训练配置、检查点或代码。论文中引用的开源项目： ZIPA：通过脚注链接间接指向 https://huggingface.co/pyannote/speaker-diarization-3.1，但此链接实为PyAnnote，ZIPA本身的代码/模型链接未明确给出。 PyAnnote (Speaker Diarization)：https://huggingface.co/pyannote/speaker-diarization-3.1。 Allosaurus：仅通过引用编号[17]提及，未提供链接。 CUPE：仅通过引用编号[22]提及，未提供链接。 Resemblyzer：https://github.com/resemble-ai/resemblyzer。 SSL模型（用于对比）：Wav2Vec 2.0[4], HuBERT[13], ECAPA-TDNN[11], XLSR-53[10]均通过引用编号提及，未提供具体链接。 🏗️ 方法概述和架构本文提出的方法是一个多阶段、基于领域知识的流水线，旨在从语音中提取与区域口音相关的、可解释的特征，而无需使用不可靠的社会语言学标签。其架构可分为四个核心阶段： ...

Scaling Conversational Hungarian ASR: The BEA-Dialogue+ Corpus

📄 Scaling Conversational Hungarian ASR: The BEA-Dialogue+ Corpus #语音识别 #低资源 ✅ 7.2/10 | 前50% | #语音识别 | #低资源 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构通讯/一作：Máté Gedeon, Piroska Zsófia Barta (Budapest University of Technology and Economics；Speechtex Ltd.) 作者：Péter Mihajlik, Katalin Mády (Budapest University of Technology and Economics；ELTE Research Centre for Linguistics) 机构：布达佩斯技术与经济大学 (BME) 电信与人工智能系；Speechtex Ltd.；ELTE语言学研究中心。 💡 毒舌点评这篇论文做了一件扎实但缺乏惊喜的“苦力活”：把一个现有数据集从85小时扩到200小时，并为对话ASR建立了一个新基准。核心贡献在于“扩大”和“基准化”，而非提出新方法。其价值在于为匈牙利语这一低资源语言社区提供了急需的资源，但方法论上的创新性（放松说话人隔离约束）本身是双刃剑，作者自己也承认了数据泄露风险。论文写作清晰，实验完整，但结论部分对“数据泄露带来性能提升”的推测略显模糊，且未给出确凿的定量分析。对于追求SOTA或新颖架构的读者来说，这篇文章的吸引力有限；但对于关注数据集构建、低资源语音处理和对话系统评估的研究者，它提供了有价值的案例和资源。总体而言，是一篇合格、有实用价值但不会引爆顶会的工作。 📌 核心摘要本文针对匈牙利语对话自动语音识别（ASR）数据不足的问题，扩展了原有的BEA-Dialogue数据集，构建了BEA-Dialogue+。新数据集通过放宽对实验者和对话伙伴在训练/验证/测试集间的隔离要求（仅严格隔离主说话人），将可用数据从85小时增加至200小时，同时保留了对话结构的复杂性。作者在BEA-Dialogue和BEA-Dialogue+两个版本上，对Whisper和FastConformer模型进行了系统性的基准测试，包括使用序列输出训练（SOT）进行微调。实验表明，更大的数据集（BEA-Dialogue+）由于包含更多说话人转换的片段，对未经微调的模型更具挑战性（性能下降约10%）；而使用SOT进行微调则能带来一致的性能提升。BEA-Dialogue+为匈牙利语对话转录提供了一个规模更大、更具挑战性的基准，可用于训练和评估相关系统。 🔗 开源详情代码：论文中未提及开源训练或评估代码。模型权重：论文中未提及模型权重的具体下载链接。数据集：BEA-Dialogue+ 及其前身 BEA-Dialogue。论文指出将可供研究人员下载，并给出了项目主页链接：https://phon.nytud.hu/bea/。但具体下载方式、许可证和注册要求未说明。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及提供具体的训练配置文件、检查点或附录等复现材料。论文中引用的开源项目： NVIDIA NeMo toolkit：用于训练的工具包。链接：https://github.com/NVIDIA/NeMo。 Whisper：作为基线模型进行评估。链接：https://github.com/openai/whisper。 FastConformer：作为基线模型进行评估，其描述和代码通常可在NeMo框架（见上）中找到。论文中匈牙利语预训练的FastConformer模型的具体配方参考了Dobsinszki等人的工作[2]。 🏗️ 方法概述和架构本文的核心工作并非提出一种全新的模型架构，而是构建新数据集并建立统一的评估基准，因此“方法”主要体现在数据集构建策略和统一的模型训练与评估协议上。 ...

UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception

📄 UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception #语音合成 #语音识别 #多模态模型 #低资源 🔥 10/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Yuhan Song¹, Linhao Zhang², Aiwei Liu², Chuhan Wu², Sijun Zhang², Wei Jia², Yuan Liu², Houfeng Wang¹, Xiao Zhou² (通讯作者) 机构：¹北京大学计算机科学学院，多媒体信息处理国家重点实验室；²腾讯微信事业群基础模型技术中心 💡 毒舌点评这篇论文切中了当前Audio-LLM领域一个真实且重要的痛点：语义语音分词器为了对齐文本，把音频里丰富的声学细节给“弄瞎”了，导致处理音乐、环境音时抓瞎。提出的SAP监督和SAE门控机制在思路上确实巧妙且直觉上合理，实验数据也显示出全面的性能提升。然而，其“通用”的宣称可能有些过于乐观——训练和评估仍重度依赖英语和中文资源，非语音音频的重建质量也承认远不如专用编解码器。此外，其数据创建流程完全依赖Qwen3系列大模型，这本身就引入了新的偏差和可复现性门槛。总的来说，这是一篇扎实的、解决了具体问题的增量工作，但距离真正的“通用音频接口”还有明显距离，尤其在多语言覆盖和高保真非语音重建方面。 📌 核心摘要本文针对现有语义语音分词器在通用音频感知上的“声学失明”（acoustic blindness）问题，提出了UniAudio-Token框架。该框架旨在不牺牲语音生成能力的前提下，为语义分词器赋予通用音频感知能力。其核心创新包括两点：（1）语义-声学原语（Semantic-Acoustic Primitives, SAP）：一种结构化监督协议，将音频分解为语言内容、声音属性和听觉场景原语进行监督，以解耦内容与风格。（2）语义-声学平衡（Semantic-Acoustic Equilibrium, SAE）：一种内容感知的门控机制，能够自适应地从浅层注入细粒度声学细节到深层语义流中，以缓解声学失明，同时不破坏语义表征。大量实验证明，UniAudio-Token学到了全面的通用表征，同时保持了高保真度的语音生成。当集成到下游LLM中，其在理解和生成任务上均超越了所有单码本基线分词器。 🔗 开源详情代码：https://github.com/Tencent/Universal_Audio_Tokenizer （包含训练和推理脚本）模型权重：论文明确在摘要和引言中声明，将随代码仓库发布模型检查点（checkpoints），但未提供独立的HuggingFace或ModelScope链接。数据集：训练使用了多个公开数据集，论文附录C.1（表7）提供了完整列表和时长。具体数据集获取方式通常如下： LibriSpeech: https://www.openslr.org/12 Multilingual LibriSpeech: https://github.com/facebookresearch/libri-light GigaSpeech: https://github.com/SpeechColab/GigaSpeech Yodas: https://github.com/facebookresearch/yodas Hi-Fi TTS: 论文引用Bakhturina et al.，链接可能为 https://github.com/keithito/tacotron-2-data 或相关发布。 VCTK: https://datashare.ed.ac.uk/handle/10283/2651 LibriTTS: https://www.openslr.org/60 AISHELL-1: https://www.openslr.org/33 WenetSpeech: https://github.com/wenet-e2e/WenetSpeech Common Voice: https://commonvoice.mozilla.org/ Emilia: https://github.com/EMI-PMC/emilia-dataset AudioSet: https://research.google.com/audioset/ Demo：论文中未提及在线演示链接。复现材料：提供了完整的训练细节，包括数据集组成（附录C.1，表7）、超参数配置（附录C.2，表8）。SAP数据标注样例见附录A（图5-7）。论文中引用的其他开源项目： WavTokenizer: https://github.com/jishengpeng/WavTokenizer CosyVoice: https://github.com/FunAudioLLM/CosyVoice GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice StableToken: 论文中未提供明确链接。 Whisper: https://github.com/openai/whisper (使用whisper-large-v3) Qwen3系列模型：论文用于生成SAP数据和评估，但未提供具体下载链接。 Qwen2.5: 用于下游Audio-LLM实验，未提供链接。 MOSNet: https://github.com/dongchao-py/MOSNet CAM++: https://github.com/alibaba/damo-academy ERes2Net: 论文中提及但未提供链接。 🏗️ 方法概述和架构 UniAudio-Token 的核心目标是解决语义语音分词器的“声学失明”问题，即它们为了对齐语言内容而主动抑制声学细节，导致其在非语音任务上表现不佳。该方法通过两个核心组件协同工作：SAP（解决监督冲突）和SAE（解决架构瓶颈），最终输出一个能统一表征语音和通用音频的离散码本。 ...

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分前50% - 13. Improving acoustic drone detection generalization throu 7.7分前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks

📄 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks #语音情感识别 #迁移学习 #低资源 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #低资源 | arxiv 学术质量 6.1/7 | 影响力 1.8/2 | 可复现性 1.7/2 👥 作者与机构论文作者为 Takehiro Ishikawa（通讯作者）和 Jon Duke。Takehiro Ishikawa 隶属于 Georgia Institute of Technology 的 College of Computing， Jon Duke 同时隶属于 Georgia Institute of Technology 的 College of Computing 和 Georgia Tech Research Institute。 💡 毒舌点评这篇论文像一位严谨的审计师，把抑郁症检测这个领域里大家心照不宣的“皇帝新衣”扒了个干净。四个探头下去，基准数据集的评估漏洞、模型泛化能力的虚火、文本模态性能的水分，全都现了形。它不发明新轮子，而是认真检查旧轮子的螺丝松没松，这对依赖这些基准的社区来说，价值堪比一次强制性的车辆年检。然而，审计报告写得再好，它本身也不是新车。创新性上就吃亏了。另外，报告里有些结论下得有点急，比如把文本模型的“症状敏感”说得像发现了新大陆，其实大家心里多少有数。最后，这车主要是修给特定车型（语音/多模态抑郁检测）的，对搞纯文本或纯视觉的修车师傅来说，参考价值得打个折扣。 📌 核心摘要本文对临床访谈式抑郁症检测的基准评估进行了系统性审计。研究指出，当前领域过度依赖如E-DAIC这样的单一小规模官方划分进行模型排名，导致评估结果不稳定；同时，领域内表现接近上限的公开基线（如CMDC和ANDROIDS上的模型）在跨语料库零样本迁移时性能大幅下降，表明其高分可能源于对源数据特有模式的过拟合而非普适的抑郁症标志。此外，分析发现E-DAIC上文本模型的高性能主要依赖于访谈中症状密集的内容片段。为解决这些问题，论文设计了四个互补的探测研究：1）在E-DAIC上建立受试者严格隔离的LOSO交叉验证基线；2）测试官方划分的排名稳定性；3）对外部强基线进行零样本验证；4）对文本和音频模型进行症状密度压力测试。结果为社区提供了更稳健的评估锚点，并揭示了现有基准和评估实践的深层局限。 ...

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度中 👥 作者与机构论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜（6 篇，按分数降序）排名论文评分分档主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分前50% #语音识别 5. Raon-Speech Technical Report 6.5分前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...