GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark

📄 GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark #语音识别 #语音翻译 #低资源 #口音识别 8.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前50% | #语音识别 | #语音翻译 | #低资源 #口音识别 | arxiv 👥 作者与机构 Yujie Tu1,2,8,9, Yifan Yang1, Tianrui Wang4, Yanqiao Zhu1, Guodong Lin5, Mingchen Shao6, Haoran Wang1, Junzhe Liu1, Yuxiang Fu5, Yizhou Peng7, Changsong Liu7, Peng Wang11, Zhikang Niu1, Yunchong Xiao3, Haolong Zheng10, Xiuwen Zheng10, Xulin Fan10, Wei-Qiang Zhang5,16, Lei Xie6,15, Longbiao Wang4, Eng-Siong Chng7, Jiajun Zhang8,9, Kele Xu13, Jianwei Yu3, Binbin Zhang3,15, Jiayu Du16, Wupeng Wang3, Zhigao Chen3, Yunlong Wu3, Guoguo Chen14,16, Xipeng Qiu2,12, Mark Hasegawa-Johnson10, Kai Yu1, Zhifu Gao3, Xiangang Li3, Xie Chen1,2,16 机构: 1.SJTU, 2.SII, 3.Alibaba, 4.TJU, 5.THU, 6.ASLP@NPU, 7.NTU, 8.CASIA, 9.UCAS, 10.UIUC, 11.CUHK-SZ, 12.FDU, 13.CCSE, 14.Seasalt.ai, 15.WeNet, 16.SpeechColab ...

2026-06-30 · 更新于 2026-07-02 · 4 min · 723 words

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分 前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分 前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分 前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分 前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分 前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分 前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分 前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分 前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分 前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分 前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分 前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分 前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分 前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分 前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分 前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分 前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分 前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分 前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分 前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分 前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分 前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分 前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分 前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分 前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分 前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分 前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分 前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分 前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分 后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分 前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分 前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分 前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分 前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分 后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分 后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-30 · 更新于 2026-07-02 · 22 min · 4475 words

Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels

📄 Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels #口音识别 #低资源 🔥 8.3/10 | 前50% | #口音识别 | #低资源 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度 高 👥 作者与机构 Pedro H. L. Leite, PEE/COPPE, 巴西里约热内卢联邦大学 (UFRJ); Pedro Benevenuto Valadares, 巴西坎皮纳斯州立大学 (UNICAMP) 电气与计算机工程学院; Luiz W. P. Biscainho, 巴西里约热内卢联邦大学 (UFRJ) 电子工程系与电气工程研究生院。工作部分由巴西国家科学与技术发展委员会 (CNPq) 资助。 💡 毒舌点评 这篇论文在立意上就很有自知之明——既然搞不到靠谱的标签,那就干脆别用了。思路很“土”但很实用:用强制对齐器当“语音手术刀”,精准切出/s/、/r/、/d/-/t/这几个发音关键点,再用传统的声学特征(谱矩、MFCC)和对齐器自身的概率分布去分析,居然在几个特定任务上吊打了那些从头训到尾、动辄几百维的通用SSL巨兽(如XLS-R)。这像是拿着显微镜和手术刀的外科医生,在特定手术上战胜了带着全套影像设备但目标不明确的全科医生。方法的可解释性是一大亮点,每个特征系数都能在语言学图谱上找到对应。不过,这种“精准打击”策略也注定了其泛化能力的天花板——作者也承认,仅靠这三个音位变量远不足以覆盖巴西丰富的口音差异。最大的槽点在于开源情况:代码和模型权重都没提供,复现全靠一个展示结果的网页,这在顶会论文里是减分项。实验设计上,跨数据集评估只做了PE vs SP的二分类,四分类实验的数据源虽多但类别定义(如“mineiro”)稍显主观,且每个类别样本量差异很大(24-135人),结果说服力打了点折扣。 📌 核心摘要 本文提出一种无需社会语言学标签、仅依赖声学标签来提取巴西葡萄牙语(pt-BR)口音特征的新工作流。核心思想是:大型自监督学习(SSL)语音模型虽然强大,但其训练目标会稀释掉细粒度的社会语音信息。因此,本文主张利用强制对齐器(ZIPA)在语音中精确定位特定的口音标记音位(/s/尾音、/r/尾音、/d/-/t/腭化),并在这些时间点提取低维、可解释的声学特征(谱矩、MFCC)和对齐器概率分布。实验表明,在针对这些特定音位变量的分类任务上,所提出的局部特征(如“ZIPA v2 (7D)”向量)能够达到甚至超越大型SSL模型(如HuBERT、XLS-R)的性能,尤其在跨数据集评估中展现出优势。这证明了在特定语音任务中,基于领域知识的精准特征工程可以比通用的高维表征更有效、更可解释。 🔗 开源详情 代码:论文中未提供代码仓库链接。仅有一个伴侣网页(https://gpa-smt-ufrj.github.io/accent-features)用于展示实验结果。 模型权重: XLSR-53 葡萄牙语微调模型:提供了链接 https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-portuguese。 论文提出的口音标记检测模型(如“ZIPA v2 (7D)”向量对应的分类器权重):未提供。 数据集: CORAA:未提供直接链接,但提及为常用数据集。 Mozilla Common Voice:未提供直接链接。 ColingPB:提供链接 https://repositorio.ufpb.br/jspui/handle/123456789/23184。 BRSpeechDF:未提供直接链接。 CML-TTS:未提供直接链接。 Certas Palavras:未提供直接链接。 CETUC:未提供直接链接。 gneutralspeech (male/female):未提供直接链接。 TAGARELA:提供链接 https://huggingface.co/datasets/freds0/TAGARELA。 Sotaque Brasileiro:提供链接 https://sotaque-brasileiro.github.io/。 Ynoguti:未提供直接链接。 C-ORAL Brasil:未提供直接链接,但提及通过CORAA分发。 数据集获取方式:部分可直接获取(如ColingPB, TAGARELA),部分为公开数据集(如Common Voice),部分需根据作者/机构信息进一步查询。 Demo:未提及。 复现材料:伴侣网页包含消融研究结果,但未明确说明是否提供训练配置、检查点或代码。 论文中引用的开源项目: ZIPA:通过脚注链接间接指向 https://huggingface.co/pyannote/speaker-diarization-3.1,但此链接实为PyAnnote,ZIPA本身的代码/模型链接未明确给出。 PyAnnote (Speaker Diarization):https://huggingface.co/pyannote/speaker-diarization-3.1。 Allosaurus:仅通过引用编号[17]提及,未提供链接。 CUPE:仅通过引用编号[22]提及,未提供链接。 Resemblyzer:https://github.com/resemble-ai/resemblyzer。 SSL模型(用于对比):Wav2Vec 2.0[4], HuBERT[13], ECAPA-TDNN[11], XLSR-53[10]均通过引用编号提及,未提供具体链接。 🏗️ 方法概述和架构 本文提出的方法是一个多阶段、基于领域知识的流水线,旨在从语音中提取与区域口音相关的、可解释的特征,而无需使用不可靠的社会语言学标签。其架构可分为四个核心阶段: ...

2026-06-01 · 更新于 2026-07-02 · 3 min · 441 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-07-02 · 12 min · 2552 words

Identity Leakage Through Accent Cues in Voice Anonymisation

📄 Identity Leakage Through Accent Cues in Voice Anonymisation #语音匿名化 #隐私保护 #公平性 #口音识别 #模型评估 ✅ 7.0/10 | 前50% | #语音匿名化 | #模型评估 | #隐私保护 #公平性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Rayane Bakari(Orange Innovation, France; EURECOM, Sophia Antipolis, France) 通讯作者:未说明 作者列表:Rayane Bakari (Orange Innovation, EURECOM), Olivier Le Blouch (Orange Innovation), Nicolas Gengembre (Orange Innovation), Nicholas Evans (EURECOM), Michele Panariello (EURECOM) 💡 毒舌点评 亮点:论文敏锐地抓住了语音匿名化评估中一个关键盲点——非时域线索(口音)的残留风险,并系统性地利用多种嵌入(时域、非时域、口音相关)和攻击场景进行量化分析,逻辑严谨,论证有力,提出的公平性问题也很有价值。 短板:对于其提出的改进方案B4*,分析略显“止步于现象”,缺乏对其内部机制(字符级条件反射如何具体抑制口音线索)的深入解构或对比消融;此外,实验部分因部分参赛系统代码不可用,导致对比不够完整,削弱了结论的普适性。 ...

2026-04-29 · 更新于 2026-07-02 · 2 min · 382 words