CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched Speech

📄 CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched Speech #多语言 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.2/10 | 前50% | #多语言 | #多语言 | arxiv 👥 作者与机构 Brian Yan, Qingzheng Wang, Matthew Wiesner, Anuj Diwan, Olga Iakovenko, Alexander Polok, Injy Hamed, Shuichiro Shimizu, Iris Emerman, Thomas Hain, David R. Mortensen, Peter Viechnicki, Shinji Watanabe Carnegie Mellon University, Johns Hopkins University, University of Texas at Austin, University of Sheffield, Brno University of Technology, MBZUAI, Kyoto University ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 322 words

Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models

📄 Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models #语音识别 #多语言 #低资源 8.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 | arxiv 👥 作者与机构 Catherine Bao, Maneesha Rani Saha, Neal Patwari, 均来自University of Utah。 💡 毒舌点评 这篇论文选题重要,直击IPA-ASR系统在多语言与人口统计公平性评估的空白,其提出的Soft PER指标在概念上具有启发性。然而,论文的“软肋”在于其核心评估框架建立在一个无法回避的“软肋”之上:依赖G2P生成的、未经专家验证的IPA作为“标准答案”。这使得所有性能差异的解读都笼罩在“标注噪声”和“标准化偏见”的阴影下,大大削弱了结论的确定性。Soft PER本身虽试图缓解此问题,但其设计(特别是英语优先的映射)也可能引入新的偏差。模型评估部分清晰,但结论中关于“无系统性性别差异”和“特定口音/族裔差异”的断言,受限于数据集规模和异质性,显得有些武断。整体而言,是一篇扎实但受方法论约束的初步探索,距离“揭示偏差根源”还有相当距离。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 329 words

I Understand How You Feel: Enhancing Deeper Emotional Support Through Multilingual Emotional Validation in Dialogue System

📄 I Understand How You Feel: Enhancing Deeper Emotional Support Through Multilingual Emotional Validation in Dialogue System #多语言 #语音识别 #数据集 5.8/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 5.8/10 | 前50% | #语音识别 | #多语言 | #数据集 | arxiv 👥 作者与机构 Zi Haur Pang, Yahui Fu, Koji Inoue, and Tatsuya Kawahara. Graduate School of Informatics, Kyoto University, Japan. ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 449 words

UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

📄 UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction #自监督学习 #多语言 #语音合成 #低资源 8.1/10 | 创新 8/2 | 严谨 7/1.5 | 实验 9/1.5 | 清晰 8/1 | 影响 8/1.5 | 开源 7/1.5 | 复现 8/0.5 | 工程 8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #低资源 | arxiv 👥 作者与机构 作者:Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang 机构:延世大学电子与电气工程系,首尔,韩国 💡 毒舌点评 这篇论文选题重要,想法直白有效(用罗马化替代G2P来扩展语言覆盖面),实验量也足够撑起一个“大规模”的宣称。但细看之下,作者的论证有些“偷懒”。罗马化这个核心决策本身带来的信息损失和对齐歧义问题,他们只是轻描淡写地提了一句,完全没有深入分析。你号称覆盖495种语言(表格里写1162,正文495,数据对不上?),但对那些音系复杂的语言,比如声调语言或含有送气/非送气对立的语言,罗马化到底丢了多少关键信息?STP目标真的补回来了吗?作者没给证据。另外,所有下游微调都绑死在VITS上,UR-BERT作为一个“通用”编码器,在其他TTS架构上是否依然坚挺?这个实验没做。最让我不爽的是,缺乏一个关键的消融基线:在同样罗马化文本上,只做纯文本MLM而不加STP的BERT。没有这个对比,你STP到底贡献了多大价值,是骡子是马没法完全说清楚。实验设计整体不错,但关键的自我剖析和更严格的对照缺失了,让其“重大贡献”的宣称打了点折扣。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 355 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-06-12 · 22 min · 4642 words

Anchoring the Unknown: Open-Set Model Attribution via Proxy-Anchor Learning

📄 Anchoring the Unknown: Open-Set Model Attribution via Proxy-Anchor Learning #多语言 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 🔥 8/10 | 前25% | #多语言 | #多语言 | arxiv 👥 作者与机构 Cristian-Teodor Neamtu, Serban Mihalache, Stefan Smeu, Dan Oneata, Horia Cucu, Dragos Burileanu ( affiliations: 1Politehnica University of Bucharest, Romania; 2Bitdefender, Romania - note: the text lists affiliations but not explicit in the provided snippet, inferred from context) ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 431 words

GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models

📄 GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models #数据集 #基准测试 #多语言 #多模态模型 #低资源 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音识别 | #数据集 | #基准测试 #多语言 | arxiv 👥 作者与机构 作者:Ryner Tan, Wenxuan Zhang 机构:Singapore University of Technology and Design (新加坡科技设计大学) 💡 毒舌点评 审稿人:一位匿名的顶会审稿人。 这论文瞄准了LALM评估中一个真实存在的痛点——缺乏自然、多语言、多文化的测试场景,这个动机值得肯定。作者们收集数据、设计问题、进行质量控制的工作看起来也相当扎实。然而,这终究是一个“评测集”工作,而非提出新的模型或算法。在当前这个“Benchmark疲劳”的时代,如果只是提供一个新的数据集,其边际贡献需要仔细掂量。论文的最大亮点或许在于“自然发生音频”和“文化根基问题”的结合,但实验分析部分(尤其是错误案例分析)的缺失,使得这种结合的优势没能被充分证明。整体而言,这是一篇稳妥的、必要的工作,但距离“令人兴奋”或“突破性”还有差距。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 381 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-12 · 26 min · 5465 words

A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification

📄 A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification #自监督学习 #对比学习 #低资源 #多语言 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构 Agneedh Basu1, Pavan Kumar J1, Sujith P1, Visruth Sanka1, Nihar Desai1, Prasanta Kumar Ghosh2 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 306 words

A study on the impact of region specific data on the performance of Indic ASR

📄 A study on the impact of region specific data on the performance of Indic ASR #语音识别 #低资源 #多语言 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #低资源 | #多语言 | arxiv 👥 作者与机构 作者:Agneedh Basu, Pavan Kumar J, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh。 机构:AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India; Department of Electrical Engineering, Indian Institute of Science, Bangalore, India。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 261 words