Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech

📄 Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech #语音识别 #模型评估 #儿童语音 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #模型评估 | #儿童语音 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Gus Lathouwers (guslathouwers@gmail.com) 通讯作者:未说明(论文中未明确指定通讯作者,但提供了所有作者邮箱) 作者列表: Gus Lathouwers (Centre for Language Studies, Radboud University, Netherlands) Lingyun Gao (Centre for Language Studies, Radboud University, Netherlands) Catia Cucchiarini (Centre for Language Studies, Radboud University, Netherlands) Helmer Strik (Department of Language and Communication, Radboud University, Netherlands) 💡 毒舌点评 亮点在于方法设计非常务实,针对朗读和对话场景分别提出“与原文匹配”和“LLM分类”两种可解释性强的启发式规则,且“模型一致性过滤”策略能以较低的召回率换取极高的精确率(>97.4%),为自动筛选可靠转录提供了可靠工具。短板是开源精神不足,论文中提到的GitHub链接为无效占位符,且关键的对话文本分割流程(英文CSLU数据)依赖外部标点工具,细节未充分公开,严重影响了结果的可复现性。 ...

2026-04-23

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23