Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis

📄 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis #发音错误检测 #自监督学习 #知识蒸馏 #数据增强 #零样本 🔥 8.5/10 | 前25% | #发音错误检测 | #自监督学习 #知识蒸馏 | #自监督学习 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Haopeng Geng (The University of Tokyo, Graduate School of Engineering) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Haopeng Geng (The University of Tokyo, Graduate School of Engineering), Longfei Yang (The University of Tokyo, Graduate School of Engineering), Xi Chen (The University of Tokyo, Graduate School of Engineering), Haitong Sun (The University of Tokyo, Graduate School of Engineering), Daisuke Saito (The University of Tokyo, Graduate School of Engineering), Nobuaki Minematsu (The University of Tokyo, Graduate School of Engineering) 💡 毒舌点评 论文精准地将当前MDD方法的不足归纳为“声学陷阱”和“语言学陷阱”,并给出了一个逻辑自洽且有效的解决方案CROTTC-IF,最终在多个数据集上取得了SOTA或极具竞争力的性能,展现了扎实的工程能力和清晰的学术思考。然而,论文对“声学权重λ”在真实场景中的最佳取值(如非实验环境、自发语音)缺乏讨论,且最终框架对λ的敏感性也暗示了“解耦”的理想与“融合”的现实之间仍存在张力。 ...

2026-04-27

语音/音频论文速递 2026-04-27

语音/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-04-27