发音错误检测

语音/音乐/音频论文速递 2026-05-03

语音/音乐/音频论文速递 2026-05-03 共分析 13 篇语音/AI 论文 🎯 任务分类点击任务标签查看该方向所有论文：音乐信息检索（2篇）语音识别（2篇）音频生成（1篇）发音错误检测（1篇）说话人识别（1篇）音乐理解（1篇）音频场景理解（1篇）语音质量评估（1篇）语音对话系统（1篇）音频问答（1篇）音频事件检测（1篇） ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis

📄 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis #发音错误检测 #自监督学习 #知识蒸馏 #数据增强 #零样本 🔥 8.5/10 | 前25% | #发音错误检测 | #自监督学习 #知识蒸馏 | #自监督学习 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Haopeng Geng (The University of Tokyo, Graduate School of Engineering) 通讯作者：未说明（论文未明确指定通讯作者）作者列表：Haopeng Geng (The University of Tokyo, Graduate School of Engineering), Longfei Yang (The University of Tokyo, Graduate School of Engineering), Xi Chen (The University of Tokyo, Graduate School of Engineering), Haitong Sun (The University of Tokyo, Graduate School of Engineering), Daisuke Saito (The University of Tokyo, Graduate School of Engineering), Nobuaki Minematsu (The University of Tokyo, Graduate School of Engineering) 💡 毒舌点评论文精准地将当前MDD方法的不足归纳为“声学陷阱”和“语言学陷阱”，并给出了一个逻辑自洽且有效的解决方案CROTTC-IF，最终在多个数据集上取得了SOTA或极具竞争力的性能，展现了扎实的工程能力和清晰的学术思考。然而，论文对“声学权重λ”在真实场景中的最佳取值（如非实验环境、自发语音）缺乏讨论，且最终框架对λ的敏感性也暗示了“解耦”的理想与“融合”的现实之间仍存在张力。 ...

Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis

📄 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis #发音错误检测 #自监督学习 #知识蒸馏 #数据增强 #零样本 🔥 8.5/10 | 前25% | #发音错误检测 | #自监督学习 #知识蒸馏 | #自监督学习 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Haopeng Geng (The University of Tokyo, Graduate School of Engineering) 通讯作者：未说明（论文未明确指定通讯作者）作者列表：Haopeng Geng (The University of Tokyo, Graduate School of Engineering), Longfei Yang (The University of Tokyo, Graduate School of Engineering), Xi Chen (The University of Tokyo, Graduate School of Engineering), Haitong Sun (The University of Tokyo, Graduate School of Engineering), Daisuke Saito (The University of Tokyo, Graduate School of Engineering), Nobuaki Minematsu (The University of Tokyo, Graduate School of Engineering) 💡 毒舌点评论文精准地将当前MDD方法的不足归纳为“声学陷阱”和“语言学陷阱”，并给出了一个逻辑自洽且有效的解决方案CROTTC-IF，最终在多个数据集上取得了SOTA或极具竞争力的性能，展现了扎实的工程能力和清晰的学术思考。然而，论文对“声学权重λ”在真实场景中的最佳取值（如非实验环境、自发语音）缺乏讨论，且最终框架对λ的敏感性也暗示了“解耦”的理想与“融合”的现实之间仍存在张力。 ...

语音/音乐/音频论文速递 2026-04-27

语音/音乐/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...