Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech

📄 Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech #多语言 #低资源 #语音分离 5.5/10 | 创新 1.0/2 | 严谨 0.8/1.5 | 实验 1.0/1.5 | 清晰 1.2/1 | 影响 0.5/1.5 | 开源 0.0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 5.5/10 | 前50% | #语音分离 | #多语言 | #低资源 | arxiv 👥 作者与机构 作者:Samip Neupane, Sandesh Pokhrel, Sandesh Pyakurel, Basanta Joshi 机构:尼泊尔理工学院普尔乔克校区电子与计算机工程系 💡 毒舌点评 这篇论文的出发点(低资源语言日志化)是好的,但执行上槽点不少。把两个现成模型(EEND-EDA和DiaPer)在合成数据上跑一遍比较,就算“研究”了吗?所谓的“多语言训练”更像是把几堆数据混合在一起,并没有提出新颖的融合策略或理论分析。实验设计最大的硬伤是使用合成数据——把单人录音拼接起来,这能模拟真实对话中复杂的重叠、打断、背景噪声吗?评估数据集NeHi样本量小(每种场景仅100条),且尼泊尔语训练数据仅来自18名女性,这个偏差太大了,结论能推广吗?论文声称DiaPer优于EEND-EDA,但对比分析相当肤浅,没有深入探究Perceiver架构在跨语言泛化上真正优势的来源(比如注意力机制如何处理不同语言的声学特征)。此外,图表标题与内容对应混乱(表4-7),写作粗糙。整体感觉像是一篇急匆匆的实验报告,而非一篇扎实、有深度的顶会论文。 📌 核心摘要 论文针对低资源语言(尼泊尔语、印地语)说话人日志化性能下降的问题,提出使用多语言混合数据训练端到端神经日志化模型。比较了EEND-EDA和DiaPer两种架构。核心结论是DiaPer在多数多说话人场景(尤其是3、4及混合说话人)的DER显著低于EEND-EDA,显示出更好的跨语言泛化能力,而EEND-EDA在简单的2说话人场景略有优势。实验在合成的尼泊尔语-印地语(NeHi)测试集上进行,结果支持DiaPer在复杂场景的优越性。 🔗 开源详情 代码:论文中未提及代码链接,未开源。 ...

2026-06-26 · 更新于 2026-07-03 · 2 min · 422 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-03 · 12 min · 2421 words

CrossAccent-TTS: Cross-Lingual Accent-Intensity Controllable Text-to-Speech via Disentangled Speaker and Accent Representations

📄 CrossAccent-TTS: Cross-Lingual Accent-Intensity Controllable Text-to-Speech via Disentangled Speaker and Accent Representations #语音合成 #低资源 #数据增强 5.5/10 | 创新 1.0/2 | 严谨 1.0/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.6/0.5 | 工程 0.6/1.5 📝 5.5/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv 👥 作者与机构 Ram Annamdevula, Ankit Tatawat, Ashishkumar Gudmalwar, Nirmesh Shah, Pankaj Wasnik Media Analysis, Sony Research India 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题——跨语言、口音强度可控的语音合成,尤其是在低资源印度语言场景。它像一个不错的工程项目集成报告:Neucodec做编码,Qwen大模型做解码,用Perceiver Resampler和梯度反转层(GRL)搞解耦,最后用个线性组合的语言嵌入来控制强度。思路清晰,也确实做了实验。然而,它离一篇顶级会议论文的创新性和深度还有距离。核心创新“口音强度控制器(AIC)”被分解为三个相对标准的部分,组合起来的理论依据和细节描述都显薄弱。实验基线选择存疑,部分结论解读不够严谨,消融实验也不够彻底。更像是一次“现有模块的定制化应用”,而非提出了一个深刻的新方法或新见解。包装尚可,但内核的独创性和技术深度支撑不起一个很强的得分。 ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 344 words

End-to-End Voice Intent Recognition for Spontaneous Human-Drone Interaction with Naive Users

📄 End-to-End Voice Intent Recognition for Spontaneous Human-Drone Interaction with Naive Users #端到端 #自监督学习 #知识蒸馏 #低资源 7/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #端到端 | #自监督学习 | #知识蒸馏 #低资源 | arxiv 👥 作者与机构 Allan Henry1,2,3, Solange Rossato1, Christian Graff2, Sylvain Huet3, Jose-Ernesto Gomez-Balderas3。 1LIG, Univ. Grenoble Alpes, Grenoble, France;2LPNC, Univ. Grenoble Alpes, Grenoble, France;3GIPSA-lab, Univ. Grenoble Alpes, Grenoble, France。 通讯邮箱:firstname.lastname@univ-grenoble-alpes.fr。 ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 364 words

Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction

📄 Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction #语音识别 #低资源 #语音增强 6.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #低资源 | #语音增强 | arxiv 👥 作者与机构 Mohammad Aref Jafari-Raddani。作者隶属于伊朗库姆的库姆科技大学计算机工程系,以及伊朗伊斯法罕的Asa Electronic Akhtaran公司。通讯邮箱为 raddaniaref@gmail.com。 💡 毒舌点评 这篇论文的工作像是在给一个经典的检索增强生成(RAG)流水线做一次非常针对性的“微调”,而非提出新的架构。其核心贡献——修改TF-IDF以赋予错误词项更高权重——虽然在工程上直接且有效,但在方法论上缺乏足够的新颖性和理论深度,更像是一种启发式的技巧。论文在实验验证上显得非常单薄:仅在一个数据集(FLEURS波斯语子集)上评估,模型组合固定(Whisper + Gemini),完全缺乏与其他SOTA纠错方法的对比,也缺少关键的消融研究来证明每个组件(如对称归一化、权重公式)的独立贡献。将错误感知命中率(EA-HR)作为主要贡献之一提出,但其评估范围局限于Top-3检索结果,说服力有限。论文在“未来工作”中提到的计划(如扩展知识库、领域迁移)恰恰点明了当前工作的天花板。整体感觉是一篇扎实但缺乏野心和深度的系统微调报告。 📌 核心摘要 本文针对低资源语言(以波斯语为例)的端到端ASR系统频繁产生的音似和循环幻觉问题,提出了一种高效的检索增强生成(RAG)纠错框架。该框架包含两个主要组件:1)一个对称应用的文本归一化模块,用于处理格式差异和循环幻觉;2)一种新颖的错误感知TF-IDF检索算法,通过构建基于历史错误概率的稀疏对角惩罚矩阵,动态提升高频错误词项的检索权重。在FLEURS波斯语子集上的实验表明,该方法将错误感知命中率从53.7%显著提升至90.9%,并将端到端词错误率从基线23.06%降低至18.83%,且在推理阶段几乎不引入额外延迟。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接(论文使用了 Whisper large-v3-turbo 和 Google Gemini 2.0 Flash-Lite 模型,但未提供其权重的具体下载地址) 数据集:论文中未提及数据集链接(论文明确使用了 Google FLEURS 数据集的波斯语子集,但未给出具体下载地址) Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出的框架整体架构如图1所示,旨在通过轻量级修改增强标准的ASR-RAG流水线。核心流程分为离线知识库构建和在线推理两个阶段,两者共享对称的预处理模块。 ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 221 words

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

📄 Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models #语音识别 #语音翻译 #参数高效微调 #多模态模型 #低资源 5.8/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #语音翻译 #多模态模型 | arxiv 👥 作者与机构 Tomoya Mizumoto, Yusuke Fujita, Hao Shi, Lianbo Liu, Atsushi Kojima, Yui Sudo. (作者所属机构未在提供的原文片段中明确提及) 💡 毒舌点评 这篇文章就像一个精心设计的“方言压力测试”。它思路清晰,实验控制得当,像个规规矩矩的优等生作业,把“SLM继承LLM能力”和“数据/微调有用”这两个直觉验证得漂漂亮亮。但问题在于,这个“压力测试”的跑道(翻译任务)太窄,沙坑(CPJD数据集)太小,连计时器(TTS标准语音)都可能不准。结果就是,你得到了一份关于“如何在特定小跑道上跑得更稳”的精致报告,但对于“方言问题到底有多复杂、在真实世界中如何解决”的宏大命题,贡献就比较有限了。它证明了一些常识,但缺乏让人“Wow”的突破或深刻的洞见。分数给高了对不起那些真正硬核的创新,给低了又委屈了它的严谨和工整,所以卡在中间。 ...

2026-06-25 · 更新于 2026-07-03 · 2 min · 368 words

Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant

📄 Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant #语音识别 #语音合成 #自监督学习 #低资源 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #自监督学习 | #语音合成 #低资源 | arxiv 👥 作者与机构 作者:Milosz Dudek, Kamil Hemmerling, Maciej Kwarciak, Maria Stroinski, Mateusz Pensko, Kamil Kowalewski, Leonid Pavlovskyi, Sebastian Jurczak, Anna-Mariia Vitkovska, Zuzanna Miodonska, Natalia Mocko, Michal Krecichwost。 机构:1 AGH University of Krakow, Cracow, Poland; 2 SoftServe, Cracow, Poland; 3 Department of Biomedical Engineering, Silesian University of Technology, Poland; 4 Institute of Linguistics, Faculty of Humanities, University of Silesia in Katowice, Poland. ...

2026-06-25 · 更新于 2026-07-03 · 4 min · 790 words

Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection

📄 Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection #语音伪造检测 #自监督学习 #参数高效微调 #低资源 #鲁棒性 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.6/10 | 前50% | #语音伪造检测 | #自监督学习 | #参数高效微调 #低资源 | arxiv 👥 作者与机构 作者:Zihan Pan, Hardik Sailor, Jinyang Wu 机构:新加坡科技研究局 (A*STAR) 信息通信研究院 (I2R) 💡 毒舌点评 这篇论文在特定赛道(单模型无增强)刷了SOTA,看起来不错。但仔细一想,这所谓的“监督后训练”不就是个精心设计的、分阶段的微调策略吗?创新性被高估了。论文把“混合帧扰动”包装得很厉害,但本质是数据层面的一种增强手段,只是换了个名字叫“post-training”。更让人皱眉的是,方法论部分写得像在绕迷宫,公式列了一堆但关键直觉阐述不清,比如为什么帧级标签分配要依据中心样本(公式3)?这个设计选择缺乏足够的动机论证。另外,在ASV21上只比别人好了一丢丢(gap从0.34降到0.16),但论文却大书特书其“平衡的鲁棒性”,有过度claim之嫌。总之,这是一篇工程上做了不少工作(值得肯定),但理论洞察和叙事都有提升空间的论文。 ...

2026-06-25 · 更新于 2026-07-03 · 3 min · 567 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-03 · 16 min · 3249 words

A Fusion-Aware Two-Stage Framework for Mispronunciation Detection and Diagnosis in Low-Resource Modern Standard Arabic

📄 A Fusion-Aware Two-Stage Framework for Mispronunciation Detection and Diagnosis in Low-Resource Modern Standard Arabic #语音识别 #低资源 #自监督学习 #集成学习 7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #集成学习 | arxiv 👥 作者与机构 论文作者包括Yang, Zhang, Deng, Li, Dang, Huang, Chen, Benesty, Jing, Shuqing, Yongyi, Pan, Ting, Gongping, Jingdong, Jacob。主要机构为武汉大学、墨尔本大学、西北工业大学和魁北克大学。 ...

2026-06-24 · 更新于 2026-07-03 · 2 min · 222 words