Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition

📄 Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition #语音识别 #说话人日志 #大语言模型 7.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #说话人日志 | #大语言模型 | arxiv 👥 作者与机构 论文标题:Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition 作者:Zheng Naijun, Lin Yuke, Tian Sanli, Li Mengtian, Lin Zhiwei, Xiao Longshuai, Tu Dandan 机构:华为技术有限公司,中国 ...

2026-06-12 · 更新于 2026-06-12 · 4 min · 693 words

Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning

📄 Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning #自监督学习 #说话人日志 #低资源 6/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 ✅ 6/10 | 前50% | #说话人日志 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Diane Myung-kyung Woodbridge Jee Hyun Suh (机构未明确提及,仅从致谢推断与首尔国立大学盆唐医院(SNUBH)及韩国国家IT产业振兴院(NIPA)可能有关联) 💡 毒舌点评 论文选题切中了一个实际且未被充分解决的痛点:为语言资源相对小众(韩语)的特定群体(幼儿)开发自动化评估工具,且场景是混乱的家庭录音,这比实验室数据难度陡增。作者的工程整合能力值得肯定:将说话人日志、自监督特征提取和简单分类器串联成一个可用管道。最大的亮点是NeMo SortFormer在对抗“aegyo”声学混淆上的有效性,这确实抓住了韩语场景的独特挑战。然而,论文的“学术性”略显薄弱。数据集虽新颖但规模过小(34个标注样本),使得所有结论都笼罩在“统计显著性不足”的疑云下。实验设计上,缺乏对关键变量(如日志错误传播、年龄分层效应)的深入消融分析,结论更多停留在描述性层面。最终性能数字(平均BA 0.782)在论文自我设定的任务下算尚可,但距离真正可用的临床或教育工具还有显著差距。整体感觉像一篇扎实的工程报告,但在方法创新深度和实验论证严谨性上,距离顶会标准还有一步之遥。 📌 核心摘要 本研究针对韩国幼儿语音发音自动评估在自然家庭环境下的挑战,提出了一套端到端解决方案。核心流程为:首先,利用NeMo SortFormer说话人日志模型,从包含看护人“aegyo”语音和儿童语音的混合录音中,以词为单位分离出儿童语音片段。其次,将每个片段输入冻结的自监督学习(SSL)骨干模型(如WavLM-large, HuBERT-large)提取帧级声学特征。然后,采用多种池化策略(均值、注意力、统计、多层固定权重及集成)将变长特征聚合为固定维度向量。最后,分别针对辅音和元音正确性,训练带有L2正则化的逻辑回归分类器进行二分类预测。实验创建并标注了一个新的韩语幼儿语音数据集(53录音,1190辅音/748元音标签)。结果表明,NeMo SortFormer在说话人计数准确率和DER上显著优于基线。在发音评分上,通过将辅音预测路由至HuBERT-large、元音预测路由至WavLM-large的跨模型集成策略,实现了0.782的平均平衡准确率,证明了跨语言SSL特征迁移和任务特定集成的有效性。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 317 words

SoulX-Transcriber: A Robust End-to-End Framework for Multi-Speaker Speech Transcription

📄 SoulX-Transcriber: A Robust End-to-End Framework for Multi-Speaker Speech Transcription #语音识别 #说话人日志 #大语言模型 8.8/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前50% | #语音识别 | #说话人日志 | #大语言模型 | arxiv 👥 作者与机构 作者: Yuhang Dai (共同贡献), Haopeng Lin (共同贡献), Zhennan Lin, Jiale Qian, Jun Wu, Hanke Xie, Hao Meng, Hanlin Wen, Chuang Ding, Shunshun Yin, Ming Tao, Lei Xie, Xinsheng Wang (通讯作者) 机构: Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China Soul AI Lab, China Moonstep AI, China 💡 毒舌点评 这篇技术报告(Technical Report)展示了一个工程能力扎实的系统。优点是端到端的思路清晰,两阶段训练的动机明确,且在公开基准上取得了SOTA或极具竞争力的结果,尤其是长语音和中文场景。数据生成管线的细节描述相当详尽,是重要的工程贡献。然而,作为一篇论文投稿,其“新意”和“深度”略显不足。模型架构本身(基于Qwen3-Omni)并非原创,核心创新在于将多个说话人相关任务(STP, TSER, SV)整合到预训练阶段,这更像是一个精心设计的“训练技巧”组合,而非理论上的突破。最大的软肋在于依赖大量未公开的内部数据集,这严重削弱了结论的普适性和工作的可复现性。此外,缺乏对关键组件(如多任务预训练中各任务贡献)的消融研究,使得我们无法判断哪些部分真正有效。最终,这篇工作更像是一份优秀的工程实践报告,而非一篇能推动该领域基础认知前进的学术论文。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 454 words

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

📄 ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood #自监督学习 #参数高效微调 #语音识别 #音频分类 #说话人日志 #数据集 🔥 8/10 | 前25% | #语音识别 | #自监督学习 | #参数高效微调 #音频分类 | arxiv 学术质量 5.3/7 | 影响力 1.8/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 作者:Tiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan 机构:南加州大学,俄亥俄州立大学,加州大学洛杉矶分校,哈佛大学,波士顿大学,迈阿密大学 ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 264 words

Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization

📄 Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization #语音识别 #说话人日志 #低资源 #数据增强 #迁移学习 📝 5.5/10 | 前50% | #语音识别 #说话人日志 | #迁移学习 #数据增强 | #语音识别 #说话人日志 | arxiv 学术质量 5.5/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Mohammed Aman Bhuiyan(North South University, Department of ECE) 通讯作者:论文中未明确指定 作者列表:Mohammed Aman Bhuiyan(North South University, Department of ECE),Md Sazzad Hossain Adib(North South University, Department of ECE),Samiul Basir Bhuiyan(North South University, Department of ECE),Amit Chakraborty(North South University, Department of ECE),Aritra Islam Saswato(North South University, Department of ECE),Ahmed Faizul Haque Dhrubo(North South University, Department of ECE),Mohammad Ashrafuzzaman Khan(North South University, Department of ECE) 💡 毒舌点评 亮点:本文作为一篇竞赛报告,系统性地整合了主流工具链(Whisper + PyAnnote),并针对孟加拉语这一低资源语言场景进行了细致的工程适配(如文本规范化、ASR引导的对齐、全面的数据增强),最终在特定竞赛集上取得了显著的性能提升,体现了较强的工程实践能力和问题解决导向。方法描述详尽,流程图清晰,代码开源。 短板:核心方法本质上是“在预训练模型上微调 + 设计数据增强流水线”,缺乏本质性的算法或理论创新。部分关键设计选择(如仅微调说话人日志的分段模型)虽经实验证明有效,但缺乏充分的消融实验支撑,使其贡献更偏向于特定场景的“配方优化”而非普适性方法论的突破。论文自身在局限性部分的表述存在前后矛盾(关于是否进行了全参数微调),且验证集过小的问题直接影响了结论的可靠性。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 505 words

DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models

📄 DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models #语音识别 #说话人日志 #大语言模型 #多语言 #结构化预测 🔥 8.0/10 | 前25% | #说话人识别 | #大语言模型 | #语音识别 #说话人日志 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Li Li(武汉大学人工智能学院) 通讯作者:Ming Li(香港中文大学(深圳)) 作者列表:Li Li(武汉大学人工智能学院),Ming Cheng(武汉大学计算机科学学院),Weixin Zhu(腾讯天籁音频实验室),Yannan Wang(腾讯天籁音频实验室),Juan Liu(武汉大学人工智能学院),Ming Li(香港中文大学(深圳),通讯作者) 💡 毒舌点评 亮点: 论文最大的贡献在于提出了一种务实的“半端到端”框架,在当前端到端大模型尚未完全称霸的阶段,巧妙地将“说话人日志”这一成熟技术的输出作为结构化提示(Prompt)注入大语言模型(LLM),实现了用更小的模型、更少的数据达到甚至超越超大模型的效果,这为实际落地提供了一条高性价比路径。 短板: 框架高度依赖外部说话人日志系统的质量。尽管论文通过标签扰动训练提升了一定的鲁棒性,但本质上仍是“管道式”思维的变体,未能完全摆脱对上游模块的依赖。当面临日志系统完全失效的场景时,其性能上限可能会受到制约。 🔗 开源详情 代码: 论文中未提及DM-ASR的完整代码仓库链接。仅在评估部分引用了公开的评估工具MeetEval。 模型权重: 未提及是否会公开DM-ASR的训练后模型权重。 数据集: 训练所用的数据集大多为公开数据集(如AMI, ICSI, Fisher, AISHELL-4, AliMeeting等),论文中未提及使用私有数据。论文未提供统一的数据获取入口或脚本。 Demo: 未提及提供在线演示。 复现材料: 论文详细说明了训练设置,包括: 使用的预训练模型:Whisper-large-v3-turbo, Gemma3-270m, Qwen3-0.6B/1.7B。 微调方法:LoRA (r=16, α=32)。 优化器:AdamW,峰值学习率 1e-4,线性warmup-decay。 硬件与批次:8 x NVIDIA A6000 48GB GPU,每卡 batch size 2。 数据处理:切片长度15-25秒,使用MFA生成词级时间戳。 缺失信息: 未明确总训练步数/轮数、warmup比例、具体解码参数(如beam size)、以及是否提供预训练检查点。 论文中引用的开源项目: Whisper (语音编码器), Gemma, Qwen (LLM解码器), MFA (词级时间戳对齐), MeetEval (评估工具), DiariZen, S2SND (前端日志系统)。 总结: 论文提供了充分的复现思路和关键配置,但缺乏直接可用的“一键复现”材料(如代码仓库、模型权重),因此公开程度为中等偏上。 📌 核心摘要 要解决什么问题: 传统多说话人ASR(联合说话人识别、时间定位和文本转录)在级联方案中存在误差传播问题,而纯端到端大模型方案则需要海量数据和算力,训练成本高昂。论文旨在寻找一种更高效、更精确的平衡方案。 方法核心: 提出DM-ASR框架,将多说话人转录重构为多轮对话生成任务。给定音频和来自外部日志系统的分段说话人及时间信息,模型以这些信息为结构化提示(包含说话人ID和时间戳的特殊token),分“轮次”转录每个说话人在对应时段的文本内容。此外,模型可选地进行词级时间戳预测。 与已有方法相比新在哪里: 不同于级联方案: 不将日志结果用于音频分割再送入单说话人ASR,而是保留完整多说话人音频上下文,让LLM直接处理混合语音。 不同于端到端Speech-LLM: 不依赖模型从零学习日志能力,而是显式地将日志作为结构化先验输入,大幅简化任务,使小模型也能获得高性能。 独特能力: 支持词级时间戳生成(如表1所示),这在同类Speech-LLM工作中较为少见。 主要实验结果: 在中英文基准测试上,DM-ASR用0.6B/1.7B参数的模型,性能(cpCER/tcpCER)显著优于多种强基线(包括级联方案和7B级Speech-LLM)。例如,在AliMeeting测试集上,1.7B的DM-ASR (S2SND) 取得了19.15% cpCER 和 19.45% tcpCER,优于VibeVoice-ASR (7B) 的29.33% cpCER。消融实验表明,词级时间戳、更长上下文、更多数据和更大模型均带来稳定提升。 实际意义: 证明了在资源受限(模型、数据)的条件下,将传统语音处理模块(日志系统)的输出作为大模型的结构化提示,是一种非常有效的多模态融合范式。为会议转录等应用提供了一套高性价比、高精度的解决方案。 主要局限性: 框架性能受限于前端日志系统的质量。虽然可通过训练修正不完美日志,但论文显示在完全不依赖日志提示(LLM预测全部)的设置下,性能仍有差距,说明模型本身独立完成全任务的能力有待加强。 🏗️ 模型架构 DM-ASR的整体框架如下图所示,由四个主要组件构成: ...

2026-05-01 · 更新于 2026-06-12 · 2 min · 396 words

A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems

📄 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems #说话人日志 #数据增强 #说话人分离 #基准测试 #鲁棒性 ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group) 通讯作者:未说明 作者列表:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group)、Vivek Kumar Thoppe Ravindranath(谢菲尔德大学计算机学院,SpandH Group)、Thomas Hain(谢菲尔德大学计算机学院,SpandH Group) 💡 毒舌点评 亮点:论文提供了一套模块化、可复现的合成框架,将现有的说话人日志数据集(如AMI, CALLHOME)的标注作为“蓝图”,系统地解耦了说话人、内容、声学环境的影响,并引入了sDER和NEC两个指标来量化系统在可控变化下的鲁棒性,方法论清晰严谨。短板:其核心局限在于“合成数据与真实对话的语义连续性鸿沟”这一根本性问题仍未解决,仅通过顺序采样LibriSpeech片段无法模拟真实对话中的话题承接与语境依赖,这使得合成数据在评估上的有效性存在天花板。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/shreyas2206/MultiSpeakerDataSyn。 模型权重:未提及。论文评估的是已有的公开模型(PyAnnote, NeMo, DiariZen),未提供其自身的模型权重。 数据集:合成数据集未直接公开,但框架基于公开数据集(LibriSpeech作为语音源,以及AMI, CALLHOME等作为RTTM来源)构建,用户可通过运行框架自行生成。 Demo:未提供在线演示。 复现材料:论文提供了完整的合成配置文件(通过代码仓库),并详细记录了实验使用的种子、采样策略等关键参数,复现性高。 论文中引用的开源项目:依赖的开源工具/模型包括: 数据集:LibriSpeech, RIRs Noises。 说话人日志模型:PyAnnote 3.0, NeMo Sortformer, DiariZen (基于WavLM)。 工具:Montreal Forced Aligner (MFA) (用于词对齐)。 📌 核心摘要 解决的问题:说话人日志系统的鲁棒性评估缺乏能够严格控制变量、同时保留真实对话动态(如重叠、打断)的可控基准数据集。 方法核心:提出一个模块化合成框架,以公开数据集(AMI等)的RTTM标注作为对话时间蓝图,使用LibriSpeech的干净语音片段作为说话人语音源,通过分层采样(说话人、话语、片段)生成合成音频,并可叠加混响与噪声。 创新点:a) 以真实对话标注为蓝图合成音频,而非从零构建统计模型;b) 提出对称DER (sDER) 和归一化误差一致性 (NEC) 两个新指标,用于量化系统在不同合成条件下的性能一致性(鲁棒性);c) 通过控制实验(改变说话人、内容、声学)系统分析了各因素对不同说话人日志系统的影响。 主要实验结果: 基准结果:在4个数据集上,合成音频与原始真实音频的DER存在差距,但系统间的相对排序大致保持。 鲁棒性分析:内容(话语)随机化比说话人重新采样对系统(尤其是端到端系统)的性能一致性冲击更大;声学增强的影响具有领域依赖性(如对AMI影响小于CALLHOME)。 数据集 条件 (来自表3) PyAnnote DER NeMo DER DiariZen DER AMI-Test (1) 清洁基线 17.8 5.5 11.5 (2) 增强 (固定说话人/话语) 15.4 6.9 9.4 (3) 新说话人种子 (固定顺序话语) 17.6 6.4 10.9 (4) 话语随机化 (固定说话人) 16.6 17.3 13.4 Callhome (1) 清洁基线 18.8 9.9 9.6 (2) 增强 (固定说话人/话语) 22.1 11.6 11.6 (3) 新说话人种子 (固定顺序话语) 18.8 10.4 10.3 (4) 话语随机化 (固定说话人) 18.5 16.6 12.1 实际意义:为说话人日志社区提供了一个强大的基准测试和诊断工具,可以在没有昂贵人工标注和错误边界的情况下,标准化地评估系统在不同扰动下的稳定性。 主要局限性:a) 合成数据缺乏语义连续性,无法完全模拟真实对话的语用动态;b) 框架依赖于LibriSpeech,其语音风格(朗读式)与真实对话有差异;c) 增强模型(混响、噪声)较为简单,无法完全覆盖所有真实声学场景(如特定电话信道)。 🏗️ 模型架构 本文未提出一个新的神经网络模型,而是提出了一个模块化的多说话人音频合成与评估框架。其架构是流程性的,旨在生成用于评估现有说话人日志系统的可控数据。整体流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 342 words

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

📄 Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition #语音识别 #语音大模型 #端到端 #说话人分离 #说话人日志 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #语音大模型 #说话人分离 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Martin Kocour(Brno University of Technology, Speech@FIT; Filevine, USA) 通讯作者:未说明 作者列表:Martin Kocour(Speech@FIT, Brno University of Technology; Filevine), Martin Karafiat(Speech@FIT, Brno University of Technology), Alexander Polok(Speech@FIT, Brno University of Technology), Dominik Klement(Speech@FIT, Brno University of Technology), Lukáš Burget(Speech@FIT, Brno University of Technology), Jan Černocký(Speech@FIT, Brno University of Technology) 注:所有作者均隶属于Speech@FIT实验室,来自布尔诺理工大学。Martin Kocour同时有Filevine机构隶属。 💡 毒舌点评 这篇工作巧妙地将DiCoW的“分而治之”策略与SOT的“统一步调”理念结合,在完全重叠的合成场景(如Libri3Mix)中取得了显著优势,显示了全局上下文建模的潜力。然而,在复杂的真实会议场景中,其联合解码方式反而被单独解码的基线超越,这暴露出当前架构在处理高度动态和嘈杂的真实对话时,对说话人追踪和上下文利用的鲁棒性仍有不足,算是一个“实验室优等生在真实考试中略显水土不服”的典型案例。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 330 words

Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability

📄 Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability #说话人分离 #说话人日志 #模型评估 #语音活动检测 #聚类 ✅ 7.5/10 | 前25% | #说话人分离 | #说话人日志 | #模型评估 #语音活动检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kenkichi Ishizuka (RevComm Inc.) 通讯作者:未说明 作者列表:Kenkichi Ishizuka (RevComm Inc., Tokyo, Japan), Chang Zeng (RevComm Inc., Tokyo, Japan), Masaki Ono (RevComm Inc., Tokyo, Japan), Taiichi Hashimoto (RevComm Inc., Tokyo, Japan) 💡 毒舌点评 本文的亮点在于它精准地识别并填补了“说话人日志误差率(DER)自动估计”这一实用但被忽视的研究空白,并设计了一个逻辑自洽、实验充分的框架来证明其可行性。其短板则在于方法创新性略显不足,核心贡献是启发式地组合了现有特征(VAD差异、DNSMOS、聚类指标)和回归模型,更像一个精心设计的工程解决方案,而非在理论或模型上有深层突破。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 270 words

ICASSP 2026 - 说话人日志 论文列表

ICASSP 2026 - 说话人日志 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for 7.5分 前25% 🥈 Mitigating Intra-Speaker Variability in Diarization with Sty 7.0分 前25% 📋 论文详情 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试 👥 作者与机构 第一作者:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group) 通讯作者:未说明 作者列表:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group)、Vivek Kumar Thoppe Ravindranath(谢菲尔德大学计算机学院,SpandH Group)、Thomas Hain(谢菲尔德大学计算机学院,SpandH Group) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 278 words