MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation 📝 评分:/10 | arxiv 📸 论文图片 ← 返回 2026-04-22 语音/音乐/音频论文速递

2026-04-22 · 更新于 2026-06-24 · 1 min · 24 words

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models #语音对话系统 #基准测试 #语音大模型 #实时处理 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:He Zhang(清华大学) 通讯作者:论文未明确指定通讯作者。根据作者列表和脚注(Equal contribution. Corresponding author.),He Zhang 和 Wenqian Cui 可能为共同第一作者,且其中一人为通讯作者,但未明确区分。 其他作者: Wenqian Cui(香港中文大学) Haoning Xu(香港中文大学) Xiaohui Li(华为技术有限公司) Lei Zhu(华为技术有限公司) Haoli Bai(华为技术有限公司) Shaohua Ma(清华大学) Irwin King(香港中文大学) 💡 毒舌点评 亮点:这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀,试图将混沌的对话流解剖成可分析的片段,这份工程和评测的巧思值得点赞。 槽点:然而,作为一个“裁判员”,自己不开源(代码、数据、评估脚本),却要求大家按照你的新规则来比赛,这多少有点“只许州官放火”的味道。而且,全文高度依赖GPT-4o当“裁判的裁判”,让人不禁怀疑这到底是评测FD-SLMs,还是在变相测试GPT-4o的“打分”能力。 🔗 开源详情 论文中未提及任何开源计划。未提供代码、模型权重、评测数据集或评估脚本的获取方式。这是一个重大缺陷,限制了该基准的可复现性和社区采纳度。 📌 核心摘要 这篇论文旨在解决当前全双工语音语言模型(FD-SLMs)评测体系的一个关键缺陷:缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性(如打断),忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此,作者提出了MTR-DuplexBench,一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法,通过结合语音活动检测、GPT-4o语义理解和聚类算法,将连续的对话音频自动、稳定地切分为离散的“轮次”,从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集:对话质量(使用自然对话数据)、对话特性(如平滑交接、打断等)、指令遵循和安全(使用合成数据)。实验以Moshi模型为基线,揭示了其在多轮交互中性能(如成功率、延迟)普遍衰减的规律,证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型(GPT-4o),且未开源任何资源,可能影响其可复现性和广泛应用。 🏗️ 模型架构 注意:本论文的核心贡献是评测基准(Benchmark),而非提出新的语音模型。因此,“模型架构”部分描述的是其评测框架的整体架构和工作流程。 评测框架的核心是实现对FD-SLMs进行轮次级(turn-by-turn) 的自动化评估。其完整流程如下: 输入:双通道音频(用户和助手),以及待评测的FD-SLM。 轮次分割模块(核心创新): 信息提取:使用Whisper-timestamped和Silero VAD,从两个通道的音频中提取带有时间戳的语音段转录文本。 GPT-4o语义分割:将提取出的所有语音段按时间排序后,输入给GPT-4o,利用其语义理解能力判断用户发言的起止点,生成候选轮次边界。此步骤重复6次以获取多个候选结果。 多数投票与聚类:将6次分割结果进行聚类。如果两个候选轮次在时间上重叠超过30%,则将它们合并为一个新候选轮次,其起止时间取所有合并轮次的中位数。仅保留被投票超过1次(即至少在2次GPT分割中出现)的轮次。 最终重叠解决:合并所有在时间上仍有重叠的候选轮次,得到最终的用户轮次划分(FinalTurns)。 上下文对齐与推理: 根据分割出的用户轮次[C.start, C.end],为助手分配响应时间段[C.start, C_next.end]。 关键设计:在助手的响应时间段内,将下一用户轮次的音频静音,并将该时间段内助手通道的历史音频替换为真实(Ground Truth)语音。这确保了模型在推理时,其上下文(历史对话)与评测场景严格一致,避免了因模型早期回答偏离真实对话而导致的“上下文漂移”问题。 将处理后的、对齐的音频流输入待评测的FD-SLM,获取其在当前轮次的响应。 多维度评估: 对模型在每个轮次的输出,根据不同的评测维度(对话质量、对话特性等),调用相应的评估流程和指标(如GPT-score、成功率、延迟、拒绝率)进行打分。 输出:模型在各个评测维度、各个轮次上的量化得分。 💡 核心创新点 全双工轮次分割方法论: ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 237 words

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成 #基准测试 #多语言 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:刘梦(Liumeng Xue)(南京大学,智能软件与系统实验室) 通讯作者:刘梦(lmxue@nju.edu.cn),郭毅可(Yike Guo)(推测为资深作者) 其他作者: 卞伟真(Weizhen Bian)(南京大学) 潘家浩(Jiahao Pan)(香港科技大学) 王文轩(Wenxuan Wang)(香港中文大学) 任逸林(Yilin Ren)(北京航空航天大学) 康博宇(Boyi Kang)(西北工业大学) 胡敬斌(Jingbin Hu)(上海交通大学) 马子阳(Ziyang Ma)(南京大学) 王帅(Shuai Wang)(南京大学) 钱欣源(Xinyuan Qian)(南京大学) 李宏毅(Hung-yi Lee)(台湾大学) 郭毅可(Yike Guo)(香港科技大学) 💡 毒舌点评 亮点:这是一篇“基建狂魔”式的论文,终于有人把语音合成里那些“嗯嗯啊啊”的非语言声音(NVV)的评估给标准化了,45类分类法和双语数据集做得相当扎实,为后续研究立好了靶子。 槽点:作为基准测试论文,它本身不提出新的合成模型,有点像“只测评不造轮子”,对于追求算法创新的读者来说可能不够“性感”;而且用LLM当裁判,虽然努力控制偏见,但“AI评AI”的可靠性争议依然存在。 🔗 开源详情 代码:已开源。论文提供了GitHub链接:https://github.com/lmxue/NVBench。代码应包含数据集构建脚本、评估指标计算代码等。 模型权重:不适用。本文不发布新模型,而是评估现有模型。 数据集:已开源。论文明确指出数据集可通过项目主页获取:https://lmxue.github.io/NVBench/。包含4500个(英汉各2250)经过验证的NVV实例。 预训练权重:不适用。 在线 Demo:论文中未提及在线Demo。 引用的开源项目:论文评估了多个开源TTS系统(如ChatTTS, Bark, CosyVoice 2等),并使用了Whisper、CLAP、DNSMOS等开源工具进行评估。 📌 核心摘要 这篇论文旨在解决语音合成(TTS)领域中一个关键但被忽视的问题:如何标准化评估系统生成非语言声音(NVV,如笑声、叹息)的能力。作者提出了NVBench,一个包含45类NVV统一分类体系的双语(英/中)基准。其核心方法包括:1)构建了一个每类50例、总计4500例的高质量平衡评估数据集;2)设计了多轴评估协议,将通用语音质量与NVV特有的可控性、放置准确性和感知显著性分离开来;3)综合运用客观指标、人工听测和基于LLM的多评判员评估,对15个代表性的TTS系统(涵盖提示式和标签式控制)进行了全面测评。主要发现表明,NVV的可控性常常与整体语音质量解耦,而低信噪比的口腔音和长时情感性NVV(如哭泣)仍是持续的技术瓶颈。该工作为公平、全面地比较和改进NVV合成能力提供了一个标准化框架。 🏗️ 模型架构 注意:本文并非提出一个新的合成模型,而是提出一个评估基准框架。其核心“架构”是评估流程和数据集构建流程。 整体流程:输入为包含NVV指令的文本(标签式[laugh]或提示式“…said with a laugh”),经过待测TTS系统生成语音,再通过NVBench的评估协议进行多维度分析。 核心组件: NVV分类体系:一个包含6大类(呼吸、喉/生理、笑声谱、哭泣谱、情感发声、口腔/其他)和45个细分类别的结构化树状体系。 数据构建流水线:三阶段流程:a) 从现有双语语音数据集中用LLM挖掘NVV种子;b) 基于分类体系,用LLM按统一模式生成文本-描述对;c) 自动检查与人工审核迭代,确保每类50个高质量样本。 评估协议: 客观指标:包括通用指标(WER/CER, DNSMOS)和NVV特异性指标(针对标签式系统的精确率/召回率/F1, 标准化标签距离NTD;针对提示式系统的CLAP分数)。 主观指标:5分制Likert量表,评估自然度、质量、NVV感知效果(PE)、指令跟随(IF)等。 LLM多评判员评估:使用Gemini 2.5 Pro作为评判员,采用匿名化、随机化、多轮评估等策略,评估指标与主观测试对齐。 数据流:待评估的TTS系统是黑盒,输入是NVBench数据集中的text_with_nvv(标签式)或caption_with_nvv(提示式),输出是合成语音。该语音被送入ASR、质量评估模型、NVV检测器(基于GT约束的Gemini验证)以及人类/LLM评判员,得到多维度分数。 💡 核心创新点 统一的NVV分类与数据集: 是什么:首次提出了一个涵盖45类、覆盖从呼吸到哭泣等广泛NVV的统一分类法,并据此构建了英汉双语平衡评估数据集。 之前:现有系统和数据集支持的NVV类型有限、碎片化、标签不一致,无法进行系统化评估。 效果:为领域提供了共同语言和可复现的测试基础,使跨系统比较成为可能。 解耦的多轴评估协议: 是什么:明确将评估维度拆解为“通用语音质量”和“NVV特定能力”(可控性、放置、显著性)。 之前:评估往往将NVV视为风格的一部分,与语音质量混在一起,难以诊断具体弱点。 效果:能精确揭示系统在哪方面强或弱(如某系统音质好但NVV控制差),指导针对性改进。 面向NVV的客观指标设计: 是什么:为标签式控制设计了基于“地面真值约束验证”的NVV检测方法,并由此计算精确率、召回率、F1和标准化标签距离(NTD)。 之前:缺乏直接评估NVV生成正确性和时间位置准确性的标准客观方法。 效果:实现了可扩展、可量化的NVV可控性评估,与主观感知形成互补。 全面的系统测评与洞察: 是什么:对15个前沿系统(商业与开源,提示式与标签式)进行了大规模测评,揭示了“质量与可控性解耦”、“长时/细微NVV是瓶颈”等关键现象。 之前:缺乏在统一基准下对不同控制范式系统的横向比较。 效果:为研究社区提供了清晰的现状图景和未来研究方向(如提升覆盖度、改善长时NVV建模)。 🔬 细节详述 训练数据:不适用。本文是评估基准,不训练新模型。评估数据集通过三阶段流水线构建,最终包含45类×50例×2语言=4500个高质量NVV实例,源自对InstructTTSEval数据集的挖掘和LLM辅助生成。 损失函数/训练策略:不适用。 关键超参数/训练硬件:不适用。 评估细节: 客观指标:使用Whisper-large-v3(英)和paraformer-zh(中)进行ASR转写。使用DNSMOS P.835预测语音质量。CLAP分数用于提示式系统的语义对齐。对于标签式系统,使用Gemini 2.5 Pro作为验证器,给定合成语音、原文本和目标NVV类型,判断NVV是否存在并插入标记,从而计算位置误差。NTD是匹配样本的位置误差按文本长度归一化后的均值。 主观测试:通过Prolific平台招募97名评分者,对每种语言随机抽取450个样本(每类10个)进行5分制评分。 LLM评估:使用Gemini 2.5 Pro,采用低温采样(0.2)、固定种子、多轮三折评估、匿名化比较等策略以保证稳定性。每个样本由4个独立LLM评判员子集评估。 系统覆盖:评估了7个提示式系统(如Gemini 2.5 Pro/Flash, GPT-4o mini TTS, Qwen3-TTS)和8个标签式系统(如ElevenLabs, ChatTTS, Orpheus TTS, CosyVoice 2)。 📊 实验结果 主要指标对比(摘要): 提示式系统(英语): 最佳质量/自然度:Gemini 2.5 Pro (主观自然度4.07, DNSMOS OVRL 4.30)。 最佳可控性(NVV IF):Gemini 2.5 Pro (主观2.74)。 最佳语义对齐(CLAP):Qwen3-TTS (0.45)。 最佳客观质量(DNSMOS):GPT-4o mini TTS (OVRL 4.14)。 标签式系统(英语): 最佳综合(主观):ElevenLabs (自然度4.60, 质量4.71, NVV PE 3.92, NVV Accuracy 4.21)。 最佳NVV正确性(客观F1):Orpheus TTS (0.728)。 最高覆盖度:ElevenLabs (0.27), Dia (0.29)。 关键发现: 质量与可控性解耦:例如,CosyVoice 2在中文上主观质量分很高(4.35),但NVV准确性(1.65)和显著性(1.56)较低。Gemini 2.5 Flash的WER很差(因生成额外内容),但主观自然度很高。 NVV类型难度差异大:热图分析显示,笑声、咳嗽等突发性NVV普遍得分较高;而口腔音(如tsk, lipsmack)和长时情感音(如crying, sobbing)在所有系统上得分都低。 控制范式差异:标签式系统覆盖度有限但控制精确;提示式系统理论覆盖所有类型但实现不稳定,易出现内容边界问题。 消融实验(有无显式NVV控制): 对比了Gemini 2.5 Pro(提示式)和ElevenLabs(标签式)在有无NVV指令下的输出。 主观结果:ElevenLabs在启用NVV后,自然度、质量和表达力均提升(CMOS为正)。Gemini 2.5 Pro在启用NVV后,表达力提升不明显,且自然度和质量有所下降(CMOS为负)。 客观结果:启用NVV后,所有系统的WER/CER均上升,表明标准ASR和质量评估器对NVV不友好。 LLM评判 vs 人类评判:LLM评判的排名趋势与人类主观测试大体一致(如ElevenLabs在标签式中领先),但具体分数存在差异,表明LLM评估可作为有效补充但不能完全替代人类。 ⚖️ 评分理由 创新性:7/10。创新性主要体现在系统工程和评估框架上:构建了首个全面的NVV分类与数据集,并设计了多轴评估协议。这不是算法模型的突破,而是领域基础设施的重要创新。 实验充分性:9/10。实验设计极为充分。数据集构建流程严谨;评估维度全面(客观、主观、LLM);对比系统数量多、种类全(15个);分析深入,包含消融、热图、跨语言对比等。数据详实,结论可信。 实用价值:8/10。对语音合成领域有很高的实用价值。为NVV合成这一模糊的评估目标提供了清晰、可操作的度量标准,能直接指导系统开发和比较。开源数据集和代码进一步放大了其价值。 灌水程度:2/10。论文内容紧凑,直指问题核心。摘要、方法、实验、分析环环相扣,没有明显的冗余内容或夸大表述。所有承诺的评估都在实验部分得到落实。 🖼️ 图片与表格 图1: NVBench概览图 | 保留: 是 - 理由:清晰展示了基准的整体流程,包括数据集(分类法+双语集)、两种控制方式(提示式、标签式)、待测TTS系统、以及多轴评估协议(客观、主观、LLM),是理解论文工作的核心示意图。 图2: 按NVV类型划分的感知效果热图(英语) | 保留: 是 - 理由:直观展示了不同系统在45类NVV上的感知效果(PE)得分,清晰揭示了系统间差异、类型难度差异(如笑声易、口腔音难)以及标签式系统的覆盖度缺口,是核心结果图。 图3: 按NVV类型划分的感知效果热图(中文) | 保留: 是 - 理由:与图2对应,展示了中文评估结果,体现了基准的双语评估能力和跨语言发现的一致性。 表1: NVV分类体系 | 保留: 是 - 理由:列出了完整的45类NVV及其所属的6个大类,是本文的核心贡献之一,必须保留以明确评估范围。 表2: 评测的TTS系统及数据集详情 | ���留: 是 - 理由:详细列出了15个被测系统和6个参考数据集支持的NVV类型及数量,是理解评测范围和对比基线的关键信息。 表3: 客观指标结果 | 保留: 是 - 理由:提供了所有系统在WER/CER、DNSMOS、CLAP、覆盖率、精确率/召回率/F1、NTD等客观指标上的详细数值,是进行量化对比的基础。 表4: 主观听测结果(均值±标准差) | 保留: 是 - 理由:提供了所有系统在自然度、质量、NVV感知效果等主观指标上的详细评分,是评估系统实际听感的关键数据。 表5: LLM多评判员评估结果(与ElevenLabs的对比分数) | 保留: 是 - 理由:展示了使用LLM作为评判员的评估结果,体现了这种新型评估方法的可行性与趋势,是方法的重要组成部分。 表6: 有无NVV控制的CMOS对比结果 | 保留: 是 - 理由:展示了消融实验的结果,直接证明了显式NVV控制对感知质量的影响,支持了论文的核心发现之一(控制范式差异)。 📸 论文图片 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 269 words

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音合成 #语音识别 #音频大模型 #预训练 #强化学习 🔥 评分:9.5/10 | arxiv 👥 作者与机构 论文作者:Qwen Team (通义千问团队) 核心贡献者:Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等(按字母顺序排列,*表示通讯作者) 所属机构:根据作者姓名和项目背景推断,主要来自阿里巴巴达摩院(DAMO Academy) 和阿里云。论文未明确标注机构,但“Qwen Team”和“Alibaba Cloud”是明确的线索。 💡 毒舌点评 亮点:这是一份堪称“全模态大模型工程教科书”的技术报告,从架构设计(混合MoE、ARIA)、训练策略(三阶段预训练、四阶段后训练)到评测体系(215个任务)都展现了无与伦比的系统性和工程实力,性能直接对标并超越了Gemini Pro,证明了中国团队在顶级多模态竞赛中的硬实力。 槽点:论文读起来像一份极其详尽的“产品说明书”和“实验报告”,技术细节虽多,但对于“为什么这样设计”的深层科学原理探讨略显不足,更像是在展示“我们做到了”,而非完全解释“我们为何能以及如何想到的”。此外,不开源核心代码和模型,让学术社区只能“望API兴叹”。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 392 words

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别,#流式处理,#一致性正则化,#统一音频模型,#开源工具 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Andrei Andrusenko (NVIDIA, Armenia) 通讯作者:Vitaly Lavrukhin (NVIDIA, USA) - 基于联系邮箱推断 其他作者: Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评 亮点在于为统一ASR的“模式冲突”这个老大难问题,开了一剂叫MCR-RNNT的“正则化药方”,并且贴心地用Triton写好了“高效服用说明书”(GPU实现),让训练不至于慢到天荒地老。槽点是,这药方在延迟压到0.16秒这种“极限操作”时,药效似乎有点跟不上,而且双模式训练毕竟还是让显存和计算量翻了倍,钱包有点疼。 🔗 开源详情 代码:已开源。论文中提供了GitHub链接(https://github.com/NVIDIA/NeMo 相关),框架基于NeMo。 模型权重:已开源。在HuggingFace上发布了英文模型检查点:https://huggingface.co/nvidia/parakeet-unified-en-0.6b,参数量约600M(XL-size)。 数据集:使用了公开的Granary数据集,但数据集本身是否由作者团队开源未在文中明确说明,仅提及是“public Granary dataset”。 预训练权重:基于FastConformer编码器,但论文未明确说明是否使用了预训练权重进行初始化。 在线 Demo:论文中未提及。 引用的开源项目:依赖NeMo框架、PyTorch、Triton。 📌 核心摘要 本文旨在解决训练单一自动语音识别(ASR)模型同时高效支持高精度离线转写和低延迟流式识别这一挑战。现有统一模型在低延迟流式模式下性能下降明显。作者提出了一个统一的RNN-Transducer (RNNT) 框架,其核心是结合了带右上下文的chunk限制注意力和动态chunk卷积(DCConv) 来适配流式解码。为更进一步缩小离线与流式模式间的性能差距,本文创新性地引入了模式一致性正则化损失(MCR-RNNT),并通过高效的Triton内核实现,直接在RNNT的完整对齐格(lattice)上计算离线与流式输出分布的KL散度,鼓励两种模式下模型预测的一致性。实验表明,该方法在120K小时数据上训练的L-size模型,在多数流式延迟设定下(低至0.24秒)取得了最佳的权衡。将方法扩展到280K小时数据训练的600M参数XL模型,在Open ASR Leaderboard上达到5.76%的平均词错率(WER),在离线和流式场景均超越了强开源基线。该工作开源了代码和模型,为工业界部署统一ASR模型提供了高效解决方案。 🏗️ 模型架构 论文提出的是一个统一的RNN-Transducer (RNNT) 模型,其核心思想是使用同一套模型参数,通过不同的输入处理方式(掩码和卷积操作)来同时支持离线和流式两种解码模式。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 405 words

Tadabur: A Large-Scale Quran Audio Dataset

📄 Tadabur: A Large-Scale Quran Audio Dataset #语音识别 #领域适应 #数据集 #多语言 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Faisal Alherran (利雅得,沙特阿拉伯 - alherranfaisal@gmail.com) 通讯作者:Faisal Alherran (同上) 其他作者:无。论文仅列出一位作者。 💡 毒舌点评 亮点:这论文最实在的地方就是“大力出奇迹”,用一套组合拳(LLM+Whisper+Embedding)硬生生把散落在网络各处的古兰经朗诵音频,整合成了一个规模空前、标注精细的“数据航母”,直接把该领域的数据门槛拉高了好几个档次。槽点:方法上更像是“系统集成创新”,用的都是现成的明星模型(Whisper, Gemini),自己炼的“新丹”(Tadabur fine-tuned ASR)效果提升也有限。说白了,这是一篇出色的“数据工程”报告,而非“算法突破”论文。 🔗 开源详情 代码:开源。论文提供了GitHub链接。 模型权重:论文中提到的“Tadabur fine-tuned model”(基于Whisper Small微调)是否开源未在正文明确说明,但数据集本身在HuggingFace上开源。 数据集:完全开源。包含超过1400小时的音频和词级对齐标注。在HuggingFace和项目主页上提供。 预训练权重:未提供。流水线中使用的模型(如Whisper, SILMA, EAT)均为已有公开模型。 在线Demo:论文中未提及。 引用的开源项目:WhisperX, SILMA Embedding模型, EAT模型, Quran API等。 📌 核心摘要 本文旨在解决古兰经语音研究领域缺乏大规模、多样化、细粒度标注数据集的问题。为此,作者提出了Tadabur数据集及其自动化构建流水线。该流水线首先从公共平台收集音频,并利用大语言模型(Gemini)从非结构化文本中提取标准化元数据(如章节、朗诵者)。核心步骤是Ayah Alignment Module (AAM),它利用Whisper/WhisperX进行语音识别和词级对齐,再通过SILMA嵌入模型的语义相似度匹配,将转录文本与《古兰经》标准文本进行对齐,从而实现从长录音中精准分割出经文(Ayah)级别的音频片段。最后,通过基于ASR的内容验证和基于音频嵌入的去重进行数据清洗。最终构建的Tadabur数据集包含超过1400小时音频,来自600多位不同朗诵者,提供了词级时间戳和结构化元数据。实验评估表明,所选的语义对齐方法和领域适配ASR模型能达到96.63%的对齐覆盖率。该数据集为古兰经语音识别、朗诵风格分析等研究提供了重要基础资源。 🏗️ 模型架构 本文的核心“架构”并非一个端到端的神经网络模型,而是一个多阶段、模块化的数据处理流水线。其整体流程如下: 输入:从网络收集的、包含长篇朗诵(整章或整卷)的原始音频文件及其伴随的非结构化文本描述(标题、标签等)。 元数据提取与过滤: 组件:大语言模型(Gemini 2.5 Flash)。 功能:接收文本描述,判断是否为有效的古兰经朗诵,并提取结构化元数据(章节名、朗诵者身份)。 输出:过滤后的有效音频文件及其标准化元数据。 语音识别与词级对齐: 组件:Whisper Large v3 + WhisperX。 功能:对音频进行语音识别,生成带词级时间戳的转录文本。 输出:包含词及起止时间戳的转录结果。 经文级对齐与分割 (核心 - Ayah Alignment Module, AAM): 子模块1:语义匹配: 输入:WhisperX转录文本片段、来自Quran API的标准经文文本。 处理:分别使用SILMA嵌入模型生成文本片段和标准经文的向量,计算余弦相似度。超过阈值则视为匹配成功。 输出:匹配的经文及其在音频中的粗略起止时间。 子模块2:朗诵边界精修: 输入:粗略分割的音频片段。 处理:使用一个专门的“recitation-segmenter-v2”模型检测朗诵自然停顿点。为防止截断,在粗略结束点后附加5秒缓冲区,再进行边界检测,最后将检测到的自然结束点与WhisperX时间戳调和。 输出:精确的、以自然停顿为终点的单条经文音频片段。 数据清洗与去重: 组件:EAT(高效音频Transformer)模型、并查集(Union-Find)数据结构。 功能:对同一朗诵者同一经文的多个录音,提取音频嵌入并计算相似度,超过阈值(0.9)视为重复,通过图算法聚类后每组仅保留一个代表。 输出:去重后的最终数据集。 输出:成对的(音频文件, JSON元数据文件)。JSON中包含经文文本、朗诵者、章节以及词级时间戳等结构化信息。 💡 核心创新点 面向古兰经的大规模自动化数据构建流水线:这是最主要的贡献。论文提出并实现了一个端到端的、从数据收集、清洗、标注到最终发布的完整自动化框架,解决了该领域数据稀缺且构建困难的核心问题。 基于语义嵌入的经文对齐方法:相比传统的模糊文本匹配(Fuzzy Matching),采用SILMA嵌入模型进行语义相似度计算,能更好地应对古兰经朗诵中因音律、延长音导致的转录文本与标准文本在表面形式上的差异,将对齐覆盖率从86%提升至96.6%。 朗诵边界感知的精细分割:在初步对齐后,引入专门的朗诵边界检测模型进行后处理,确保分割出的音频片段以朗诵者的自然停顿结束,而非机械地截断于识别词的结束点,提高了片段质量。 基于音频嵌入的高效去重策略:利用预训练的音频模型(EAT)提取嵌入,并结合并查集数据结构进行可扩展的去重,有效处理了大规模数据中普遍存在的重复录音问题。 🔬 细节详述 训练数据:本文主要贡献是构建数据集,而非训练一个新模型。所提及的“Tadabur fine-tuned model”是基于Whisper Small在自有数据上微调的ASR模型,但论文未提供微调的具体数据规模、超参数等细节。 损失函数/训练策略/关键超参数:这些信息主要针对文中提到的已有模型(如Whisper, EAT),但论文未详述其训练过程。文中明确给出的关键超参数包括: 去重相似度阈值:0.9 边界精修缓冲区时长:5秒(经验值) 对齐方法:SILMA Embedding + 余弦相似度,阈值未明确给出。 推理细节:流水线推理涉及多个模型调用。对于对齐模块,核心是生成嵌入并计算相似度。对于边界精修,使用了“recitation-segmenter-v2”模型进行推理。 数据增强/正则化:未提及。本文工作重点是数据构建而非模型训练。 📊 实验结果 表1:不同对齐方法和ASR模型在5位朗诵者上的对齐覆盖率(%) ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 327 words

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #生成模型 #端到端 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jianbo Ma (Canva research, 工作在Dolby完成) 通讯作者:Jianbo Ma (Canva research), Richard Cartwright (Canva research) 其他作者:Richard Cartwright (Canva research, 工作在Dolby完成) 💡 毒舌点评 亮点是把图像生成VAR模型“先画轮廓再填细节”的聪明思路,成功搬到了语音合成上,让模型学会了“先搭时间骨架再填声学血肉”,思路优雅且有效。槽点是实验部分虽然扎实,但总感觉规模(数据、模型变体)还可以再大一些,让这个“由粗到细”的故事讲得更震撼;另外,创新深度上更像是对现有技术(掩码生成、多阶段)的精巧组合与适配,而非开辟全新范式。 🔗 开源详情 代码:已开源。论文中提供了GitHub链接(https://github.com/),但未在文本中给出具体仓库地址。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集LibriTTS和MLS English,但经过了自定义筛选。 在线Demo:论文中未提及。 依赖的开源工具/模型: 音频编解码器:DAC (Descript Audio Codec) G2P:SoundChoice G2P (来自SpeechBrain) 说话人编码器:Wespeaker 基础架构:Llama-style Transformer, 受DiT启发的自适应LayerNorm 方法灵感:MaskGIT (用于迭代去掩码调度) 📌 核心摘要 本文针对文本转语音(TTS)任务,提出了一种名为“细节链”(Chain-of-Details, CoD)的新框架。要解决的问题是现有TTS方法在建模语音生成的时域动态(从粗略时序到精细声学细节的渐进过程)方面存在不足。使用的方法是将语音生成分解为多个时间分辨率递增的阶段,在每个阶段使用掩码生成建模,并通过一个共享的Transformer解码器来预测该分辨率下的语音令牌。取得的效果是在LibriSpeech和SeedTTS测试集上,CoD模型(特别是Base版本)以显著更少的参数(263M)实现了优于或可比多个强基线(如KD-NARSIS, StyleTTS 2, VALL-E)的词错率(WER),证明了其参数效率和生成质量。消融实验进一步验证了多时间层级建模的有效性。局限性在于实验主要集中在英文单 speaker 场景,且创新本质是现有范式的有效扩展而非根本性变革。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 397 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Shuhai Peng(推断为小米或合作机构) 通讯作者:Zhiyong Wu(推断为小米或合作机构) 其他作者:Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang 机构信息:论文未明确标注所有作者的所属机构。根据作者列表和常见合作模式,作者可能来自小米公司(Xiaomi)、香港中文大学(The Chinese University of Hong Kong) 或其他合作研究机构。具体实验室/课题组信息未在提供的文本中说明。 💡 毒舌点评 亮点:精准地抓住了生成式TSE模型流式化时“一跑就崩”的痛点,用“交织拼接”这招巧妙地给模型戴上了“因果紧箍咒”,硬是把一个“离线学霸”改造成了“实时能手”,稳定性拉满。槽点:方法创新更像是针对现有大模型(LauraGPT)的“工程适配”和“流程优化”,理论深度稍显不足;而且说好的开源代码“将在GitHub上”,目前还是一张空头支票。 🔗 开源详情 代码:论文在结论部分声明“我们的代码将在GitHub上开源”,但当前arXiv版本未提供具体URL。状态为承诺开源,暂未发布。 模型权重:未提及是否公开预训练模型权重。 数据集:实验基于公开的LibriSpeech和Libri2Mix数据集生成。 预训练权重:使用了预训练的funcodec作为声学编解码器,以及LauraGPT作为生成主干。 在线Demo:未提及。 依赖的开源项目:明确提到了LauraGPT、funcodec、WavLM、WeSpeaker、Whisper(用于计算WER)等。 📌 核心摘要 这篇论文旨在解决生成式目标说话人提取(TSE)模型在流式实时应用中因依赖全局上下文而导致性能严重下降的核心问题。作者首次提出了一个基于自回归语言模型(LauraGPT)的流式TSE框架。其核心创新是“分块交织拼接范式”,通过将混合音频块与对应的目标语音离散编码块交错排列作为模型输入,严格保证了推理的因果性,防止了未来信息泄露。同时,设计了“历史上下文优化机制”,在声码器解码阶段引入前一音频块的隐藏状态,以缓解块间的相位不连续问题。实验表明,该方法在低延迟(如560ms)下实现了100%的推理成功率,语音质量和可懂度优于基线生成模型,并能匹配甚至超越离线判别式模型的性能,且在消费级GPU上达到了0.248的实时率(RTF)。该工作证明了自回归生成模型适用于低延迟流式应用的可行性。 🏗️ 模型架构 模型整体采用基于LauraGPT的粗到细(coarse-to-fine)分层架构,处理流程如下: 输入:一段包含目标说话人和干扰的混合语音(被切分为连续的音频块 C_mix),以及一段目标说话人的参考语音 E_ref。 共享特征提取:混合语音块和参考语音分别通过两个权重共享、严格因果的Conformer编码器,提取帧级别的连续嵌入表示 E_mix 和 E_ref。这确保了特征提取只依赖当前和历史信息。 语义提取语言模型(SELM): 输入构造:将静态的参考语音嵌入 E_ref 与一个特殊分隔符 v_sep 作为前缀,后面交织拼接历史所有的混合语音块和它们对应的目标语音离散语义令牌(C_mix(1), v_task, u(1), ..., C_mix(t), v_task, u(t))。 功能:这是一个自回归Transformer模型,负责预测当前音频块对应的粗粒度语义离散令牌序列 u(t)。其自注意力机制被限制在交织的序列上,保证了因果性。 声学细化语言模型(ARLM): 输入构造:同样以参考语音为静态前缀,后面交织拼接历史所有的混合语音块和它们对应的、由SELM预测出的语义令牌序列(C_mix(1), U_SELM(1), ..., C_mix(t), U_SELM(t))。 功能:另一个自回归Transformer模型,负责在SELM输出的粗粒度语义令牌基础上,生成细粒度的声学隐藏状态 h(t),以恢复高频细节和提升音质。 声码器解码与历史上下文优化: 输入构造:解码器的输入不仅是当前块的声学隐藏状态 h(t),还拼接了上一时刻优化后的隐藏状态 h(t-1),即 Concat(h(t-1), h(t))。 功能:一个预训练的神经声码器(funcodec的解码器部分),将细粒度的声学隐藏状态重建为最终的语音波形。引入 h(t-1) 的目的是平滑块间过渡,保持相位和语义连贯性。 输出:当前时间块的目标语音波形。 关键设计理由: ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 338 words

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

📄 UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction #语音对话系统 #统一音频模型 #流式处理 #音视频 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yadong Li (adonlee.lyd@alibaba-inc.com) 通讯作者:Biye Li (libiye.lby@alibaba-inc.com) 其他作者:Guoxin Wu (guoxin.wgx@taobao.com), Haiping Hou (houhaiping.hhp@taobao.com) 所属机构:阿里巴巴集团 (Alibaba Inc.) 💡 毒舌点评 亮点:这篇论文最“性感”的地方在于它极具野心的“大一统”思想——把语音交互前端那些乱七八糟的独立模块(VAD、ASR、说话人识别…)全部塞进一个LLM里,还用个参考音频当“声纹钥匙”,想法非常超前且直击级联系统的痛点。 槽点:工程“黑盒”感有点强,比如那个600ms的音频块具体怎么切分、参考音频的注册和注意力机制如何在流式推理中高效运作,细节不够透明,让人担心实际部署时的复杂度和计算开销。 🔗 开源详情 论文中未提及任何开源计划。全文未提供代码、模型权重、数据集或在线Demo的获取方式。虽然引用了GitHub Issue模板,但明确说明“Submit without GitHub”,表明论文发表本身不伴随开源动作。 📌 核心摘要 核心贡献:本文提出了首个专为全双工语音交互设计的统一音频前端大模型(UAF)。它打破了传统级联式前端处理的范式,将语音活动检测(VAD)、说话人识别(SR)、自动语音识别(ASR)、轮次检测(TD)和问答(QA)等多个任务,统一建模为一个自回归序列预测问题。 关键方法:模型采用“音频编码器-投影器-LLM”架构。输入为流式的固定时长(600ms)音频块和一个用于锁定目标说话人的参考音频提示。输出为两类离散令牌:状态令牌(如<TALK>, <SIL>, <Complete>, <Interrupt>)用于交互控制;语义令牌(ASR文本和模型回复)。通过多阶段对齐训练策略,模型学会了在噪声和混叠语音环境中,基于参考音频隐式地抑制干扰、聚焦目标说话人,并联合预测语义内容和交互状态。 主要发现:实验表明,UAF在多项独立前端任务上达到SOTA水平。其最大优势体现在说话人感知ASR上:在极低信噪比(2dB)条件下,WER相比强大的基线模型(Qwen3-Omni)降低了7倍以上(5.34 vs 38.6)。在轮次检测任务上,对<Interrupt>和<Backchannel>等关键交互状态的识别准确率显著优于专用模型,证明了统一建模对理解对话动态的有效性。 实际意义与局限性:UAF为构建低延迟、高鲁棒性、交互自然的全双工语音系统提供了全新的、一体化的解决方案,有望简化系统架构并提升用户体验。其局限性包括:模型参数量较大(30B-A3B),对计算资源要求高;训练严重依赖大规模的合成数据管道,其真实世界泛化能力需进一步验证;论文未开源,限制了社区的复现与跟进。 🏗️ 模型架构 UAF的整体架构是一个适配了音频能力的“编码器-投影器-大语言模型”框架,核心是将音频流与文本生成统一在自回归解码过程中。 完整输入输出流程: 输入: 参考音频 (A_ref):一段3-5秒的目标说话人纯净语音,用于注册说话人身份。 系统提示 (System Prompt):定义任务和输出格式的文本指令。 流式音频块 (A_stream):连续的、固定时长为600毫秒的音频片段序列 {a_1, a_2, ..., a_t}。这些音频块可能包含目标说话人语音、噪声、混响、其他说话人语音以及系统回声。 编码与投影: 参考音频和每一个流式音频块都通过同一个音频编码器(文中未指定具体结构,但应为预训练模型)转换为高维声学特征向量。 这些声学特征向量随后通过一个音频投影器(一个可训练的神经网络层)映射到LLM的语义嵌入空间,得到对齐后的音频令牌 a_ref 和 a_t。 自回归解码: LLM骨干网络(基于Qwen3-Omni-30B-A3B-Instruct)接收一个拼接的序列作为输入:[System Prompt, a_ref, a_1, [x_1; s_1], a_2, [x_2; s_2], ..., a_t]。其中 [x_i; s_i] 表示第i个时间步生成的语义令牌和状态令牌。 LLM根据历史上下文(所有之前的音频令牌和生成的令牌)进行解码,在当前时间步t,它需要预测两部分: 状态令牌 (s_t):由两个独立的轻量级任务头从LLM的隐藏状态h_t中预测。 VAD头:输出 <SIL> 或 <TALK>,表示当前音频块是否包含目标说话人的有效语音活动。 轮次头 (Turn Head):输出 <Complete>, <InComplete>, <Interrupt>, <Backchannel> 中的一个,表示对话轮次状态。 语义令牌 (x_t):由LLM主干的语言模型头 (LM Head) 预测。仅当轮次状态为<Complete>或<Interrupt>时,模型才会生成包含<AsrStart>…<AsrEnd>的ASR结果,以及可能的<AnswerStart>…<AnswerEnd>的回复。 输出:在每个时间步t,模型输出一个包含状态令牌和(可能的)语义令牌的序列,用于驱动下游的对话管理系统和语音合成系统。 关键组件与设计理由: ...

2026-04-22 · 更新于 2026-06-24 · 3 min · 435 words

Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India

📄 Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India #语音识别 #模型评估 #多语言 #低资源 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kaushal Bhogale (印度马德拉斯理工学院,计算机科学与工程系,cs22d006@cse.iitm.ac.in) 通讯作者:Mitesh M. Khapra (印度马德拉斯理工学院,计算机科学与工程系)(推断:作为资深作者和项目主导者) 其他作者: Manas Dhir, Amritansh Walecha, Manmeet Kaur, Vanshika Chhabra, Aaditya Pareek, Hanuman Sidh, Sagar Jain, Bhaskar Singh, Utkarsh Singh, Tahir Javed, Shobhit Banga (印度马德拉斯理工学院,计算机科学与工程系) (部分作者可能同时隶属 Josh Talks, India,但论文中未明确个人与机构的对应关系,此处统一列出) 💡 毒舌点评 亮点:这论文像给印度ASR领域做了一次彻底的“体检”,把现有模型在真实世界(电话、方言、乡村)的“体面”扒得干干净净,用数据和地图说话,指出了“高WER重灾区”和“公平性幻觉”,堪称一份犀利的行业诊断报告。 槽点:最核心的“体检报告”(数据)自己藏着不给看,只给看化验单(结果),让同行想复现、想基于此深入研究都无从下手,这“闭源”操作在学术圈属实有点“不讲武德”。 🔗 开源详情 代码:论文中未提及开源评估代码或工具。 模型权重:论文评估的模型包括商业API和开源模型,但基准本身不涉及新模型训练。 数据集:明确声明为闭源基准(closed source benchmark)。数据不公开,仅提供详细的构建方法和评估结果。 预训练权重:不适用。 在线Demo:未提及。 引用的开源项目:论文提到了依赖的模型和工具,如Whisper, Indic Conformer, OmniASR, Meta MMS, SpeechBrain VoxLingua107, DNSMOS, WebRTC VAD等。 📌 核心摘要 这篇论文旨在解决现有印度语言语音识别(Indic ASR)基准不反映真实场景、评估方法不公平的核心问题。为此,作者构建了“Voice of India”大规模基准,其数据源自3.6万名说话者的非脚本化电话对话,覆盖15种主要印度语言和139个地区集群,总计536小时。关键创新在于采用了考虑拼写变体的“正字法知情词错率”(OIWER)评估指标,并构建了“方言格”(Lattice)来容纳合理的转录变体。通过在14个先进ASR系统(包括商业API和开源模型)上的评估,论文揭示了几个关键发现:1)即使最佳模型在多种语言上也未达到20%的实用WER阈值;2)性能存在显著的地理偏差,印度北部“印地语带”和都市区表现远优于南部和语言多样地区;3)现有公开基准(如FLEURS)会高估模型性能;4)模型在女性语音上略有优势,但对年轻说话者和特定方言(如Bhojpuri)表现不佳。该基准为开发更鲁棒、公平的印度语音识别系统提供了关键的评估工具和明确的改进方向。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 385 words