Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean

📄 Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean #语音情感识别 #对比学习 #数据集 #端到端 #语音领域 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Hyunjung Joo(罗格斯大学语言学系,汉阳大学语言语音与认知科学研究所 (HIPCS)) 通讯作者:GyeongTaek Lee(嘉泉大学智能工厂系) 其他作者:无 💡 毒舌点评 亮点:论文最大的贡献是“造轮子”和“用好轮子”——亲手标注了一个超万个样本的首尔韩语音高数据集,并聪明地用全局对比学习替换了容易“只见树木不见森林”的局部预测模型,让AI学会看音高的“整体轮廓”而非“逐点猜谜”。 槽点:虽然准确率刷到了新高,但F1分数才刚过50%,暴露了数据集中某些音调模式样本极少导致的严重类别不平衡问题;另外,模型只盯着F0(音高)看,完全忽略了时长、强度等对韵律同样重要的线索,像个只用单眼看世界的学者。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/hyunjungjoo/Accentual-Phrases-in-Seoul-Korean。 模型权重:论文中未明确提及是否公开预训练权重。 数据集:已开源。即上述GitHub仓库中提供的首尔韩语音调短语数据集,包含10,093个样本及其标注。 预训练权重:未提及。 在线Demo:未提及。 依赖的开源工具/模型:论文中提到了使用pYIN算法提取F0,以及PyTorch、scikit-learn、LightGBM等框架和库。 📌 核心摘要 这篇论文旨在解决将连续变化的基频(F0)曲线映射到首尔韩语中离散、不变的音高重音类别(如LHLH, HHLH)这一难题。传统方法易受F0测量噪声和说话人差异的影响。为此,作者提出了Dual-Glob,一个深度监督对比学习框架。其核心是通过一个双分支(干净视图和增强视图)编码器,在共享的潜在空间中强制要求同一音高类别样本的全局F0轮廓形状相似,而不同类别则相异,从而学习到对扰动鲁棒的、具有判别性的音高轮廓表征。作者还构建了首个大规模手动标注的基准数据集,包含10,093个音调短语(AP),涵盖16种音调模式。实验表明,Dual-Glob在准确率(77.75%)和F1分数(51.54%)上显著超越了BiLSTM、InceptionTime等强基线。研究支持了音系学理论中的离散音调范畴,并证明深度对比学习能有效捕捉连续F0轮廓的整体结构特征。局限性包括F0追踪误差、数据类别不平衡以及未整合时长等其他韵律线索。 🏗️ 模型架构 模型整体是一个双分支编码器+投影头的对比学习框架,后接一个冻结的编码器和独立的分类器用于下游任务。 完整输入输出流程: 输入:经过预处理和归一化(说话人级别Min-Max归一化到[0,1])的F0轮廓序列,固定长度为200帧。 数据增强:对原始输入(干净视图 x_c)应用随机组合的数据增强(如抖动、缩放、掩码等),生成增强视图 x_a。 编码与投影:x_c 和 x_a 分别通过共享权重的编码器 E(·) 和投影头 P(·),得到潜在空间中的投影向量 z_c 和 z_a。 对比损失计算:基于 z_c 和 z_a 计算联合损失 ℒ_Total = λ1 * ℒ_Clean + λ2 * ℒ_Aug。 ℒ_Clean:确保同一类别干净样本的投影在潜在空间中彼此靠近。 ℒ_Aug:确保增强样本的投影靠近其对应类别的干净样本投影,实现去噪和鲁棒性学习。 下游分类:训练完成后,冻结编码器 E(·),移除投影头。使用编码器从原始干净输入中提取的特征(而非投影),输入到独立的分类器(如逻辑回归LR、随机森林RF、LightGBM)中进行16分类。 主要组件: ...

2026-04-22 · 更新于 2026-06-15 · 3 min · 465 words

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #生成模型 #端到端 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jianbo Ma (Canva research, 工作在Dolby完成) 通讯作者:Jianbo Ma (Canva research), Richard Cartwright (Canva research) 其他作者:Richard Cartwright (Canva research, 工作在Dolby完成) 💡 毒舌点评 亮点是把图像生成VAR模型“先画轮廓再填细节”的聪明思路,成功搬到了语音合成上,让模型学会了“先搭时间骨架再填声学血肉”,思路优雅且有效。槽点是实验部分虽然扎实,但总感觉规模(数据、模型变体)还可以再大一些,让这个“由粗到细”的故事讲得更震撼;另外,创新深度上更像是对现有技术(掩码生成、多阶段)的精巧组合与适配,而非开辟全新范式。 🔗 开源详情 代码:已开源。论文中提供了GitHub链接(https://github.com/),但未在文本中给出具体仓库地址。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集LibriTTS和MLS English,但经过了自定义筛选。 在线Demo:论文中未提及。 依赖的开源工具/模型: 音频编解码器:DAC (Descript Audio Codec) G2P:SoundChoice G2P (来自SpeechBrain) 说话人编码器:Wespeaker 基础架构:Llama-style Transformer, 受DiT启发的自适应LayerNorm 方法灵感:MaskGIT (用于迭代去掩码调度) 📌 核心摘要 本文针对文本转语音(TTS)任务,提出了一种名为“细节链”(Chain-of-Details, CoD)的新框架。要解决的问题是现有TTS方法在建模语音生成的时域动态(从粗略时序到精细声学细节的渐进过程)方面存在不足。使用的方法是将语音生成分解为多个时间分辨率递增的阶段,在每个阶段使用掩码生成建模,并通过一个共享的Transformer解码器来预测该分辨率下的语音令牌。取得的效果是在LibriSpeech和SeedTTS测试集上,CoD模型(特别是Base版本)以显著更少的参数(263M)实现了优于或可比多个强基线(如KD-NARSIS, StyleTTS 2, VALL-E)的词错率(WER),证明了其参数效率和生成质量。消融实验进一步验证了多时间层级建模的有效性。局限性在于实验主要集中在英文单 speaker 场景,且创新本质是现有范式的有效扩展而非根本性变革。 ...

2026-04-22 · 更新于 2026-06-15 · 2 min · 397 words

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

📄 MUSCAT: MUltilingual, SCientific ConversATion Benchmark #语音识别 #端到端 #多语言 #基准测试 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 第一作者:Supriti Sinhamahapatra(Karlsruhe Institute of Technology) 通讯作者:未明确标注(推断为 Jan Niehues 或 Alexander Waibel) 其他作者: Thai-Binh Nguyen(Karlsruhe Institute of Technology) Yiğit Oğuz(Karlsruhe Institute of Technology) Enes Ugan(Karlsruhe Institute of Technology) Jan Niehues(Karlsruhe Institute of Technology) Alexander Waibel(Karlsruhe Institute of Technology;Carnegie Mellon University) 💡 毒舌点评 这篇论文把“两位学者用母语唠论文”这个场景拍出了科幻片的质感——360°摄像头、麦克风阵列、Meta智能眼镜全副武装,结果剪出来正片只有65分钟,比一集《老友记》还短。虽然确实精准戳中了当前ASR在语言切换和科学术语上的软肋,但这体量敢叫Benchmark,多少有点“小样本科普”的豪迈。 🔗 开源详情 数据集:已开源,托管于 HuggingFace,地址为 https://huggingface.co/datasets/goodpiku/muscat-eval。包含音频录音、人工转录文本、语码转换标注及分段信息。 代码:论文中未提及开源处理代码或评估脚本。 模型权重:未开源新模型;被测模型均使用公开预训练权重(Whisper、SALMONN、Phi-4-multimodal、HuggingFace 社区上的 wav2vec2 微调版本)。 预训练权重:Wav2Vec2 各语言版本的具体 HuggingFace 链接在论文参考文献/脚注中给出(jonatasgrosman、ozcangundes、not-tanh 等社区权重)。 在线 Demo:论文中未提及。 依赖的开源工具:Label Studio(数据标注)、Audacity(音频对齐)、OBS Studio(录制)、jieba(中文分词)、WhisperX(PyanNet 后处理参考)、SHAS(流媒体分段)、PyanNet(说话人分割)。 📌 核心摘要 本文提出了 MUSCAT,一个用于评估多语言科学对话场景下自动语音识别(ASR)性能的新基准。数据集包含 6 组双语对话录音(共约 65 分钟,9,066 词),涉及英语与德语、土耳其语、中文、越南语的配对对话;每组对话使用 Meeting Owl 3、ReSpeaker USB 麦克风阵列和 Meta Aria 智能眼镜三种设备同步录制,并手工对齐。论文除标准 WER 外,还引入了针对领域特定术语的 reference-centric / hypothesis-centric WER 以及针对语码转换的 PIER 指标,系统评估了 Whisper、SALMONN、Phi-4-multimodal 和 Wav2Vec2 四种端到端 ASR 系统。实验表明,当前 SOTA 模型在语言切换检测、科学术语识别、自动分段及远场/可穿戴录音条件下均存在显著缺陷(如 SHAS 自动分段可使 WER 翻倍)。局限性在于数据规模极小、语言分布严重向英语倾斜,且仅覆盖以英语为核心的四种语言对。 ...

2026-04-20 · 更新于 2026-06-15 · 6 min · 1114 words

VoxMind: An End-to-End Agentic Spoken Dialogue System

📄 VoxMind: An End-to-End Agentic Spoken Dialogue System #语音对话系统 #语音大模型 #端到端 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 共同第一作者:Tianle Liang(浙江大学;China University of Petroleum-Beijing at Karamay),Yifu Chen(浙江大学),Shengpeng Ji(浙江大学) 通讯作者:Zhou Zhao(浙江大学,zhaozhou@zju.edu.cn) 其他作者:Yijun Chen(China University of Petroleum-Beijing at Karamay),Zhiyang Jia(China University of Petroleum-Beijing at Karamay),Jingyu Lu(浙江大学),Fan Zhuo(浙江大学),Xueyi Pu(浙江大学),Yangzhuo Li(厦门大学) 💡 毒舌点评 亮点:VoxMind把文本Agent那套"先想后说"的套路成功塞进了端到端语音模型里,还顺手用"辅助LLM异步捞工具"治好了工具一多就卡顿的绝症,实验硬到能把Gemini-2.5-Pro按在地上摩擦。 槽点:470小时的训练数据全靠TTS合成,遇到真人说话时的"嗯…那个…"、结巴和背景噪音立刻掉7个点;所谓"Think-before-Speak"本质上就是在语音流里硬插了一段文本CoT,延迟该高还是高,作者自己也承认这是"必要的 trade-off"——翻译一下就是"我知道慢,但先忍着"。 🔗 开源详情 代码:完全开源,GitHub地址为 https://github.com/MM-Speech/VoxMind。论文未给出具体stars数量与框架版本依赖细节。 模型权重:基于开源模型StepAudio2进行监督微调。论文未明确说明是否将微调后的权重上传至HuggingFace等平台,但代码仓库公开通常暗示可复现。 数据集:开源AgentChat数据集,总规模约470小时。包含: AgentChat-Tool(约109小时,14,805条):覆盖单工具选择、多工具选择、参数填充、并行调用、主动检索、环境反馈观察等场景。 AgentChat-Normal(约361小时,38,681条):覆盖常识推理(ARC/SciQ)、数学推理(GSM8K)、课本知识与开放域对话。 补充数据:No-Tool跨模态数据(5.09小时)、Security安全数据、Text纯文本数据。 预训练权重:基于StepAudio2基座模型。 在线Demo:论文中未提及在线体验地址。 依赖工具/模型:PyTorch, DeepSpeed, CosyVoice2(语音合成), SeedTTS(音色多样化), Qwen-plus(数据清洗、CoT生成与质量评估), Gemini-2.5-Flash(自动评估器)。 📌 核心摘要 端到端语音对话模型在自然交互上进步迅速,但普遍缺乏处理复杂任务的agent能力(工具调用、规划、推理)。本文首先形式化定义了"端到端语音智能体"的四大维度——画像(Profile)、记忆(Memory)、规划(Planning)与执行(Action Execution),填补了该领域理论标准的空白。在此基础上提出VoxMind框架,引入"Think-before-Speak"机制,使模型在生成语音响应前显式产出结构化推理链(Chain-of-Thought);并构建470小时的AgentChat数据集,包含工具交互与通用对话数据,且全部标注了推理轨迹与工具调用标签。为解决大规模工具库带来的推理延迟爆炸问题,VoxMind设计了多智能体动态工具管理架构:主agent专注于推理与行动,辅助LLM异步从全局工具池中检索候选工具,仅当主agent判定本地工具不足时才动态扩容局部工具集,从而将推理延迟与工具库规模解耦。实验表明,VoxMind的任务总体完成率达74.57%,较基线StepAudio2(34.88%)相对提升113.79%,并超越闭源模型Gemini-2.5-Pro(71.51%);同时在VoiceBench通用对话评测上保持了与基线相当的能力。局限在于显式推理引入了额外的推理延迟,且AgentChat数据依赖TTS合成,与真实口语的自发性和不流畅性存在差距。 ...

2026-04-20 · 更新于 2026-06-15 · 5 min · 909 words

An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding

📄 An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding #语音合成 #端到端 #流式处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tianhui Su 通讯作者:Yannick Estève(推断,通常末位作者为通讯作者) 其他作者:Tien-Ping Tan, Salima Mdhaffar, Aghilas Sini 所属机构:论文摘要中未明确列出作者所属机构。根据论文类别(eess.AS)和作者姓名推测,可能来自法国某大学或研究机构的语音处理实验室,如利勒大学(Université de Lille)的计算机科学实验室(CRIStAL)或类似机构。(推断) 💡 毒舌点评 这篇论文的亮点在于它巧妙地“绕过”了传统语音合成中又慢又容易糊的神经声码器,直接去生成高度压缩的音频“密码本”(离散编码),从而实现了闪电般的合成速度,延迟低到人类几乎感觉不到。槽点嘛,就是论文对训练细节的描述有点“惜字如金”,比如具体用了多少数据、损失函数怎么加权的都没说清楚,这让想复现的同行们有点抓狂。 🔗 开源详情 论文摘要中未提及任何关于开源代码、模型权重、数据集或在线Demo的信息。因此,目前无法确定该项目是否有开源计划。 📌 核心摘要 这篇论文旨在解决实时交互式语音合成中推理延迟高与声学质量(尤其是高频细节)易受损的核心矛盾。传统流水线依赖计算密集的神经声码器进行波形重建,且基于连续回归的声学模型易导致频谱过平滑。为此,作者提出了一种端到端、非自回归的新架构。其核心方法是:直接建模Mimi神经音频编码器的离散潜在空间(32层残差向量量化,RVQ),并采用一种渐进式深度顺序解码策略。该架构以修改版的FastSpeech 2为主干,动态地自回归地生成这些离散编码码,避免了传统自回归模型的时序开销。实验在英语和马来语数据集上验证了其语言通用性。主要发现是,与传统的连续回归模型(FastSpeech 2 + HiFi-GAN)相比,该方法在基频准确性和高频频谱质量上均有提升,并实现了10.6倍的绝对加速,其首字节时间(TTFB)延迟仅为48.99毫秒,远低于人类感知阈值。这使其成为部署超低延迟流式语音交互界面的有力候选方案。 🏗️ 模型架构 该模型是一个完整的端到端文本到波形(Text-to-Waveform)流式合成系统,其核心流程如下: 输入:文本序列(字符或音素)。 文本编码与对齐:输入文本首先通过一个文本编码器(类似于FastSpeech 2)转换为隐层表示。该模块包含音素嵌入层、位置编码和多个Transformer块。关键点在于,它不直接预测连续的梅尔频谱,而是预测与后续离散编码生成相关的中间特征,如音素持续时间、基频(F0)和能量轮廓,用于控制合成语音的韵律。 渐进式深度顺序解码(核心创新): 这是模型的“解码器”部分,负责生成最终的音频表示。它不是一个传统的自回归波形生成器,而是一个非自回归但深度自回归的模块。 结构:该解码器由32个相同的层堆叠而成,每一层对应Mimi编码器中的一个RVQ层级。 工作流程:解码过程是顺序进行的。第1层首先生成第一层RVQ的离散码本索引序列。然后,第2层将第1层的输出(包括其码本嵌入)作为条件输入,生成第二层的码本索引。这个过程依次进行,直到第32层。每一层在生成时,只能“看到”之前所有层已经生成的离散编码信息,而不能看到未来的编码。这种“深度方向”的条件依赖,替代了传统自回归模型在“时间维度”上的依赖,从而实现了并行生成(在同一层内)的同时,保持了高质量表示建模的能力。 离散编码到波形:生成的32层RVQ码本索引序列被送入Mimi音频解码器(一个预训练的、固定的神经声码器),直接合成最终的音频波形。由于Mimi编码器本身具有极高的压缩率,且解码器是轻量级的,这一步非常快。 输出:最终的音频波形流。 关键设计理由: 为何用离散编码?:绕过传统声码器,避免其计算瓶颈和频谱过平滑问题。离散表示更易于非自回归模型建模。 为何用深度顺序解码?:直接并行生成32层离散编码极其困难(组合爆炸)。深度顺序解码将问题分解为32个更简单的子问题,每层只专注于建模当前量化层级的“细节残差”,在模型表达能力和计算复杂度之间取得了平衡。 为何是非自回归骨干?:FastSpeech 2式的非自回归设计(通过时长模型控制对齐)保证了推理速度和流式处理的可行性。 💡 核心创新点 直接建模神经音频编解码器的离散潜在空间: ...

2026-04-19 · 更新于 2026-06-15 · 2 min · 249 words

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

📄 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training #语音对话系统 #强化学习 #端到端 #多模态模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yifu Chen(浙江大学) 通讯作者:Zhou Zhao(浙江大学) 其他作者:Shengpeng Ji(浙江大学),Qian Chen(阿里巴巴通义团队),Tianle Liang(浙江大学),Yangzhuo Li(浙江大学),Ziqing Wang(北京工业大学),Wen Wang(阿里巴巴通义团队),Jingyu Lu(浙江大学),Haoxiao Wang(浙江大学),Xueyi Pu(浙江大学),Fan Zhuo(浙江大学) 备注:论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等(These authors contributed equally)。所有作者单位包括:浙江大学、阿里巴巴通义团队、北京工业大学。 💡 毒舌点评 亮点:这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡,并开出了一剂“模态分离、动态混合”的有效“处方”。槽点:方法虽然巧妙,但严重依赖一个外部、强大的奖励模型(Gemini-2.5-Pro)来提供信号,这不仅成本高昂,其稳定性和泛化能力本身也存疑,相当于把自家模型的“指挥权”交给了别人。此外,代码和模型权重未开源,让“复现”变成了一个玄学问题。 🔗 开源详情 代码:论文提到项目主页为 https://github.com/MM-Speech/WavAlign,但截至分析时,该链接可能尚未生效或内容未公开。论文中未明确说明代码是否已开源。 模型权重:论文中未提及是否会公开训练后的模型权重。 数据集:论文详细描述了自建数据集的构建方法(附录E),并说明所有训练数据来自公开或自建来源,无内部专有数据。但未提及是否会公开这些处理后的数据集。 预训练权重:方法应用于现有的公开模型(如VITA-Audio, KimiAudio),但未提及是否会发布基于这些模型微调后的权重。 在线Demo:论文中未提及。 依赖的开源项目:论文引用了多个开源数据集和模型(如UltraChat, Llama, Alpaca等)。 📌 核心摘要 这篇论文旨在解决端到端语音对话模型在智能(IQ)和表达力(EQ)上难以同时提升的核心挑战。作者发现,直接对混合文本-语音序列应用统一的偏好优化(如DPO、GRPO)会导致问题:稀疏的偏好信号被淹没在密集的语音token中,造成梯度能量失衡(文本梯度主导),并引发声学分布漂移和自然度下降。为此,论文提出了一种自适应混合后训练框架(WavAlign)。其核心思想是分工协作:使用监督微调(SFT)作为“锚”来稳定和维持语音的自然度与可行性;同时,仅对文本token应用偏好优化(GRPO)来精炼语义智能。更进一步,设计了一个轻量级动态门控机制,根据rollout样本的质量(是否存在可接受样本)和区分度(奖励方差)自适应地调整SFT与偏好优化的混合权重,确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行,跨越多个基准测试,结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。 🏗️ 模型架构 论文本身不提出新的模型架构,而是提出一种后训练方法,可应用于不同的现有端到端语音对话模型架构。论文研究的模型需具备生成文本和语音两种token的能力。作者概括了三种主流架构: 交织式(Interleaving):模型生成一个单一的、文本与语音token交织的序列。 并行式(Parallel):模型并行生成文本和语音流,两者状态耦合。 思考者-说话者式(Thinker-Talker):将生成过程分解为“思考”(生成文本语义)和“说话”(生成语音)两个阶段。 为了保持方法与架构无关,论文将模型的输出抽象为两个token序列:文本序列 y^T 和语音序列 y^S。模型定义了一个联合条件概率 P_θ(y^T, y^S | x),其对数似然可以按token类型进行分解(公式1)。这个分解是后续进行模态感知优化的理论基础。 ...

2026-04-19 · 更新于 2026-06-15 · 2 min · 284 words