Posts

Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean

📄 Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean #语音情感识别 #对比学习 #数据集 #端到端 #语音领域 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Hyunjung Joo（罗格斯大学语言学系，汉阳大学语言语音与认知科学研究所 (HIPCS)）通讯作者：GyeongTaek Lee（嘉泉大学智能工厂系）其他作者：无 💡 毒舌点评亮点：论文最大的贡献是“造轮子”和“用好轮子”——亲手标注了一个超万个样本的首尔韩语音高数据集，并聪明地用全局对比学习替换了容易“只见树木不见森林”的局部预测模型，让AI学会看音高的“整体轮廓”而非“逐点猜谜”。槽点：虽然准确率刷到了新高，但F1分数才刚过50%，暴露了数据集中某些音调模式样本极少导致的严重类别不平衡问题；另外，模型只盯着F0（音高）看，完全忽略了时长、强度等对韵律同样重要的线索，像个只用单眼看世界的学者。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/hyunjungjoo/Accentual-Phrases-in-Seoul-Korean。模型权重：论文中未明确提及是否公开预训练权重。数据集：已开源。即上述GitHub仓库中提供的首尔韩语音调短语数据集，包含10,093个样本及其标注。预训练权重：未提及。在线Demo：未提及。依赖的开源工具/模型：论文中提到了使用pYIN算法提取F0，以及PyTorch、scikit-learn、LightGBM等框架和库。 📌 核心摘要这篇论文旨在解决将连续变化的基频（F0）曲线映射到首尔韩语中离散、不变的音高重音类别（如LHLH, HHLH）这一难题。传统方法易受F0测量噪声和说话人差异的影响。为此，作者提出了Dual-Glob，一个深度监督对比学习框架。其核心是通过一个双分支（干净视图和增强视图）编码器，在共享的潜在空间中强制要求同一音高类别样本的全局F0轮廓形状相似，而不同类别则相异，从而学习到对扰动鲁棒的、具有判别性的音高轮廓表征。作者还构建了首个大规模手动标注的基准数据集，包含10,093个音调短语（AP），涵盖16种音调模式。实验表明，Dual-Glob在准确率（77.75%）和F1分数（51.54%）上显著超越了BiLSTM、InceptionTime等强基线。研究支持了音系学理论中的离散音调范畴，并证明深度对比学习能有效捕捉连续F0轮廓的整体结构特征。局限性包括F0追踪误差、数据类别不平衡以及未整合时长等其他韵律线索。 🏗️ 模型架构模型整体是一个双分支编码器+投影头的对比学习框架，后接一个冻结的编码器和独立的分类器用于下游任务。完整输入输出流程：输入：经过预处理和归一化（说话人级别Min-Max归一化到[0,1]）的F0轮廓序列，固定长度为200帧。数据增强：对原始输入（干净视图 x_c）应用随机组合的数据增强（如抖动、缩放、掩码等），生成增强视图 x_a。编码与投影：x_c 和 x_a 分别通过共享权重的编码器 E(·) 和投影头 P(·)，得到潜在空间中的投影向量 z_c 和 z_a。对比损失计算：基于 z_c 和 z_a 计算联合损失 ℒ_Total = λ1 * ℒ_Clean + λ2 * ℒ_Aug。 ℒ_Clean：确保同一类别干净样本的投影在潜在空间中彼此靠近。 ℒ_Aug：确保增强样本的投影靠近其对应类别的干净样本投影，实现去噪和鲁棒性学习。下游分类：训练完成后，冻结编码器 E(·)，移除投影头。使用编码器从原始干净输入中提取的特征（而非投影），输入到独立的分类器（如逻辑回归LR、随机森林RF、LightGBM）中进行16分类。主要组件： ...

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

📄 Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps #语音识别 #语音翻译 #大语言模型 #模型评估 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Jonas Waldendorf (University of Edinburgh) *论文标注“Work completed during an internship at Amazon AGI” 通讯作者：Evgenii Tsymbalov (Amazon AGI) *根据邮箱 etsymba@amazon.de 推断其他作者：Bashar Awwad Shiekh Hasan (Amazon AGI) 💡 毒舌点评亮点：论文巧妙地将文本LLM幻觉检测的注意力分析思路“翻译”到了语音领域，设计了四个抓住语音模态特性的指标，像给模型装了个“注意力心电图”来诊断“幻觉心律不齐”，在干净数据上效果拔群。槽点：但这个“诊断仪”有点“偏科”，在ASR和S2TT两个任务间几乎无法通用，得重新训练，而且严重依赖一个高精度但低召回的自动标注器来打标签，相当于用一套有漏检的评分标准来训练医生，让人对其泛化能力打个问号。 🔗 开源详情代码：论文提到代码在GitHub上开源（“GitHub Issue”），但未提供具体URL。推断为部分开源。模型权重：未提及开源训练好的逻辑回归检测器权重。数据集：使用公开数据集（VoxPopuli, CALLHOME, Fleurs），但自动标注的幻觉标签数据集未提及单独发布。在线Demo：未提及。依赖的开源工具：使用了scikit-learn训练逻辑回归，XCOMET-XL和多种多语言模型（xlm-roberta-base, paraphrase-multilingual-MiniLM, mDeBERTa-v3-xnli）进行评估和标签生成。 📌 核心摘要本文旨在解决语音大模型（SpeechLLMs）在推理时产生的“幻觉”问题，即生成与输入音频不符的流畅文本。现有方法依赖昂贵的黄金标准输出，而文本LLM的方法无法捕捉音频特有信号。为此，作者提出了四个基于注意力图的轻量级指标（AudioRatio, AudioConsistency, AudioEntropy, TextEntropy），用于捕捉与幻觉相关的病态注意力模式（如注意力回退到音频开头、对角线结构退化）。在Qwen-2-Audio和Voxtral-3B模型上，使用这些指标训练逻辑回归分类器。实验表明，在域内ASR数据（VoxPopuli）上，该方法显著优于不确定性估计和先前注意力基线（PR-AUC提升高达+0.23）。研究发现，仅需约100个注意力头即可获得强性能，且能改善跨域泛化。然而，方法效果依赖于模型和任务，在嘈杂数据（CALLHOME）上泛化能力下降，且在ASR上训练的模型无法直接用于语音翻译（S2TT），突显了幻觉模式的任务特异性。 🏗️ 模型架构本文并未提出一个新的端到端SpeechLLM架构，而是设计了一个基于注意力特征的轻量级幻觉检测器，该检测器作为插件，在现有的SpeechLLM（如Qwen-2-Audio, Voxtral-3B）推理时并行工作。 ...

Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification

📄 Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification #自监督学习 #解缠表示学习 #音频事件检测 #工业应用 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Xudong Jian (苏黎世联邦理工学院 ETH Zürich，土木、环境与地质工程系) 通讯作者：Eleni Chatzi (苏黎世联邦理工学院 ETH Zürich，土木、环境与地质工程系) - 根据论文中标注“\corrauth”推断其他作者： Charikleia Stoura (米兰理工大学 Politecnico di Milano，机械工程系) Simon Scandella (苏黎世联邦理工学院 ETH Zürich，土木、环境与地质工程系) 💡 毒舌点评亮点：这篇论文巧妙地将计算机视觉领域流行的自监督方法（VICReg）与结构动力学的物理先验（频域PSD）结合，像给模型戴上了一副“损伤透视镜”，让它在嘈杂的操作变异中死死盯住结构本身的微小损伤信号，思路非常清晰实用。槽点：方法在“轻微损伤”场景下有点“视力不佳”（桥梁数据集TPR仅0.324），而且损伤量化能力更像是个“半成品”，离精确评估损伤程度还有距离。说白了，能告诉你“病了”，但说不准“病多重”。 🔗 开源详情代码：完全开源。GitHub仓库地址：https://github.com/JxdEngineer/SSRL。使用PyTorch框架实现。模型权重：论文中未明确提及是否公开预训练模型权重，但提供了完整的代码和配置，用户可自行复现训练。数据集： openLAB桥梁数据集：因与商业合作伙伴Kistler的协议限制无法公开。但论文引用了另一个可公开获取的openLAB数据集版本（使用��同传感系统）作为替代。 MCC5齿轮箱数据集：完全公开，论文提供了获取链接（Chen et al., 2024）。预训练权重：未提供。模型从头开始训练。在线Demo：未提供。依赖的开源工具：PyTorch, scipy (用于Welch方法估计PSD), UMAP (用于可视化)。 📌 核心摘要本文针对结构健康监测中损伤信号易被环境与操作变异掩盖的核心挑战，提出了一种无标签、自监督的解缠表示学习框架。该框架采用双流自编码器架构，通过时间序列重构损失确保信息完整性，并利用VICReg自监督损失（基于假设损伤状态不变的基线期数据）强制损伤敏感表征（z_dmg）对操作变异保持不变性。同时，引入频域PSD重构损失作为物理约束，确保z_dmg保留关键的损伤相关频谱特征。该框架在无需任何损伤、激励或环境标签的情况下，实现了损伤信息与干扰信息的有效分离。在真实桥梁实验数据集和高保真齿轮箱数据集上的评估表明，所提方法能有效进行损伤检测（在齿轮箱上平衡准确率达0.816）并揭示损伤演化进程，其性能显著优于仅使用时间序列重构或手工特征的基线方法。研究证实了结合数据驱动自监督与领域物理知识对于提升SHM鲁棒性的价值，为实际无标签监测场景提供了可行的解决方案。 ...

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #音频分类 #数据增强 #音频安全 ✅ 评分：6.5/10 | arxiv 👥 作者与机构第一作者：Lam Pham (奥地利理工学院 AIT，数字安全与安全中心) 通讯作者：Son Le (Ton Duc Thang University, Vietnam) 其他作者： Khoi Vu, Dat Tran (FPT University, Vietnam) Phat Lam (HCM University of Technology, Vietnam) David Fischinger, Alexander Schindler, Martin Boyer (奥地利理工学院 AIT，数字安全与安全中心) 💡 毒舌点评亮点：论文像一本详尽的“菜谱”，把频谱图、网络架构、预训练模型这些“食材”挨个试了个遍，还精心设计了“三阶段烹饪法”（训练策略），最终端出了一盘在特定数据集上色香味俱全的“菜”（高准确率）。槽点：创新性主要体现在“系统性尝试”和“策略调优”上，缺乏让人眼前一亮的“新菜式”（核心方法创新）。而且，这盘“菜”主要用的还是别人家的“高级食材”（预训练BEATs模型）。 🔗 开源详情代码：论文在arXiv页面明确提供了GitHub链接，表明代码已开源。模型权重：论文中未明确说明是否公开预训练或微调后的模型权重。通常此类研究会随代码一起发布。数据集：使用了公开的基准数据集EnvSDD和ESDD-Challenge-TestSet，论文中提供了数据集的详细构成和获取参考文献。预训练权重：使用了公开的预训练BEATs模型。在线Demo：论文中未提及。引用的开源项目：Pytorch框架、Adam优化器、BEATs模型、EnvSDD数据集。 📌 核心摘要本文针对环境声音（如声音事件、声音场景）的深度伪造检测这一新兴任务，提出了一个系统的深度学习框架。核心贡献在于通过大量实验，系统评估了不同频谱图（MEL, CQT, Gammatone）、多种CNN架构（ResNet, Inception等）以及预训练模型（BEATs）在该任务上的表现，并验证了声音事件与声音场景的伪造检测应作为独立任务处理。关键方法包括：1）提出以Gammatone频谱图作为有效输入特征；2）设计了一个包含多损失函数训练、Mixup微调和骨干网络冻结的三阶段训练策略；3）发现并验证了微调预训练的BEATs模型远优于从头训练。主要效果是在EnvSDD测试集上取得了0.98的准确率和0.99的AUC，并在跨数据集测试（ESDD-Challenge-TestSet）中展现了泛化能力。局限性在于方法创新性有限，主要依赖现有技术的组合与优化，且跨数据集性能有显著下降，表明领域泛化仍是挑战。 🏗️ 模型架构论文提出了一个统一的深度学习框架用于环境声音深度伪造检测（ESDD），其整体流程如下： ...

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models #基准测试 #模型评估 #音频大模型 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者： Feiyu Zhao（天津大学，智能与计算学院）通讯作者： Jianguo Wei（天津大学，智能与计算学院）其他作者： Yiming Chen（华硕智能云服务，新加坡；与第一作者贡献相等），Wenhuan Lu（天津大学，智能与计算学院），Daipeng Zhang（天津大学，智能与计算学院），Xianghu Yue（天津大学，智能与计算学院） 💡 毒舌点评亮点：这篇论文堪称“音频大模型照妖镜”，首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”，设计了各种刁钻的“听力测试题”（对抗性提示、混合音频），揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症，为领域提供了急需的诊断工具。槽点：主要是个“体检报告”而非“治疗方案”，它精确诊断了问题但并未提出新的缓解方法。另外，部分任务（如单词顺序判断）可能过于依赖模板，模型或许能通过“猜”而非真正“听”来应付。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/Feiyuzhao25/halluaudio 数据集： HalluAudio基准测试数据集已随代码开源，包含所有QA对和音频引用。模型权重：本文不涉及新模型的训练，因此不提供模型权重。评估的是已有的公开或闭源模型。在线Demo：论文中未提及在线Demo。依赖的开源工具/模型：评估中使用了多个开源LALM，如Qwen-Audio, Qwen2-Audio, Llama-Omni, MiMo-Audio等（详见附录D）。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALM）中普遍存在的“幻觉”问题（即生成与音频证据不符的内容）缺乏系统性评估工具的难题。为此，作者构建并发布了HalluAudio，这是首个大规模、多领域（语音、环境声、音乐）、多任务（二分类、多选、属性验证、开放生成）的人工验证音频幻觉检测基准，包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉，并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估，论文发现：1）幻觉是普遍且领域依赖的系统性问题；2）即使在标准基准上表现优异的模型，在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败；3）模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。 🏗️ 模型架构注意：本文的核心贡献是提出一个评估基准（Benchmark），而非一个新的模型架构。因此，本节将详细描述该基准测试的整体架构和评估流程。整体架构（评估管线）：如图1所示，HalluAudio的评估是一个模块化、端到端��流程，旨在系统性地引发、测量和分析LALM中的幻觉。输入层：从语音（Common Voice）、环境声（FSD50K）、音乐（GTZAN, Mridangam）数据集中选择音频片段。任务构建层：对每个音频，使用参数化提示模板生成问题。模板包含可替换的槽位（如单词、标签），通过填充有效或无效的属性来生成“可回答”或“故意不可回答”的查询，以诱发不同类型的幻觉。模型推理层：将构建好的“音频-问题”对输入到待评估的LALMs中，采用零样本协议，模型输出为文本。输出标准化层：由于模型输出形式多样（如“是的”、“Yes.”、“确实如此”），需要通过文本处理（小写化、去标点、关键词匹配）将其标准化为结构化标签（如Yes, No, 数字, Refusal）。有效性检查与行为分析层：将标准化后的输出与标准答案进行比对，计算各项指标（准确率、是/否偏差、错误拒绝率等），并进行细粒度的错误类型分析（如幻觉性肯定回答、错误的任务 grounding 答案、错误拒绝）。关键设计选择理由：参数化模板：确保生成大规模、可控且与音频内容精确对齐的QA对。对比性/对抗性构造：通过最小化修改（如改变单词顺序、引入噪声）创建正负对比样本，以孤立出引发幻觉的具体触发器。多领域覆盖：确保评估的全面性，因为模型在不同音频域（语言 vs. 非语言）可能表现出不同的幻觉模式。多维度指标：超越简单的准确率，诊断模型的行为偏差（如盲目肯定）和保守性偏差（如过度拒绝）。 💡 核心创新点首个大规模、多领域音频幻觉基准：提出了HalluAudio，这是第一个专门针对音频（涵盖语音、环境声、音乐）的、大规模（>5K QA对）、经过人工验证的幻觉检测基准，填补了该领域的关键空白。系统性的幻觉诱导方法：创新性地设计了对比性任务（如单词顺序、声音共存）和对抗性/无效查询（如询问不存在的说话者性别、随机声音标签），以主动、可控地触发模型的各类幻觉行为（虚构、证据矛盾、无根据肯定）。多维度诊断评估框架：提出了一套超越准确率的评估指标，包括是/否偏差测试（Yes-p Ratio, Unrelated Ratio, Conditional Accuracy）和错误拒绝率，能够细粒度地区分模型的不同失败模式（如感知错误、推理错误、过度保守）。深入的跨模型与跨领域实证分析：对12个具有代表性的开源和闭源LALM进行了首次大规模、跨领域的对比评估，揭示了幻觉行为的领域特异性（如语音中的结构幻觉、环境声中的感知幻觉）和模型特异性，为未来模型改进提供了明确方向。 🔬 细节详述数据集构建：来源：语音（Common Voice）、环境声（FSD50K）、音乐（GTZAN, Mridangam Strokes, Mridangam Tonics）。规模：总计5720个QA对。其中，语音域任务最丰富（包括重叠检测、词序、计数、无效查询等），环境声音侧重存在性与共现性，音乐侧重乐器/流派识别与比较。流程：五步管线：1) 音频选择；2) 模板生成；3) 对比/对抗构造；4) 人工验证（三轮，Cohen‘s κ=0.91）；5) 打包与平衡。关键设计：包含2662个对比性任务和621个明确的对抗性/无效查询，57.4%的数据旨在通过控制扰动或证据缺失来探测幻觉。评估指标：准确性：标准任务准确率。是/否偏差测试： Yes-p Ratio: 在二元问题中回答“Yes”的比例。 Unrelated Ratio: 在回答错误的样本中，模型给出与问题无关答案的比例。 Conditional Accuracy: 基于预测类别（Yes/No）划分的条件准确率。错误拒绝率：模型拒绝回答可回答问题的比例。评估模型：共12个模型，包括2个闭源（GPT-4o-Audio, Gemini-2.5-Flash）和10个开源模型（如Qwen系列、Llama-Omni系列、MiMo-Audio、Step-Audio-2等）。关键发现（实验数据）：语音域： MiMo-Audio和Step-Audio-2在时序任务上表现优异（如重叠检测准确率>96%），而Qwen-Audio、Pengi等在某些子任务上低于50%。Phi-4在噪声和性别扰动下性能下降。环境声域： MiMo-Audio和Qwen2.5-Omni在时序比较任务上领先。Audio Flamingo3和Pengi在多标签识别上表现不佳。模型在“随机错误”提示下行为分化：一些自信地幻觉，另一些则过度拒绝。音乐域： GPT-4o-Audio和MiMo-Audio相对稳健，而Pengi和Qwen2-Audio在流派/乐器识别上接近随机水平。在计数和排序任务上，模型普遍表现不佳（如Gemini-2.5-Flash低于15%）。是/否偏差： Qwen系列模型在跨域任务中表现出强烈的肯定回答倾向。在环境声任务中，这种偏差最明显。错误拒绝： Gemini-2.5-Flash和Qwen2-Audio表现出最严重的过度拒绝倾向，尤其在结构复杂的任务（计数、速度比较）和感知不确定的任务（声音共存）中。 📊 实验结果主要指标对比（表格数据复述）： ...

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation 📝 评分：/10 | arxiv 📸 论文图片 ← 返回 2026-04-22 论文速递

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models #语音对话系统 #基准测试 #语音大模型 #实时处理 #模型评估 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：He Zhang（清华大学）通讯作者：论文未明确指定通讯作者。根据作者列表和脚注（Equal contribution. Corresponding author.），He Zhang 和 Wenqian Cui 可能为共同第一作者，且其中一人为通讯作者，但未明确区分。其他作者： Wenqian Cui（香港中文大学） Haoning Xu（香港中文大学） Xiaohui Li（华为技术有限公司） Lei Zhu（华为技术有限公司） Haoli Bai（华为技术有限公司） Shaohua Ma（清华大学） Irwin King（香港中文大学） 💡 毒舌点评亮点：这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀，试图将混沌的对话流解剖成可分析的片段，这份工程和评测的巧思值得点赞。槽点：然而，作为一个“裁判员”，自己不开源（代码、数据、评估脚本），却要求大家按照你的新规则来比赛，这多少有点“只许州官放火”的味道。而且，全文高度依赖GPT-4o当“裁判的裁判”，让人不禁怀疑这到底是评测FD-SLMs，还是在变相测试GPT-4o的“打分”能力。 🔗 开源详情论文中未提及任何开源计划。未提供代码、模型权重、评测数据集或评估脚本的获取方式。这是一个重大缺陷，限制了该基准的可复现性和社区采纳度。 📌 核心摘要这篇论文旨在解决当前全双工语音语言模型（FD-SLMs）评测体系的一个关键缺陷：缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性（如打断），忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此，作者提出了MTR-DuplexBench，一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法，通过结合语音活动检测、GPT-4o语义理解和聚类算法，将连续的对话音频自动、稳定地切分为离散的“轮次”，从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集：对话质量（使用自然对话数据）、对话特性（如平滑交接、打断等）、指令遵循和安全（使用合成数据）。实验以Moshi模型为基线，揭示了其在多轮交互中性能（如成功率、延迟）普遍衰减的规律，证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型（GPT-4o），且未开源任何资源，可能影响其可复现性和广泛应用。 🏗️ 模型架构注意：本论文的核心贡献是评测基准（Benchmark），而非提出新的语音模型。因此，“模型架构”部分描述的是其评测框架的整体架构和工作流程。评测框架的核心是实现对FD-SLMs进行轮次级（turn-by-turn）的自动化评估。其完整流程如下：输入：双通道音频（用户和助手），以及待评测的FD-SLM。轮次分割模块（核心创新）：信息提取：使用Whisper-timestamped和Silero VAD，从两个通道的音频中提取带有时间戳的语音段转录文本。 GPT-4o语义分割：将提取出的所有语音段按时间排序后，输入给GPT-4o，利用其语义理解能力判断用户发言的起止点，生成候选轮次边界。此步骤重复6次以获取多个候选结果。多数投票与聚类：将6次分割结果进行聚类。如果两个候选轮次在时间上重叠超过30%，则将它们合并为一个新候选轮次，其起止时间取所有合并轮次的中位数。仅保留被投票超过1次（即至少在2次GPT分割中出现）的轮次。最终重叠解决：合并所有在时间上仍有重叠的候选轮次，得到最终的用户轮次划分（FinalTurns）。上下文对齐与推理：根据分割出的用户轮次[C.start, C.end]，为助手分配响应时间段[C.start, C_next.end]。关键设计：在助手的响应时间段内，将下一用户轮次的音频静音，并将该时间段内助手通道的历史音频替换为真实（Ground Truth）语音。这确保了模型在推理时，其上下文（历史对话）与评测场景严格一致，避免了因模型早期回答偏离真实对话而导致的“上下文漂移”问题。将处理后的、对齐的音频流输入待评测的FD-SLM，获取其在当前轮次的响应。多维度评估：对模型在每个轮次的输出，根据不同的评测维度（对话质量、对话特性等），调用相应的评估流程和指标（如GPT-score、成功率、延迟、拒绝率）进行打分。输出：模型在各个评测维度、各个轮次上的量化得分。 💡 核心创新点全双工轮次分割方法论： ...

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成 #基准测试 #多语言 #大语言模型 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：刘梦（Liumeng Xue）（南京大学，智能软件与系统实验室）通讯作者：刘梦（lmxue@nju.edu.cn），郭毅可（Yike Guo）（推测为资深作者）其他作者：卞伟真（Weizhen Bian）（南京大学）潘家浩（Jiahao Pan）（香港科技大学）王文轩（Wenxuan Wang）（香港中文大学）任逸林（Yilin Ren）（北京航空航天大学）康博宇（Boyi Kang）（西北工业大学）胡敬斌（Jingbin Hu）（上海交通大学）马子阳（Ziyang Ma）（南京大学）王帅（Shuai Wang）（南京大学）钱欣源（Xinyuan Qian）（南京大学）李宏毅（Hung-yi Lee）（台湾大学）郭毅可（Yike Guo）（香港科技大学） 💡 毒舌点评亮点：这是一篇“基建狂魔”式的论文，终于有人把语音合成里那些“嗯嗯啊啊”的非语言声音（NVV）的评估给标准化了，45类分类法和双语数据集做得相当扎实，为后续研究立好了靶子。槽点：作为基准测试论文，它本身不提出新的合成模型，有点像“只测评不造轮子”，对于追求算法创新的读者来说可能不够“性感”；而且用LLM当裁判，虽然努力控制偏见，但“AI评AI”的可靠性争议依然存在。 🔗 开源详情代码：已开源。论文提供了GitHub链接：https://github.com/lmxue/NVBench。代码应包含数据集构建脚本、评估指标计算代码等。模型权重：不适用。本文不发布新模型，而是评估现有模型。数据集：已开源。论文明确指出数据集可通过项目主页获取：https://lmxue.github.io/NVBench/。包含4500个（英汉各2250）经过验证的NVV实例。预训练权重：不适用。在线 Demo：论文中未提及在线Demo。引用的开源项目：论文评估了多个开源TTS系统（如ChatTTS, Bark, CosyVoice 2等），并使用了Whisper、CLAP、DNSMOS等开源工具进行评估。 📌 核心摘要这篇论文旨在解决语音合成（TTS）领域中一个关键但被忽视的问题：如何标准化评估系统生成非语言声音（NVV，如笑声、叹息）的能力。作者提出了NVBench，一个包含45类NVV统一分类体系的双语（英/中）基准。其核心方法包括：1）构建了一个每类50例、总计4500例的高质量平衡评估数据集；2）设计了多轴评估协议，将通用语音质量与NVV特有的可控性、放置准确性和感知显著性分离开来；3）综合运用客观指标、人工听测和基于LLM的多评判员评估，对15个代表性的TTS系统（涵盖提示式和标签式控制）进行了全面测评。主要发现表明，NVV的可控性常常与整体语音质量解耦，而低信噪比的口腔音和长时情感性NVV（如哭泣）仍是持续的技术瓶颈。该工作为公平、全面地比较和改进NVV合成能力提供了一个标准化框架。 🏗️ 模型架构注意：本文并非提出一个新的合成模型，而是提出一个评估基准框架。其核心“架构”是评估流程和数据集构建流程。整体流程：输入为包含NVV指令的文本（标签式[laugh]或提示式“…said with a laugh”），经过待测TTS系统生成语音，再通过NVBench的评估协议进行多维度分析。核心组件： NVV分类体系：一个包含6大类（呼吸、喉/生理、笑声谱、哭泣谱、情感发声、口腔/其他）和45个细分类别的结构化树状体系。数据构建流水线：三阶段流程：a) 从现有双语语音数据集中用LLM挖掘NVV种子；b) 基于分类体系，用LLM按统一模式生成文本-描述对；c) 自动检查与人工审核迭代，确保每类50个高质量样本。评估协议：客观指标：包括通用指标（WER/CER， DNSMOS）和NVV特异性指标（针对标签式系统的精确率/召回率/F1，标准化标签距离NTD；针对提示式系统的CLAP分数）。主观指标：5分制Likert量表，评估自然度、质量、NVV感知效果（PE）、指令跟随（IF）等。 LLM多评判员评估：使用Gemini 2.5 Pro作为评判员，采用匿名化、随机化、多轮评估等策略，评估指标与主观测试对齐。数据流：待评估的TTS系统是黑盒，输入是NVBench数据集中的text_with_nvv（标签式）或caption_with_nvv（提示式），输出是合成语音。该语音被送入ASR、质量评估模型、NVV检测器（基于GT约束的Gemini验证）以及人类/LLM评判员，得到多维度分数。 💡 核心创新点统一的NVV分类与数据集：是什么：首次提出了一个涵盖45类、覆盖从呼吸到哭泣等广泛NVV的统一分类法，并据此构建了英汉双语平衡评估数据集。之前：现有系统和数据集支持的NVV类型有限、碎片化、标签不一致，无法进行系统化评估。效果：为领域提供了共同语言和可复现的测试基础，使跨系统比较成为可能。解耦的多轴评估协议：是什么：明确将评估维度拆解为“通用语音质量”和“NVV特定能力”（可控性、放置、显著性）。之前：评估往往将NVV视为风格的一部分，与语音质量混在一起，难以诊断具体弱点。效果：能精确揭示系统在哪方面强或弱（如某系统音质好但NVV控制差），指导针对性改进。面向NVV的客观指标设计：是什么：为标签式控制设计了基于“地面真值约束验证”的NVV检测方法，并由此计算精确率、召回率、F1和标准化标签距离（NTD）。之前：缺乏直接评估NVV生成正确性和时间位置准确性的标准客观方法。效果：实现了可扩展、可量化的NVV可控性评估，与主观感知形成互补。全面的系统测评与洞察：是什么：对15个前沿系统（商业与开源，提示式与标签式）进行了大规模测评，揭示了“质量与可控性解耦”、“长时/细微NVV是瓶颈”等关键现象。之前：缺乏在统一基准下对不同控制范式系统的横向比较。效果：为研究社区提供了清晰的现状图景和未来研究方向（如提升覆盖度、改善长时NVV建模）。 🔬 细节详述训练数据：不适用。本文是评估基准，不训练新模型。评估数据集通过三阶段流水线构建，最终包含45类×50例×2语言=4500个高质量NVV实例，源自对InstructTTSEval数据集的挖掘和LLM辅助生成。损失函数/训练策略：不适用。关键超参数/训练硬件：不适用。评估细节：客观指标：使用Whisper-large-v3（英）和paraformer-zh（中）进行ASR转写。使用DNSMOS P.835预测语音质量。CLAP分数用于提示式系统的语义对齐。对于标签式系统，使用Gemini 2.5 Pro作为验证器，给定合成语音、原文本和目标NVV类型，判断NVV是否存在并插入标记，从而计算位置误差。NTD是匹配样本的位置误差按文本长度归一化后的均值。主观测试：通过Prolific平台招募97名评分者，对每种语言随机抽取450个样本（每类10个）进行5分制评分。 LLM评估：使用Gemini 2.5 Pro，采用低温采样（0.2）、固定种子、多轮三折评估、匿名化比较等策略以保证稳定性。每个样本由4个独立LLM评判员子集评估。系统覆盖：评估了7个提示式系统（如Gemini 2.5 Pro/Flash, GPT-4o mini TTS, Qwen3-TTS）和8个标签式系统（如ElevenLabs, ChatTTS, Orpheus TTS, CosyVoice 2）。 📊 实验结果主要指标对比（摘要）：提示式系统（英语）：最佳质量/自然度：Gemini 2.5 Pro (主观自然度4.07， DNSMOS OVRL 4.30)。最佳可控性（NVV IF）：Gemini 2.5 Pro (主观2.74)。最佳语义对齐（CLAP）：Qwen3-TTS (0.45)。最佳客观质量（DNSMOS）：GPT-4o mini TTS (OVRL 4.14)。标签式系统（英语）：最佳综合（主观）：ElevenLabs (自然度4.60，质量4.71， NVV PE 3.92， NVV Accuracy 4.21)。最佳NVV正确性（客观F1）：Orpheus TTS (0.728)。最高覆盖度：ElevenLabs (0.27)， Dia (0.29)。关键发现：质量与可控性解耦：例如，CosyVoice 2在中文上主观质量分很高(4.35)，但NVV准确性(1.65)和显著性(1.56)较低。Gemini 2.5 Flash的WER很差（因生成额外内容），但主观自然度很高。 NVV类型难度差异大：热图分析显示，笑声、咳嗽等突发性NVV普遍得分较高；而口腔音（如tsk, lipsmack）和长时情感音（如crying, sobbing）在所有系统上得分都低。控制范式差异：标签式系统覆盖度有限但控制精确；提示式系统理论覆盖所有类型但实现不稳定，易出现内容边界问题。消融实验（有无显式NVV控制）：对比了Gemini 2.5 Pro（提示式）和ElevenLabs（标签式）在有无NVV指令下的输出。主观结果：ElevenLabs在启用NVV后，自然度、质量和表达力均提升（CMOS为正）。Gemini 2.5 Pro在启用NVV后，表达力提升不明显，且自然度和质量有所下降（CMOS为负）。客观结果：启用NVV后，所有系统的WER/CER均上升，表明标准ASR和质量评估器对NVV不友好。 LLM评判 vs 人类评判：LLM评判的排名趋势与人类主观测试大体一致（如ElevenLabs在标签式中领先），但具体分数存在差异，表明LLM评估可作为有效补充但不能完全替代人类。 ⚖️ 评分理由创新性：7/10。创新性主要体现在系统工程和评估框架上：构建了首个全面的NVV分类与数据集，并设计了多轴评估协议。这不是算法模型的突破，而是领域基础设施的重要创新。实验充分性：9/10。实验设计极为充分。数据集构建流程严谨；评估维度全面（客观、主观、LLM）；对比系统数量多、种类全（15个）；分析深入，包含消融、热图、跨语言对比等。数据详实，结论可信。实用价值：8/10。对语音合成领域有很高的实用价值。为NVV合成这一模糊的评估目标提供了清晰、可操作的度量标准，能直接指导系统开发和比较。开源数据集和代码进一步放大了其价值。灌水程度：2/10。论文内容紧凑，直指问题核心。摘要、方法、实验、分析环环相扣，没有明显的冗余内容或夸大表述。所有承诺的评估都在实验部分得到落实。 🖼️ 图片与表格图1: NVBench概览图 | 保留: 是 - 理由：清晰展示了基准的整体流程，包括数据集（分类法+双语集）、两种控制方式（提示式、标签式）、待测TTS系统、以及多轴评估协议（客观、主观、LLM），是理解论文工作的核心示意图。图2: 按NVV类型划分的感知效果热图（英语） | 保留: 是 - 理由：直观展示了不同系统在45类NVV上的感知效果（PE）得分，清晰揭示了系统间差异、类型难度差异（如笑声易、口腔音难）以及标签式系统的覆盖度缺口，是核心结果图。图3: 按NVV类型划分的感知效果热图（中文） | 保留: 是 - 理由：与图2对应，展示了中文评估结果，体现了基准的双语评估能力和跨语言发现的一致性。表1: NVV分类体系 | 保留: 是 - 理由：列出了完整的45类NVV及其所属的6个大类，是本文的核心贡献之一，必须保留以明确评估范围。表2: 评测的TTS系统及数据集详情 | ��留: 是 - 理由：详细列出了15个被测系统和6个参考数据集支持的NVV类型及数量，是理解评测范围和对比基线的关键信息。表3: 客观指标结果 | 保留: 是 - 理由：提供了所有系统在WER/CER、DNSMOS、CLAP、覆盖率、精确率/召回率/F1、NTD等客观指标上的详细数值，是进行量化对比的基础。表4: 主观听测结果（均值±标准差） | 保留: 是 - 理由：提供了所有系统在自然度、质量、NVV感知效果等主观指标上的详细评分，是评估系统实际听感的关键数据。表5: LLM多评判员评估结果（与ElevenLabs的对比分数） | 保留: 是 - 理由：展示了使用LLM作为评判员的评估结果，体现了这种新型评估方法的可行性与趋势，是方法的重要组成部分。表6: 有无NVV控制的CMOS对比结果 | 保留: 是 - 理由：展示了消融实验的结果，直接证明了显式NVV控制对感知质量的影响，支持了论文的核心发现之一（控制范式差异）。 📸 论文图片 ...

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音合成 #语音识别 #音频大模型 #预训练 #强化学习 🔥 评分：9.5/10 | arxiv 👥 作者与机构论文作者：Qwen Team (通义千问团队) 核心贡献者：Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等（按字母顺序排列，*表示通讯作者）所属机构：根据作者姓名和项目背景推断，主要来自阿里巴巴达摩院（DAMO Academy）和阿里云。论文未明确标注机构，但“Qwen Team”和“Alibaba Cloud”是明确的线索。 💡 毒舌点评亮点：这是一份堪称“全模态大模型工程教科书”的技术报告，从架构设计（混合MoE、ARIA）、训练策略（三阶段预训练、四阶段后训练）到评测体系（215个任务）都展现了无与伦比的系统性和工程实力，性能直接对标并超越了Gemini Pro，证明了中国团队在顶级多模态竞赛中的硬实力。槽点：论文读起来像一份极其详尽的“产品说明书”和“实验报告”，技术细节虽多，但对于“为什么这样设计”的深层科学原理探讨略显不足，更像是在展示“我们做到了”，而非完全解释“我们为何能以及如何想到的”。此外，不开源核心代码和模型，让学术社区只能“望API兴叹”。 ...

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别，#流式处理，#一致性正则化，#统一音频模型，#开源工具 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Andrei Andrusenko (NVIDIA, Armenia) 通讯作者：Vitaly Lavrukhin (NVIDIA, USA) - 基于联系邮箱推断其他作者： Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评亮点在于为统一ASR的“模式冲突”这个老大难问题，开了一剂叫MCR-RNNT的“正则化药方”，并且贴心地用Triton写好了“高效服用说明书”（GPU实现），让训练不至于慢到天荒地老。槽点是，这药方在延迟压到0.16秒这种“极限操作”时，药效似乎有点跟不上，而且双模式训练毕竟还是让显存和计算量翻了倍，钱包有点疼。 🔗 开源详情代码：已开源。论文中提供了GitHub链接（https://github.com/NVIDIA/NeMo 相关），框架基于NeMo。模型权重：已开源。在HuggingFace上发布了英文模型检查点：https://huggingface.co/nvidia/parakeet-unified-en-0.6b，参数量约600M（XL-size）。数据集：使用了公开的Granary数据集，但数据集本身是否由作者团队开源未在文中明确说明，仅提及是“public Granary dataset”。预训练权重：基于FastConformer编码器，但论文未明确说明是否使用了预训练权重进行初始化。在线 Demo：论文中未提及。引用的开源项目：依赖NeMo框架、PyTorch、Triton。 📌 核心摘要本文旨在解决训练单一自动语音识别（ASR）模型同时高效支持高精度离线转写和低延迟流式识别这一挑战。现有统一模型在低延迟流式模式下性能下降明显。作者提出了一个统一的RNN-Transducer (RNNT) 框架，其核心是结合了带右上下文的chunk限制注意力和动态chunk卷积（DCConv）来适配流式解码。为更进一步缩小离线与流式模式间的性能差距，本文创新性地引入了模式一致性正则化损失（MCR-RNNT），并通过高效的Triton内核实现，直接在RNNT的完整对齐格（lattice）上计算离线与流式输出分布的KL散度，鼓励两种模式下模型预测的一致性。实验表明，该方法在120K小时数据上训练的L-size模型，在多数流式延迟设定下（低至0.24秒）取得了最佳的权衡。将方法扩展到280K小时数据训练的600M参数XL模型，在Open ASR Leaderboard上达到5.76%的平均词错率（WER），在离线和流式场景均超越了强开源基线。该工作开源了代码和模型，为工业界部署统一ASR模型提供了高效解决方案。 🏗️ 模型架构论文提出的是一个统一的RNN-Transducer (RNNT) 模型，其核心思想是使用同一套模型参数，通过不同的输入处理方式（掩码和卷积操作）来同时支持离线和流式两种解码模式。 ...