How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

📄 How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection #音频深度伪造检测 #数据集 #模型评估 #语音合成 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #模型评估 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Xiao (斯图加特大学自然语言处理研究所) 通讯作者:未说明(论文未明确指出) 作者列表:Yixuan Xiao (斯图加特大学自然语言处理研究所)、Florian Lux (AppTek GmbH)、Alejandro Pérez-González-de-Martos (AppTek GmbH)、Ngoc Thang Vu (斯图加特大学自然语言处理研究所) 💡 毒舌点评 论文精准地抓住了“编解码器重合成音频既像好人又像坏人”这个痛点,并用一套严谨的实验给出了“看它心是为压缩而跳还是为合成而跳”的诊断思路,实用性拉满。不过,作者似乎更满足于揭示“病症”和提出“用药建议”,而对如何从根源上(即检测器架构层面)提升对这类模糊样本的鲁棒性,着墨甚少。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/XIAOYixuan/IMS-ADD/tree/codec-add,包含了训练脚本和代码库。 模型权重:未明确提及是否开源预训练的检测器权重。 数据集:公开。提供了两个获取途径:HuggingFace (https://huggingface.co/datasets/Flux9665/CodecDeepfakeDetection) 和 Zenodo (https://zenodo.org/records/17225924)。 Demo:未提及。 复现材料:提供了详细的训练超参数、数据增强策略、��据集划分统计等关键复现信息。 论文中引用的开源项目:引用了多个开源TTS系统和NAC模型作为攻击源,包括Llasa (XCodec2), MARS5 (EnCodec), CSM (Mimi), OpenAudio S1-mini (DAC), CosyVoice2/Chatterbox (S3Tokenizer),以及检测器AASIST。 📌 核心摘要 本文针对音频深度伪造检测领域中神经音频编解码器(NAC)的双重角色问题展开研究。NAC既可用于音频压缩传输(产生编解码器重合成音频CoRS),又可作为语音合成系统的声码器(产生编解码器语音合成音频CoSG)。这使得训练检测器时面临困境:CoRS应标注为真实还是伪造?为解决此问题,本文构建了一个基于ASVspoof 5协议的扩展数据集CodecDeepfakeDetection,包含多种TTS系统(Llasa, MARS5等)和NACs(EnCodec, Mimi, DAC等)。核心创新在于系统性地评估了将CoRS标注为“真实”或“伪造”对不同检测器(X-AASIST, LWBN)性能的影响。实验发现,标注策略的有效性取决于NAC的设计目标:对于以压缩为导向的NAC(如EnCodec, DAC),将其重合成音频标注为伪造会导致检测器过度学习编解码器伪影,从而错误拒绝经该NAC压缩的真实音频;而对于以合成为导向的NAC(如Mimi),将其标注为伪造更有效。主要实验结果表明,未使用NAC数据增强的基线模型在面对混合了CoRS的测试集时,等错误率(EER)高达约40%,而采用合适的增强策略(对部分NAC作为真实数据)可将其显著降低约8-11个百分点。本文的实际意义在于为构建对编解码器技术演变更鲁棒的检测系统提供了明确的数据标注指南。主要局限性在于研究主要集中于分析和提供见解,而非提出一个全新的、能统一处理此类模糊性的检测模型。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 243 words

Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations

📄 Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations #语音对话系统 #迁移学习 #多语言 #语音大模型 #数据集 ✅ 7.5/10 | 前50% | #语音对话系统 | #迁移学习 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Bhaskar Singh (JoshTalks) 通讯作者:未说明 作者列表:Bhaskar Singh (JoshTalks)、Shobhit Banga (JoshTalks)、Pranav Sharma (JoshTalks) 💡 毒舌点评 亮点:论文首次为印地语构建了开源、可复现的全双工对话系统,其核心贡献在于收集并利用了一个大规模(2.6万小时)、高质量的真实对话立体声数据集,这直接解决了该领域从零到一的“冷启动”数据难题,为后续所有印度语言的研究奠定了基础。短板:尽管声称“开放”,但论文未公开模型权重、代码或数据集,极大地限制了其可复现性和社区影响力;同时,实验部分缺少与其它基线模型(如Turn-based模型)的直接对比,使得对全双工架构优势的论证不够充分。 📌 核心摘要 解决的问题:目前,全双工语音对话系统(能够模拟打断、重叠等自然对话行为)的研究几乎完全集中在英语上,对于拥有数亿使用者的印地语等印度语言存在巨大空白。构建此类系统面临三大挑战:现有架构的英文分词器不适用于天城体文字、替换分词器需重新初始化参数、以及缺乏大规模真实对话立体声训练数据。 方法核心:论文采用“迁移学习+领域适配”策略。核心架构是基于英文的Moshi模型,但替换其英文SentencePiece分词器为印地语分词器,并重新初始化了所有与文本词汇相关的参数。训练冻结了Mimi神经音频编解码器(验证其对印地语有足够泛化能力),仅对RQ-Transformer进行两阶段训练:先在2.6万小时数据上预训练,再在精选的约1000小时数据上微调。 新在哪里:与已有工作相比,本文是首个针对印地语(及印度语言)的全双工对话系统开源框架;其关键创新在于收集并利用了规模巨大、质量可控的真实对话立体声数据集(26,000小时),而非使用朗读语音或合成数据;同时提出了适配预训练模型的“部分重训练”训练方案。 主要实验结果: 编解码质量:冻结的Mimi编解码器在印地语上PESQ为2.55±0.37,STOI为0.878±0.027,表明语音可懂度高(见表2)。 语言流畅度:生成语音的印地语困惑度(PPL)在温度τ=0.8时为356.9,高于真实语音的237.1,但优于更高温度下的结果(表3)。 人类评估:130位母语者评估显示,模型生成语音的自然度评分为4.10(人类为4.55),清晰度为3.04(人类为4.05)。在成对比较中,66.9%的情况被评为与人类无差异,表明质量接近人类水平(表4)。但在“上下文恰当性”(53%)和“回复完整性”(42%)上仍有明显差距。 对话轮次动态:分析表明,温度τ=0.9时生成的对话轮次统计(如间歇、停顿、重叠时长)与真实对话最接近(表5)。 模型 τ 自然度 (5分制) 清晰度 (5分制) 偏好 (人/模型/平局) 人类式互动通过率 恰当性通过率 完整性通过率 Ground-truth - 4.55 4.05 - - - - Human-1 - 4.10 3.04 30.0% / 3.1% / 66.9% ≈85% ≈53% ≈42% 实际意义:该工作为印地语乃至其他印度语言的实时、自然全双工对话系统铺平了道路,证明了在缺乏此类数据时,收集高质量真实对话数据是最关键的突破点,对开发符合当地语言习惯的AI助手具有重要价值。 主要局限性:1) 开源缺失:未公开代码、模型和数据,削弱了论文的影响力和可复现性。2) 数据同质性:虽然数据量大,但主要来自电话对话场景,可能无法完全代表所有印地语对话场景(如多人讨论、嘈杂环境)。3) 基线对比不足:未与简单的“轮流说话”模型等进行对比,难以量化全双工架构带来的具体增益。4) 长程上下文能力:人类评估显示模型在维持对话连贯性和生成完整回复方面存在不足。 🏗️ 模型架构 论文的模型架构直接复用了Moshi,一个端到端的全双工语音对话模型。其核心流程和组件如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 315 words

ICASSP 2026 - 数据集 论文列表

ICASSP 2026 - 数据集 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse 7.5分 前25% 🥈 Representation-Based Data Quality Audits for Audio 7.5分 前25% 🥉 AMBISONIC-DML: A Benchmark Dataset for Dynamic Higher-Order 7.5分 前25% 📋 论文详情 🥇 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse Response Dataset ✅ 7.5/10 | 前25% | #数据集 | #混合仿真 | #麦克风阵列 #空间音频 👥 作者与机构 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 380 words

Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts

📄 Interpretable Music Harmonic Analysis Through Multilinear Mixture of Experts #音乐理解 #混合专家模型 #模型评估 #音乐信息检索 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #混合专家模型 | #模型评估 #音乐信息检索 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Thanasis Triantafyllou(雅典大学信息与电信系) 通讯作者:未说明(论文未明确指定) 作者列表: Thanasis Triantafyllou(雅典大学信息与电信系) Mihalis A. Nicolaou(塞浦路斯大学,塞浦路斯研究所) Yannis Panagakis(雅典大学信息与电信系,Archimedes, Athena R.C.) 💡 毒舌点评 亮点在于首次将内在可解释架构(µMoE) 引入罗马数字分析任务,让模型决策变得对音乐学家“透明”,专家激活模式确实呈现出符合理论的五度圈和V-I关系。短板是性能相比基准模型RNBERT有1-2个点的下降,且实验局限于单一任务和特定数据集,未能充分展示该架构在其他音乐分析任务或更大规模模型上的潜力和鲁棒性。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/TomusD/muMoE-RNBERT 模型权重:论文中未提及是否公开µMoE-RNBERT的预训练模型权重。 数据集:论文使用的数据集由多个公开集合(如TAVERN, When in Rome等)组成,但未提供统一的下载链接或具体的预处理脚本。原始数据集需从各自来源获取。 Demo:论文中未提及在线演示。 复现材料:论文详细描述了训练策略、超参数、硬件环境、数据预处理和增强方法,为���现提供了充分的必要信息。 依赖的开源项目:明确依赖并基于MusicBERT模型进行微调。实现使用PyTorch框架。张量分解和µMoE的具体实现参考了论文[13](Oldfield et al., NeurIPS 2024)的方法。 📌 核心摘要 问题:现有基于Transformer的罗马数字分析(RNA)模型(如RNBERT)虽然性能先进,但缺乏可解释性,无法向音乐学家解释其分析背后的音乐理论依据,限制了其在学术研究中的应用价值。 核心方法:提出µMoE-RNBERT,通过用多线性混合专家(µMoE)层替换RNBERT中前馈网络(MLP)的线性层,构建第一个内在可解释的深度RNA系统。不同的专家子网络能够学习并专门处理不同的和声模式。 创新之处:是首个为RNA任务设计的内在可解释深度学习系统。不同于事后解释,其可解释性源于模型架构本身。该方法在保持与原始RNBERT几乎相同参数量(~26.7M)和计算成本的前提下,引入了专家专业化机制。 实验结果:在相同数据集和评估协议下,µMoE-RNBERT取得了与基准RNBERT可比但略低的性能。具体而言,整体罗马数字准确度(RN Accuracy)在74.6%-74.9%之间(基准为76.2%),在关键、质量、音级等子任务上也略有差距。但定性分析表明,专家激活显著遵循音乐理论,例如,不同专家专注于特定调性及其中的V-I进行,并呈现出五度圈的邻近调性模式。 实际意义:为音乐信息检索(MIR)和计算音乐学研究提供了一个可解释的AI工具。音乐学家可以观察并验证模型分析所依据的内部“音乐规则”,从而增进对模型行为的信任,并可能从中发现新的音乐结构洞见。 主要局限性:a) 性能相比当前最优基线有轻微损失;b) 可解释性分析主要基于可视化和统计观察,缺乏更系统的量化评估框架;c) 该方法的有效性尚未在其他音乐理解任务(如旋律生成、节奏分析)上得到验证。 🏗️ 模型架构 µMoE-RNBERT的整体架构基于RNBERT,其核心改动是将标准MLP层替换为µMoE层。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 225 words

Leveraging Large Speech Language Models as Evaluators for Expressive Speech

📄 Leveraging Large Speech Language Models as Evaluators for Expressive Speech #语音情感识别 #语音大模型 #模型评估 #预训练 #数据集 ✅ 6.5/10 | 前50% | #语音情感识别 | #语音大模型 | #模型评估 #预训练 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:未说明(论文署名为 Bismarck Bamfo Odoom, Philipp Koehn,未明确区分第一作者) 通讯作者:未说明 作者列表:Bismarck Bamfo Odoom(Johns Hopkins University, Center for Language and Speech Processing)、Philipp Koehn(Johns Hopkins University, Center for Language and Speech Processing) 💡 毒舌点评 这篇论文巧妙地将表达性语音评估任务转化为一个“听懂并描述”问题,让SLM兼职当“考官”,思路值得肯定。但遗憾的是,“考官”的评分体系(微调后的分类性能)虽然在数字上有所提升,却更像是完成了一份填空题答卷,而非输出了能指导TTS优化的深度分析报告,其“评估器”的真正价值尚未被充分挖掘和验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 225 words

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

📄 LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech #基准测试 #数据集 #语音识别 #语音翻译 #多语言 ✅ 7.8/10 | 前25% | #基准测试 | #数据集 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Yang(上海交通大学;阿里巴巴国际数字商务) 通讯作者:Chenyang Lyu(阿里巴巴国际数字商务) 作者列表: Fei Yang(上海交通大学;阿里巴巴国际数字商务) Xuanfan Ni(阿里巴巴国际数字商务) Renyi Yang(代尔夫特理工大学;阿里巴巴国际数字商务) Jiahui Geng(林雪平大学) Qing Li(格罗宁根大学) Chenyang Lyu(阿里巴巴国际数字商务) Yichao Du(阿里巴巴国际数字商务) Longyue Wang(阿里巴巴国际数字商务) Weihua Luo(阿里巴巴国际数字商务) Kaifu Zhang(阿里巴巴国际数字商务) 💡 毒舌点评 亮点:论文直面语音模型从“短句能手”到“长卷大师”转型过程中的评测荒漠,构建了一个任务全面、数据量级宏大(10万+段,每段约10分钟)的“压力测试场”,其“内容分离”和“时序定位”等任务设计尤其刁钻,能有效暴露模型在长上下文推理上的短板。短板:作为基准,其自身的“创新”更多是工程整合与任务设计,论文对实验结果的剖析深度略显不足(例如,为何某些模型在特定任务上崩溃?),且完全依赖GPT-4作为某些任务的评估器,引入了“用更贵的模型评估便宜的模型”的黑箱与成本问题。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文评估了多个现有模型,但未提及公开自己训练的模型权重。 数据集:论文明确表示“The benchmark will be made publicly available to the research community.”,即数据集计划开源,但未给出具体的下载链接或平台(如Hugging Face)。 Demo:论文中未提及。 复现材料:论文提供了数据构建的方法论和流程描述,这是重要的复现材料。但未提供数据预处理脚本、评估脚本或具体的超参数配置。 引用的开源项目:论文引用了被评估的音频语言模型的代码库或技术报告,如Whisper [1], Qwen2-Audio [5], Kimi-Audio [6], AudioFlamingo3 [9], Voxtral [10], DashengLM [11]。也引用了评估工具如GPT-4-Turbo [14]和指标库如ROUGE [13]。 📌 核心摘要 解决问题:现有语音基准测试(如LibriSpeech)主要针对短音频,无法有效评估模型处理真实世界长时音频(如会议、讲座)的能力,特别是在需要跨片段理解、推理和跟踪复杂信息时。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 250 words

LOTUSDIS: A Thai Far-Field Meeting Corpus for Robust Conversational ASR

📄 LOTUSDIS: A Thai Far-Field Meeting Corpus for Robust Conversational ASR #语音识别 #数据集 #远场语音 #迁移学习 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #远场语音 #迁移学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序标注第一作者) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Pattara Tipaksorn (NECTEC Speech and Text Understanding Research Team), Sumonmas Thatphithakkul (NECTEC Speech and Text Understanding Research Team), Vataya Chunwijitra (NECTEC Speech and Text Understanding Research Team), Kwanchiva Thangthai (NECTEC Speech and Text Understanding Research Team) 💡 毒舌点评 亮点:数据集设计非常“接地气”——在真实的、有冰箱和空调噪音的办公室里,用从领夹麦到10米远蓝牙音箱的多种普通设备录音,完美模拟了真实会议中“设备杂、距离远、有混响”的痛点,比用专业阵列录音更有工程实践价值。短板:论文的学术贡献主要停留在“造轮子立规矩”阶段,虽然验证了Whisper微调的有效性,但缺乏对ASR模型本身更深入的技术探索(例如如何更好地处理重叠或超远场语音),更像是一个详实的“产品说明书”和“测试报告”。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 220 words

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 348 words

MCF: Text LLMS for Multimodal Emotional Causality

📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学) 作者列表: Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) Yuxuan Zhang(西安交通大学-利物浦大学) Rui Chen(西安交通大学-利物浦大学) Man Lei(西安交通大学-利物浦大学) Yibo Yuan(西安交通大学-利物浦大学) Xiwei Liu(穆罕默德·本·扎耶德人工智能大学) Runyi Lin(西安交通大学-利物浦大学) Tianrui Li(西安交通大学-利物浦大学) Mingze Jiang(西安交通大学-利物浦大学) Anyi Liu(西安交通大学-利物浦大学) Yichen Li(华中科技大学) Chong Li(西安交通大学-利物浦大学) Jionglong Su(西安交通大学-利物浦大学) 💡 毒舌点评 亮点在于其核心思想颇具巧思:与其让笨重的多模态模型学会复杂推理,不如让擅长推理的文本LLM通过一个精巧的“翻译框架”(MCF)来“看懂”和“听懂”视频音频,最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件(如DFER-CLIP, SenseVoice),在完全不同的文化背景、视频风格或对话场景下是否依然有效,是个巨大的问号,论文并未提供跨域泛化的证据。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 334 words

MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech

📄 MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech #语音识别 #数据集 #语音大模型 #多任务学习 #开源工具 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音大模型 #多任务学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表: Jialong Mai(华南理工大学) Jinxin Ji(香港理工大学,同济大学) Xiaofen Xing(华南理工大学) Chen Yang(上海交通大学) Weidong Chen(香港中文大学) Jingyuan Xing(华南理工大学) Xiangmin Xu(华南理工大学,佛山大学) 💡 毒舌点评 亮点:论文精准切中了非语语音识别领域“数据荒”的痛点,并提供了一套从数据采集(LLM脚本生成)、标注(多模态LLM分割)到模型评估的完整解决方案,其17类平衡数据集的发布具有明确的实用价值。 短板:数据集总时长仅7.55小时,且采用“表演性”录制,其在真实、自发对话场景中的适用性存疑;实验虽全面但深度有限,仅评估了四个现成模型的微调性能,缺乏对数据本身声学特性或更复杂交互建模的深入探讨。 🔗 开源详情 代码:论文提供了GitHub仓库链接(https://github.com/yongaifadian1/MNV-17),但未明确说明该仓库是否包含数据处理或模型训练的代码。 模型权重:论文明确提到提供预训练模型检查点。 数据集:论文明确提到MNV-17数据集是公开的。 Demo:论文中未提及在线演示。 复现材料:论文提供了模型选择、训练策略(如优化器、学习率、LoRA参数)、数据划分协议等关键信息。但未提供完整的配置文件、数据预处理脚本或详细的硬件信息。 论文中引用的开源项目:引用了Praat(语音录制)、pyannote.audio(VAD,用于对比)、Montreal Forced Aligner(MFA,用于对比)、Paraformer、Whisper(未明确提及,但作为常见基线)、SenseVoice、Qwen2-Audio、Qwen2.5-Omni、Gemini(用于数据分割)。 📌 核心摘要 问题:主流自动语音识别系统无法识别语音中嵌入的非语语音(如笑声、叹气、咳嗽),这限制了对人类交流中情感和意图的全面理解。主要瓶颈在于缺乏高质量、标注精准且类别平衡的训练数据集。 方法:本文提出了MNV-17数据集,一个7.55小时的普通话“表演性”语音数据集,包含17类常见非语语音。通过大语言模型生成上下文自然的脚本,确保类别平衡和分布合理。录音后,利用音频多模态大模型(Gemini)进行精确的句子级时间戳标注,并用ASR模型(Whisper)进行质量过滤。 新意:相比于现有数据集(类别3-10个,最大/最小频率比高达516),MNV-17拥有最多的17个类别,且类别分布极为平衡(最大/最小频率比仅为2.7)。其“表演性”采集方式旨在获得清晰、明确的非语语音实例。 结果:在四个主流ASR模型(SenseVoice, Paraformer, Qwen2-Audio, Qwen2.5-Omni)上进行了联合转录与非语语音分类基准测试。关键结果如表2所示:Qwen2.5-Omni在联合字符错误率上取得最佳3.60%。关键结果如表3所示:非语语音识别准确率(要求类型、数量、顺序完全匹配)最高为SenseVoice和Qwen2.5-Omni的57.29%。关键结果如表4所示:多任务预训练模型在增加非语语音识别任务后,其核心ASR性能损失很小甚至有所提升(Qwen2-Audio的CER从3.05%降至2.60%)。 意义:为表达性语音理解提供了关键资源,验证了大型多任务音频模型能有效整合非语语音识别能力,且不损害甚至提升其核心转录性能,为未来更人性化的对话系统奠定了基础。 局限性:数据集总规模较小;“表演性”数据与真实自发语音可能存在差异;实验评估集中于现有模型的微调,未提出针对该任务的新型模型架构。 🏗️ 模型架构 本文并未提出新的模型架构,而是将MNV-17数据集应用于评估四种现有的主流ASR架构,并对其进行联合任务微调。主要架构类型为: ...

2026-04-29 · 更新于 2026-05-20 · 1 min · 176 words