NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成,#基准测试,#模型评估,#大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Liumeng Xue(南京大学,智能软件与系统实验室) 通讯作者:Hung-yi Lee(国立台湾大学,语音处理实验室),Yike Guo(香港科技大学,大数据研究院) 其他作者: Weizhen Bian(南京大学) Jiahao Pan(香港科技大学) Wenxuan Wang(南京大学) Yilin Ren(北京科技大学) Boyi Kang(西北工业大学) Jingbin Hu(上海交通大学) Ziyang Ma(南京大学) Shuai Wang(香港中文大学) Xinyuan Qian(南京大学) 💡 毒舌点评 这篇论文的亮点在于它像个“语音界的ISO标准委员会”,系统性地为“叹气、傻笑、打嗝”这些上不了台面的非语言声音建立了从分类、数据到评测的完整规范,方法严谨得像个实验手册。槽点是它主要贡献了一套“裁判培训手册”和“记分牌”,而不是训练出更会“叹气”的明星选手本身,对于追求新模型的读者来说可能不够“性感”。 🔗 开源详情 代码:论文中提到代码将通过GitHub开源(链接:https://github.com/lmxue/NVBench),但截至论文发布时(arXiv v1)可能尚未公开。 模型权重:本文不涉及新模型的发布,因此没有新的模型权重。评测的是现有系统。 数据集:论文明确指出NVBench双语评估数据集将开源,可通过项目主页(https://lmxue.github.io/NVBench/)获取。数据集包含45类NVV,每类50个实例,共2250个英文和2250个中文实例。 预训练权重:不适用。 在线 Demo:论文中未提及。 引用的开源项目:论文评测中引用了多个开源TTS系统,如ChatTTS、Bark、Fish-Speech、Orpheus TTS、CosyVoice 2、Dia等。评估中使用的ASR工具(Whisper-large-v3, paraformer-zh)和DNSMOS也是开源工具。 📌 核心摘要 本文旨在解决语音合成(TTS)领域中非语言声音(NVV,如笑声、叹息、哭泣)缺乏标准化评估框架的问题。为此,作者提出了NVBench,一个双语(英/中)基准测试。其核心方法包括:1)设计了一个涵盖45种NVV类型的统一分类法;2)构建了一个类型均衡的高质量双语评估数据集;3)提出了一套多轴评估协议,将通用语音自然度/质量与NVV特有的可控性、放置准确性和感知显著性解耦。通过对15个代表性TTS系统(包括商业和开源模型)的广泛评测,主要发现是:NVV的可控性常与语音整体质量解耦;低信噪比的口腔音(如咂嘴)和长时程情感性NVV(如哭泣)是当前系统的持续瓶颈。该工作为跨系统、跨控制接口的公平比较提供了统一框架,推动了拟人化语音生成的研究。 🏗️ 模型架构 本文的核心贡献并非提出一个新的端到端TTS模型架构,而是建立一个用于评估现有TTS系统NVV合成能力的基准测试框架(NVBench)。其整体流程如图1所示,可分为三个核心模块: 数据集模块:基于统一的45类NVV分类法,构建了一个包含2250个英文和2250个中文实例的平衡评估集。每个实例包含text(纯文本)、text_with_nvv(插入NVV标签的文本)、caption_with_nvv(描述NVV的自然语言 caption)和nvv_list(NVV类型标签)。 合成模块:将数据集输入到待评测的TTS系统中。这些系统分为两类: 基于标签(Tag-based)的系统:通过在文本中插入如[laugh]这样的标签来控制NVV生成(如ChatTTS, ElevenLabs)。 基于提示(Prompt-based)的系统:通过自然语言描述(caption)来控制语音属性,包括NVV(如Gemini, GPT-4o mini TTS)。 评估模块:采用多轴评估协议,对生成的语音进行三方面评估: 客观指标:包括语音质量(DNSMOS)、可懂度(WER/CER)、以及针对标签系统的NVV可控性指标(精确率、召回率、F1、归一化标签距离NTD)。 主观指标:通过人工听力测试评估自然度、质量、NVV感知效果、指令遵循度等。 LLM多评委评估:使用音频感知大语言模型(如Gemini 2.5 Pro)作为自动化评委,模仿主观评分标准进行可扩展的评估。 整个框架的设计目标是解耦和标准化,使得不同控制接口、不同能力的TTS系统可以在同一套数据和标准下进行公平比较。 ...

2026-04-20 · 更新于 2026-06-25 · 2 min · 238 words

PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing

📄 PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing #语音合成 #音视频 #动态时间规整 #大语言模型 #多语言 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 第一作者:Changi Hong(根据姓名顺序和论文常规推断) 通讯作者:Hong Kook Kim(根据论文常规,资深作者通常为通讯作者) 其他作者:Yoonah Song, Yoonah Song, Chaewoon Bang, Dayeon Gu, Do Hyun Lee 机构信息:论文摘要未提供明确的机构信息。根据arXiv常见模式和作者姓名,推断他们可能来自韩国某大学或研究机构(如光云大学等,因作者姓名为韩文)。具体实验室/课题组级别信息未在摘要中给出。 💡 毒舌点评 亮点:把配音的“对口型”难题,用DTW和音素距离这种信号处理+语音学的经典组合拳来解,思路清晰且工程上有效,比纯端到端黑箱更可解释。槽点:实验数据规模听起来不大(几个数据集),且在多语言实验中声称“表现最佳”却未与专门的多语言配音SOTA对比,有点“关起门来当第一”的味道。 🔗 开源详情 论文摘要中未提及任何关于代码、模型权重、数据集或预训练权重的开源计划。因此,推断相关资源未开源。 📌 核心摘要 这篇论文旨在解决自动配音(AD)中目标语音与源语音在时长和唇形上的同步难题。其核心贡献是提出了一套两阶段的文本改写方法,并集成到TTS系统中:首先通过语言模型进行等时性改写,确保目标语音时长匹配源语音;其次引入音素同步(PS),使用动态时间规整(DTW)和从训练数据中学习的元音距离,使目标文本的元音发音尽可能接近源语音元音,以提升唇形同步效果。进一步地,论文提出了PSComet,在音素相似性的基础上联合考虑语义相似性,以更好地保留原文含义。实验表明,该方法(PS-TTS和PS-Comet TTS)在韩-英、英-韩的唇读数据集和配音演员数据集上,多项客观指标优于无PS的TTS,并在某些指标上超越人类配音演员。跨语言实验(涉及法语)也验证了PSComet在平衡唇形同步与语义保留方面的优越性。该工作为提升自动配音的自然度和观感提供了实用且可解释的技术路径,但其效果高度依赖于源-目标语言对的音素映射质量和训练数据。 🏗️ 模型架构 PS-TTS系统是一个流程化的管线,而非单一的端到端模型。其整体流程如下: 输入:源视频(含源语音)和翻译后的目标语文本。 第一阶段:等时性文本改写 组件:一个预训练的语言模型(LM),如T5或BART。 功能:接收翻译文本,并在不改变其核心语义的前提下,通过增删、替换词汇或调整句式,生成一个新版本的目标文本,使得该文本用目标语言TTS系统合成的语音时长,与源语音时长尽可能一致。 设计理由:直接控制时长是配音同步的基础,利用LM进行改写比规则方法更灵活自然。 第二阶段:音素同步(PS) 组件:动态时间规整(DTW)算法,其局部代价函数基于元音距离。 功能:对源语音和第一阶段输出的目标文本(已转为音素序列)进行对齐。对齐的依据不是文本本身,而是元音的声学或发音特征相似度。论文提到使用从训练数据中学习到的“元音距离”作为DTW的局部代价。这意味着,在改写时,算法倾向于选择那些发音与对应源语音元音更相似的目标语元音,从而在发音时嘴型更接近,提升唇形同步(lip-sync)效果。 扩展 - PSComet:在PS的基础上,引入一个名为Comet的模型(可能是一个多语言预训练模型),它能够同时计算语义相似度和音素相似度。PSComet在DTW对齐或文本选择时,综合权衡这两个因素,避免为了极致的唇形同步而严重扭曲语义。 输出:经过两阶段优化的目标语文本。 TTS合成:将优化后的文本输入标准的TTS系统(如基于VITS、FastSpeech2等),生成最终的目标语音。 整体数据流:源语音 + 翻译文本 -> LM(等时性改写) -> 中间文本 -> DTW+PSComet(音素/语义同步改写) -> 优化文本 -> TTS引擎 -> 目标语音。 💡 核心创新点 将配音同步问题解耦为文本改写问题:创新性地将复杂的音视频同步挑战,转化为对翻译后文本进行两阶段(时长、音素)改写的自然语言处理任务,使得问题更结构化、可解释。 基于音素距离的DTW对齐机制:不同于传统的基于文本或语义的对齐,本方法创新地使用目标语与源语元音之间的发音相似度作为DTW对齐的驱动力,直接针对“唇形”这一物理属性进行优化,是提升lip-sync的关键。 语义-音素联合优化的PSComet:认识到单纯追求音素同步可能损害语义,提出了PSComet框架,在目标文本选择时联合优化语义保真度和音素相似度,实现了两者间的更好平衡,这是对单纯PS方法的重要改进。 🔬 细节详述 训练数据: 用于学习“元音距离”的数据:论文提及使用“训练数据”,但未明确具体名称。推测是用于训练底层TTS系统的多语言语音-文本对齐数据,从中可以提取元音的声学特征(如MFCC、F0)或发音特征(如Vowel Space)来计算距离。 用于评估的数据集:Korean and English lip-reading datasets(可能指LRS2/LRS3等)、a voice-actor dubbing dataset(自建或特定数据集)、以及French数据用于跨语言测试。 损失函数:论文主要描述的是流程方法而非可端到端训练的模型,因此未明确提及统一的损失函数。各阶段目标独立:等时性阶段目标为时长匹配;PS阶段目标为最小化DTW总代价(即累积的元音距离);PSComet阶段目标为最大化语义与音素联合得分。 训练策略: 语言模型(LM):使用预训练模型进行微调或直接提示工程(Prompting)进行文本改写。 元音距离模型:可能使用一个简单的神经网络或度量学习方法,在语音数据上训练,以区分不同元音的发音。 TTS系统:使用现成的预训练TTS模型(如VITS),在目标语言数据上微调或直接使用。 关键超参数:DTW中语义相似度和音素相似度的权重(在PSComet中),用于平衡两者的重要性。论文中应通过实验确定最佳权重。 推理细节:推理过程是一个确定性的流程:输入源语音和文本,依次经过LM改写、DTW对齐与文本优化,最后送入TTS生成语音。无随机采样。 数据增强/正则化:未明确提及。可能依赖于预训练LM和TTS模型自身的能力。 📊 实验结果 主要指标对比: 论文指出,PS-TTS和PS-Comet TTS在多个客观指标上优于不使用PS的TTS基线。 在韩-英和英-韩配音中,系统在某些指标上超越了人类配音演员。但摘要未给出具体数值(如LSE-D, LSE-C, SyncScore等唇形同步指标,或MOS、MOSNet等语音质量指标)。 跨语言实验(含法语)中,PSComet在所有语言对中表现最佳,在唇形同步精度和语义保留之间取得了最佳平衡。 消融实验:摘要隐含了消融对比:TTS (无PS) vs PS-TTS vs PS-Comet TTS。结果表明,加入PS能提升同步性,而进一步加入语义约束(PSComet)能在保持或提升同步性的同时,获得更好的语义保留。 与SOTA方法的对比:未在摘要中体现。这是主要缺陷之一。 用户研究/主观评价:摘要未提及是否有MOS等主观评价实验。 ⚖️ 评分理由 创新性:6.5/10。将语音合成与唇形同步通过文本改写和音素对齐相结合的思路具有启发性,PSComet的联合优化也是有价值的改进。但核心组件(LM, DTW, TTS)均为成熟技术,创新在于巧妙的流程设计和组合。 实验充分性:6.0/10。实验设计了多语言、多数据集验证,并与人类对比,有一定说服力。但缺乏与领域内已有SOTA方法的直接对比,且未提供具体实验数据数字,削弱了结论的强度。数据规模未知。 实用价值:7.5/10。直接针对影视、视频本地化中的自动配音痛点,提出的流程清晰,有望直接集成到现有配音工作流中,实用导向明确。 灌水程度:3.0/10(越低越好)。论文问题聚焦,方法描述清晰,无明显的冗余内容或夸大表述。主要不足在于实验对比不够全面。 🖼️ 图片与表格 由于用户未提供论文原文的图片和表格,仅基于摘要进行分析。 ...

2026-04-20 · 更新于 2026-06-25 · 1 min · 163 words

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音对话系统, #音频大模型, #多模态模型, #预训练, #流式处理 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:论文以“Qwen Team”署名,未明确列出第一作者。根据贡献者列表排序和惯例,Jin Xu(标注为*)很可能是核心贡献者及通讯作者。 通讯作者:Jin Xu (*) 其他作者:论文列出了大量核心贡献者(Core Contributors)和贡献者(Contributors),均来自阿里巴巴(Alibaba) 的通义千问(Qwen)团队。具体包括:Bin Han, Bowen Xu, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Hao Zhou, Jianxin Yang, Jingren Zhou, Keqin Chen, Lulu Hu, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Shurui Li, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zishan Guo, Zhifang Guo, Ziyang Ma 等。 💡 毒舌点评 亮点:这篇论文堪称“全模态六边形战士”,从音频编码器(AuT)到统一理解的Thinker,再到生成语音的Talker,最后到流式交互的ARIA,形成了一套完整且强大的技术栈,在215个基准上“刷榜”的实力令人印象深刻。 槽点:论文长得像一本小技术手册,信息密度极高,读起来需要耐力;另外,虽然API已开放,但未能开源代码和模型权重,对于学术界的研究复现和深度改进设置了门槛。 ...

2026-04-20 · 更新于 2026-06-25 · 2 min · 424 words

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

📄 Spatial-Aware Conditioned Fusion for Audio-Visual Navigation #声源定位 #多模态模型 #强化学习 #基准测试 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Shaohang Wu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室) 通讯作者:Yinfeng Yu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室;邮箱:yuyinfeng@xju.edu.cn) 其他作者:无其他作者 💡 毒舌点评 这篇论文把 FiLM 这瓶“旧酒”装进了音频-视觉导航的“新瓶”,效果居然出奇地好——只增加了 0.15M 参数就把 unheard 场景的 SR 拉高了 28 个百分点,堪称“少即是多”的典范。但槽点在于 SDLD 的 20 个离散区间完全靠拍脑袋(“30米除以20约等于1.5米步长”),连个区间数消融都没有;且整篇论文对 FiLM 的引用和改造堪称“教科书级搬运”,说成“建立新范式”多少有点给自己加戏。 🔗 开源详情 代码:论文中未提及开源计划,未提供 GitHub/GitLab 地址。 模型权重:未公开。 数据集:使用公开基准 SoundSpaces(Replica + Matterport3D),未发布新数据集。 预训练权重:未提供。 在线 Demo:未提及。 依赖开源项目:论文引用了 SoundSpaces、Habitat、PPO、GRU、LSTM 等公开框架/算法,但未明确列出代码依赖。 📌 核心摘要 本论文针对音频-视觉导航(AVN)中目标空间意图模糊、视觉特征缺乏听觉条件引导两大问题,提出了 Spatial-Aware Conditioned Fusion(SACF)框架。该框架首先设计了 Spatially Discretized Localization Descriptor(SDLD),将声源相对方向与距离离散化为 20 个区间并预测其概率分布,通过期望计算与 LSTM 时序精炼得到紧凑空间描述符;其次提出了 Audio-Descriptor Conditioned Visual Fusion(ACVF),基于音频嵌入与空间描述符生成 FiLM 通道调制参数(γ, β),对视觉特征图进行轻量化线性变换,从而抑制背景噪声、增强目标导向视觉表示。在 SoundSpaces 的 Replica 与 Matterport3D 数据集上,SACF 在深度输入设置下显著超越 SoundSpaces 基线,尤其在 Unheard 场景(未听过目标声音)下 Replica 的 SR 提升 28.2%、Matterport3D 的 SPL 提升 20.5%。整体模型参数量仅约 4.5M,以较低计算开销实现了强泛化性。局限性在于 RGB 输入下部分指标(如 SNA)仍略低于对比方法 AGSA,且未进行真实世界迁移验证。 ...

2026-04-20 · 更新于 2026-06-25 · 4 min · 761 words

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

📄 Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models #音频问答 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yanda Li(Mohamed bin Zayed University of Artificial Intelligence, UAE) 其他作者:Yuhan Liu(Mohamed bin Zayed University of Artificial Intelligence, UAE),Zirui Song(Mohamed bin Zayed University of Artificial Intelligence, UAE),Yunchao Wei(Beijing Jiaotong University, China),Martin Takáč(Mohamed bin Zayed University of Artificial Intelligence, UAE),Salem Lahlou(Mohamed bin Zayed University of Artificial Intelligence, UAE) 通讯作者:未明确标注(推断为 Salem Lahlou 或 Yanda Li,依据为末位作者惯例及第一作者联系邮箱 Yanda.Li@mbzuai.ac.ae) 💡 毒舌点评 把“音频糊一下再对比”这个直觉包装成了系统化的免训练解码框架,稳定性自适应和门控设计确实让方法显得精致而非粗暴;但Prefill阶段 latency 直接翻倍的事实被轻描淡写地塞进了Appendix,而且这招对 SALMONN 这类把音频压成语义查询向量的模型完全失效——本质上是在给统一LALMs的解码器打补丁,修的是架构遗留的bug。 ...

2026-04-20 · 更新于 2026-06-25 · 5 min · 999 words

The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction

📄 The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction #语音生物标志物 #多模态模型 #跨模态 #模型评估 📝 评分:2.5/10 | arxiv 👥 作者与机构 第一作者:Dhruvin Dungrani(Department of Information Systems, Independent Researchers) 通讯作者:未明确标注 其他作者:Disha Dungrani(Department of Information Systems, Independent Researchers) 💡 毒舌点评 这篇论文最大的学术贡献似乎是给“高管上过播音课所以声音不紧张”这个现象取了一个名叫“Acoustic Camouflage”的酷炫术语;全篇最硬核的技术栈是三个逻辑回归,放在今天大概连Kaggle入门赛都进不了前十。更尴尬的是,图1用MAE默默展示融合后误差其实变小了,与正文疯狂强调的Recall暴跌形成了史诗级互搏。 🔗 开源详情 代码:论文中未提及开源计划,无GitHub/GitLab地址。 模型权重:未公开。 数据集:使用公开数据集MAEC(Li et al., 2020),但论文未提供数据预处理脚本或划分方式。 预训练权重:使用了开源的FinBERT模型(Araci, 2019),但未说明具体版本或下载链接。 在线Demo:无。 依赖工具:仅提及FinBERT与MAEC,未列出具体框架(如PyTorch/TensorFlow/sklearn)。 📌 核心摘要 本研究探讨了在企业财报电话会议中,副语言声学特征(音高、抖动、停顿等)对预测灾难性股价下跌的效用。作者基于MAEC数据集,提取了两种模态的特征:文本端使用FinBERT计算脚本化开场白与即兴Q&A之间的情感极性差异(Sentiment Delta),音频端提取临床语音压力标记的方差特征(音高方差、抖动方差、平均NHR、非 voiced 分数方差)。为避免噪声早期传播,作者采用双流晚期融合架构——两个L1正则化逻辑回归分别处理单模态,再由一个L2正则化逻辑回归元学习器融合概率输出。实验发现,孤立文本流的少数类召回率达到66.25%,而孤立音频流仅50.83%;违背直觉的是,晚期融合后召回率进一步跌至47.08%。作者将这一现象命名为“Acoustic Camouflage”(声学伪装):经过媒体训练的高管能在语音上维持镇定,使音频流释放与真实风险相反的低风险噪声,从而在多模态平均中“稀释”了文本流的高风险信号。该研究为高风险金融预测中的语音处理应用划定了边界条件,但也指出VoIP压缩和降噪算法可能进一步破坏声学信号的真实性。 🏗️ 模型架构 论文提出的系统是一个极简���双流晚期融合诊断架构,整体流程如下: 1. 输入层 数据源:MAEC(Multimodal Aligned Earnings Conference Call)数据集,包含对齐的财报电话会议音频与文本转录。 文本输入:截取每场会议的两个片段——前1,500字符(高度脚本化的管理层开场白)和Q&A环节中1,500字符(非脚本化即兴回答)。 音频输入:与上述文本对齐的电话会议原始音频信号。 2. 特征提取层 ...

2026-04-20 · 更新于 2026-06-25 · 2 min · 402 words

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #音频大模型 #多模态模型 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 作者:Xiquan Li, Aurian Quelennec, Slim Essid 论文中未明确标注作者所属机构(无机构名称、邮箱或地址信息)。 💡 毒舌点评 亮点:用 229M 参数的“小不点”在乐器识别上干翻了 8B 参数的巨无霸,堪称音乐 AI 界的“蚁人”——小而强悍。槽点:模型架构基本是“MATPAC++ 和 SmolLM2 的包办婚姻”,9M 的投影器充当媒婆,核心工作量似乎全花在造 350 万条 QA 数据上了;而且既然叫 TinyMU,能不能把 135M 的 LLM 也再压缩压缩? 🔗 开源详情 代码:论文中未提及是否开源。 模型权重:论文中未提及是否公开。 数据集:论文中未提及是否公开获取方式。 预训练权重:论文中未提及。 在线 Demo:论文中未提及。 依赖开源项目:MATPAC++、SmolLM2、CLAP、ChatGPT(用于数据生成)。 📌 核心摘要 本文针对现有大型音频语言模型(LALM)参数庞大(数十亿级)、训练推理成本高、难以部署在边缘设备的问题,提出了 TinyMU——一个仅有 229M 参数的紧凑音乐语言模型。为此,作者构建了 MusicSkills-3.5M 数据集,包含 350 万个涵盖多选、二元判断和开放式格式的音乐问答样本,结合基于规则与 LLM 辅助的数据合成方法,覆盖流派、乐器、情绪、结构等多维度音乐知识。TinyMU 采用 MATPAC++(85M)作为自监督音频编码器提取细粒度特征,通过仅含两层线性层的轻量投影器(9M)与 SmolLM2-135M 语言模型对齐,并在训练时冻结编码器。实验表明,TinyMU 在乐器识别(Medley-Solos-DB)上甚至超过 8B 模型,在 MuChoMusic 推理基准上达到 SOTA 模型的 82%,同时体积缩小 35 倍。然而,论文在训练超参数、硬件开销等方面披露不足,且未开源。 ...

2026-04-20 · 更新于 2026-06-25 · 3 min · 611 words

VoxMind: An End-to-End Agentic Spoken Dialogue System

📄 VoxMind: An End-to-End Agentic Spoken Dialogue System #语音对话系统 #语音大模型 #端到端 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 共同第一作者:Tianle Liang(浙江大学;China University of Petroleum-Beijing at Karamay),Yifu Chen(浙江大学),Shengpeng Ji(浙江大学) 通讯作者:Zhou Zhao(浙江大学,zhaozhou@zju.edu.cn) 其他作者:Yijun Chen(China University of Petroleum-Beijing at Karamay),Zhiyang Jia(China University of Petroleum-Beijing at Karamay),Jingyu Lu(浙江大学),Fan Zhuo(浙江大学),Xueyi Pu(浙江大学),Yangzhuo Li(厦门大学) 💡 毒舌点评 亮点:VoxMind把文本Agent那套"先想后说"的套路成功塞进了端到端语音模型里,还顺手用"辅助LLM异步捞工具"治好了工具一多就卡顿的绝症,实验硬到能把Gemini-2.5-Pro按在地上摩擦。 槽点:470小时的训练数据全靠TTS合成,遇到真人说话时的"嗯…那个…"、结巴和背景噪音立刻掉7个点;所谓"Think-before-Speak"本质上就是在语音流里硬插了一段文本CoT,延迟该高还是高,作者自己也承认这是"必要的 trade-off"——翻译一下就是"我知道慢,但先忍着"。 🔗 开源详情 代码:完全开源,GitHub地址为 https://github.com/MM-Speech/VoxMind。论文未给出具体stars数量与框架版本依赖细节。 模型权重:基于开源模型StepAudio2进行监督微调。论文未明确说明是否将微调后的权重上传至HuggingFace等平台,但代码仓库公开通常暗示可复现。 数据集:开源AgentChat数据集,总规模约470小时。包含: AgentChat-Tool(约109小时,14,805条):覆盖单工具选择、多工具选择、参数填充、并行调用、主动检索、环境反馈观察等场景。 AgentChat-Normal(约361小时,38,681条):覆盖常识推理(ARC/SciQ)、数学推理(GSM8K)、课本知识与开放域对话。 补充数据:No-Tool跨模态数据(5.09小时)、Security安全数据、Text纯文本数据。 预训练权重:基于StepAudio2基座模型。 在线Demo:论文中未提及在线体验地址。 依赖工具/模型:PyTorch, DeepSpeed, CosyVoice2(语音合成), SeedTTS(音色多样化), Qwen-plus(数据清洗、CoT生成与质量评估), Gemini-2.5-Flash(自动评估器)。 📌 核心摘要 端到端语音对话模型在自然交互上进步迅速,但普遍缺乏处理复杂任务的agent能力(工具调用、规划、推理)。本文首先形式化定义了"端到端语音智能体"的四大维度——画像(Profile)、记忆(Memory)、规划(Planning)与执行(Action Execution),填补了该领域理论标准的空白。在此基础上提出VoxMind框架,引入"Think-before-Speak"机制,使模型在生成语音响应前显式产出结构化推理链(Chain-of-Thought);并构建470小时的AgentChat数据集,包含工具交互与通用对话数据,且全部标注了推理轨迹与工具调用标签。为解决大规模工具库带来的推理延迟爆炸问题,VoxMind设计了多智能体动态工具管理架构:主agent专注于推理与行动,辅助LLM异步从全局工具池中检索候选工具,仅当主agent判定本地工具不足时才动态扩容局部工具集,从而将推理延迟与工具库规模解耦。实验表明,VoxMind的任务总体完成率达74.57%,较基线StepAudio2(34.88%)相对提升113.79%,并超越闭源模型Gemini-2.5-Pro(71.51%);同时在VoiceBench通用对话评测上保持了与基线相当的能力。局限在于显式推理引入了额外的推理延迟,且AgentChat数据依赖TTS合成,与真实口语的自发性和不流畅性存在差距。 ...

2026-04-20 · 更新于 2026-06-25 · 5 min · 909 words

语音/音乐/音频论文速递 2026-04-20

语音/音乐/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-06-25 · 10 min · 2068 words

A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven's Piano and Cello Sonatas

📄 A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven’s Piano and Cello Sonatas #音乐信息检索 #音频理解 #信号处理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者(推断):Ignasi Sole (ignasiphd@gmail.com) (推断为独立研究者或博士生,论文未明确标注所属机构) 通讯作者(推断):Ignasi Sole (ignasiphd@gmail.com) 其他作者:Jordi Altayó(KTH皇家理工学院,VLSI设计博士研究员,协议合作开发者) 💡 毒舌点评 这篇论文的亮点在于,当高大上的AI算法在“老破小”的历史录音面前集体翻车时,作者没有硬着头皮调参,而是非常务实地回归了“人肉计算”,并且把这个手动过程包装得极其严谨、透明,甚至比很多黑箱算法还让人信服。槽点则是,在2026年还在主推一个耗时数百小时的手动计时协议,这方法论“复古”得让人梦回上世纪,可扩展性基本为零,堪称音乐分析领域的“手工匠人精神”展演。 🔗 开源详情 代码:是。Python代码(用于生成山脊图)和MATLAB代码(用于生成直方图)已在GitHub公开。地址:https://github.com/isolepinas/PhD-Appendix/tree/main/Tempo%20Dataset (论文中提及)。 模型权重:不适用,本文非机器学习模型。 数据集:是。完整的BPM数据集(包含累积时间戳、小节时长、计算出的BPM值)已在上述GitHub仓库公开。涵盖贝多芬五首钢琴与大提琴奏鸣曲的100多份录音。 预训练权重:不适用。 在线Demo:未提及。 论文中引用的开源项目:Sonic Visualizer, MUsanim (Music Animation Machine toolkit), Seaborn, Matplotlib, Pandas。 📌 核心摘要 本文旨在解决现有自动化节拍提取工具在分析历史复调室内乐录音(特别是贝多芬钢琴与大提琴奏鸣曲)时出现的系统性失败问题。作者与一名VLSI工程师合作,设计并验证了一套形式化的手动逐小节速度测量协议。该协议采用累积时间戳架构,使用数字秒表的圈速功能记录每个小节结束的累积时间,从而计算小节时长与瞬时BPM。其核心优势在于防止误差累积、允许内部自验证(所有小节时长之和必须等于总时长),并能精确捕捉自由速度、延长记号等表情性节奏变化。作者将该协议应用于1930年至2012年间超过100份录音,生成了公开的BPM数据集,并开发了包含tempograph、直方图、山脊图等多类型可视化工具套件。研究表明,在特定条件下,经过严谨设计和误差量化的人工标注方法,其可靠性和对音乐表现力的捕捉能力优于失效的自动化工具。该论文的主要贡献是方法论上的,为处理类似“困难”录音语料提供了可复现的解决方案。 🏗️ 模型架构 本文的核心并非一个计算模型,而是一套手动数据收集与处理协议。其整体架构(流程)如下: 输入:历史复调室内乐录音(音频文件)及对应乐谱。 核心测量流程: 工具:具备CSV导出功能的数字秒表应用(圈速计时器)。 操作:注释者跟随录音,在乐谱上标记的每个小节线处按下“圈速”按钮。 数据记录:秒表记录下从乐章开始到每个小节结束的累积时间戳(T_i),而非独立的小节时长。 数据处理与计算: 将累积时间戳导入电子表格(如Google Sheets)。 核心计算: 小节时长:Δt_i = T_i - T_{i-1} (其中 T_0 = 0)。 小节BPM:BPM_i = (n_i * 60) / Δt_i,其中 n_i 是该小节的拍数(来自节拍号)。 内部自验证:检查所有 Δt_i 的总和是否等于最终的累积时间 T_M(即乐章总时长),以此发现漏按或错按。 误差建模:分析人类反应时间(约±0.1秒)对单个BPM值的影响,并通过数学推导证明该误差是随机的、非累积的,且在段落平均中会相互抵消。 输出:每个乐章、每个录音的逐小节BPM数据集,以及基于此的多种可视化图表(tempograph, 直方图, 山脊图等)。 关键设计选择理由: ...

2026-04-19 · 更新于 2026-06-25 · 2 min · 253 words