语音合成 | 语音/音乐/音频论文速递

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

📄 Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking #数据集 #数据增强 #多语言 #低资源 #语音合成 #语音识别 🔥 8.6/10 | 前25% | #语音合成 | #数据增强 | #数据集 #多语言 | arxiv 学术质量 5.3/7 | 影响力 1.3/2 | 可复现性 2/2 | 置信度高 👥 作者与机构 Songbo Hu1, Yinhong Liu1, Ej Zhou1*, Evgeniia Razumovskaia1, Xiaobin Wang2, Alexander Fraser3, Ivan Vulić1†, Anna Korhonen1† 1语言技术实验室，剑桥大学，英国 2独立研究者 3计算、信息与技术学院，慕尼黑工业大学，德国 *共同第一作者，†共同通讯作者 💡 毒舌点评这篇论文做了一件“正确但保守”的事：为多语言对话系统构建了一个大规模、高质量的基准数据集。其方法论清晰，开源彻底，是社区需要的基础设施。然而，主要问题在于其“合成”本质和“管道式”评估框架。用LLM生成对话再由人录音，虽然解决了隐私和成本问题，但得到的终究是“假设性”的健康咨询，与真实世界复杂、混乱的患者交互相去甚远。更关键的是，所有基准测试都基于传统的ASR->检索->LLM->TTS管道，这固然是当前的技术现实，但使得数据集的核心价值——支持原生语音对话模型研究——大打折扣。论文在揭示跨语言性能差异上做得不错，但这更多是现有模型（如Whisper, GPT）多语言能力不均衡的反映，而非数据集本身的独特发现。总体而言，这是一篇扎实的资源论文，但未能在方法论或系统评估上带来突破性视角，更像是一份详尽的“使用说明书”。 ...

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

📄 HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding #语音合成 #语音识别 #自监督学习 #知识蒸馏 #多任务学习 #模型压缩 🔥 8.6/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #知识蒸馏 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu. 机构: 1. 上海交通大学 X-LANCE 实验室；2. 小红书 Hi-lab。 ...

MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables

📄 MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables #语音合成 #语音识别 #变分推断 ✅ 7.3/10 | 前50% | #语音合成 | #变分推断 | #语音识别 | arxiv 学术质量 5.9/7 | 影响力 1.4/2 | 可复现性 0/2 | 置信度中 👥 作者与机构 Sung-Lin Yeh\(^{1}\), Wei Zhou\(^{2}\), Gil Keren\(^{3}\), Duc Le\(^{3}\), Zhong Meng\(^{3}\), Hao Tang\(^{3}\), Jay Mahadeokar\(^{3}\), Ozlem Kalinli\(^{3}\), Alexandre Mourachko\(^{3}\) (\(^{1}\)University of Edinburgh, \(^{2}\)Google DeepMind, \(^{3}\)Meta Superintelligence Labs) 📌 核心摘要本文提出了MELD（Mel-Spectrogram-Based Discrete Latent Language Model），一种基于梅尔频谱图和离散潜变量的语音语言模型框架。其核心创新在于联合优化一个量化编码器和一个自回归语言模型，直接对连续的梅尔频谱帧进行建模，从而避免了传统两阶段方法（先训练独立的编码器/编解码器，再训练语言模型）中编码器无法感知下游任务目标的问题。MELD通过引入离散潜变量空间进行采样，有效缓解了直接自回归建模梅尔频谱时常见的静音延长和单词遗漏问题。模型在单一框架内通过不同的控制令牌（<TTS> 和 <STT>）支持零样本文本到语音（TTS）合成和语音到文本（STT）识别任务，并在LibriSpeech数据集上展示了相比基线方法（如Codec-LM、MELLE、dMel）的优势，特别是在STT性能和联合TTS-STT建模方面。 ...

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构：CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

The WER Trap: Shattering the Illusion of Unified Tokens in Speech Language Models

📄 The WER Trap: Shattering the Illusion of Unified Tokens in Speech Language Models #语音识别 #语音合成 #自监督学习 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #语音合成 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 0.3/2 | 置信度高 👥 作者与机构 Xiangyu Zhang (The University of New South Wales), Yuxin Li (Nanyang Technological University), Haoyang Zhang (Nanyang Technological University), Shiqi Han (The University of New South Wales), Hexin Liu (Nanyang Technological University), Qiquan Zhang (The University of New South Wales), Beena Ahmed (The University of New South Wales), Julien Epps (The University of New South Wales) ...

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

📄 VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents #语音合成 #语音识别 #多模态模型 ✅ 7.9/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Amrita Mazumdar, Seonwook Park, Rajarshi Roy, Nikhil Srihari, Shengze Wang, Yuhao Zhou, Julia Wang, Koki Nagano, Shalini De Mello. 机构：NVIDIA, David AI. 论文为arXiv预印本（ID: 2605.30256），未说明投稿会议。 💡 毒舌点评这篇论文做了一件“正确但不够性感”的事：它为新兴的全双工音视觉对话代理领域建立了一个急需的评估基准。这就像给一群刚学会跑的婴儿做体能测试——很有必要，但别指望能测出马拉松冠军。其核心贡献在于“定义问题”而非“解决问题”，这在学术上是合法的，但也意味着其影响力上限在论文发表时就已被锁定。实验设计严谨，分析也很到位，尤其是对级联系统局限性的剖析。然而，数据集规模（237片段）和语言单一性（英语）是其阿喀琉斯之踵，严重限制了结论的普适性。用它来评判现有模型可以，但若想用它指导下一代模型的设计，那证据就稍显薄弱了。 📌 核心摘要本文提出了VideoFDB，首个用于评估全双工音视觉到音视觉（AV2AV）对话代理的基准。现有基准无法评估代理同时听、说、观察并产生非语言线索（如点头、微笑）的能力。VideoFDB包含：1）一个基于非语言交流科学的分类法，涵盖11种对话动态；2）一个包含237个人类标注双人视频通话片段的数据集；3）一个基于评分标准和语言模型裁判的评估框架，从“感知”（流利度、对话流、语义关联）和“生成”（情感匹配、非语言线索恰当性）两个维度评估代理。实验评估了闭源（Gemini, OpenAI）和开源（MiniCPM-o等）模型，以及级联语音-头像系统。主要发现是：所有模型均远低于人类水平；视觉输入常被用于显式问答而非提升对话动态；级联系统无法生成实时、独立的非语言线索。这揭示了当前系统在利用视觉信息进行自然对话方面的根本局限。 🔗 开源详情代码：论文中提及将发布评估代码至公开的HuggingFace，但未提供具体URL或代码仓库链接。复现所需的评估流程、Prompt模板（附录F.5与F.6）、评分标准（Rubric）详细说明见于论文附录F。模型权重：论文评估了多个开源模型（MiniCPM-o 4.5， MiniOmni2， VITA-1.5），但未在论文中提供其模型权重的具体下载链接。这些模型的权重通常可在其各自的GitHub仓库中获取。数据集：论文提供了VideoFDB评估数据集的匿名访问地址及访问方式。匿名访问页面：https://anonvfdb.github.io/ 访问密码：sH6A+P12qMaJWtyMJ2vIx9Oi 承诺在论文发表前，将数据集发布至公开的HuggingFace，但未提供具体链接。匿名页面包含两个验证片段、分类法和元数据模式，完整数据集约5GB。复现材料：论文附录详细描述了评测流程、Prompt模板（Appendix F.5 与 F.6）、评分准则（Rubric）以及数据集构建细节（Appendix A），这些构成复现评测的关键材料。论文中引用的开源项目：模型/方法：论文引用了Moshi, dGSLM, OmniFlatten, SyncLLM, SALM, PersonaPlex, Qwen2.5/Qwen3-Omni, MiniCPM-o, MiniOmni2, VITA-1.5等开源项目。工具/平台：LiveKit, Anam, Keyframe, Silero VAD, Parakeet ASR。补充链接（自动提取）：代码仓库：https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf 代码仓库：https://github.com/snakers4/silero-vad HuggingFace：https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 🏗️ 方法概述和架构 VideoFDB的核心方法是构建一个全面的评估体系，包含三个相互关联的组件：评估数据集、评估框架和评估指标。 ...

Benchmarking AI for low-resource contexts: Thinking beyond leaderboards

📄 Benchmarking AI for low-resource contexts: Thinking beyond leaderboards #语音识别 #语音合成 #语音增强 #计算机视觉 #低资源 📝 5.1/10 | 后50% | #语音识别 | #语音合成 | #语音增强 #计算机视觉 | arxiv 学术质量 4.5/7 | 影响力 0.3/2 | 可复现性 0.3/2 👥 作者与机构 Aakash Pant, Kavya Shah, Apoorv Agnihotri, Sneha Nikam, Prasaanth Balraj, Nakul Jain. ( 表示同等贡献). 机构：Wadhwani AI Global. 日期：2026年5月. 💡 毒舌点评这篇论文像一份写给捐赠机构和政策制定者的“高级产品说明书”。其核心诉求（别只看排行榜，要看实际部署）在AI领域确实是个老生常谈但至关重要的痛点，尤其是在医疗、农业等低资源场景。优点是逻辑清晰、目标明确，且贴心地附上了“基准卡”这种傻瓜式工具，试图弥合技术社区与非技术决策者之间的鸿沟。然而，它的弱点也异常明显：这是一份纯粹的“倡议书”或“愿景文档”。全文没有提出任何新颖的算法、模型或实验方法，而是对现有基准（FLEURS, HELM, ImageNet-C等）进行了一次梳理和重新包装。它的“创新”更多体现在视角和倡导上，而非技术贡献。对于寻求具体技术突破的读者（如NeurIPS/ICML的典型审稿人）来说，这可能显得“干货不足”。论文最大的硬伤是缺乏任何形式的实证验证：它提出的框架是否有效？基准卡在实际采购中是否真的能帮助决策？读者无从知晓。它更像是一个设计精良的提案，而非一篇完整的科研论文。 📌 核心摘要本文是一篇系统性白皮书，旨在批判当前AI基准测试（以排行榜为代表）在评估面向低资源环境（如网络不稳、设备低端、多语言代码转换）部署的系统时的不足。作者指出，现有评估通常孤立地测试模型性能，而忽略了由数据捕获、预处理、工作流和运行条件构成的完整系统。论文提出了一种新的评估范式：1）将“部署系统”而非“孤立模型”作为评估的基本单元；2）采用三层评估框架（组件层、工作流层、运行条件层）分别报告性能；3）为语音、对话/RAG、视觉三类应用定义包含压力测试和核心指标的标准化“基准卡”。最终目标是提供一个对部署上下文敏感、可操作的标准化报告框架，以真正支持低资源环境下的AI系统选型与部署决策。 🔗 开源详情代码：论文中未提及任何新开发的代码或框架实现。模型权重：论文中未提及任何模型权重。数据集：论文未提供新数据集。文中提及了多个现有基准数据集用于说明，具体如下： FLEURS: 用于多语言语音任务评估。链接：https://doi.org/10.1109/SLT54892.2023.10023141 Speech Robust Bench: 用于ASR鲁棒性评估。链接：https://openreview.net/forum?id=D0LuQNZfEl HELM / HELM Instruct: 用于大语言模型综合评估。链接：https://crfm.stanford.edu/helm/ 和 https://crfm.stanford.edu/helm/instruct/latest/ RAGAs: 用于RAG管道评估。链接：https://doi.org/10.18653/v1/2024.eacl-demo.16 CRAG: 用于检索增强生成评估。链接：https://github.com/facebookresearch/CRAG ImageNet-C / ImageNet-P: 用于图像鲁棒性（损坏和扰动）评估。链接：https://doi.org/10.48550/arXiv.1903.12261 WILDS: 用于野外分布偏移评估。链接：https://doi.org/10.48550/arXiv.2012.07421 COCO-C, PASCAL-C, Cityscapes-C: 用于目标检测/分割的鲁棒性评估，具体链接未在论文中提供，参考文献[14]。其他提及的本地多语言测试集、领域特定评估集等，均未提供统一获取链接。 Demo：论文中未提及。复现材料：论文中未提及。 🏗️ 方法概述和架构本文的方法论核心是提出一个用于设计和评估低资源AI部署系统的框架，而非具体的算法实现。该框架的核心架构包括以下几个关键组成部分： ...

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

📄 Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios #语音合成 #情感语音合成 🔥 9.9/10 | 前25% | #语音合成 | #情感语音合成 | arxiv 学术质量 6.4/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构第一作者：Changhao Pan (浙江大学)。通讯作者：Zhou Zhao (浙江大学)。作者单位包括浙江大学和字节跳动。 💡 毒舌点评一篇扎实、必要且组织良好的基准测试论文。它成功地将“长语音生成质量”这个模糊概念拆解为可量化的维度，并提供了目前最全面的评估框架。然而，它的“杀手锏”——基于Gemini Pro的表达力评估——却是一个黑盒，这为基准的长期可复现性埋下了隐患。实验规模宏大，但闭源模型的“遥遥领先”与开源模型的“努力追赶”形成了鲜明对比，清晰地勾勒出了技术差距。数据构建流程详尽得令人印象深刻，甚至用上了GPT-5和DeepSeek V3.2，堪称“用前沿AI评测前沿AI”的典范。总体而言，这是一份对社区贡献极大的资源，但它的价值很大程度上依赖于所用闭源评估器的持续稳定和可用性。 📌 核心摘要本文提出了SwanBench-Speech，一个针对长语音生成（包括单说话人长文本和对话生成）的综合性评估基准。该基准覆盖了17种下游应用场景，基于声学、语义和表现力三大核心挑战，构建了包含1101个样本的测试集。论文设计了一个包含7个自动评估指标（音色一致性、混响一致性、声音保真度、内容准确率、韵律连贯性、表现丰富性、表现层次性）的评估协议，并通过人类感知测试验证了指标与人类评分的相关性。通过对16个单说话人模型和10个对话生成模型的广泛实验，论文揭示了当前模型的优势与不足：在保真度和准确率上已接近人类水平，但在混响一致性、韵律连贯性和表现层次性上仍有显著差距；模型在高表现力场景中性能下降；自回归（AR）与非自回归（NAR）模型在表现力和内容准确率上存在权衡；训练数据质量（如片段长度、声场稳定性）比数量更重要。 🔗 开源详情代码：论文承诺开源全部代码库，包括数据处理和评估脚本。项目主页已提供（https://swanaigc.github.io/#bench），但GitHub具体仓库链接在当前版本中尚未明确给出。模型权重：不涉及。SwanBench-Speech是评估基准，不包含模型。论文评估的开源模型（如CosyVoice, FishSpeech等）有其各自的开源仓库，但论文未在本文中集中提供链接。数据集：论文明确承诺在HuggingFace上以CC BY-NC-SA 4.0许可证开源SwanBench-Speech测试集（1101个样本）。 Demo：在线演示链接为 https://swanaigc.github.io/#bench。复现材料：论文提供了极其详尽的附录，涵盖了数据构建流程、评估协议细节、实验设置、消融研究、更多结果分析等。评估使用的所有第三方工具（如FunASR Nano, WhisperX, SRMRpy等）均已列出其开源地址。论文中引用的关键开源项目： SenseVoice (转写): https://huggingface.co/FunAudioLLM/SenseVoiceSmall Paraformer (对齐，中文): https://modelscope.cn/models/iic/speech_timestamp_prediction-v1-16k-offline WhisperX (对齐，英文): https://github.com/m-bain/whisperX FunASR Nano (ASR): https://github.com/FunAudioLLM/Fun-ASR-Nano-2512 WavLM TDCNN (说话人嵌入): https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification SRMRpy (混响评估): https://github.com/jfsantos/SRMRpy SpeechJudge (韵律评估模型，基于Qwen2.5-Omni-7B): 论文提及为微调模型，未提供独立开源链接。 SentenceBERT (去重): https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2 VAD模型: https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch 和 https://github.com/snakers4/silero-vad Torchaudio SQUIM: https://docs.pytorch.org/audio/main/tutorials/squim_tutorial.html JiWER (WER/CER计算): https://pypi.org/project/jiwer/ 🏗️ 方法概述和架构 SwanBench-Speech的构建是一个系统化、多阶段的工程，其核心架构可分为三个相互关联的模块：测试集构建、评估协议设计与大规模实验分析。 ...

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors

📄 I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors #语音合成 ✅ 6.5/10 | 前50% | #语音合成 | #语音合成 | arxiv 学术质量 4.3/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构论文作者为 Lelia Erscoi 和 Tomi Kinnunen，隶属于芬兰东芬兰大学计算语音组。 💡 毒舌点评这篇论文试图将合成语音检测从纯粹的技术挑战扩展到社会技术语境，想法值得肯定。然而，它读起来更像一篇心理学或人机交互领域的实验报告，其“社会技术”框架下的核心实验操纵（三种信任线索）均未产生显著效果，这严重削弱了其理论贡献。实验设计本身存在根本性缺陷：在一个明确告知用户“检测合成语音”的任务中，探讨“信任”如何影响判断，无异于在一场明确的反恐演习中研究路人对可疑包裹的自然反应——其生态效度值得怀疑。方法上，47人的样本量、20个刺激、单一TTS模型生成策略，很难支撑其宣称的“生态效度较高”的结论。论文最大的价值在于实证了普通人在受控条件下对当前高质量合成语音的检测能力低下，但这几乎是一个已知事实（文献综述已大量引用），而其试图探索的“社会技术”维度并未提供新的洞见。开源信息几乎为零，复现性很差。 📌 核心摘要本研究是一项关于人类检测合成语音能力的实证研究，属于感知心理学与人机交互的交叉领域。论文将合成语音检测置于一个“社会技术信任”框架下，提出环境上下文（如指令框架、情感启动、来源标注）是影响人类判断的关键但被忽视的维度。研究采用在线实验（N=47），设计了一种“合成语音定位任务”：参与者在聆听混有真实、完全合成和部分合成语音的20段音频时，需标注出可疑片段。三种信任线索作为自变量进行操纵。主要发现包括：1）话语类型（真实/部分合成/完全合成）是检测准确性的决定性因素；2）三种信任线索对检测准确性均无显著主效应；3）参与者的主观质量评分能区分语音类型，但与客观检测行为脱节；4）参与者表现出系统性过度自信。结论指出，期望普通用户在复杂社会技术环境中独立、可靠地检测合成语音是不现实的。 🔗 开源详情代码：未提及。论文使用Python和Streamlit开发了实验平台，但未公开实验代码或分析代码。模型权重：未提及。论文未提供其实验所涉及的任何模型的权重。数据集：论文主要使用 LlamaPartialSpoof 数据集，并提供了指向其生成所用TTS模型（LJ JETS等）的GitHub/HuggingFace链接。数据集本身的具体下载链接未直接提供，但引用了相关工作。论文引用了 LibriTTS 数据集（作为LlamaPartialSpoof的说话人来源），但未提供其直接下载链接。论文引用了 Open Affective Standardized Image Set (OASIS) 用于情感启动，提供了引用信息。论文引用了 International Soundscape Database 用于环境音，提供了引用信息。 Demo：未提及。复现材料：未提及。论文详细描述了方法，但未提供实验材料、配置或数据的下载链接。论文中引用的开源项目： LJ JETS: https://github.com/espnet/espnet/tree/master/egs2/ljspeech/tts1 YourTTS: https://github.com/coqui-ai/TTS/ XTTS V2: https://huggingface.co/coqui/XTTS-v2 GPT-SoVITS: https://huggingface.co/lj1995/GPT-SoVITS/tree/main CosyVoice: https://github.com/FunAudioLLM/CosyVoice ElevenLabs: https://elevenlabs.io （作为商业服务引用） Streamlit: https://streamlit.io 🏗️ 方法概述和架构本研究的核心方法是设计并实施一项人类感知实验，以探究社会技术因素对合成语音检测行为的影响。其架构可分为五个相互关联的组件： ...