语音合成 | 语音/音乐/音频论文速递

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

📄 VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents #语音合成 #语音识别 #多模态模型 ✅ 7.9/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Amrita Mazumdar, Seonwook Park, Rajarshi Roy, Nikhil Srihari, Shengze Wang, Yuhao Zhou, Julia Wang, Koki Nagano, Shalini De Mello. 机构：NVIDIA, David AI. 论文为arXiv预印本（ID: 2605.30256），未说明投稿会议。 💡 毒舌点评这篇论文做了一件“正确但不够性感”的事：它为新兴的全双工音视觉对话代理领域建立了一个急需的评估基准。这就像给一群刚学会跑的婴儿做体能测试——很有必要，但别指望能测出马拉松冠军。其核心贡献在于“定义问题”而非“解决问题”，这在学术上是合法的，但也意味着其影响力上限在论文发表时就已被锁定。实验设计严谨，分析也很到位，尤其是对级联系统局限性的剖析。然而，数据集规模（237片段）和语言单一性（英语）是其阿喀琉斯之踵，严重限制了结论的普适性。用它来评判现有模型可以，但若想用它指导下一代模型的设计，那证据就稍显薄弱了。 📌 核心摘要本文提出了VideoFDB，首个用于评估全双工音视觉到音视觉（AV2AV）对话代理的基准。现有基准无法评估代理同时听、说、观察并产生非语言线索（如点头、微笑）的能力。VideoFDB包含：1）一个基于非语言交流科学的分类法，涵盖11种对话动态；2）一个包含237个人类标注双人视频通话片段的数据集；3）一个基于评分标准和语言模型裁判的评估框架，从“感知”（流利度、对话流、语义关联）和“生成”（情感匹配、非语言线索恰当性）两个维度评估代理。实验评估了闭源（Gemini, OpenAI）和开源（MiniCPM-o等）模型，以及级联语音-头像系统。主要发现是：所有模型均远低于人类水平；视觉输入常被用于显式问答而非提升对话动态；级联系统无法生成实时、独立的非语言线索。这揭示了当前系统在利用视觉信息进行自然对话方面的根本局限。 🔗 开源详情代码：论文中提及将发布评估代码至公开的HuggingFace，但未提供具体URL或代码仓库链接。复现所需的评估流程、Prompt模板（附录F.5与F.6）、评分标准（Rubric）详细说明见于论文附录F。模型权重：论文评估了多个开源模型（MiniCPM-o 4.5， MiniOmni2， VITA-1.5），但未在论文中提供其模型权重的具体下载链接。这些模型的权重通常可在其各自的GitHub仓库中获取。数据集：论文提供了VideoFDB评估数据集的匿名访问地址及访问方式。匿名访问页面：https://anonvfdb.github.io/ 访问密码：sH6A+P12qMaJWtyMJ2vIx9Oi 承诺在论文发表前，将数据集发布至公开的HuggingFace，但未提供具体链接。匿名页面包含两个验证片段、分类法和元数据模式，完整数据集约5GB。复现材料：论文附录详细描述了评测流程、Prompt模板（Appendix F.5 与 F.6）、评分准则（Rubric）以及数据集构建细节（Appendix A），这些构成复现评测的关键材料。论文中引用的开源项目：模型/方法：论文引用了Moshi, dGSLM, OmniFlatten, SyncLLM, SALM, PersonaPlex, Qwen2.5/Qwen3-Omni, MiniCPM-o, MiniOmni2, VITA-1.5等开源项目。工具/平台：LiveKit, Anam, Keyframe, Silero VAD, Parakeet ASR。补充链接（自动提取）：代码仓库：https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf 代码仓库：https://github.com/snakers4/silero-vad HuggingFace：https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 🏗️ 方法概述和架构 VideoFDB的核心方法是构建一个全面的评估体系，包含三个相互关联的组件：评估数据集、评估框架和评估指标。 ...

Benchmarking AI for low-resource contexts: Thinking beyond leaderboards

📄 Benchmarking AI for low-resource contexts: Thinking beyond leaderboards #语音识别 #语音合成 #语音增强 #计算机视觉 #低资源 📝 5.1/10 | 后50% | #语音识别 | #语音合成 | #语音增强 #计算机视觉 | arxiv 学术质量 4.5/7 | 影响力 0.3/2 | 可复现性 0.3/2 👥 作者与机构 Aakash Pant, Kavya Shah, Apoorv Agnihotri, Sneha Nikam, Prasaanth Balraj, Nakul Jain. ( 表示同等贡献). 机构：Wadhwani AI Global. 日期：2026年5月. 💡 毒舌点评这篇论文像一份写给捐赠机构和政策制定者的“高级产品说明书”。其核心诉求（别只看排行榜，要看实际部署）在AI领域确实是个老生常谈但至关重要的痛点，尤其是在医疗、农业等低资源场景。优点是逻辑清晰、目标明确，且贴心地附上了“基准卡”这种傻瓜式工具，试图弥合技术社区与非技术决策者之间的鸿沟。然而，它的弱点也异常明显：这是一份纯粹的“倡议书”或“愿景文档”。全文没有提出任何新颖的算法、模型或实验方法，而是对现有基准（FLEURS, HELM, ImageNet-C等）进行了一次梳理和重新包装。它的“创新”更多体现在视角和倡导上，而非技术贡献。对于寻求具体技术突破的读者（如NeurIPS/ICML的典型审稿人）来说，这可能显得“干货不足”。论文最大的硬伤是缺乏任何形式的实证验证：它提出的框架是否有效？基准卡在实际采购中是否真的能帮助决策？读者无从知晓。它更像是一个设计精良的提案，而非一篇完整的科研论文。 📌 核心摘要本文是一篇系统性白皮书，旨在批判当前AI基准测试（以排行榜为代表）在评估面向低资源环境（如网络不稳、设备低端、多语言代码转换）部署的系统时的不足。作者指出，现有评估通常孤立地测试模型性能，而忽略了由数据捕获、预处理、工作流和运行条件构成的完整系统。论文提出了一种新的评估范式：1）将“部署系统”而非“孤立模型”作为评估的基本单元；2）采用三层评估框架（组件层、工作流层、运行条件层）分别报告性能；3）为语音、对话/RAG、视觉三类应用定义包含压力测试和核心指标的标准化“基准卡”。最终目标是提供一个对部署上下文敏感、可操作的标准化报告框架，以真正支持低资源环境下的AI系统选型与部署决策。 🔗 开源详情代码：论文中未提及任何新开发的代码或框架实现。模型权重：论文中未提及任何模型权重。数据集：论文未提供新数据集。文中提及了多个现有基准数据集用于说明，具体如下： FLEURS: 用于多语言语音任务评估。链接：https://doi.org/10.1109/SLT54892.2023.10023141 Speech Robust Bench: 用于ASR鲁棒性评估。链接：https://openreview.net/forum?id=D0LuQNZfEl HELM / HELM Instruct: 用于大语言模型综合评估。链接：https://crfm.stanford.edu/helm/ 和 https://crfm.stanford.edu/helm/instruct/latest/ RAGAs: 用于RAG管道评估。链接：https://doi.org/10.18653/v1/2024.eacl-demo.16 CRAG: 用于检索增强生成评估。链接：https://github.com/facebookresearch/CRAG ImageNet-C / ImageNet-P: 用于图像鲁棒性（损坏和扰动）评估。链接：https://doi.org/10.48550/arXiv.1903.12261 WILDS: 用于野外分布偏移评估。链接：https://doi.org/10.48550/arXiv.2012.07421 COCO-C, PASCAL-C, Cityscapes-C: 用于目标检测/分割的鲁棒性评估，具体链接未在论文中提供，参考文献[14]。其他提及的本地多语言测试集、领域特定评估集等，均未提供统一获取链接。 Demo：论文中未提及。复现材料：论文中未提及。 🏗️ 方法概述和架构本文的方法论核心是提出一个用于设计和评估低资源AI部署系统的框架，而非具体的算法实现。该框架的核心架构包括以下几个关键组成部分： ...

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

📄 Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios #语音合成 #情感语音合成 🔥 9.9/10 | 前25% | #语音合成 | #情感语音合成 | arxiv 学术质量 6.4/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构第一作者：Changhao Pan (浙江大学)。通讯作者：Zhou Zhao (浙江大学)。作者单位包括浙江大学和字节跳动。 💡 毒舌点评一篇扎实、必要且组织良好的基准测试论文。它成功地将“长语音生成质量”这个模糊概念拆解为可量化的维度，并提供了目前最全面的评估框架。然而，它的“杀手锏”——基于Gemini Pro的表达力评估——却是一个黑盒，这为基准的长期可复现性埋下了隐患。实验规模宏大，但闭源模型的“遥遥领先”与开源模型的“努力追赶”形成了鲜明对比，清晰地勾勒出了技术差距。数据构建流程详尽得令人印象深刻，甚至用上了GPT-5和DeepSeek V3.2，堪称“用前沿AI评测前沿AI”的典范。总体而言，这是一份对社区贡献极大的资源，但它的价值很大程度上依赖于所用闭源评估器的持续稳定和可用性。 📌 核心摘要本文提出了SwanBench-Speech，一个针对长语音生成（包括单说话人长文本和对话生成）的综合性评估基准。该基准覆盖了17种下游应用场景，基于声学、语义和表现力三大核心挑战，构建了包含1101个样本的测试集。论文设计了一个包含7个自动评估指标（音色一致性、混响一致性、声音保真度、内容准确率、韵律连贯性、表现丰富性、表现层次性）的评估协议，并通过人类感知测试验证了指标与人类评分的相关性。通过对16个单说话人模型和10个对话生成模型的广泛实验，论文揭示了当前模型的优势与不足：在保真度和准确率上已接近人类水平，但在混响一致性、韵律连贯性和表现层次性上仍有显著差距；模型在高表现力场景中性能下降；自回归（AR）与非自回归（NAR）模型在表现力和内容准确率上存在权衡；训练数据质量（如片段长度、声场稳定性）比数量更重要。 🔗 开源详情代码：论文承诺开源全部代码库，包括数据处理和评估脚本。项目主页已提供（https://swanaigc.github.io/#bench），但GitHub具体仓库链接在当前版本中尚未明确给出。模型权重：不涉及。SwanBench-Speech是评估基准，不包含模型。论文评估的开源模型（如CosyVoice, FishSpeech等）有其各自的开源仓库，但论文未在本文中集中提供链接。数据集：论文明确承诺在HuggingFace上以CC BY-NC-SA 4.0许可证开源SwanBench-Speech测试集（1101个样本）。 Demo：在线演示链接为 https://swanaigc.github.io/#bench。复现材料：论文提供了极其详尽的附录，涵盖了数据构建流程、评估协议细节、实验设置、消融研究、更多结果分析等。评估使用的所有第三方工具（如FunASR Nano, WhisperX, SRMRpy等）均已列出其开源地址。论文中引用的关键开源项目： SenseVoice (转写): https://huggingface.co/FunAudioLLM/SenseVoiceSmall Paraformer (对齐，中文): https://modelscope.cn/models/iic/speech_timestamp_prediction-v1-16k-offline WhisperX (对齐，英文): https://github.com/m-bain/whisperX FunASR Nano (ASR): https://github.com/FunAudioLLM/Fun-ASR-Nano-2512 WavLM TDCNN (说话人嵌入): https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification SRMRpy (混响评估): https://github.com/jfsantos/SRMRpy SpeechJudge (韵律评估模型，基于Qwen2.5-Omni-7B): 论文提及为微调模型，未提供独立开源链接。 SentenceBERT (去重): https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2 VAD模型: https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch 和 https://github.com/snakers4/silero-vad Torchaudio SQUIM: https://docs.pytorch.org/audio/main/tutorials/squim_tutorial.html JiWER (WER/CER计算): https://pypi.org/project/jiwer/ 🏗️ 方法概述和架构 SwanBench-Speech的构建是一个系统化、多阶段的工程，其核心架构可分为三个相互关联的模块：测试集构建、评估协议设计与大规模实验分析。 ...

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors

📄 I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors #语音合成 ✅ 6.5/10 | 前50% | #语音合成 | #语音合成 | arxiv 学术质量 4.3/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构论文作者为 Lelia Erscoi 和 Tomi Kinnunen，隶属于芬兰东芬兰大学计算语音组。 💡 毒舌点评这篇论文试图将合成语音检测从纯粹的技术挑战扩展到社会技术语境，想法值得肯定。然而，它读起来更像一篇心理学或人机交互领域的实验报告，其“社会技术”框架下的核心实验操纵（三种信任线索）均未产生显著效果，这严重削弱了其理论贡献。实验设计本身存在根本性缺陷：在一个明确告知用户“检测合成语音”的任务中，探讨“信任”如何影响判断，无异于在一场明确的反恐演习中研究路人对可疑包裹的自然反应——其生态效度值得怀疑。方法上，47人的样本量、20个刺激、单一TTS模型生成策略，很难支撑其宣称的“生态效度较高”的结论。论文最大的价值在于实证了普通人在受控条件下对当前高质量合成语音的检测能力低下，但这几乎是一个已知事实（文献综述已大量引用），而其试图探索的“社会技术”维度并未提供新的洞见。开源信息几乎为零，复现性很差。 📌 核心摘要本研究是一项关于人类检测合成语音能力的实证研究，属于感知心理学与人机交互的交叉领域。论文将合成语音检测置于一个“社会技术信任”框架下，提出环境上下文（如指令框架、情感启动、来源标注）是影响人类判断的关键但被忽视的维度。研究采用在线实验（N=47），设计了一种“合成语音定位任务”：参与者在聆听混有真实、完全合成和部分合成语音的20段音频时，需标注出可疑片段。三种信任线索作为自变量进行操纵。主要发现包括：1）话语类型（真实/部分合成/完全合成）是检测准确性的决定性因素；2）三种信任线索对检测准确性均无显著主效应；3）参与者的主观质量评分能区分语音类型，但与客观检测行为脱节；4）参与者表现出系统性过度自信。结论指出，期望普通用户在复杂社会技术环境中独立、可靠地检测合成语音是不现实的。 🔗 开源详情代码：未提及。论文使用Python和Streamlit开发了实验平台，但未公开实验代码或分析代码。模型权重：未提及。论文未提供其实验所涉及的任何模型的权重。数据集：论文主要使用 LlamaPartialSpoof 数据集，并提供了指向其生成所用TTS模型（LJ JETS等）的GitHub/HuggingFace链接。数据集本身的具体下载链接未直接提供，但引用了相关工作。论文引用了 LibriTTS 数据集（作为LlamaPartialSpoof的说话人来源），但未提供其直接下载链接。论文引用了 Open Affective Standardized Image Set (OASIS) 用于情感启动，提供了引用信息。论文引用了 International Soundscape Database 用于环境音，提供了引用信息。 Demo：未提及。复现材料：未提及。论文详细描述了方法，但未提供实验材料、配置或数据的下载链接。论文中引用的开源项目： LJ JETS: https://github.com/espnet/espnet/tree/master/egs2/ljspeech/tts1 YourTTS: https://github.com/coqui-ai/TTS/ XTTS V2: https://huggingface.co/coqui/XTTS-v2 GPT-SoVITS: https://huggingface.co/lj1995/GPT-SoVITS/tree/main CosyVoice: https://github.com/FunAudioLLM/CosyVoice ElevenLabs: https://elevenlabs.io （作为商业服务引用） Streamlit: https://streamlit.io 🏗️ 方法概述和架构本研究的核心方法是设计并实施一项人类感知实验，以探究社会技术因素对合成语音检测行为的影响。其架构可分为五个相互关联的组件： ...

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构第一作者：Yuyue Wang（中国人民大学）通讯作者：Xihua Wang（中国人民大学）机构：中国人民大学 💡 毒舌点评一篇动机明确、架构清晰的工作，定义了‘自由文本到统一音频生成’这一有潜力的任务，并提出了一个不错的解决方案。然而，如同许多初次尝试定义新任务的工作，其‘统一’的光环在实验部分略显褪色。基线选择过于保守，仅与较早的VoiceLDM和流水线方法对比，对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见，这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’，尤其是主观评估样本量仅50个，说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文，创新有余，验证不足。 📌 核心摘要本文针对“自由文本提示生成统一音频”这一新任务，提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型，其核心创新是引入“语义潜在思维链”机制，在连续语义空间进行隐式规划，以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干，直接处理文本，无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明，PlanAudio在复合场景下优于基线方法，并在单独音效和语音任务上保持竞争力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的公开链接。数据集：论文中提及基于以下公开数据集构建训练数据，并合成了新的基准数据集。具体获取方式如下： AudioSet: 论文用于合成复合音频数据，未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估，未提供链接。 WavCaps: 论文用于声音生成，未提供链接。 LibriTTS: 论文用于语音生成评估，未提供链接。 PlanAudio-Bench：论文中提出的新基准测试集，论文中未提及公开获取链接。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等复现材料的公开链接。论文中引用的开源项目： Qwen2.5-1.5B: 作为模型初始化的基础LLM。链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。论文中未提供具体链接。 Whisper: 用于生成转录。论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架，旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构（如图2所示）基于单一Transformer骨干（初始化自Qwen2.5-1.5B），将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

Can We Hear from Events? Generating Speech from Event Camera

📄 Can We Hear from Events? Generating Speech from Event Camera #语音合成 #数据集 ✅ 7.8/10 | 前25% | #语音合成 | #数据集 | arxiv 学术质量 5.7/7 | 影响力 1.3/2 | 可复现性 0.8/2 | 置信度中 👥 作者与机构作者：Jingping Fang, Lin Chen, Chenyang Xu, Tong Zhao, Weidong Cai, Xiaoming Chen† (*并列第一作者，†通讯作者) 机构：北京工商大学（Fang, Chen, Chen），西安电子科技大学（Xu），同济大学（Zhao），悉尼大学（Cai）。论文机构列表顺序与作者顺序对应。 💡 毒舌点评这篇论文的“初心”很好，试图解决一个真实存在的物理问题——RGB相机的时间分辨率不足导致语音生成中微表情丢失。事件相机（Event Camera）作为解决方案，思路本身具有新颖性。然而，深入阅读后，几个“软肋”暴露无遗：第一，所谓的“真实”数据集EVT-SPK-Real规模极小（仅4小时），且严重依赖一个可微分模拟器V2E来生成大部分训练数据，这极大地削弱了其宣称的“解决RGB传感器根本局限”的力度——本质上还是在模拟数据上训练模型。第二，对比方法的选择有些“拉郎配”，例如将环境音生成模型MMAudio和Diff-Foley通过一个AS后缀转换成语音生成模型来比较，其公平性值得怀疑。第三，方法部分虽详尽，但核心框架（如VITS双流、流匹配解码器）并非独创，创新更多体现在“组合”和“应用”上。作者声称取得了SOTA，但部分优势（如对纯TTS模型的超越）在事件数据条件下是预期中的，而与其他视觉语音生成方法（如VoiceCraft-Dub）的差距在某些指标上并不显著，需要更细致的分析。总的来说，这是一个在新兴传感器数据上做的有意义的探索性工作，但离“成熟可靠”还有距离，且作为顶会论文，其故事性和实验说服力的完整性稍显不足。 📌 核心摘要本文针对传统基于RGB帧的语音生成模型因固定曝光时间平滑了面部高频微动态而导致生成语音“情感表现力不足”的“时间粒度不匹配”问题，提出了EventSpeech。该框架首次将神经形态事件相机数据引入语音生成任务，利用事件流的高时间分辨率（微秒级）特性来捕捉连续的面部运动学特征。架构上，设计了事件编码器（Event Encoder）和具有分层小波上下文器（HWC）的多尺度音频编码器，并通过双向对齐机制同步文本、视觉事件与音频特征。此外，构建了首个包含大规模合成数据（EVT-SPK-Synth）和真实录制数据（EVT-SPK-Real）的事件语音基准数据集EVT-SPK。实验表明，EventSpeech在保持细粒度情感和抵抗运动模糊方面优于多个基线模型，尤其在真实数据集上展现出优势。 🔗 开源详情代码：论文中提供了项目主页链接：https://xrfang-0102.github.io/EventSpeechWeb/，应包含代码和Demo。模型权重：未提及模型权重的具体下载链接。数据集：论文中构建并介绍了EVT-SPK数据集，但未提供该数据集的具体下载链接或开源仓库地址。 Demo：在线演示链接随代码一同提供：https://xrfang-0102.github.io/EventSpeechWeb/。复现材料：论文中提供了部分实现细节（如GPU数量、迭代次数、优化器），但未提供具体的训练脚本、配置文件或模型检查点下载地址。引用的开源项目： V2E：可微分神经形态事件模拟器，用于将RGB视频转换为事件流。论文引用了文献[15]，但未提供具体链接。 OpenFace：用于提取面部动作单元（AU）等特征以提供伪标签监督。论文中提及但未提供具体链接。 HiFi-GAN：预训练的声码器。论文引用了文献[25]，但未提供具体链接。 🏗️ 方法概述和架构 EventSpeech框架（如图2所示）旨在建立从异步事件流到连续语音波形的映射，其核心由四个协同模块组成。 ...

Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #语音合成 #自监督学习 #持续学习 🔥 8.3/10 | 前25% | #语音合成 | #自监督学习 | #持续学习 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Jinju Kim (成均馆大学), Yunsung Kang (成均馆大学), Gyeong-Moon Park (高丽大学), Jong Hwan Ko (成均馆大学)。机构为 Sungkyunkwan University 和 Korea University。 💡 毒舌点评这篇论文针对“被遗忘权”在零样本语音克隆模型中的实际部署痛点——遗忘请求是顺序到达且数据必须删除——提出了一个精巧的解决方案。优点是问题定义精准且真实，直击先前工作的“一刀切”假设的软肋，并首次定义了“灾难性再学习”这一关键失败模式。方法设计上，CORTIS（对比Fisher信息掩码+累积正交子空间投影）逻辑清晰，两个组件分工明确（定位参数+约束方向），并通过消融实验验证了必要性。实验基线比较合理，展示了方法在3-5次连续请求下的有效性。但必须指出，论文的“新颖性”在一定程度上是“问题新颖性”和“应用新颖性”的结合，而非一个全新的方法论突破。将正则化微调和梯度投影这两个在持续学习中已有的技术进行特定场景的组合应用，工程价值高于理论价值。此外，所有实验都在单一模型（VoiceBox）上进行，声称的“架构无关性”缺乏实证支撑，这在NeurIPS/ICML级别的会议上会被视为一个显著的弱点。 📌 核心摘要论文正式定义了在现实部署约束（遗忘请求顺序到达且遗忘后数据立即删除）下的零样本文本转语音模型“连续说话人身份遗忘”问题。作者指出，直接顺序应用现有遗忘方法会导致“灾难性再学习”，即新的遗忘操作会使先前已遗忘的说话人身份复活。为解决此问题，提出了CORTIS框架，它包含两个互补组件：1）基于对比Fisher信息的参数掩码，将每个遗忘步骤的更新精确定位到与当前目标说话人最相关的参数子集，同时排除对保留集和先前遗忘说话人重要的参数；2）累积正交子空间投影，将更新梯度投影到先前所有遗忘步骤所用梯度的正交补空间，从方向上阻止参数沿先前遗忘路径漂移。在VoiceBox模型上的实验表明，CORTIS是唯一能在3次（及扩展到5次）连续遗忘请求后，使所有先前遗忘的说话人相似度保持在低位（平均降低75%），同时保持保留集性能具有竞争力的方法。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及使用了LibriHeavy（预训练）、LibriSpeech test-clean（评估）和特定的遗忘说话人子集，但未提供这些数据集的下载链接。 Demo：提供了演示网站 https://cumulativeortis.github.io/。复现材料：论文在附录中提供了详细的CORTIS实现细节（附录B）、VoiceBox骨干网络实现（附录C）、所有基线的实现细节（附录D）以及评估用的说话人相似度分布（附录E），为复现提供了理论上的细节支持。论文中引用的关键开源项目：VoiceBox、WavLM-TDCNN、Diffwave vocoder、HuBERT-Large ASR模型，但论文中均未提供这些项目的具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决连续遗忘场景下的“灾难性再学习”问题，其核心思想是在参数定位和方向约束两个层面同时施加保护。整体流程如论文图2所示，主要分为两步： ...

FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations

📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations #语音合成 #语音编码 ✅ 6.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音编码 | arxiv 学术质量 7.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构作者：Yoonhyung Lee, Hyunsin Park, Jinhwan Park, Jinkyu Lee 机构：Qualcomm AI Research (Qualcomm Technologies, Inc. 的一个倡议) 💡 毒舌点评这篇工作瞄准了一个实际且重要的问题：如何从两个不同的参考音频中，独立控制零样本TTS的音色和风格。论文提出了一个相对清晰的框架（FC-TTS），并系统地设计了三个创新组件（两阶段生成、VQ-VAE风格编码、条件一致性损失）来解决这个问题，这体现了作者的思考深度。实验也较为全面，不仅在标准基准上评估，还在RAVDESS上专门设计了实验来验证解耦控制能力。然而，论文的“天花板”受限于它所依赖的FACodec解耦质量，这是所有基于解耦表示的TTS系统的共同软肋。更关键的是，论文在零样本TTS核心指标上并未展现出明确超越SOTA（如F5-TTS）的优势（UTMOS 4.22 vs 4.03，但SPK 0.60 vs 0.67），其提出的“独立控制”能力虽然新颖，但实验设计（特别是与VC系统和单参考F5-TTS的对比）在方法论上存在瑕疵，结论的说服力打了折扣。此外，代码和模型权重均未开源，对于一篇依赖外部预训练模型（FACodec）的工作来说，可复现性大打折扣。总体而言，这是一篇动机明确、方法设计有想法的工作，但在关键性能上缺乏突破，且受限于外部组件，整体贡献度中等。 📌 核心摘要本文针对零样本TTS中从两个不同参考独立控制说话风格（韵律）和音色的挑战，提出了FC-TTS框架。该框架基于FACodec提供的解耦语音表示，通过三个关键设计增强独立控制的可靠性：1) 一个两阶段的谱图生成管道，首先生成锚定音色的模糊谱图，再通过条件流匹配解码器利用风格信息进行细化，以增强对未见过的音色-风格组合的鲁棒性；2) 一个基于VQ-VAE的层次化风格编码器（TCF模块），在音素和帧级别捕获细粒度且句内变化的风格信息；3) 一个条件一致性损失，将正则化扩展至多条件设置，通过预测器间的交叉条件输入来增强生成谱图在音色和风格上的一致性。实验表明，FC-TTS在LibriSpeech上与SOTA模型性能有竞争力，并在RAVDESS上展示了优于基线系统的独立音色和风格控制能力。 🔗 开源详情代码：论文中未提及FC-TTS自身的代码链接。模型权重：论文中未提及。数据集： LibriHeavy：大规模英文语音数据集，遵循 Apache-2.0 许可证。获取链接：https://github.com/k2-fsa/libriheavy LibriSpeech：英文语音识别数据集，遵循 CC-BY 4.0 许可证。论文使用其test-clean子集进行评估。 RAVDESS：情感语音数据集，遵循 CC BY-NC-SA 4.0 许可证。论文用于评估风格与音色可控性。 Demo：https://qualcomm-ai-research.github.io/fc-tts 复现材料：论文在附录中提供了详细的模型架构超参数（Table 7）、训练超参数（Table 6）、训练与推理流程细节。论文中引用的开源项目： FACodec：https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec HiFi-GAN：https://github.com/jik876/hifi-gan （论文中提及使用） Gemini 2.5 Pro：https://huggingface.co/google/gemini-2.5-pro-preview （用于评估） UTMOS：https://huggingface.co/spaces/sarulab-speech/UTMOS-demo HuBERT：https://huggingface.co/facebook/hubert-large-ls960-ft UniSpeech-SAT (说话人验证)：https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification 🏗️ 方法概述和架构 FC-TTS的核心是利用预训练的FACodec解耦表示，在零样本TTS任务中实现音色和风格的独立控制。其架构如图1所示，主要包含以下组件和流程： ...

Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #语音合成 #语音转换 #生成对抗网络 #对比学习 #扩散模型 #多任务学习 🔥 10/10 | 前25% | #语音合成 | #生成对抗网络 | #语音转换 #对比学习 | arxiv 学术质量 6.5/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构 Georgios Milis, Yubin Qin, Yihan Wu, Heng Huang。论文未明确提及作者所属机构。 💡 毒舌点评本文提出了一种思路精巧且理论扎实的音频水印方法，其核心贡献在于发现了重标记化错误的结构性并利用图社区检测来缓解，实现了“无梯度训练”下的显著性能提升，这在当前需要白盒微调的解决方案中是一股清流。然而，审稿人认为其评估存在明显偏科和不足：1）对音频质量影响的评估深度不足，仅报告了FAD和预测MOS，缺乏如PESQ、STOI或主观听测（如ABX测试）等更全面的音频质量客观指标和人类评估，尤其是在声称“对生成质量影响微小”时，说服力有限。2）对“语义相邻”的假设和聚类结果缺乏深入分析，论文观察到错误具有结构性，但未提供任何可视化或量化证据（如混淆矩阵热图、聚类可视化）来向读者直观展示这种“语义相邻”到底是什么样子，以及Leiden算法究竟聚出了什么样的集群。3）局限性讨论可以更深入，例如，方法依赖于对特定编解码器进行离线聚类，当编解码器版本更新或部署环境变化时，聚类可能失效，如何维护？此外，将令牌聚类为簇，本质上是降低了水印的“分辨率”和熵，这可能在更长的上下文或更复杂的模型中带来新的、未被探讨的统计特性（如检测p值的分布变化）。4）实验比较的选择性，主要对比了Base和WMAR，但缺少与同属“训练无关”范畴的、其他可能的令牌聚类或特征空间对齐方法的比较，削弱了结论的普适性。 📌 核心摘要本文针对自回归音频生成模型中令牌级水印因重标记化错误而失效的问题，提出了一种新颖的、梯度无关的解决方案。核心思想是：观察到重标记化错误并非随机，而是将令牌混淆为少量“语义邻居”，这种结构性冗余可以通过图社区检测算法（Leiden）发现并利用。方法将音频编解码器的令牌词表建模为图，边权为混淆概率，然后运行社区检测算法得到“令牌簇”。水印机制（基于KGW）在簇级别而非原始令牌级别上实施，从而对重标记化噪声变得鲁棒。理论分析量化了令牌匹配率\(r\)和簇匹配率\(r_{cl}\)对水印检测统计量\(\mathbb{E}[z|H_1]\)的指数级影响。在Moshi（Mimi编解码器）和MusicGen（EnCodec）上的全面实验表明，该方法在检测性能上比基线（包括微调编解码器的WMAR方法）提高了数个数量级，对常见的音频处理攻击（如滤波、压缩、时移）保持强鲁棒性，且对音频质量（FAD、预测MOS）影响较小。此外，该方法在CosyVoice3和Spark-TTS等基于流匹配的文本转语音模型上也验证了有效性。 🔗 开源详情代码：提供项目主页链接：https://g-milis.github.io/projects/nograd-audio-wm.html，用于发布音频样本和代码。模型权重：论文中未提及。数据集：实验使用了开源数据集LibriSpeech、MusicCaps、Free Music Archive和LibriTTS，但未在论文中提供具体下载链接。 Demo：论文中未提及。复现材料：论文在附录E (Experimental Details) 中提供了详细的复现信息，包括：构建词汇缩减所用音频数据集（Mimi/TTS用LibriSpeech开发集，EnCodec用MusicCaps）。聚类超参数网格搜索过程（分辨率\(\rho\)和噪声阈值\(m\)）。最终选定的超参数（表8）。水印参数（\(\gamma, \delta, h\), 生成长度）。各种鲁棒性攻击的具体设置（滤波器截止频率、噪声标准差、MP3比特率、时移比例、裁剪比例等）。论文中引用的第三方开源项目（论文正文仅提及名称，未提供具体链接）：Mimi, MusicGen, EnCodec, Leiden, Louvain, Whisper, WMAR, CosyVoice3, Spark-TTS, FaCodec, SpeechTokenizer, DAC, LibriSpeech, MusicCaps, Free Music Archive, LibriTTS。 🏗️ 方法概述和架构本文方法的核心架构是一个两阶段的离线准备与在线水印方案，其设计动机是解决令牌级水印在连续模态（如音频）中因重标记化（retokenization）不一致导致的鲁棒性崩溃问题，且完全不依赖于梯度信息或对编解码器进行微调。 ...