TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #语音合成 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:未说明 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点:论文构建了迄今最全面的TTS系统公开评测框架,涵盖20个系统、4个测试域、14种语言,并发布了超过1万条主观评分数据,这本身就是一项耗时耗力的重要基础设施贡献。短板:TTSDS2指标本身创新有限,本质是多个特征分布的Wasserstein距离集成,且计算开销大(每分需约10分钟CPU时间),其最大优势——“跨域一致性”更像是一个精心设计和调优的工程成果,而非理论突破。 🔗 开源详情 代码:提供了流水线代码仓库链接:github.com/ttsds/pipeline。 模型权重:TTSDS2本身是一个评估算法,不涉及模型权重。论文中评估的20个TTS系统中,大部分开源代码和权重(见表6附录A)。 数据集:a) 主观评测数据集:hf.co/datasets/ttsds/listening_test;b) 自动化生成的评测数据集:可通过上述流水线重建,噪声参考集在 hf.co/datasets/ttsds/noise-reference。 Demo:提供了多语言基准排行榜网站 ttsdsbenchmark.com,可查看各系统分数。论文未提及交互式Demo。 复现材料:论文提供了详细的算法伪代码(算法1)、因子特征选择表(表1)、附录中的听测问卷细节(附录B)、以及所有实验数据的详细表格(附录C-H)。 论文中引用的开源项目:Whisper(语音识别与转录)、FastText(语言识别)、Pyannote(说话人分割)、Demucs(音乐分离)、VERSA(评估工具包)、以及所有被评测的20个TTS系统。 📌 核心摘要 解决的问题:现有TTS评估方法(主观MOS耗时费力且不可比,客观指标在域外泛化差且与主观分相关性弱)已无法满足评估高质量、接近真人水平的现代TTS系统的需求。 方法核心:提出TTSDS2,一个分布式的、因子化的客观评估指标。它从Generic、Speaker、Prosody、Intelligibility四个感知维度,提取多种特征,并计算合成语音特征分布与真实语音分布、噪声分布之间的2-Wasserstein距离,归一化后得到分数。 与已有方法相比新在哪里:a) 是首个在4个差异巨大的域(干净朗读、嘈杂、野外、儿童语音)和14种语言上,都能与主观评分(MOS/CMOS/SMOS)保持 Spearman 相关系数 ρ > 0.5 的单一指标。b) 发布了一个持续更新、可自动化复现的多语言TTS评测基准和流程。c) 收集并发布了大规模、跨系统的主观评测数据集(11,282条有效评分)。 主要实验结果: TTSDS2在所有4个域、3类主观评分(共12个评测点)上的平均Spearman相关系数为0.67,是唯一一个在所有评测点上ρ > 0.5的指标(表3)。 相比之下,其他15个指标中表现最好的Speaker Similarity类指标(RawNet3)平均相关系数为0.6,但存在域失效;MOS预测网络(SQUIM)平均为0.57。 对20个开源TTS系统的排名中,TTSDS2与MOS和CMOS在Top 4和Bottom 3系统上达成一致(图2)。 实际意义:为TTS社区提供了一个可靠、稳健、可自动化的跨语言、跨域评估标尺和持续更新的基准排行榜,有助于更公平、更高效地比较和推进TTS技术,尤其对评估那些声称达到“人机难辨”水平的系统至关重要。 主要局限性:a) 计算成本高(CPU-bound)。b) 仍无法完全替代主观评测(最高相关系数约0.8)。c) 无法检测TTS系统可能存在的语义错误(如转录不忠实),需辅以WER等指标。d) 评估粒度为句子级别,不支持长文本。 🏗️ 模型架构 TTSDS2并非一个生成模型,而是一个评估指标框架。其核心架构如下: ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 294 words

TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

📄 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization #语音转换 #语音匿名化 #自监督学习 #端到端 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #端到端 | #语音匿名化 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Waris Quamer (德克萨斯A&M大学计算机科学与工程系) 通讯作者:未说明 作者列表:Waris Quamer (德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng (德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah (德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna (德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评 亮点:论文一针见血地指出了流式语音转换/匿名化系统中“静态说话人嵌入 vs 动态内容嵌入”这一核心矛盾,并为此设计了一个逻辑自洽、模块化的优雅解决方案(TVT表示),将说话人条件也“动态化”。 短板:虽然方法新颖,但其“内容同步时变音色”的精细控制(如选择性屏蔽情绪而保留性别特征)尚停留在愿景层面,未在实验中验证;此外,论文的实证主要局限于英文和特定数据集,对于该方法在复杂多语言、多说话人交互场景下的泛化能力缺乏探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的预训练模型权重。 数据集:使用了公开数据集LibriTTS, LibriSpeech, VoxCeleb等,但论文中未提供其处理脚本或专用数据集。 Demo:提供了音频样例演示页面链接:https://anonymized0826.github.io/TVTSyn/ 复现材料:论文附录提供了非常详细的架构配置(表5)和流式实现细节(表6),包括超参数、模块尺寸、缓存机制等,为复现提供了重要信息。但未提供训练脚本、配置文件或检查点。 引用的开源项目:依赖的开源项目包括SpeechBrain(用于预训练说话人编码器)和fairseq(用于HuBERT模型获取伪标签)。 总体:论文中未提及完整的开源计划,尽管提供了详尽的架构细节和音频样例,但缺乏核心代码和模型,可复现性受限。 📌 核心摘要 解决的问题:当前的实时语音转换(VC)和说话人匿名化(SA)系统存在核心的表征失配问题:语言内容是时变的序列,而说话人身份通常作为静态的全局向量注入。这种动态-静态失配会导致合成语音音色过度平滑、表现力下降,并影响匿名化效果与语音自然度之间的平衡。 方法核心:提出了TVTSyn,一个端到端的流式语音合成器。其核心是引入了内容同步的时变音色(TVT)表示:通过一个全局音色记忆(GTM) 将全局说话人嵌入扩展为多个紧凑的“音色面”;帧级内容特征通过注意力机制检索相关的音色面;一个学习的门控调节音色变化的程度;并通过球面线性插值(Slerp) 在全局和时变路径之间平滑过渡,以保持身份几何结构。此外,采用分解向量量化(VQ)瓶颈来正则化内容网络,减少残余说话人信息泄漏。 与已有方法的创新点: 表示创新:首次在流式VC/SA中提出让说话人条件与内容在时间粒度上对齐,从根本上解决动态-静态失配问题。 架构创新:设计了完全因果、低延迟的流式架构(GPU延迟<80ms),集成了GTM、VQ瓶颈和音高/能量预测器,实现了自然度、说话人保真度和匿名化强度之间的平衡。 全面评估:在VC和SA任务上,针对感知质量、说话人相似度、隐私(EER)、效用(WER)和实时性能进行了全面基准测试和消融研究。 主要实验结果:在VC任务上,TVTSyn在人类听测中获得了最高MOS(3.82)和说话人可验证率(74.33%)。在SA任务上(遵循VPC‘24协议),TVTSyn在保持高可懂度(WER=5.35%,优于所有流式基线)的同时,取得了有竞争力的匿名化效果(EER-lazy: 47.55%)。消融实验显示,移除TVT或VQ会显著降低合成自然度(MOS从3.91降至3.42-3.45)。流式性能方面,TVTSyn在GPU上延迟约79ms,实时因子(RTF)为0.308,满足实时要求。 实际意义:该工作为需要实时、低延迟的语音隐私保护(如安全通信、匿名会议)和高表现力语音转换(如配音、个性化合成)场景提供了一个可扩展的解决方案,展示了在严格延迟预算下实现隐私-效用更好平衡的可能性。 主要局限性:1)论文展望了更精细的、可控的匿名化(如选择性屏蔽情绪但保留性别��,但未进行实验验证。2)主要实验在英文数据集上进行,对多语言和跨语言场景的适用性未被探讨。3)在匿名化任务中使用了固定的28个伪说话人,未来可结合生成模型进行更丰富的伪说话人生成。 🏗️ 模型架构 TVTSyn是一个端到端的流式语音转换/匿名化系统,包含四个核心模块(见图1): ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 396 words

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #音频大模型 #统一音频模型 #音频生成 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #统一音频模型 | #音频大模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jinchuan Tian (卡内基梅隆大学,CMU) 通讯作者:未明确指定,但根据作者排序和邮箱,Sang-gil Lee, Zhifeng Kong, Wei Ping (NVIDIA) 为关键联系人。 作者列表:Jinchuan Tian (CMU),Sang-gil Lee (NVIDIA),Zhifeng Kong (NVIDIA),Sreyan Ghosh (NVIDIA, 马里兰大学),Arushi Goel (NVIDIA),Chao-Han Huck Yang (NVIDIA),Wenliang Dai (NVIDIA),Zihan Liu (NVIDIA),Hanrong Ye (NVIDIA),Shinji Watanabe (CMU),Mohammad Shoeybi (NVIDIA),Bryan Catanzaro (NVIDIA),Rafael Valle (NVIDIA),Wei Ping (NVIDIA)。 💡 毒舌点评 亮点:这篇论文成功证明了一个基于LLM的单一模型,在经过精心设计的数据混合和训练后,不仅能在音频生成上媲美甚至超越扩散模型,还能同时保持强大的音频理解与文本推理能力,这是音频领域迈向“大一统”模型的重要一步。 短板:虽然提出了极具前景的“多模态推理”范式(如自我反思),但对其效果的评估几乎完全依赖主观听感测试,缺乏客观、可复现的自动指标来衡量推理链的质量和生成结果的可控性,使得这部分贡献的科学严谨性打了折扣。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 336 words

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #3D动作生成 #流匹配 #检索增强生成 #对比学习 #多模态模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #3D动作生成 #检索增强生成 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Prerit Gupta†, Shourya Verma† (†表示同等贡献) 通讯作者:未说明 作者列表:Prerit Gupta(普渡大学计算机科学系)、Shourya Verma(普渡大学计算机科学系)、Ananth Grama(普渡大学计算机科学系)、Aniket Bera(普渡大学计算机科学系) 💡 毒舌点评 这篇论文最大的亮点在于其“统一”的野心——用一个框架搞定交互式和反应式两种截然不同的双人生成任务,还通过LLM分解和RAG引入了相当精细的语义引导,技术整合度很高。但短板也很明显:它本质上是一个生成框架,其成功高度依赖于底层检索库的质量和多样性,一旦遇到描述模糊或罕见的舞蹈风格,RAG模块可能从“助手”变成“累赘”,论文中也承认了这一点。 🔗 开源详情 代码:论文附录B承诺“Full code for this project along with the trained checkpoints for all tasks will be made open source and publicly available upon paper acceptance.”。当前未提供具体链接。 模型权重:如上所述,承诺将提供训练好的检查点。 数据集:论文中使用的三个数据集(InterHuman-AS, DD100, MDD)是现有公开或半公开数据集,论文未提及将发布新数据集。MDD是作者团队之前发布。 Demo:论文未提及在线演示。 复现材料:论文提供了非常详细的实现细节(附录D)、模型参数(附录D.5)、损失函数公式(第3.5节)、训练配置(第4节实现细节)以及大量的消融实验结果(附录E、F),为复现提供了充分指导。 引用的开源项目/模型:CLIP (Radford et al., 2021), Jukebox (Dhariwal et al., 2020), SMPL (Loper et al., 2015)。 总结:论文对未来开源有明确计划和承诺,并提供了丰富的复现信息,但当前代码和权重尚未公开。 📌 核心摘要 问题:生成由文本、音乐等多种模态条件驱动的协调、逼真的双人3D动作是一个难题。现有方法要么只处理交互式,要么只处理反应式任务,且通常只支持单一模态,缺乏统一框架。 方法:论文提出了DualFlow,一个基于Rectified Flow的统一框架。其核心是设计了级联的“DualFlow块”,通过掩码机制灵活切换以处理交互式(双分支对称)和反应式(演员分支掩码)任务。引入了为双人动作设计的RAG模块,使用LLM将文本分解为空间关系、身体动作和节奏三个维度进行检索。 创新点:(1) 首个统一交互与反应双人生成的单一框架;(2) 针对双人动作的LLM分解RAG模块;(3) 结合了对比学习的Rectified Flow目标和同步损失。 实验结果:在MDD、InterHuman-AS和DD100数据集上的广泛评估表明,DualFlow在多数指标上达到SOTA。例如,在MDD数据集的交互任务中,DualFlow(Both)的FID为0.415(优于InterGen(Both)的0.426),R-Precision@3为0.513(优于InterGen(Both)的0.302)。推理速度方面,仅需20步即可完成,比需要50步的50-DDIM基线快约2.5倍。 意义:为VR/AR伴侣、社交机器人和游戏AI等需要生成协调多人行为的应用提供了一个更通用、更高效的基础框架。 局限性:性能依赖于检索库质量;在反应式设置中可能出现轻微的身体穿透;长序列生成可能有时序漂移。 🏗️ 模型架构 图1展示了DualFlow如何统一处理交互式和反应式生成,并利用文本(经LLM分解)、音乐和检索样本作为条件输入。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 357 words

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #自回归模型 #大语言模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音翻译 | #自回归模型 | #大语言模型 #数据集 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学,通讯作者)、Wei Xue(香港科技大学,通讯作者) 💡 毒舌点评 本文最大的亮点在于“化繁为简”,通过精巧的token设计和提示策略,将复杂的多模态语音翻译任务“降维”成了预训练大语言模型熟悉的序列生成问题,并取得了SOTA级的性能,证明了这条路径的可行性。短板在于其高度依赖特定的、非原创的语音tokenizer(BiCodec, GLM-4)和合成数据集(UniST),这虽然是一种聪明的工程集成,但也意味着其核心创新更多体现在系统集成与训练范式上,而非底层表示学习的突破。 🔗 开源详情 代码:论文中未提及代码开源计划或提供代码仓库链接。 模型权重:未提及是否公开预训练或微调后的UniSS模型权重。 数据集:论文明确贡献了UniST数据集(44.8k小时),并提供了项目主页链接(https://cmots.github.io/uniss-demo),其中可能包含数据获取或申请方式(论文未详细说明获取途径)。 Demo:提供了在线演示网站(https://cmots.github.io/uniss-demo/)。 复现材料:在附录B.1中提供了非常详细的训练配置(三阶段数据、超参数、硬件、优化器设置),并声称遵循可复现原则。引用了使用的开源框架(Megatron-LM)和基础模型(Qwen2.5)。 论文中引用的开源项目:Megatron-LM(训练框架),vLLM(推理部署),Transformers库(评估),webMUSHRA(主观评估)。 📌 核心摘要 要解决什么问题:现有语音到语音翻译(S2ST)系统存在架构复杂(级联或两阶段)、难以保留说话人音色/情感风格、以及未能充分利用大型语言模型(LLM)预训练翻译能力三大挑战。 方法核心是什么:提出UniSS,一个基于预训练LLM(Qwen2.5-1.5B)的单阶段统一S2ST框架。它采用三类离散语音token(说话人token、语言token、语义token)分别建模风格、内容和生成目标,并通过跨模态思维链(CoT)提示(Listen-Translate-Speak)将LLM的文本翻译能力迁移到语音领域。 与已有方法相比新在哪里:(1)架构更简单:采用单阶段自回归模型,无需级联或多模态转换器。(2)能力迁移更直接:通过设计的提示格式,显式激活并利用LLM内部的翻译知识,而非将其仅视为黑盒序列转换器。(3)性能更全面:在翻译质量、说话人相似度、情感保持和时长一致性上全面超越现有方法。 主要实验结果:在CVSS-T基准上,UniSS (Q) 的英文到中文和中文到英文的Speech-BLEU分别达到32.20和24.28,显著超过基线(如Seamless-Ex的24.45/15.84)。其说话人相似度MOS达4.42,情感相似度MOS达4.51,时长一致性(SLC 0.4)接近完美(0.99/0.97)。关键消融实验证明,去除跨模态CoT提示会导致翻译质量暴跌约15个BLEU点。 实际意义是什么:为构建下一代更简单、高效、高质量的语音翻译系统提供了新范式。其发布的UniST大规模数据集(44.8k小时)也极大缓解了该领域高质量平行数据稀缺的问题。 主要局限性是什么:(1)模型和方法目前仅验证了中英双向翻译。(2)核心语音tokenizer并非本文原创,词汇表扩展较大。(3)数据集依赖于合成语音,其上限受合成模型质量制约。 🏗️ 模型架构 UniSS是一个端到端的自回归语言模型,其整体架构可概括为“统一tokenization -> LLM自回归生成 -> detokenization合成”。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 338 words

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #原型网络 #基准测试 🔥 9.0/10 | 前10% | #音频分类 | #自监督学习 | #原型网络 #基准测试 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Lukas Rauch(德国卡塞尔大学) 通讯作者:Lukas Rauch(lrauch@uni-kassel.de) 作者列表:Lukas Rauch(德国卡塞尔大学)、René Heinrich(德国卡塞尔大学、弗劳恩霍夫能源与环境技术研究所)、Houtan Ghaffari(根特大学)、Lukas Miklautz(马克斯·普朗克生物化学研究所,ML与系统生物学)、Ilyass Moummad(法国国家信息与自动化研究所,蒙彼利埃)、Bernhard Sick(德国卡塞尔大学)、Christoph Scholz(德国卡塞尔大学、弗劳恩霍夫能源与环境技术研究所) 💡 毒舌点评 亮点:论文直击音频SSL评估的一个“房间里的大象”——用线性探测评估多标签音频模型为何效果差,并给出了一个极其扎实、令人信服的答案,方法虽简单但“对症下药”。 短板:其核心贡献本质上是优化了探测器的“头部”设计,而非改进预训练的“主干”模型,因此对于追求模型架构创新的读者而言,冲击力可能稍弱;此外,实验虽全面,但主要局限于频谱图ViT,对原始波形模型的适用性未探讨。 🔗 开源详情 代码:提供了完整的开源代码仓库链接:https://github.com/lurauch/unmute-patch-tokens/。 模型权重:论文未提供其提出的探测器(protobin)的预训练权重,也未提及提供预训练SSL编码器的权重。实验评估的是公开已有的SSL模型。 数据集:提供了部分新整理或未广泛使用的数据集链接:https://huggingface.co/datasets/lrauch/desed、https://huggingface.co/datasets/lrauch/spass、https://huggingface.co/datasets/lrauch/urban-sed。 Demo:论文中未提及在线演示。 复现材料:提供了极其充分的复现材料,包括:a) 详细的超参数搜索范围与策略(附录D.4);b) 所有固定超参数的列表(表10);c) 完整的计算资源估算(附录C);d) 探测方法实现的详细描述(表9,附录D.3);e) 数据集划分与准备细节(附录D.1, D.2)。 引用的开源项目:论文依赖于多个已公开的SSL模型代码和权重(如EAT, BEATs, ASiT, SSLAM等),并在实验中直接使用了它们。 📌 核心摘要 要解决什么问题:在音频自监督学习(SSL)中,使用冻结模型进行轻量级探测(probe)以评估模型质量是计算机视觉的标准做法,但在音频领域(如AudioSet基准),人们仍倾向于使用成本高昂的微调(fine-tuning)来取得最优性能。论文旨在探究并解决为何标准探测方法(特别是基于全局池化的线性探测)无法准确评估音频SSL模型的真实潜力。 方法核心是什么:作者指出问题根源在于“池化瓶颈”:音频预训练(如掩码预测)在token级别学习了分散、局部的信息,但标准的单向量探测(如[cls]-token或注意力池化)在聚合时丢失了这些关键信息,尤其在多标签音频场景中。为此,他们提出了二值化原型探测器(Binarized Prototypical Probes):为每个类别学习一组可学习的原型(prototype),将它们与输入的全部token进行余弦相似度匹配并取最大值,从而实现基于类别的、多向量的信息聚合。 与已有方法相比新在哪里:a) 它系统性地论证并量化了池化方法对音频SSL评估的关键影响,而非常规地将其视为固定协议。b) 提出的二值化原型探测器在性能上显著优于线性探测、注意力池化等所有单向量方法。该方法在原型设计上做了简化(类无关、无显式正交损失)并通过二值化实现32倍压缩,兼具高效与高性能。 主要实验结果如何:在涵盖5个通用多标签、7个少样本生物声学、2个多类别控制任务的13个数据集和6个音频SSL编码器(及其监督微调变体)的广泛基准测试中,二值化原型探测器(protobin)在几乎所有设置下均达到最佳或次佳性能。例如,在as20k数据集上,protobin比标准线性探测平均提升14.41% 的mAP,缩小了与微调性能差距的63%。它彻底改变了模型间的排名:线性探测下表现优秀的ASiT模型在protobin评估下排名垫底,而线性探测下中游的SSLAM模型则跃升至顶尖。 实际意义是什么:该研究将探测确立为一种在音频SSL中具有竞争力、高效且可信的评估范式,挑战了对微调的过度依赖。它为未来研究提供了更可靠的评估工具,并揭示了模型嵌入的真正质量,对设计更好的预训练目标具有指导意义。 主要局限性是什么:a) 论文主要评估了基于频谱图的ViT架构,未涉及原始波形模型。b) 探测过程仍依赖于对最后隐藏层的缓存,没有探索多层特征聚合。c) 其性能上限仍与微调存在差距,未来可通过集成数据增强等进一步提升。 关键实验结果(表2节选 - as20k数据集 mAP%): ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 323 words

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #语音大模型 #扩散模型 #多说话人 🔥 8.5/10 | 前25% | #语音合成 | #扩散模型 | #语音大模型 #多说话人 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng(Microsoft Research) 通讯作者:Furu Wei(Microsoft Research) 作者列表:Zhiliang Peng(Microsoft Research)、Jianwei Yu(Microsoft Research)、Wenhui Wang(Microsoft Research)、Yaoyao Chang(Microsoft Research)、Yutao Sun(Microsoft Research)、Li Dong(Microsoft Research)、Yi Zhu(Microsoft Research)、Weijiang Xu(Microsoft Research)、Hangbo Bao(Microsoft Research)、Zehua Wang(Microsoft Research)、Shaohan Huang(Microsoft Research)、Yan Xia(Microsoft Research)、Furu Wei(Microsoft Research) 💡 毒舌点评 这篇论文通过超低帧率的连续语音分词器和下一个token扩散框架,为“像人一样聊一小时”这个语音生成领域的终极难题提供了一个工程上非常扎实且效果显著的方案,尤其在长篇、多人对话生成上取得了SOTA。但论文的“多说话人”实验部分,对于超过4人或存在激烈抢话、声音重叠等极端复杂对话场景的鲁棒性验证略显不足,现实世界的播客可能比测试集更“混乱”。 ...

2026-05-02 · 更新于 2026-05-22 · 3 min · 432 words

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #多模态模型 #基准测试 #大语言模型 ✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed (MBZUAI) 通讯作者:未说明 作者列表:Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University) 💡 毒舌点评 这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理,并构建了迄今最贴合该场景的基准,其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而,其本质仍是一篇“数据集论文”,在模型创新和算法突破上着墨为零,且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 300 words

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #大语言模型 #数据增强 #多语言 #强化学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #数据增强 | #大语言模型 #多语言 学术质量 7.0/7 | 选题价值 0.3/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Yancheng Wang(Arizona State University, Meta Superintelligence Labs) 通讯作者:未说明 作者列表:Yancheng Wang(Arizona State University, Meta Superintelligence Labs), Osama Hanna(Meta Superintelligence Labs), Ruiming Xie(Meta Superintelligence Labs), Xianfeng Rui(Meta Superintelligence Labs), Maohao Shen(Massachusetts Institute of Technology, Meta Superintelligence Labs), Xuedong Zhang(Meta Superintelligence Labs), Christian Fuegen(Meta Superintelligence Labs), Jilong Wu(Meta Superintelligence Labs), Debjyoti Paul(Meta Superintelligence Labs), Arthur Guo(Meta Superintelligence Labs), Zhihong Lei(Meta Superintelligence Labs), Ozlem Kalinli(Meta Superintelligence Labs), Qing He(Meta Superintelligence Labs), Yingzhen Yang(Arizona State University) 💡 毒舌点评 亮点是提出了一个新颖且可解释的语音情感识别框架,将语言学知识(元音是韵律的主要载体)与大语言模型的推理能力相结合,实验全面覆盖零样本、微调、跨域和多语言场景。短板是系统依赖外部强制对齐工具(如MFA)的准确性和可用性,这增加了实际部署的复杂度,且论文未讨论在噪声或说话人识别失败时的鲁棒性。 ...

2026-05-02 · 更新于 2026-05-22 · 3 min · 457 words

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #语音对话系统 #基准测试 #隐私保护 #多用户 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #隐私保护 #多用户 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),深圳湾区研究院) 通讯作者:未明确说明(根据署名惯例,最后一位作者Zhizheng Wu可能为通讯作者,但论文未明确标注)。 作者列表: Yuxiang Wang (香港中文大学(深圳),深圳湾区研究院) Hongyu Liu (香港中文大学(深圳)) Dekun Chen (香港中文大学(深圳)) Xueyao Zhang (香港中文大学(深圳)) Zhizheng Wu (香港中文大学(深圳),深圳湾区研究院,澳门城市大学,Amphion Technology Co., Ltd.) 💡 毒舌点评 亮点:论文像一位敏锐的侦探,为“语音大模型在共享环境中如何保守秘密”这一被忽视的关键问题立了案、建了卷宗(三层级基准),并通过大规模“审讯”(评估)揪出了当前模型“嘴不严”(交互隐私能力弱)的通病,为领域敲响了警钟。 短板:然而,论文的“破案”能力(分析)远强于“结案”能力(解决方案)。其提出的微调路径更像是一个证明方向可行的“示例”,而非一个完整、鲁棒的解决方案。同时,整个“案发现场”(基准)完全由合成语音构成,尽管做了验证,但“真实犯罪现场”(真实隐私泄露场景)的复杂性可能被低估。 🔗 开源详情 代码:论文中未提及具体代码仓库链接,但承诺将开源基准数据集、训练集和微调模型。 模型权重:承诺开源基于Kimi-Audio微调的模型权重(“Ours: Kimi-Audio-sft”)。 数据集:承诺公开VoxPrivacy基准数据集(32.86小时)、Real-VoxPrivacy验证子集(586 utterances)以及用于训练的4000+小时数据集。具体获取方式未在提供的内容中说明。 Demo:论文开头提供了一个Demo页面链接:https://myflashbarry.github.io/VoxPrivacy.github.io/。 复现材料:附录提供了详尽的材料,包括:所有提示模板(生成、润色、评估)、评估标准详细规则(A/B/C分类)、训练集统计数据与示例、对抗攻击详情、说话者验证能力分析等。 论文中引用的开源项目:CosyVoice2(TTS), Whisper-large-v3(ASR), Deepseek, Gemini, ChatGPT(用于数据生成), 以及多个用于构建训练集的公开语音/音频数据集。 📌 核心摘要 问题:随着语音语言模型(SLS)进入智能家居等多用户共享环境,模型需要区分不同说话者以管理信息流。一个关键的未被评估的能力是“交互隐私”——即防止���个用户的私密信息被泄露给另一个用户。现有基准要么只评估对话能力,要么只关注全局敏感信息,忽略了依赖上下文和说话者身份的隐私。 方法核心:提出VoxPrivacy,首个系统评估SLS交互隐私的基准。其核心是设计了三层级任务结构:Tier 1(遵循“别告诉别人”的直接命令)、Tier 2(使用声纹作为密钥,只向主人披露)、Tier 3(在无明确指令下,自主推断信息是否私密并加以保护)。基准包含7107个样本,32.86小时英中双语合成音频,并构建了一个小型真人录音子集(Real-VoxPrivacy)用于验证。 创新性:与已有工作相比,VoxPrivacy首次将交互隐私和说话者感知的响应生成作为独立的评估维度;其三层任务设计覆盖了从简单指令到复杂常识推理的能力谱;基准构建结合了多LLM生成、自动清洗、人工验证和可控TTS合成,保证了质量和多样性。 主要实验结果:对9个SLS的评估显示,交互隐私是当前模型的重大缺陷。大多数开源模型在Tier 2和Tier 3上的准确率接近50%(随机猜测)。强闭源模型(如Gemini-2.5-pro)表现更好,但在更难的Tier 3(主动推理)上也出现明显性能下降。关键数据见下表。在Real-VoxPrivacy上的评估证实了合成数据上的结论。 表2: Tier 1(直接命令)部分模型性能(Accuracy (%)) ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 361 words