MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

📄 MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models #语音识别 #多模态模型 #语音合成 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.4/10 | 后50% | #语音识别 | #多模态模型 | #语音合成 | arxiv 👥 作者与机构 论文标题:MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models 作者:Luong Tien, Abraham Tamas, Kim Junae, Kaur Amar, Omari Rollin, Haffari Gholamreza, Vu Trang, Qu Lizhen, Phung Dinh 机构:1 Monash University, Australia; 2 Defence Science and Technology Group, Australia ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 393 words

SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech

📄 SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech #语音识别 #多语言 #语音合成 #数据集 7.3/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 7.3/10 | 前25% | #语音识别 | #多语言 | #语音合成 #数据集 | arxiv 👥 作者与机构 Virginia Ceccatelli1,2, Yejin Jeon1,2, David Ifeoluwa Adelani1,2,3。1 Mila - Quebec AI Institute, 2 McGill University, Canada, 3 Canada CIFAR AI Chair. ...

2026-06-05 · 更新于 2026-06-12 · 6 min · 1150 words

Task-Vector Arithmetic for Emotional Expressivity Control in Language-Model-Based Text-to-Speech

📄 Task-Vector Arithmetic for Emotional Expressivity Control in Language-Model-Based Text-to-Speech #语音合成 7.9/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #参数高效微调 | arxiv 👥 作者与机构 Daniel O. Brito 和 Arnaldo Candido Junior 机构:圣保罗州立大学“儒利奥·德梅斯基塔·菲尔霍”(UNESP)生物科学、文学与精确科学研究所,巴西圣若泽-杜里奥普雷图。 💡 毒舌点评 这篇论文做了一件有趣的事:在语音合成领域,它没有卷参数量,而是去卷一个“情感向量”应该加在哪儿。作者很诚实,先试了改模型权重、改编解码器嵌入、改离散Token,结果都不行,最后发现最有效的居然是直接在说话人嵌入(x-vector)上做算术。这就像发现想让一个演员表现出愤怒,与其重写他的大脑(权重),不如调整他的“气质签名”(x-vector)来得直接。方法上,这是一个清晰的、基于排除法的实证研究,并且提出了一个训练免费的跨说话人情感迁移方案。主要短板在于实验范围较窄(只在一个模型上验证),且部分评估指标(如emotion2vec)在跨语言场景下可能饱和,使得结论的普适性和绝对性能评估打了折扣。总的来说,它提供了一个巧妙的、低成本的实用思路,但离定义一个新范式还有距离。 📌 核心摘要 本文研究了在基于语言模型的大规模文本到语音(LM-TTS)系统中,任务向量算术(Task-Vector Arithmetic)是否能实现跨说话人的情感控制。通过一个系统性消除研究,作者在Qwen3-TTS-12Hz-1.7B模型上测试了四种候选操作对象:模型权重(通过LoRA微调)、连续编解码器嵌入、离散编解码器Token以及由ECAPA-TDNN编码器产生的说话人嵌入(x-vector)。研究发现,情感韵律的主要载体是x-vector,而非模型权重或Token。基于此,作者提出了一种无需训练的方法:在x-vector空间进行多说话人均值质心算术。具体地,情感向量 \(\tau_{\text{emo}}\) 定义为情感与中性x-vector的质心差,并应用于目标说话人的中性x-vector:\(\mathbf{x}_{\text{new}} = \mathbf{x}(\text{target}, \text{neutral}) + \alpha \cdot \tau_{\text{emo}}\)。使用ESD(英语)提取 \(\tau\),在emoUERJ(巴西葡萄牙语)上进行跨语言验证,结果显示,在英语未见说话人上,情感相似度(EECS)平均提升+0.29;在巴西葡萄牙语未见说话人上,提升+0.09。该方法在保持身份(WavLM SECS ≳0.88)和可懂度(WER ≈0)方面表现良好。这些结果为解决基于Token的TTS架构与质心算术的不兼容性提供了初步证据,表明当算术操作迁移至说话人嵌入时,该方法是可行的。 ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 431 words

UniVoice: A Unified Model for Speech and Singing Voice Generation

📄 UniVoice: A Unified Model for Speech and Singing Voice Generation #语音合成 8.7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 Junjie Zheng1, Huixin Xue2, Shihong Ren2, Chaofan Ding1, Hao Liu2, Zihao Chen1 1 Giant Network 2 Shanghai Conservatory of Music 💡 毒舌点评 这篇论文瞄准了语音与歌声统一生成中的一个真实痛点——条件冲突,这个动机很好。其提出的因子化条件和学习null token的思路也足够巧妙,理论上很自洽,像一个优雅的“软件工程”解决方案。但是,作为顶会论文,理论深度略显不足,更像是为现有架构做的一个精妙适配,而非从第一性原理出发的突破。实验部分虽然全面,但评估细节(如测试集、人类评估协议)的透明度可以更高。总体而言,这是一篇扎实的“系统设计”论文,创新点清晰,工程价值明显,但理论贡献和颠覆性不足。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 320 words

CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

📄 CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding #语音编码 #语音合成 #语音识别 #对比学习 8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前25% | #语音编码 | #自监督学习 | #语音合成 #语音识别 | arxiv 👥 作者与机构 Eugene Kwek (Pennsylvania State University), Feng Liu (Drexel University), Rui Zhang (Pennsylvania State University), Wenpeng Yin (Pennsylvania State University)。 ...

2026-06-04 · 更新于 2026-06-12 · 4 min · 720 words

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 569 words

Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

📄 Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy #语音识别 #语音合成 #自回归模型 #无监督学习 #鲁棒性 #多任务学习 8.6/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #多任务学习 | #语音合成 #自回归模型 | arxiv 👥 作者与机构 作者:Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Kai Xie, Yu Chen(论文中作者列表顺序与此不同,但姓名与邮箱可对应) 机构:X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, China;MoE Key Lab of Artificial Intelligence, Jiangsu Key Lab of Language Computing, China(合作机构) ...

2026-06-04 · 更新于 2026-06-12 · 1 min · 121 words

AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following

📄 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following #语音合成 #强化学习 #多任务学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #语音合成 | #强化学习 | #多任务学习 | arxiv 👥 作者与机构 作者:Haitao Li(浙江大学,上海创新研究院),Tian Tan(上海交通大学),Yuguang Yang(腾讯混元),Shan Yang(腾讯混元),Xie Chen(上海交通大学,上海创新研究院) 机构:浙江大学,上海创新研究院,上海交通大学,腾讯混元 💡 毒舌点评 这篇工作立意不错,想解决音频生成评估中“打黑箱分”的痛点,把“整体判对错”拆解成“逐项查清单”。提出的动态Rubric范式思路清晰,构建的基准和语料库工作量不小,模型在自己的Benchmark上刷分效果显著。但是,细看之下,几个关键点还是让人不太放心:一是“动态”分解依赖的LLM(Qwen3-30B)本身就是个黑箱,分解质量直接决定了后续评估的上限,但论文对此缺乏深入的失败分析或敏感性研究。二是“硬负例”构造高度依赖LLM和另一个黑箱Gemini进行过滤和验证,这相当于用“魔法”检验“魔法”,过程的可靠性和可解释性存疑。三是作为奖励模型的应用实验,只在单一的InstructTTS场景(DiTAR模型)上做了初步验证,声称“显著提升”,但缺乏与标准RLHF或其他奖励建模方法的直接对比,说服力打了折扣。最后,论文宣称解决了“缺乏多领域基准”的问题,但其Benchmark的构建本身也受限于现有生成模型的能力天花板(如Mix子集全是真实样本),其评估结论的泛化性需要打个问号。总体而言,是一篇系统性较强、有一定启发性的音频评估工作,但部分环节的“自证”逻辑和实验深度还有提升空间。 📌 核心摘要 本文针对指令跟随音频生成中评估方法不足的问题(现有方法依赖LLM整体评分,缺乏可解释性和细粒度诊断能力),提出了一套完整的解决方案:1)提出了一个动态的、基于评分项(Rubric)的评估范式,能将复杂指令分解为多个可验证的二元评分项,并聚合为对齐分数;2)构建了首个跨领域(语音、声效、音乐、混合)的双语评估基准AnyAudio-Judge Bench(7920样本),特别设计了包含指令交换和属性扰动的难负例;3)构建了大规模(105K样本)的训练语料库AnyAudio-Judge Corpus,包含评分项标注和思维链推理链;4)训练了专用的评估模型AnyAudio-Judge,采用SFT+GRPO两阶段训练。实验表明,该模型在自有基准上显著优于SOTA基线(包括使用动态评分项提示的版本),在外部数据集上也表现出更强的相关性,并且作为奖励模型能有效提升下游InstructTTS任务的强化学习效果。 🔗 开源详情 代码:https://github.com/CuCl-2/AnyAudio-Judge (论文摘要及第1节末尾明确提供)。 模型权重:论文未提及AnyAudio-Judge评估模型权重的独立下载链接。仅指出其初始化自Qwen3-Omni-30B-A3B-Captioner,并提供了该初始化模型的链接(来自Yang et al., 2025)。 数据集:论文明确指出AnyAudio-Judge Bench (7,920样本) 和 AnyAudio-Judge Corpus (105K样本) 通过上述GitHub仓库提供。 Demo:论文未提及在线演示链接。 复现材料:论文附录(Appendix A-C)提供了所有关键的提示词模板,包括基准构建的负例构造与过滤(Tables 6-10)、指令分解与过滤(Tables 11-12)、以及评估时的两种Judge提示(Tables 13-14)。训练配置(如学习率、批大小、GPU数量、LoRA参数等)在第4.3节详细说明。这些信息应包含在上述GitHub仓库中。 论文中引用的开源项目:论文引用了大量开源数据集、模型和工具,但在正文和附录中均未提供这些项目的具体链接。具体引用情况见“已有分析结果”中的列举,此处不重复。这些引用的开源项目本身是否提供链接,取决于对应论文的发布情况。 🏗️ 方法概述和架构 本文提出的方法是一个从评估范式、数据到模型的完整框架,核心架构包含三个部分:动态Rubric评估范式、大规模语料构建流水线和两阶段训练的专用评估模型。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 613 words

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评 这是一篇扎实的“元研究”(meta-research)论文。优点很明显:S2ST领域确实急需一个统一的评估标准,作者们以惊人的工程量(1248个配置!)构建并发布了这个COMPASS框架,这种“苦力活”对于社区发展的价值毋庸置疑。然而,审稿人需要清醒地认识到,这篇论文的核心贡献在于“测量工具”和“大规模实证”,而非提出新的翻译或合成算法。因此,它的“创新性”应相对于评估框架领域来评判,而非模型架构领域。论文的实验设计非常全面,但其结论在某种程度上依赖于特定的基准数据集(FLEURS, CVSS),这在作者自己提出的局限性中已经承认。最大的短板在于开源状态:承诺的工具包代码尚未公开,这严重影响了论文的即时可用性和可复现性。总体而言,这是一篇对社区有用的基础设施论文,但距离一个“完美”的基准评估还存在距离。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 343 words

Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening

📄 Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening #语音合成 #扩散模型 #生成模型 7.1/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音合成 | #扩散模型 | #生成模型 | arxiv 👥 作者与机构 Xinqi Bao: KTH Royal Institute of Technology, Stockholm, Sweden; Karolinska Institutet (KI), Stockholm, Sweden Jia Bi: Rutherford Appleton Laboratory, United Kingdom Xin Chen: Peng Cheng Laboratory, China Ernest Nlandu Kamavuako: King’s College London, United Kingdom Saikat Chatterjee: KTH Royal Institute of Technology, Stockholm, Sweden ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 330 words