VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #语音大模型 #扩散模型 #多说话人 🔥 8.5/10 | 前25% | #语音合成 | #扩散模型 | #语音大模型 #多说话人 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng(Microsoft Research) 通讯作者:Furu Wei(Microsoft Research) 作者列表:Zhiliang Peng(Microsoft Research)、Jianwei Yu(Microsoft Research)、Wenhui Wang(Microsoft Research)、Yaoyao Chang(Microsoft Research)、Yutao Sun(Microsoft Research)、Li Dong(Microsoft Research)、Yi Zhu(Microsoft Research)、Weijiang Xu(Microsoft Research)、Hangbo Bao(Microsoft Research)、Zehua Wang(Microsoft Research)、Shaohan Huang(Microsoft Research)、Yan Xia(Microsoft Research)、Furu Wei(Microsoft Research) 💡 毒舌点评 这篇论文通过超低帧率的连续语音分词器和下一个token扩散框架,为“像人一样聊一小时”这个语音生成领域的终极难题提供了一个工程上非常扎实且效果显著的方案,尤其在长篇、多人对话生成上取得了SOTA。但论文的“多说话人”实验部分,对于超过4人或存在激烈抢话、声音重叠等极端复杂对话场景的鲁棒性验证略显不足,现实世界的播客可能比测试集更“混乱”。 ...

2026-05-02 · 更新于 2026-05-20 · 3 min · 432 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta,标记为联合第一作者) 通讯作者:未说明(论文未明确指定通讯作者,但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com) 作者列表:Zhaojiang Lin(Meta)、Yong Xu(Meta,联合第一作者)、Kai Sun(Meta,联合第一作者)、Jing Zheng(Meta)、Yin Huang(Meta)、Surya Teja Appini(Meta)、Krish Narang(Meta)、Renjie Tao(Meta)、Ishan Kapil Jain(Meta)、Siddhant Arora(Carnegie Mellon University,工作于Meta)、Ruizhi Li(Meta)、Yiteng Huang(Meta)、Kaushik Patnaik(Meta)、Wenfang Xu(Meta)、Suwon Shon(Meta)、Yue Liu(Meta)、Ahmed A Aly(Meta)、Anuj Kumar(Meta)、Florian Metze(Meta)、Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于它精准地定义了可穿戴语音助手独有的“坑”(自我中心音频、多通道、运动噪声、旁听对话),并用一个设计精良、场景丰富的测试集(WearVox)把这些坑量化了,直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型(MC WearLlama)虽然验证了方向,但更像是一个概念验证(PoC)而非一套完整的解决方案,模型本身未开源,且多通道处理方式(仅拼接两个通道)相对简单,离真正的端到端多模态融合还有距离。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 422 words

One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech

📄 One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech #语音克隆 #语音大模型 #知识蒸馏 #多语言 #领域适应 🔥 8.0/10 | 前25% | #语音克隆 | #知识蒸馏 | #语音大模型 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Amanuel Gizachew Abebe(Shaggar Institute of Technology) 通讯作者:Yasmin Moslem(Trinity College Dublin) 作者列表:Amanuel Gizachew Abebe(Shaggar Institute of Technology)、Yasmin Moslem(Trinity College Dublin) 💡 毒舌点评 亮点: 论文方法论清晰,提出了一套完整的“多模型集成蒸馏+合成数据+领域特异性PEFT”的流程来应对科学领域多语言语音克隆的数据稀缺问题,实验设计合理,能清晰展示每一步的贡献。短板: 核心创新有限,基本是现有技术的组合应用(Best-of-N集成、LoRA微调),且对科学演讲这一特定领域的挑战(如术语发音、韵律)缺乏更深入的技术设计,最终依赖自动化指标评估可能无法完全反映感知质量。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/Aman-byte1/multilingual-voice-cloning-training。 模型权重:论文提及使用公开的OmniVoice、VoxCPM、Chatterbox等模型作为教师模型或基础模型,但未明确说明其微调后的模型权重是否公开。 数据集:论文中使用的ACL 60/60是公开数据集。通过集成蒸馏生成的合成数据集未明确说明是否单独公开。 Demo:论文中未提及在线演示。 复现材料:论文提及代码仓库包含数据准备、训练和评估代码,并指出“精确的超参数配置可在代码仓库中找到”。此外,论文正文给出了关键训练配置(400步、A40 GPU、混合精度、余弦学习率、RSLoRA)和推理配置(VAD、文本分块、温度0.8、top-p 0.9),提供了较好的复现基础。 引用的开源项目:论文中引用或提及的开源项目/工具包括:OmniVoice, VoxCPM, Chatterbox, Whisper, ECAPA-TDNN, HIGGS tokenizer(未提供链接)。 论文中未提及关于最终模型权重、完整训练配置文件、评估脚本的详细开源计划,但现有信息已指向一个可复现的起点。 📌 核心摘要 问题: 解决科学演讲等专业领域中,保持说话人音色的同时,跨语言(阿拉伯语、中文、法语)生成高可懂度语音的挑战,主要瓶颈在于缺乏高质量、领域适配的训练数据。 方法核心: 1) 多模型集成蒸馏:使用三个零样本语音克隆模型(OmniVoice, VoxCPM, Chatterbox)为ACL 60/60学术语料库生成合成语音,并通过一个结合了可懂度(CER)和说话人相似度(SIM)的复合评分(S_comb)选择每个句子的最佳合成样本,构建高质量的微调数据集。2) 每语言LoRA微调:使用上述合成数据集,通过低秩自适应技术,为目标语言(AR, ZH, FR)分别微调基础OmniVoice模型。 新意: 主要在于将集成蒸馏与领域数据生成相结合,以应对科学领域低资源问题;并验证了为多语言模型训练独立的LoRA模块比单一多语言适配器更能保留语言特定音素特征。 主要结果: 在IWSLT 2026共享任务的盲测集上,微调后的OmniVoice模型在所有三种语言上均实现了可懂度(WER/CER)的持续提升,同时保持了接近基线的说话人相似度(SIM)。例如,在完整盲测集上,阿拉伯语微调模型CER从0.077降至0.071;法语WER从0.079降至0.076;中文CER从0.200降至0.192。与多个基线模型对比,OmniVoice在说话人相似度上具有显著优势。 实际意义: 为利用现有基础模型,快速适配专业领域(如科学交流)的多语言语音合成提供了有效、可复现的范式。 主要局限: 用于微调的合成数据集规模较小(1,404样本);性能评估主要依赖自动化指标(Whisper, ECAPA-TDNN),可能无法完全反映人耳感知的真实质量和自然度;每语言独立训练适配器增加了系统复杂度。 🏗️ 模型架构 论文未提供完整的模型架构图。其系统整体流程可概括如下: ...

2026-04-30 · 更新于 2026-05-20 · 2 min · 365 words

Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #预训练 #基准测试 ✅ 7.5/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuxin Zhang(StepFun;上海交通大学;Nanyang Technological University) 通讯作者:Fei Tian(StepFun;邮箱:tianfei@stepfun.com) 作者列表:Yuxin Zhang(StepFun,上海交通大学,Nanyang Technological University),Xiangyu Tony Zhang(University of New South Wales),Daijiao Liu(StepFun,University of New South Wales),Fei Tian(StepFun),Yayue Deng(StepFun),Jun Chen(StepFun),Qingjian Lin(StepFun),Haoyang Zhang(StepFun,Nanyang Technological University),Yuxin Li(StepFun,Nanyang Technological University),Jinglan Gong(StepFun),Yechang Huang(StepFun),Liang Zhao(StepFun),Chengyuan Yao(StepFun),Hexin Liu(Nanyang Technological University),Eng Siong Chng(Nanyang Technological University),Xuerui Yang(StepFun),Gang Yu(StepFun),Xiangyu Zhang(StepFun),Daxin Jiang(StepFun) 💡 毒舌点评 这篇论文敏锐地指出了当前音频推理模型训练中“为答对而答”的机械感问题,并提出了一个颇具潜力的解决方案(RLHF),实验也显示其对话能力有显著提升。然而,模型在最能体现交互能力的AudioMC基准上得分(41.15)仍落后于Gemini 3系列,且核心的“评分标准奖励模型”的具体实现和训练数据细节未在文中公开,这让其宣称的“突破”打了折扣,更像是一个工程改进而非范式革新。 ...

2026-04-30 · 更新于 2026-05-20 · 2 min · 266 words

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

📄 Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition #语音识别 #语音大模型 #端到端 #说话人分离 #说话人日志 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #语音大模型 #说话人分离 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Martin Kocour(Brno University of Technology, Speech@FIT; Filevine, USA) 通讯作者:未说明 作者列表:Martin Kocour(Speech@FIT, Brno University of Technology; Filevine), Martin Karafiat(Speech@FIT, Brno University of Technology), Alexander Polok(Speech@FIT, Brno University of Technology), Dominik Klement(Speech@FIT, Brno University of Technology), Lukáš Burget(Speech@FIT, Brno University of Technology), Jan Černocký(Speech@FIT, Brno University of Technology) 注:所有作者均隶属于Speech@FIT实验室,来自布尔诺理工大学。Martin Kocour同时有Filevine机构隶属。 💡 毒舌点评 这篇工作巧妙地将DiCoW的“分而治之”策略与SOT的“统一步调”理念结合,在完全重叠的合成场景(如Libri3Mix)中取得了显著优势,显示了全局上下文建模的潜力。然而,在复杂的真实会议场景中,其联合解码方式反而被单独解码的基线超越,这暴露出当前架构在处理高度动态和嘈杂的真实对话时,对说话人追踪和上下文利用的鲁棒性仍有不足,算是一个“实验室优等生在真实考试中略显水土不服”的典型案例。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 330 words

Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recognition with Global Cross-Channel Attention and Sentence-Ordered First-In First-Out Serialized Output Training

📄 Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recognition with Global Cross-Channel Attention and Sentence-Ordered First-In First-Out Serialized Output Training #语音识别 #语音大模型 #多通道 #预训练 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #语音大模型 | #多通道 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Genshun Wan(中国科学技术大学 & 科大讯飞研究院) 通讯作者:Jia Pan(科大讯飞研究院) 作者列表:Genshun Wan (中国科学技术大学 & 科大讯飞研究院),Lijuan Liu (中国科学技术大学 & 科大讯飞研究院),Changfeng Xi (科大讯飞研究院),Hang Chen (中国科学技术大学),Xindi Yu (科大讯飞研究院),Jia Pan (科大讯飞研究院),Jun Du (中国科学技术大学),Zhongfu Ye (中国科学技术大学) 💡 毒舌点评 亮点: 论文首次将大语言模型(LLM)系统性地引入多通道多说话人语音识别,并针对该任务的独特性(如说话人顺序、多通道输入)设计了“句子有序FIFO SOT”和“全局跨通道注意力(GCCA)”两个关键组件,实现了从基线到最终系统CER超过55%(重叠)的大幅性能飞跃。 短板: 整个评估完全基于未公开的内部会议数据集,缺乏在学术界公认的公开多通道基准上的验证,这使得其宣称的“强泛化性”说服力大打折扣,也让其他研究者难以复现和比较,显著降低了论文的公共价值。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 274 words

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO #语音大模型 #强化学习 #语音问答 #语音翻译 #大语言模型 ✅ 7.0/10 | 前25% | #语音问答 | #强化学习 | #语音大模型 #语音翻译 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Avishai Elmakies(IBM Research,*注:论文标注工作在实习期间完成) 通讯作者:未说明 作者列表:Avishai Elmakies(IBM Research)、Hagai Aronowitz(IBM Research)、Nimrod Shabtay(IBM Research)、Eli Schwartz(IBM Research)、Ron Hoory(IBM Research)、Avihu Dekel(IBM Research) 💡 毒舌点评 论文成功地将GRPO和可验证奖励(BLEU)应用于语音大模型的开放生成任务,并展示了其优于SFT的性能,方法简洁有效且结果扎实。然而,其核心贡献更多是应用层面的迁移与验证,而非算法本身的重大革新,且完全未开源代码与模型,对社区的可复用性打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开训练后的模型权重。 数据集:使用了公开数据集LibriSQA和CoVoST2,并说明了数据划分。 Demo:未提及。 复现材料:提供了较为详细的实验配置(超参数搜索范围、训练硬件、GRPO具体参数如β和G),但未提供最终选定的完整配置和检查点。 论文中引用的开源项目:引用了Granite Speech模型 [4] 和 Granite 3.0语言模型 [27] 作为基础,使用了AdamW优化器。 📌 核心摘要 问题:现有语音感知大模型在多项选择题型的强化学习训练中受限于二元奖励,难以评估和提升其开放式的文本生成能力。标准SFT在生成任务上仍有提升空间。 方法核心:提出将Group Relative Policy Optimization(GRPO)算法应用于语音问答和语音翻译等开放生成任务,并使用BLEU分数作为可验证奖励信号来优化模型。此外,探索了将真实答案作为离线样本纳入GRPO训练组的混合策略(MP-GRPO)。 创新之处:将GRPO从多选任务扩展到更贴近实际应用的开放格式任务;使用简单有效的文本相似度度量(如BLEU)作为强化学习奖励;初步探索了在语音任务中结合在线与离线样本的混合训练策略。 主要结果:在LibriSQA(语音问答)和CoVoST2(语音翻译)数据集上,基于Granite Speech 2B/8B模型的实验表明,GRPO训练在BLEU、ROUGE、BERTScore等多项指标上显著优于SFT和基线模型。例如,在LibriSQA上,GRPO使Granite Speech 2B的BLEU从基线的27.74提升至44.90(+61.8%),相比SFT(40.88)也有9.8%的提升。MP-GRPO在语音翻译任务上进一步带来增益。 实际意义:提供了一种简单高效的语音大模型训练范式,能显著提升模型在实际对话和翻译场景中的生成质量,为开发更强大的语音交互系统提供了新思路。 主要局限:仅在英语语音问答和英德翻译任务上验证;未探索ASR等唯一答案任务;训练计算成本高于SFT;混合策略(MP-GRPO)在语音问答上表现不稳定,需进一步研究;未开源代码和模型,阻碍快速复现与验证。 🏗️ 模型架构 论文并未提出新的模型架构,而是研究如何训练现有的Speech-Aware Large Language Models。其核心训练框架涉及两个主要组件: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 359 words

Adversarial Fine-Tuning on Speech Foundation Model with Vulnerable Attention Consistency Regularization for Robust Speech Recognition

📄 Adversarial Fine-Tuning on Speech Foundation Model with Vulnerable Attention Consistency Regularization for Robust Speech Recognition #语音识别 #语音大模型 #预训练 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #对抗样本 | #语音大模型 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yanyun Wang (The Hong Kong University of Science and Technology (Guangzhou)) 通讯作者:Li Liu (The Hong Kong University of Science and Technology (Guangzhou), avrillliu@hkust-gz.edu.cn) 作者列表:Yanyun Wang (The Hong Kong University of Science and Technology (Guangzhou)), Baoyuan Wu (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute), Li Liu (The Hong Kong University of Science and Technology (Guangzhou)) 💡 毒舌点评 亮点:这篇工作敏锐地抓住了“防御SFM时,不能像对待传统模型那样容忍精度大幅下降”这一核心矛盾,通过CKA分析定位脆弱层并设计了针对性的双重正则化(注意力散度和特征相似性),思路清晰且可解释性强。短板:实验基本局限于Whisper模型在LibriSpeech一个数据集上的表现,对于SFM在多语言、多噪声环境下的泛化能力验证不足,使得“SOTA”的宣称在更大范围内略显底气不足。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 457 words

Aligning Generative Speech Enhancement with Perceptual Feedback

📄 Aligning Generative Speech Enhancement with Perceptual Feedback #语音增强 #强化学习 #语音大模型 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #强化学习 | #语音大模型 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写"未说明" 明确标注通讯作者(如论文可判断),否则写"未说明" 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写"未说明" 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Haoyang Li (1) 通讯作者:未说明 作者列表: Haoyang Li (1 南洋理工大学) Nana Hou (2 独立研究者) Yuchen Hu (1 南洋理工大学) Jixun Yao (3 西北工业大学) Sabato Marco Siniscalchi (4 帕勒莫大学) Xuyi Zhuang (1 南洋理工大学) Deheng Ye (5 腾讯) Wei Yang (5 腾讯) Eng Siong Chng (1 南洋理工大学) 注:根据作者编号推断,机构1为“Nanyang Technological University, Singapore”,机构5为“Tencent”。 💡 毒舌点评 亮点:论文首次将DPO(直接偏好优化)引入语音增强领域,并创新性地利用神经MOS预测器(UTMOS)构建偏好数据,为解决语言模型语音增强中“信号准确但听感不佳”的痛点提供了一个简洁有效的框架,实验结果(UTMOS相对提升56%)具有显著说服力。 短板:研究局限于英语单语种场景,且依赖UTMOS作为偏好代理,其与人类真实偏好的对齐程度未深入讨论;此外,DPO优化导致在“无混响”条件下说话人相似度(SECS)下降的问题虽通过组合损失缓解,但暴露了单目标优化在多维度指标上可能产生权衡。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 481 words

Attention-Weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied To Speech Emotion Recognition

📄 Attention-Weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied To Speech Emotion Recognition #语音情感识别 #知识蒸馏 #语音大模型 #多模态模型 🔥 8.0/10 | 前25% | #语音情感识别 | #知识蒸馏 | #语音大模型 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Qingran Yang(未说明具体所属机构,根据作者列表推测可能同时关联平安科技和哈尔滨工业大学) 通讯作者:Jianzong Wang(Ping An Technology (Shenzhen) Co., Ltd., Shenzhen, China) 作者列表:Qingran Yang(Ping An Technology (Shenzhen) Co., Ltd., / Harbin Institute of Technology, Harbin, China)、Botao Zhao(Ping An Technology (Shenzhen) Co., Ltd.)、Zuheng Kang(Ping An Technology (Shenzhen) Co., Ltd.)、Xue Li(Harbin Institute of Technology, Harbin, China)、Yayun He(Ping An Technology (Shenzhen) Co., Ltd.)、Chuhang Liu(Ping An Technology (Shenzhen) Co., Ltd.)、Xulong Zhang(Ping An Technology (Shenzhen) Co., Ltd.)、Xiaoyang Qu(Ping An Technology (Shenzhen) Co., Ltd.)、Junqing Peng(Ping An Technology (Shenzhen) Co., Ltd.)、Jianzong Wang(Ping An Technology (Shenzhen) Co., Ltd.) 💡 毒舌点评 亮点:该工作巧妙地将LLM的自注意力权重作为“指挥棒”,引导知识蒸馏聚焦于音频中的情感关键帧,并干净利落地解决了跨模态蒸馏中顽固的维度失配问题,使得一个1.1B的“小模型”在SER任务上碾压了8.4B的教师模型,令人印象深刻。短板:实验结果虽好,但三个数据集规模都偏小(最大仅5.5k样本),且未提供代码,这让人对其方法的泛化能力和结果的完全可复现性保持谨慎乐观;另外,作为一项应用性研究,论文对“为何学生模型能远超教师”这一核心现象的机理探讨稍显不足。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 478 words