SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

📄 SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations #语音合成 #变分自编码器 #自监督学习 #语音识别 #多任务学习 #语音生成 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #变分自编码器 | #自监督学习 #语音识别 | arxiv 👥 作者与机构 作者:Peijie Chen*, Wenhao Guan, Weijie Wu, Kadi Wang, Daiyu Huang, Zhuanling Zha, Junbo Li, Jun Fang, Qingyang Hong†, Lin Li 机构:1 厦门大学信息学院,中国;2 厦门大学电子科学与工程学院,中国;3 滴滴全球公司,北京,中国 联系邮箱:peijiechen@stu.xmu.edu.cn ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 429 words

OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

📄 OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning #语音生成 #语音识别 9.1/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9.1/10 | 前25% | #语音生成 | #语音识别 | arxiv 👥 作者与机构 第一作者:王家豪(南京大学) 通讯作者:刘家恒(南京大学) 共同一作:王家豪,安平,王阳海 机构:南京大学LINK团队,快手科技可灵团队 💡 毒舌点评 基准测试虽号称“首个”,但核心创新在于将已有的指令跟随评估范式(如IFEval)扩展到全模态视频领域,并叠加了时间定位。约束类型的划分(50种)听起来很多,但很多是既有工作的组合或简单变体(如不同的JSON格式、列表格式)。 发现的“格式-内容权衡”现象并非首次发现,原文引用了相关工作(Tam et al., 2024; Deng et al., 2025),本文是在多模态场景下的验证,贡献在于将其显式化并量化。 训练数据集OmniCap-IF-54K的构建流程虽然详细,但严重依赖闭源模型(Gemini-3-Flash)和无法复现的中间数据(ASID-Captioner-7B的输出),这削弱了方法的可复现性和独立性。 作者声明的局限性(LLM评估偏差、短视频限制)是合理的,但回避了更关键的问题:指令模板是否充分代表了真实用户需求?约束的难度是否平衡?以及,基准的“高复杂度”是否可能沦为对模型生成冗长或格式化文本能力的考察,而非真正的指令理解? 论文在实验上用力过猛,列出了大量模型(14个),但对失败案例和边界条件的分析不足。部分对比(如与HumanOmniV2-7B的对比)意义有限,因为模型规模和架构差异巨大。 📌 核心摘要 本文提出了OmniCap-IF,这是一个用于评估和提升全模态视频描述模型指令遵循能力的综合基准。该基准包含1920个样本和50种约束类型,覆盖格式、视觉、音频和跨模态内容。作者发现了一个关键现象:严格的格式约束会损害模型的跨模态推理能力(“格式-内容权衡”)。为应对此问题,他们构建了大规模指令微调数据集OmniCap-IF-54K,并基于此训练了OmniCaptioner-IF系列模型,在指令遵循和通用描述性能上均取得了提升。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 389 words

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 360 words

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

📄 HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec #语音合成 #自监督学习 #语音生成 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #语音合成 | #自监督学习 | #语音生成 | arxiv 👥 作者与机构 作者:Arjun Gangwar, Umesh S 机构:Indian Institute of Technology, Madras, India 邮箱:arjungangwar@gmail.com, umeshs@ee.iitm.ac.in 💡 毒舌点评 这篇文章的核心想法,即将两个已有的范式(双流架构和语义蒸馏)进行“统一”,其创新性相当有限,更像是一个工程上的组合。论文最大的卖点在于“推理时不需SSL模型”的速度提升,但这本质上是用训练时的蒸馏损失换取了推理时的复杂性降低,技术路径并不新颖。实验部分,所有模型均仅在LibriSpeech上训练,这在评估跨语言和零样本能力时说服力大打折扣——模型只是在同一个英语数据集上见过足够多数据后,碰巧能更好地处理相似分布的英语语音而已。论文声称实现了“强大的语义-声学解耦”,但除了一个RVQ-1 WER指标外,缺乏任何更直接、更严谨的解耦度量来支撑这一核心主张。此外,完全不提供代码,极大地阻碍了结果的可验证性和社区的后续研究。 📌 核心摘要 针对多模态大语言模型中语音离散化的需求,现有神经音频编解码器存在语义解耦强但推理慢(如DualCodec)或推理快但解耦弱(如DAC蒸馏变体)的权衡。本文提出HybridCodec,一种结合了双流架构与语义蒸馏的统一模型。其训练时利用冻结的SSL模型(w2v-BERT-2.0)对语义流进行知识蒸馏,推理时则移除该重型SSL模型。实验表明,HybridCodec在域内(LibriSpeech)测试集上取得了最优的RVQ-1 WER(15.36%),相比DualCodec实现了约3倍的推理加速,同时在跨语言和零样本场景下保持了竞争力的重建质量和泛化能力。 🔗 开源详情 代码:论文中未提及代码链接,未开源。 模型权重:论文中未提及模型权重的公开获取链接,未开源。 数据集:论文使用了三个公开数据集:LibriSpeech(960小时,需重采样至24kHz)、SeedTTS-en(论文引用[Anastassiou2024SeedTTSAF])和Common Voice French(从测试集随机采样1000条)。论文未提供SeedTTS-en等的具体下载链接。 Demo:论文中未提及。 复现材料:论文提供了详细的模型架构(图1)、训练配置(数据集、音频处理、优化步骤、损失函数权重等)以及评估细节。未提供预训练检查点或复现脚本。表3中“open-source checkpoints”指的是对比的基线模型(Mimi, DualCodec)的原始开源检查点,而非本文HybridCodec的检查点。 论文中引用的开源项目(均为引用参考,非本文提供): DualCodec:作为基线对比,引用自[dualcodec]。 DAC (Distill):作为基线对比,基于[DAC]。 Mimi:作为开源模型对比,引用自[moshi]。 w2v-BERT-2.0:用作SSL特征提取器,引用自[w2v-bert-2.0]。 Whisper v3-large:用于WER评估,引用自[radford2022whisper]。 ECAPA-TDNN:用于SSIM评估,属于SpeechBrain工具包,引用自[ECAPA-TDNN]。 UTMOS:用于感知质量评估,引用自[UTMOS]。 PESQ:标准化评估指标,论文未指明具体实现来源。 ConvNeXt Block:用于模型架构,引用自[convnext]。 🏗️ 方法概述和架构 HybridCodec的核心设计是联合优化一个共享的编码器-解码器和两个并行的处理分支(语义流与声学流),并通过蒸馏引入SSL知识,最终实现在不依赖推理时SSL模型的前提下获得良好的语义-声学解耦。 ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 420 words

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 598 words

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构 作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...

2026-06-02 · 更新于 2026-06-12 · 1 min · 132 words

MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation

📄 MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation #语音生成 #多模态模型 #基准测试 🔥 9.9/10 | 前25% | #语音生成 | #多模态模型 | #基准测试 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度 高 👥 作者与机构 Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng。机构包括:上海大学、北京理工大学、上海戏剧学院、清华大学、合肥工业大学、字节跳动(Inkeverse)、阿德莱德大学、北京工业大学、北京人工智能研究院、OpenNLP Lab。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 486 words

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构:高德(Amap, Alibaba Group);香港中文大学(深圳) ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 480 words

WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling

📄 WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling #语音生成 #自监督学习 #统一音频模型 #语音合成 #零样本 ✅ 7.5/10 | 前25% | #语音生成 | #自监督学习 | #统一音频模型 #语音合成 | arxiv 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Guanrou Yang(上海交通大学,上海创新研究院) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表(按原文顺序): Guanrou Yang (1, 2) Tian Tan (1) Qian Chen (4) Zhikang Niu (1, 2) Yakun Song (1, 2) Ziyang Ma (1, 2) Yushen Chen (1, 2) Zeyu Xie (5) Tianrui Wang (6) Yifan Yang (1) Wenxi Chen (1, 2) Qi Chen (1, 2) Wenrui Liu (7) Shan Yang (3) Xie Chen (1, 2) 机构映射: Shanghai Jiao Tong University Shanghai Innovation Institute Tencent Independent Researcher Peking University Tianjin University Zhejiang University 💡 毒舌点评 这篇论文的亮点在于其系统性的诊断思维和工程实现。它没有盲目追逐“统一”的口号,而是清晰指出了当前SSL特征(如WavLM)直接用于生成模型的两大“硬伤”:一是高维特征空间的冗余性让扩散模型难以建模,二是SSL判别性训练导致的声学细节缺失。提出的“压缩-富集”两阶段训练范式逻辑自洽,设计精巧:第一阶段用自编码器压缩维度,第二阶段端到端微调注入声学信息,并用“语义锚定”防止语义漂移。实验设计全面,覆盖了理解、重建、生成(特别是零样本TTS和SUPERB-SG)多个维度,结果有说服力,尤其是消融实验清晰地证明了各设计模块的必要性。 ...

2026-05-08 · 更新于 2026-06-12 · 4 min · 761 words

ICLR 2026 - 语音生成 论文列表

ICLR 2026 - 语音生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Sp 7.0分 前25% 📋 论文详情 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 👥 作者与机构 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。 作者列表: Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-12 · 1 min · 126 words