Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音识别 #语音合成 #扩散模型 #流匹配 #语音大模型 🔥 8.5/10 | 前25% | #语音识别 | #扩散模型 | #语音合成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Wang (Meta超级智能实验室、香港中文大学(深圳)) 通讯作者:未明确说明(论文中注明“*Work done during an internship at Meta”,但未指明通讯作者) 作者列表:Yuancheng Wang(Meta超级智能实验室、香港中文大学(深圳)),Zhenyu Tang(Meta超级智能实验室),Yun Wang(Meta超级智能实验室),Arthur Hinsvark(Meta超级智能实验室),Yingru Liu(Meta超级智能实验室),Yinghao Aaron Li(Meta超级智能实验室),Kainan Peng(Meta超级智能实验室),Junyi Ao(Meta超级智能实验室、香港中文大学(深圳)),Mingbo Ma(Meta超级智能实验室),Mike Seltzer(Meta超级智能实验室),Qing He(Meta超级智能实验室),Xubo Liu(Meta超级智能实验室) 💡 毒舌点评 亮点:论文抓住了语音标记化器“既要压缩效率,又要重建质量,还要语义丰富”的“不可能三角”,用一个统一的扩散自编码器框架给出了一个极具竞争力的解,并在12.5Hz的极低帧率下将多项指标推向了新高度。短板:尽管提出了shortcut fine-tuning等解码加速方案,但扩散模型固有的多步采样本质仍是其在实时流式应用中的阿喀琉斯之踵,论文对此的解决方案(如轻量扩散头)效果有待更严苛场景的验证。 🔗 开源详情 代码:论文未提及具体代码仓库链接,但在附录D提供了详细的伪代码,并承诺在发表后发布。 模型权重:承诺在发表后发布预训练模型检查点(在公开研究数据集上)。 数据集:使用200万小时内部数据,未提及公开。 Demo:提供了演示样例的链接 https://sitok-demo.github.io/。 复现材料:提供了非常详细的模型架构(附录A)、训练循环伪代码(附录D.2)、超参数(附录D.3)和评估协议。 依赖的开源项目:论文提到了依赖的开源项目或工具,如Llama Transformer架构、Vocos声码器、Whisper-large-v3用于评估。 📌 核心摘要 本文针对语音标记化器在低比特率下面临的语义编码、声学重建与压缩效率难以兼顾的核心问题,提出了Speech Diffusion Tokenizer (SiTok)。其核心是将向量量化与扩散自编码器进行端到端联合优化,使离散编码既能高度压缩,又与生成式解码器的分布显式对齐。与先前两阶段或仅依赖重建损失的方法相比,SiTok创新性地引入了CTC语义正则化,直接对量化后的潜在空间施加文本监督,迫使离散token保留丰富的语言结构。实验表明,在极端的12.5 Hz token率和200 bits/s比特率下,SiTok在语音重建(如WER 3.34, SIM 0.682)和下游理解任务(如ASR WER 4.95)上均显著优于强基线。此外,通过快捷微调技术,解码步骤可缩减至2-4步而几乎不损质量。该工作为构建统一的语音语言模型提供了一个高效且全面的接口,但其在流式生成和多语言支持上的潜力有待进一步挖掘。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 342 words

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(ByteDance Seed) Yuanzhe Chen(ByteDance Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(ByteDance Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的“基建”价值很高,99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构(基于现有Qwen2.5-Omni的微调)创新稍显有限,更像是一个强大但“组装式”的解决方案,而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

2026-05-04 · 更新于 2026-06-15 · 3 min · 619 words

Toward Complex-Valued Neural Networks for Waveform Generation

📄 Toward Complex-Valued Neural Networks for Waveform Generation #语音合成 #复数神经网络 #生成对抗网络 #声码器 #计算优化 🔥 8.0/10 | 前25% | #语音合成 | #复数神经网络 | #生成对抗网络 #声码器 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Hyung-Seok Oh(高丽大学人工智能系) 通讯作者:Seong-Whan Lee(高丽大学人工智能系) 作者列表:Hyung-Seok Oh(高丽大学人工智能系)、Deok-Hyeon Cho(高丽大学人工智能系)、Seung-Bin Kim(高丽大学人工智能系)、Seong-Whan Lee(高丽大学人工智能系) 💡 毒舌点评 亮点:论文工作非常系统,不仅提出了复数域生成器与判别器的完整GAN框架,还针对性地设计了相位量化层作为归纳偏置,并给出了计算图级别的效率优化(分块矩阵),形成了一个从理论动机到工程实现闭环的扎实工作。短板:复数网络带来的参数量与显存开销(约翻倍)是其难以回避的“阿喀琉斯之踵”,论文虽通过分块矩阵优化了训练时间,但在推理吞吐量和多卡训练支持上仍显不足,这限制了其在大规模工业部署中的即时吸引力。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/hs-oh-prml/ComVo。 模型权重:提供预训练模型权重,可通过论文提供的主页链接获取:https://hs-oh-prml.github.io/ComVo/。 数据集:使用公开的LibriTTS和MUSDB18-HQ数据集。 Demo:论文主页提供音频样本演示:https://hs-oh-prml.github.io/ComVo/。 复现材料:论文提供了非常详细的训练配置表(表20),包括所有超参数、数据设置、损失权重、硬件信息等。附录中也包含了各基线模型的实现来源(表17)和评估指标的来源(表18)。 论文中引用的开源项目: Vocos:作为基础架构进行改编。 HiFi-GAN, BigVGAN, iSTFTNet:作为主要对比基线。 APNet, APNet2, FreeV:作为幅相预测声码器的对比基线。 Matcha-TTS:用于TTS管线评估的声学模型。 UTMOS, auraloss, PESQ, cargan:用于客观评估的指标工具。 📌 核心摘要 解决的问题:现有的基于逆短时傅里叶变换(iSTFT)的声码器(如Vocos)虽然效率高,但普遍使用实值神经网络(RVNN)将复数谱的实部和虚部作为独立通道处理,这限制了模型捕捉实虚部之间内在耦合结构的能力。 方法核心:提出ComVo,一个完全在复数域内运行的GAN声码器。其生成器和判别器(cMRD)均使用原生复数算术层。同时引入了相位量化层,将连续相位离散化为有限等级,作为稳定训练的归纳偏置。此外,提出了分块矩阵计算方案,将复数乘法融合为单次矩阵乘法,以减少冗余操作,提升训练效率。 创新之处:据作者称,这是首个将复数神经网络(CVNN)同时应用于生成器和判别器的iSTFT-based vocoder。与先前实值方法独立处理实虚部或简单拼接通道相比,该方法在复数域内进行端到端的对抗训练,能提供更结构化的反馈。相位量化和分块矩阵计算是两个重要的辅助创新。 主要实验结果:在LibriTTS数据集上,ComVo在多数客观指标上超越了HiFi-GAN、iSTFTNet、BigVGAN和Vocos等强基线,MOS得分(4.07)与基线持平。在MUSDB18-HQ音乐数据集上,ComVo也取得最佳客观分数和竞争力的主观分数。消融实验表明,复数生成器与复数判别器的组合(GCDC)效果最佳;相位量化在Nq=128时带来最佳感知质量提升;分块矩阵方案在保持性能的前提下将训练时间减少了25%。 模型 UTMOS ↑ MR-STFT ↓ PESQ ↑ Periodicity ↓ V/UV F1 ↑ MOS ↑ CMOS ↑ GT 3.8712 - - - - 4.08 ± 0.04 0.14 HiFi-GAN 3.3453 1.0455 2.9360 0.1554 0.9174 4.00 ± 0.05 -0.09 iSTFTNet 3.3591 1.1046 2.8136 0.1476 0.9243 3.98 ± 0.05 -0.04 BigVGAN 3.5197 0.8994 3.6122 0.1181 0.9418 4.05 ± 0.05 -0.05 Vocos 3.6025 0.8856 3.6266 0.1061 0.9522 4.05 ± 0.05 -0.02 ComVo 3.6901 0.8439 3.8239 0.0903 0.9609 4.07 ± 0.05 0 表2:在LibriTTS数据集上的客观与主观评估结果(关键行数据) 5. 实际意义:证明了复数神经网络在音频波形生成任务中相对于实值网络的表示优势,为处理复值信号(如频谱)提供了更自然的建模范式。分块矩阵方案为优化复数运算在现有深度学习框架中的实现效率提供了实用思路。 6. 主要局限性:复数参数存储导致内存占用翻倍,增加了模型大小和显存需求。论文在单卡上实验,多GPU并行训练下的性能和稳定性未充分验证。相位量化层的直通估计器(STE)近似可能在某些任务上引入优化挑战。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 308 words

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。 🔗 开源详情 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。 Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 解决的问题:现代文本转语音(TTS)系统已能生成以假乱真的语音,导致传统主观评估(如MOS)难以跨研究对比,而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。 方法核心:提出TTSDS2,一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离,综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。 与已有的方法相比新在哪里: 特征集升级:相较于TTSDS,替换了表现不佳的特征(如用Whisper和wav2vec 2.0的ASR激活替代WER),并为多语言场景引入了mHuBERT-147和XLSR-53等模型。 跨域鲁棒性验证:在CLEAN(干净朗读)、NOISY(噪声)、WILD(野生/对话)、KIDS(儿童语音)四个不同域上验证了指标与人类评分的相关性。 自动化多语言基准:发布了一个可重复运行的流水线,用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名,覆盖14种语言。 主要实验结果: 在20个开源TTS系统、16个客观指标的对比中,TTSDS2是唯一一个在所有4个域、3种主观评分(MOS, CMOS, SMOS)上均取得Spearman相关系数ρ > 0.50的指标,平均ρ ≈ 0.67。 与次优的说话人相似度指标(RawNet3, X-Vector)平均相关性0.6相比,TTSDS2更具一致性和连续性。 消融实验表明,简单的因子平均策略比学习权重策略在未见域上泛化更好。 多语言TTSDS2分数与语言学距离(Uriel+)相关性(ρ = -0.51)高于原版TTSDS(ρ = -0.39)。 Metric Clean (MOS) Clean (CMOS) Clean (SMOS) Noisy (MOS) Noisy (CMOS) Noisy (SMOS) Wild (MOS) Wild (CMOS) Wild (SMOS) Kids (MOS) Kids (CMOS) Kids (SMOS) TTSDS2 (Ours) 0.75 0.69 0.73 0.59 0.54 0.71 0.75 0.71 0.75 0.61 0.50 0.70 TTSDS (Original) 0.60 0.62 0.52 0.49 0.61 0.66 0.67 0.57 0.67 0.70 0.52 0.60 RawNet3 0.36 0.26 0.52 0.44 0.37 0.82 0.85 0.80 0.64 0.73 0.61 0.77 X-Vector 0.46 0.42 0.56 0.40 0.29 0.77 0.82 0.82 0.62 0.70 0.57 0.75 SQUIM 0.68 0.46 0.37 0.48 0.48 0.60 0.62 0.75 0.79 0.57 0.55 0.45 表:主要客观指标与主观评分的Spearman相关系数对比(节选)。TTSDS2在所有条件下均保持高于0.50的强相关。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 365 words

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学)、Wei Xue(香港科技大学) 💡 毒舌点评 该论文的亮点在于其“大道至简”的哲学,用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题,性能数据非常亮眼。然而,其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上,这使得结果的说服力打了些折扣——毕竟,如果给其他SOTA模型同样规模的定制数据,结果差距可能会缩小。此外,其多标记符的复杂分词策略在工程实现和通用性上是否是最优解,也值得商榷。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅提供了演示网站。 模型权重:基于Qwen2.5-1.5B-Instruct,论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。 数据集:UniST数据集已构建,论文提到“公开”(release),但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo:提供了在线演示网站:https://cmots.github.io/uniss-demo/ 复现材料:在附录B.1中提供了极其详细的训练配置(阶段、数据、学习率、批次大小等),在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分,主要缺省是官方代码仓库。 论文中引用的开源项目:Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要 这篇论文要解决的是表达式语音到语音翻译(S2ST)中的三大挑战:保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型,它基于预训练的Qwen2.5-1.5B-Instruct构建,使用三种语音标记(说话人标记、语言标记、语义标记)来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链(CoT)提示,在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤,从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型,论文还构建了一个大规模、高质量的合成数据集UniST(44.8k小时)。实验结果(主要见表1)表明,在CVSS-T数据集上,UniSS(质量模式)在翻译保真度(Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28)、时长一致性(SLC 0.2: 0.98/0.87)和语音质量(UTMOS: 3.76/3.86)上均显著优于现有的端到端和级联系统。主观评估(表2)也证实其在情感相似度(MOS 4.51)和说话人相似度(4.42)上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语,且其分词器来自不同模型,导致词表膨胀。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 306 words

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng (Microsoft Research) 通讯作者:Furu Wei (Microsoft Research) 作者列表:Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评 这篇论文成功地将播客生成从“能用”推向了“好用”的阶段,特别是其超低帧率(7.5Hz)的连续声学分词器在保持高保真度(UTMOS 4.18)的同时极大压缩了序列长度,是处理长序列的关键创新,解决了90分钟超长对话生成的核心瓶颈。然而,该方法对数据质量(需自建复杂标注管道)和训练复杂性(课程学习、大规模计算)的依赖,使其复现门槛较高,且论文并未公开其内部播客数据集。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 323 words

Continuous Audio Language Models

📄 Continuous Audio Language Models #音频生成 #音乐生成 #自回归模型 #流匹配 #语音合成 🔥 9.5/10 | 前10% | #音频生成 #音乐生成 | #自回归模型 #流匹配 | #音频生成 #音乐生成 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Simon Rouard(Kyutai;IRCAM-CNRS Sorbonne Univ.) 通讯作者:未说明(论文未明确指定,通常对应邮箱作者为Simon Rouard和Alexandre Défossez) 作者列表:Simon Rouard(Kyutai;IRCAM-CNRS Sorbonne Univ.),Manu Orsini(Kyutai),Axel Roebel(IRCAM-CNRS Sorbonne Univ.),Neil Zeghidour(Kyutai),Alexandre Défossez(Kyutai) 💡 毒舌点评 这篇论文的亮点在于其系统性思维,它没有孤立地提出一个新模块,而是为“连续音频生成”这个目标设计了一整套涵盖编码、建模、采样和蒸馏的完整流水线(CALM),并通过“Pocket TTS”将学术想法落到了实处。然而,其短板在于音乐生成的实验数据集规模(400K歌曲)相比工业级模型仍显局促,这或许限制了其在最复杂音乐场景下潜力的完全展现,且论文未公开其训练数据集。 🔗 开源详情 代码:论文中提及了代码仓库链接:github.com/kyutai-labs/pocket-tts (用于Pocket TTS)。主论文代码链接在摘要中提及为:iclr-continuous-audio-language-models.github.io。 模型权重:明确提供了开源的“Pocket TTS”模型权重(100M参数),可在上述GitHub仓库获取。对于论文中的大型实验模型(如1.35B音乐模型),未提及是否开源。 数据集:论文详述了训练所用的数据集名称(如Emilia, LAION-Disco-12M等)和规模,但未提供统一的下载链接,部分数据集可能是公共的,部分可能为内部或受限数据集。 Demo:摘要中提到了示例音频网站 iclr-continuous-audio-language-models.github.io。 复现材料:提供了极其详尽的附录,包括:表14(VAE超参数)、表15(模型与训练超参数)、各任务的具体数据处理细节(附录D、F、G)、消融实验(表6, 表10)、补充实验(表7, 表8, 表9, 表11, 表12, 表13)、以及人类评估方法详细说明(附录H)。 论文中引用的开源项目:论文主要基于并引用了以下开源项目/模型:Mimi (Défossez et al., 2024b), WavLM (Chen et al., 2021b), Helium-1 (Kyutai, 2025), Mistral 7B (Jiang et al., 2023), CLAP (Elizalde et al., 2023), SentencePiece (Kudo & Richardson, 2018), fairseq (Ott et al., 2019), Whisper (Radford et al., 2022)。 📌 核心摘要 要解决什么问题:现有音频语言模型(ALM)依赖有损的离散音频令牌(如RVQ),导致生成高质量音频必须生成更多令牌,从而在保真度和计算成本之间存在根本矛盾。 方法核心是什么:提出连续音频语言模型(CALM),在VAE的连续潜空间中进行自回归建模。核心是一个大型因果Transformer(长上下文)处理带噪声的历史潜变量,一个轻量Transformer(短上下文)处理干净的近期潜变量,两者结合后条件化一个小型一致性模型(MLP),以单步生成下一个干净的连续潜变量。 与已有方法相比新在哪里:完全避免了有损量化,用一致性模型替代了离散模型的RQ-Transformer头或扩散模型的多步采样头,实现了质量与效率的同步提升。创新性地提出了“噪声长上下文+干净短上下文”的双Transformer设计、潜在分类器引导(Latent CFG)和潜在蒸馏(Latent Distillation)等技术。 主要实验结果如何:在语音延续、文本到语音(TTS)和音乐延续任务上全面超越了最先进的离散模型基线。 TTS任务(表3):CALM模型WER为1.81,优于F5-TTS的2.42和DSM的1.95,声学质量MUSHRA得分61.1。 音乐延续任务(表4):CALM一致性模型(4步)的FAD(0.71)优于32-RVQ RQ-Transformer基线(1.06),整体推理速度提升1.9倍,采样头速度提升5.4倍。 语音延续任务(表2):CALM在声学质量和有意义性上均超越8-RVQ RQ-Transformer。 消融研究(表6):证明短上下文Transformer和噪声增强是模型高性能的关键。 实际意义是什么:使得在轻量级设备(如笔记本电脑CPU)上运行高质量的实时音频生成成为可能。开源的“Pocket TTS”(100M参数)模型实现了这一目标,具有极高的实际应用价值。 主要局限性是什么:论文中音乐生成的训练数据集规模(约20K小时)相对有限;连续表示可能在某些细粒度控制上(如精确的音高、时长编辑)面临挑战;论文未提供其主训练数据集的下载链接。 🏗️ 模型架构 CALM的整体架构(图1)是一个端到端的连续自回归生成系统,由VAE编码器、双Transformer骨干和一致性模型头组成。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 587 words

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chao-Hong Tan (未明确标注,但作者列表首名) 通讯作者:论文中未明确指定通讯作者。 作者列表:Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评 亮点:DrVoice 提出的双分辨率语音表示(DRSR)设计精巧,通过分组将输入帧率降至5Hz,大幅降低了计算成本(训练时间减少近50%),并成功缓解了语音与文本token的频率失配问题,在保持甚至超越SOTA性能的同时提升了效率。短板:模型在语音质量(UTMOS)上与最强基线(如Qwen2.5-Omni)持平,但在语音与文本对齐(ASR-WER)上仍有差距,说明其生成的语音在精确还原文本内容上还有提升空间,且全双工交互能力未实现。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 496 words

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

📄 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates #语音合成 #流式处理 #模型评估 🔥 8.8/10 | 前10% | #语音合成 | #流匹配 | #流式处理 #模型评估 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jiaqi Li(The Chinese University of Hong Kong, Shenzhen; Amphion Technology Co., Ltd.) 通讯作者:未明确说明(论文未明确指定通讯作者) 作者列表: Jiaqi Li(The Chinese University of Hong Kong, Shenzhen; Amphion Technology Co., Ltd.) Yao Qian(Microsoft, USA) Yuxuan Hu(Microsoft, USA) Leying Zhang(Shanghai Jiao Tong University) Xiaofei Wang(Microsoft, USA) Heng Lu(Microsoft, USA) Manthan Thakker(Microsoft, USA) Jinyu Li(Microsoft, USA) Sheng Zhao(Microsoft, USA) Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute; City University of Macau; Amphion Technology Co., Ltd.) 💡 毒舌点评 FlexiCodec的核心亮点在于将“动态帧率”的概念系统化地引入超低比特率音频编解码,并巧妙地利用ASR特征进行语义引导,实验设计严谨,在6.25Hz的极致压缩下仍能保持可观的语义清晰度,对语音大模型的效率提升极具吸引力。不过,其多语言泛化能力在零样本设置下几乎崩溃,仅能通过微调部分缓解,这暴露了其当前方案对特定语言(英语)特征的强依赖,限制了其作为通用语音基础模型组件的适用范围。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 544 words

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 🔥 8.5/10 | 前25% | #语音合成 | #强化学习 学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dekun Chen(香港中文大学,深圳) 通讯作者:未明确说明(论文末尾提供了Dekun Chen和Zhizheng Wu的邮箱,但未标注“通讯作者”字样) 作者列表:Dekun Chen(香港中文大学,深圳)、Xueyao Zhang(香港中文大学,深圳)、Yuancheng Wang(香港中文大学,深圳)、Kenan Dai(华为技术有限公司)、Li Ma(华为技术有限公司)、Zhizheng Wu(香港中文大学,深圳;深圳环域研究院;澳门城市大学;Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文最亮眼的是其“渐进式后训练”框架,像一个精心设计的课程表,一步步教会模型在指令、音色和内容三者间保持清醒,实验也证明其解耦能力确实碾压同类基线。但短板在于,对非情感类精细风格(如口音、个性)的验证主要依赖外部基准测试,自身构造的验证集场景相对单一,且核心的复杂指令奖励模型依赖于一个未经深入验证的外部大模型(Kimi-Audio),这使得整个训练管线的“闭源可控性”打了折扣。 🔗 开源详情 代码:论文中未提及具体代码链接,但表示会发布所有训练和推理代码。 模型权重:论文中未提及已公开的模型权重链接,但表示会发布模型检查点。 数据集:论文表示会发布FlexiVoice-Instruct数据集。 Demo:提供了在线演示网站 https://flexi-voice.github.io/。 复现材料:附录(A.1-A.11)提供了极其详尽的复现细节,包括模型结构、数据处理流程、训练策略、超参数设置、硬件配置和评估协议。 论文中引用的开源项目:DualCodec (Li et al., 2025), Phi-3.5-mini-instruct (Abdin et al., 2024), Flow Matching (Lipman et al., 2023), Vocos (Siuzdak, 2023), Emotion2vec-Large (Ma et al., 2024), CAM++ (Wang et al., 2023), Kimi-Audio-7B-Instruct (Ding et al., 2025), Deepseek-V3 (Liu et al., 2024a), Emilia (He et al., 2024), ParaSpeechCaps (Diwan et al., 2025), NVSpeech (Liao et al., 2025)。 总结:论文中详细阐述了开源计划,并提供了大量可复现的技术细节,但截至目前,公开发布的主要是演示页面。 📌 核心摘要 本文旨在解决零样本语音合成(TTS)中同时遵循自然语言风格指令和保持音色一致性的“风格-音色-内容冲突”问题。核心方法是提出FlexiVoice系统及其创新的“渐进式后训练”框架。该框架通过三个阶段逐步增强模型能力:1)多模态DPO建立对指令和参考语音的基本对齐;2)解耦GRPO通过构建冲突场景(如快乐指令对悲伤参考)来强制模型分离风格与音色/内容;3)指令GRPO使用音频语言模型奖励来提升对复杂、开放式指令的遵循能力。此外,论文构建了大规模指令-语音数据集FlexiVoice-Instruct。实验结果表明,在多模态控制解耦评估(英文与中文)的多个困难设置中,FlexiVoice在指令遵循准确率(ACC-I)上大幅领先基线(例如,在英文TR-hard任务上达到78.2% vs. VoxInstruct的49.7%),同时保持了高说话人验证准确率(SV)。在复杂指令跟随基准InstructTTSEval上,FlexiVoice平均准确率达79.3%(英文)和70.8%(中文),显著超越所有开源基线,并接近商业闭源系统。该工作的实际意义在于提供了一个能灵活、精准控制语音风格的零样本TTS框架。主要局限性在于其风格控制能力的验证仍以情感和预定义指令集为主,对极其抽象或文化特定指令的泛化能力有待进一步证明,且核心训练依赖外部大模型作为奖励模型,成本较高。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 332 words