Posts

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #语音编码 #模型评估 #开源工具 🔥 8.5/10 | 前25% | #语音编码 | #向量量化 | #模型评估 #开源工具学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确指定（论文提供了共同的学术邮箱 {mohammad.vali, tom.backstrom, arno.solin}@aalto.fi，未说明谁是通讯作者）作者列表：Mohammad Hassan Vali¹，Tom Bäckström²，Arno Solin¹ ¹ ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland ² Department of Information and Communications Engineering, Aalto University, Finland 💡 毒舌点评本文的亮点在于巧妙地将重参数化技巧应用于VQ，使DiVeQ在保留“硬分配”前向传播的同时实现了可微分，并通过SF-DiVeQ解决了码本坍缩和未充分利用的痛点，设计思路优雅且实验验证扎实。短板在于其“通用性改进”的定位虽强，但计算复杂度（如SF-DiVeQ需要对每条线段计算误差）相比原始VQ有所增加，且论文未深入分析在超大规模模型或极端离线场景下的效率影响。 ...

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chao-Hong Tan (未明确标注，但作者列表首名) 通讯作者：论文中未明确指定通讯作者。作者列表：Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评亮点：DrVoice 提出的双分辨率语音表示（DRSR）设计精巧，通过分组将输入帧率降至5Hz，大幅降低了计算成本（训练时间减少近50%），并成功缓解了语音与文本token的频率失配问题，在保持甚至超越SOTA性能的同时提升了效率。短板：模型在语音质量（UTMOS）上与最强基线（如Qwen2.5-Omni）持平，但在语音与文本对齐（ASR-WER）上仍有差距，说明其生成的语音在精确还原文本内容上还有提升空间，且全双工交互能力未实现。 ...

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频问答 #音频场景理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频场景理解 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Daiqing Wu（中国科学院信息工程研究所；字节跳动）通讯作者：Yangyang Kang（字节跳动），Yu Zhou（南开大学）作者列表： Daiqing Wu（中国科学院信息工程研究所；字节跳动；中国科学院大学） Xuan Zhang（字节跳动） Dongbao Yang（中国科学院信息工程研究所） Jiashu Yao（字节跳动） Longfei Chen（上海科技大学） Qingsong Liu（字节跳动） Sicheng Zhao（清华大学） Can Ma（中国科学院信息工程研究所） Yangyang Kang（浙江大学；字节跳动） Yu Zhou（南开大学） 💡 毒舌点评亮点：论文清晰地指出了现有“音频条件化文本推理”的信息瓶颈问题，并受人类听觉认知启发，提出了“音频交错推理”这一新颖且合理的范式，通过两阶段训练框架（SFT+RL）使其落地，并在多个专家级音频理解基准上取得了SOTA性能，验证了范式的有效性。短板：训练数据完全依赖LLM（DeepSeek-R1）基于音频描述自动生成，其质量和与真实音频的匹配度可能存在噪声，且数据筛选过程引入了额外的不确定性；虽然提供了代码，但模型权重未公开，限制了复现和直接比较的便利性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/wdqqdw/Echo，包含训练代码和脚本。模型权重：论文中未提及公开模型权重。数据集：论文中提及构建了EAQA-SFT和EAQA-RL数据集，但未明确说明是否公开下载。训练中使用的其他数据集（AudioSet-Strong, MusicBench, AVQA）为公开数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练超参数、数据统计（附录F）、伪代码（附录D）、提示词模板（附录E）和评估设置，复现细节较为充分。引用的开源项目：模型基座为Qwen2.5-Omni，数据合成使用了DeepSeek-R1，训练使用了ms-swift、VERL和vLLM框架。 📌 核心摘要解决的问题：现有大音频语言模型（LALMs）在推理时普遍采用“一次性编码”的音频条件化文本推理，将连续音频信号压缩为静态嵌入，导致关键细节信息丢失，形成“信息瓶颈”，限制了模型处理复杂、多源音频的能力。方法核心：提出“音频交错推理”范式，将音频作为主动推理组件。模型在推理过程中动态定位并回听关键音频片段（通过<seg>标签），将原始音频token插入推理上下文，形成多模态推理过程。为实现此范式，设计了两阶段训练框架：(1) 监督微调（SFT）使模型学会生成包含时间戳的音频定位推理链；(2) 强化学习（RL）通过设计的奖励函数（准确度、格式、一致性、片段奖励）优化模型的回听策略。同时，构建了一个利用LLM自动生成高质量音频问答及思维链（CoT）的数据生产流水线。创新之处：核心创新在于提出了“音频交错推理”这一新的推理格式，改变了模型与音频交互的方式，从“思考音频”转向“用音频思考”。这与之前主要复制文本推理范式的方法有本质区别。配套的两阶段训练框架和自动化数据生成流水线也是重要贡献。主要结果： Echo模型在MMAR（平均69.99%）、MMAU-mini（平均80.41%）和MMAU（平均76.61%）等强调高级推理的音频理解基准上，取得了开源模型中的最优性能，并超越了GPT-4o-Audio和Gemini-2.0-Flash等先进商业模型。消融实验表明，音频交错推理格式、SFT数据、RL数据质量以及各奖励组件对性能提升均有贡献。下表总结了主要实验结果：模型类别 MMAR Avg Acc (%) MMAU-mini Avg Acc (%) MMAU Avg Acc (%) Qwen2.5-Omni (基线) 开源基础模型 57.33 71.53 71.00 GPT-4o-Audio 专有模型 64.09 62.51 60.82 Gemini-2.0-Flash 专有模型 67.90 70.51 67.03 Echo (本文) 自适应模型 69.99 80.41 76.61 实际意义：为提升LALMs的复杂音频理解能力提供了一种符合认知科学、且实证有效的技术路径，特别是在需要精细时序分析和多轮音频感知的任务中（如多说话人角色映射、事件推理）。所提出的数据生成流水线对构建高质量音频训练数据也有参考价值。主要局限性： (1) 训练数据依赖于LLM的合成，其“听觉”基于文本描述而非原始音频，可能存在语义偏差和幻觉，尽管有交叉验证和过滤机制。(2) 当前的回听机制仅支持直接访问原始音频片段，未探索如慢速播放、频谱分析等更高级的“听觉”操作。(3) 模型在长音频上的泛化能力虽被提及但有待更深入验证。 🏗️ 模型架构 Echo模型整体架构基于一个预训练的多模态大模型（Qwen2.5-Omni），并通过两阶段训练使其具备“音频交错推理”能力。其核心不在于全新的神经网络模块设计，而在于推理流程和训练范式的创新。 ...

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音大模型 #语音对话系统 #模型评估 #语音情感识别 🔥 8.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音对话系统学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Li Zhou（香港中文大学（深圳））通讯作者：Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）， Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）作者列表：Li Zhou（香港中文大学（深圳））， Lutong Yu（香港中文大学（深圳））， You Lyu（香港中文大学（深圳））， Yihang Lin（香港中文大学（深圳））， Zefeng Zhao（香港中文大学（深圳））， Junyi Ao（香港中文大学（深圳））， Yuhao Zhang（香港中文大学（深圳））， Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）， Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院） 💡 毒舌点评这篇论文的价值在于它清晰地揭示了当前语音大模型在“听懂弦外之音”并“有温度地回应”上的集体短板，其精心设计的控制变量实验（中性文本搭配不同语音风格）是评估共情能力的关键创新。不过，作为一项评估基准研究，它本身并未提出新的模型架构或训练方法，其核心贡献是提出了问题并提供了标尺，解决问题的下一步还需依赖后续的模型开发工作。 🔗 开源详情代码：论文中提及将提供代码，但未在提供的文本中给出具体代码仓库链接。模型权重：未提及。该工作评估的是现有模型，未提出新模型。数据集：论文明确承诺将发布EchoMind（TTS版和人工录音版）的所有数据、元数据及标注协议。获取方式未具体说明（预计会开源）。 Demo：未提供在线演示信息。复现材料：论文附录详细说明了音频输入统计（A.1）、对话数据示例（A.2）、人工录音细节（A.3）、MCQ构建示例（A.4）以及所有评估指标的定义和标准（B.2， B.4），为复现评估流程提供了充分信息。引用的开源项目：论文在数据构建和评估中使用了多种开源或公开工具/模型，包括： TTS：Doubao TTS API（火山引擎）， GPT-4o-mini-TTS（OpenAI）语音/音频模型：emotion2vec（Ma et al., 2024）， Gemini-2.5-Pro（Comanici et al., 2025）评估工具：NISQA， UTMOS， BERTScore， Qwen3-Embedding-0.6B 数据集：AudioCaps（Kim et al., 2019）总结：论文承诺开源核心数据与代码，并提供了详尽的构建与评估细节，开源计划较为明确。 📌 核心摘要要解决什么问题：现有的语音大模型（SLM）评估基准通常孤立地评估语言理解、声学识别或对话能力，缺乏一个能够系统性评估模型在整合非语言语音线索（如情感、副语言、环境音）进行共情对话能力的统一框架。方法核心是什么：提出EchoMind，一个关联的多层级基准，模拟人类共情对话的认知过程，包含三个连续任务层级：语音内容理解（ASR & MCQ）、语音线索感知（MCQ）、集成推理（MCQ）和开放式共情对话生成。所有任务使用语义中性的相同脚本，但配以不同的语音风格（目标表达、中性、替代表达），以隔离和测试语音表达本身的影响。与已有方法相比新在哪里：EchoMind是首个将理解、推理、对话三个评估层级通过共享上下文（相同脚本+不同语音）关联起来的基准，支持对模型内部认知链的端到端分析。它构建了一个覆盖3大类、12小类、39个具体语音属性的共情框架，并设计了多维度的评估指标（包括音频级的情感对齐度）。主要实验结果如何：对12个先进SLM的测试表明：模型在文本内容理解上表现良好（如WER和SemSim分数较高），但在语音线索理解和推理上能力参差不齐，闭源模型GPT-4o-Audio通常优于开源模型。在开放式对话生成中，尽管回复在上下文相关性、自然度等方面得分尚可，但在需要利用语音线索来调整回复语气和情感的维度（CSpeechRel, VES）上得分普遍不高，最高分也未超过4/5。人工评估验证了自动指标的有效性，并发现即使是GPT-4o-Audio，其回复的语音风格也与人工期望存在差距。分析揭示了模型对提示词敏感、对人声的鲁棒性弱于合成语音，以及当提供理想语音线索信息时，模型的共情回复潜力（上界）会显著提升。模型语音理解准确率(%) 推理准确率(%) 对话-VES分数对话-CSpeechRel分数 GPT-4o-Audio 66.25 68.04 3.34 3.42 Qwen2.5-Omni-7B 60.87 57.70 3.24 2.92 Step-Audio 40.74 45.90 3.20 3.09 (其他11个模型数据见论文表4) 表1：关键指标对比摘录（模型、语音理解、推理、对话相关主观分数）。数据来源：论文表4。 ...

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）通讯作者：Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）作者列表：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）、Kejun Gao（清华大学计算机科学与技术系）、Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）注：Kai Li和Kejun Gao贡献均等（*标记），Xiaolin Hu为通讯作者（†标记）。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明，用极低的计算开销（MACs降低2.4倍）实现了SOTA分离性能，为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索，未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情代码：论文中承诺在GitHub上开源代码（Apache-2.0许可证），并提供了一个Demo页面链接（https://cslikai.cn/Dolphin），但未在文中直接给出具体代码仓库URL。因此，具体链接需以论文被接收后的发布为准。模型权重：论文中提到会公开预训练权重（“pretrained weights for the video backbone”），但未提供具体下载链接。数据集：使用的LRS2, LRS3, VoxCeleb2为公开数据集，但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo：提供了一个在线演示页面链接：https://cslikai.cn/Dolphin。复现材料：提供了极其详细的复现信息，包括：conda环境规范、完整配置文件、所有超参数（附录E）、评估指标和损失函数的正式定义（附录D）、模型各组件的详细结构（附录A, B）、训练细节（附录A.3）。引用的开源项目：论文中提到了依赖的开源工具/模型，包括：PyTorch, PyTorch Lightning, VQ实现（vector-quantize-pytorch on PyPI）, AV-HuBERT（作为蒸馏教师模型）。总体：开源意愿强烈，复现支持非常充分，是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接，但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接，可认为代码已或即将公开。 📌 核心摘要本文旨在解决音频-视觉语音分离（AVSS）模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括：1) 设计了一个轻量级双路径视频编码器DP-LipCoder，通过向量量化（VQ）和知识蒸馏将唇部运动映射为与音频对齐的离散语义token；2) 构建了一个基于TDANet的轻量级编解码分离器，并引入全局-局部注意力（GLA）模块，在每个层内同时建模长程依赖和局部特征，从而实现单次迭代的高质量分离。与现有的SOTA方法（如IIANet）相比，Dolphin在三个基准数据集（LRS2, LRS3, VoxCeleb2）上取得了更好的分离性能（例如，在LRS2上SI-SNRi达到16.8dB，比IIANet高0.8dB），同时参数量减少超过50%，计算量（MACs）降低超过2.4倍，GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖，且在极端资源受限设备上的部署仍需进一步优化。 ...

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG (1, 2*) (1: 香港中文大学; 2: 微软) 通讯作者：Helen M. Meng (1) (香港中文大学) 作者列表：Dingdong WANG (香港中文大学，微软), Shujie LIU (微软), Tianhua Zhang (香港中文大学), Youjun Chen (香港中文大学), Jinyu Li (微软), Helen M. Meng (香港中文大学) 💡 毒舌点评论文将语音情感识别从“贴标签”重构为“讲道理”，引入强化学习监督推理过程，思路清晰且新颖，提出的GRPO-PTR方法有效缓解了奖励黑客问题。然而，其核心的“情感CoT-35K”数据集高度依赖GPT-4o合成与自动化标注管线，情感推理的“真实性”与“泛化性”存疑；此外，强化学习训练的稳定性与超参数敏感性也是一大挑战，论文中的消融实验虽已说明，但实际落地调参难度可能被低估。 ...

End-to-end Listen, Look, Speak and Act

📄 End-to-end Listen, Look, Speak and Act #多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者) 通讯作者：Chao Zhang (清华大学) 作者列表：Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学) 💡 毒舌点评这篇论文在架构设计上确实有巧思，将全双工多模态交互与MoE范式结合，实现了首个能“听说读写做”的端到端模型，在模拟环境中的全面表现也很亮眼。但核心实验全在��真环境里打转，离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟，且其声称的“首个”全双工多模态端到端模型，在缺乏与同期所有相关工作进行系统性对比的情况下，说服力稍显不足。 ...

Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression

📄 Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression #多模态模型 #知识蒸馏 #模型评估 #工业应用 ✅ 7.5/10 | 前25% | #音视频 | #知识蒸馏 | #多模态模型 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hyoungseob Park（Yale University）通讯作者：未说明作者列表：Hyoungseob Park（Yale University）、Lipeng Ke（Amazon AGI）、Pritish Mohapatra（Amazon AGI）、Huajun Ying（Amazon AGI）、Sankar Venkataraman（Amazon AGI）、Alex Wong（Yale University） 💡 毒舌点评这篇论文提出了一个新颖的视角：将知识蒸馏从“模仿教师的特征值”转变为“模仿特征间的关系结构（Gram矩阵）”，这为解决异构教师-学生模型蒸馏问题提供了优雅且通用的解决方案。然而，其熵监控模块虽然有效，但需要为每个模态额外训练一个线性层作为探针，这引入了额外的训练复杂度和超参数调优需求，在一定程度上削弱了其“简洁性”。 🔗 开源详情代码：论文中提到“we will release the code and the pretrained weights”，但未提供具体链接。模型权重：承诺公开预训练权重。数据集：使用公开数据集VGGSound和AVS-Bench。 Demo：未提及。复现材料：附录中提供了极其详细的实现细节（Appendix E），包括数据集划分、模型架构规格（表14）、训练超参数（学习率、损失权重等）、评估指标和基线方法的具体配置，足以支持复现。论文中引用的开源项目：依赖CAVMAE、UFE-AVS等模型作为教师，并提及了Beyer et al. (2022)的训练策略。 📌 核心摘要要解决什么问题：如何在保持高性能的前提下，将大型的音视频多模态教师模型压缩成小型的学生模型，以适应边缘设备的计算限制。传统方法要么受限于教师-学生架构必须匹配，要么在性能上有所妥协。方法核心是什么：提出了核化Token蒸馏（KTD）。该方法不直接蒸馏教师和学生的潜在特征嵌入，而是计算并蒸馏每个模态内所有token对之间的相似性关系（通过Gram矩阵）。此外，引入了熵监控机制，通过测量教师模型各模态输出的熵（不确定性），自适应地调整各模态蒸馏损失的权重，确保高信息量的模态被优先学习。与已有方法相比新在哪里：与传统基于特征或输出的蒸馏相比，KTD无需匹配教师和学生的特征维度，架构无关性更强；与MTST等基于相似性分布的方法相比，KTD保留了原始相似性分数，避免了Softmax归一化带来的信息丢失，并且无需随机掩码。熵监控则首次在潜在空间（而非输出空间）实现了对多模态信息量的自适应评估和蒸馏权重调整。主要实验结果如何：在VGGSound音频-视觉事件分类任务上，使用6%参数的EM-KTD学生模型保留了教师96.9%的准确率（62.0% vs. 63.9%），显著优于所有基线。在AVS-Bench音频-视觉分割任务的S4和MS3子集上，EM-KTD学生模型（仅用教师4.5%的视觉编码器参数）的mIoU达到79.81和64.43，均优于最强基线。消融实验证明，RBF核、熵监控和实例级蒸馏均有效。实际意义是什么：为部署在资源受限的边缘设备（如笔记本、智能家居）上的高效音视频模型提供了一种有效的压缩方案，能在大幅减少参数和计算量（FLOPs降低约92%）的同时，几乎不损失性能。主要局限性是什么：KTD的计算复杂度与token数量的平方成正比（O(N^2)），尽管采用实例级计算缓解了批量复杂度，但对高分辨率输入仍存在压力。熵监控需要为教师模型的每个模态额外训练一个线性探针，增加了训练步骤和潜在的调优负担。论文未讨论该方法在推理时对实时性的具体影响。 🏗️ 模型架构整体架构（如图2所示）分为教师模型和学生模型两部分，教师模型在蒸馏过程中冻结。 ...

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

📄 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates #语音合成 #流式处理 #模型评估 🔥 8.8/10 | 前10% | #语音合成 | #流匹配 | #流式处理 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Jiaqi Li（The Chinese University of Hong Kong, Shenzhen; Amphion Technology Co., Ltd.）通讯作者：未明确说明（论文未明确指定通讯作者）作者列表： Jiaqi Li（The Chinese University of Hong Kong, Shenzhen; Amphion Technology Co., Ltd.） Yao Qian（Microsoft, USA） Yuxuan Hu（Microsoft, USA） Leying Zhang（Shanghai Jiao Tong University） Xiaofei Wang（Microsoft, USA） Heng Lu（Microsoft, USA） Manthan Thakker（Microsoft, USA） Jinyu Li（Microsoft, USA） Sheng Zhao（Microsoft, USA） Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute; City University of Macau; Amphion Technology Co., Ltd.） 💡 毒舌点评 FlexiCodec的核心亮点在于将“动态帧率”的概念系统化地引入超低比特率音频编解码，并巧妙地利用ASR特征进行语义引导，实验设计严谨，在6.25Hz的极致压缩下仍能保持可观的语义清晰度，对语音大模型的效率提升极具吸引力。不过，其多语言泛化能力在零样本设置下几乎崩溃，仅能通过微调部分缓解，这暴露了其当前方案对特定语言（英语）特征的强依赖，限制了其作为通用语音基础模型组件的适用范围。 ...

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 🔥 8.5/10 | 前25% | #语音合成 | #强化学习学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dekun Chen（香港中文大学，深圳）通讯作者：未明确说明（论文末尾提供了Dekun Chen和Zhizheng Wu的邮箱，但未标注“通讯作者”字样）作者列表：Dekun Chen（香港中文大学，深圳）、Xueyao Zhang（香港中文大学，深圳）、Yuancheng Wang（香港中文大学，深圳）、Kenan Dai（华为技术有限公司）、Li Ma（华为技术有限公司）、Zhizheng Wu（香港中文大学，深圳；深圳环域研究院；澳门城市大学；Amphion Technology Co., Ltd.） 💡 毒舌点评这篇论文最亮眼的是其“渐进式后训练”框架，像一个精心设计的课程表，一步步教会模型在指令、音色和内容三者间保持清醒，实验也证明其解耦能力确实碾压同类基线。但短板在于，对非情感类精细风格（如口音、个性）的验证主要依赖外部基准测试，自身构造的验证集场景相对单一，且核心的复杂指令奖励模型依赖于一个未经深入验证的外部大模型（Kimi-Audio），这使得整个训练管线的“闭源可控性”打了折扣。 🔗 开源详情代码：论文中未提及具体代码链接，但表示会发布所有训练和推理代码。模型权重：论文中未提及已公开的模型权重链接，但表示会发布模型检查点。数据集：论文表示会发布FlexiVoice-Instruct数据集。 Demo：提供了在线演示网站 https://flexi-voice.github.io/。复现材料：附录（A.1-A.11）提供了极其详尽的复现细节，包括模型结构、数据处理流程、训练策略、超参数设置、硬件配置和评估协议。论文中引用的开源项目：DualCodec (Li et al., 2025), Phi-3.5-mini-instruct (Abdin et al., 2024), Flow Matching (Lipman et al., 2023), Vocos (Siuzdak, 2023), Emotion2vec-Large (Ma et al., 2024), CAM++ (Wang et al., 2023), Kimi-Audio-7B-Instruct (Ding et al., 2025), Deepseek-V3 (Liu et al., 2024a), Emilia (He et al., 2024), ParaSpeechCaps (Diwan et al., 2025), NVSpeech (Liao et al., 2025)。总结：论文中详细阐述了开源计划，并提供了大量可复现的技术细节，但截至目前，公开发布的主要是演示页面。 📌 核心摘要本文旨在解决零样本语音合成（TTS）中同时遵循自然语言风格指令和保持音色一致性的“风格-音色-内容冲突”问题。核心方法是提出FlexiVoice系统及其创新的“渐进式后训练”框架。该框架通过三个阶段逐步增强模型能力：1）多模态DPO建立对指令和参考语音的基本对齐；2）解耦GRPO通过构建冲突场景（如快乐指令对悲伤参考）来强制模型分离风格与音色/内容；3）指令GRPO使用音频语言模型奖励来提升对复杂、开放式指令的遵循能力。此外，论文构建了大规模指令-语音数据集FlexiVoice-Instruct。实验结果表明，在多模态控制解耦评估（英文与中文）的多个困难设置中，FlexiVoice在指令遵循准确率（ACC-I）上大幅领先基线（例如，在英文TR-hard任务上达到78.2% vs. VoxInstruct的49.7%），同时保持了高说话人验证准确率（SV）。在复杂指令跟随基准InstructTTSEval上，FlexiVoice平均准确率达79.3%（英文）和70.8%（中文），显著超越所有开源基线，并接近商业闭源系统。该工作的实际意义在于提供了一个能灵活、精准控制语音风格的零样本TTS框架。主要局限性在于其风格控制能力的验证仍以情感和预定义指令集为主，对极其抽象或文化特定指令的泛化能力有待进一步证明，且核心训练依赖外部大模型作为奖励模型，成本较高。 ...