DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #自回归模型 #多模态模型 #语音合成 #语音识别 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Chao-Hong Tan (Tongyi Fun Team, Alibaba Group) 通讯作者:未明确说明,根据邮箱推测为团队负责人(如tanchaohong.ch@alibaba-inc.com) 作者列表:Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (所属机构均为 Tongyi Fun Team, Alibaba Group) 💡 毒舌点评 亮点:DrVoice的“双分辨率”设计堪称点睛之笔,通过一个简洁的分组/解分组机制,巧妙平衡了语音处理的计算效率(输入降至5Hz)与生成保真度(SRH在25Hz下精细化生成),在降低近半训练开销的同时性能不降反升,工程落地潜力巨大。 短板:论文专注于单向语音生成的对话模式,但真实的人机语音交互需要全双工能力(即能边听边说),作者在局限性中也承认了这一点。目前模型更像一个强大的“单口相声”演员,而非能自然打断和回应的真正对话伙伴。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 381 words

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

📄 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates #语音合成 #自监督学习 #流匹配 #多语言 #低资源 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jiaqi Li(香港中文大学(深圳)、微软) 通讯作者:未明确说明 作者列表:Jiaqi Li(香港中文大学(深圳)、微软)、Yao Qian(微软)、Yuxuan Hu(微软)、Leying Zhang(上海交通大学)、Xiaofei Wang(微软)、Heng Lu(微软)、Manthan Thakker(微软)、Jinyu Li(微软)、Sheng Zhao(微软)、Zhizheng Wu(香港中文大学(深圳)、深圳湾实验室、澳门城市大学、Amphion Technology Co., Ltd.) 💡 毒舌点评 FlexiCodec在极低帧率(3-12.5Hz)下实现了高质量的语音重建和强大的语义保持,其动态帧率分配策略被实验数据强力支持,显著优于将现有固定帧率模型强行降低帧率的做法。然而,论文在评估模型对真实世界复杂场景(如强背景噪声、多人重叠说话)的鲁棒性方面着墨较少,且多语言泛化能力的验证仅限于微调,这可能是未来需要深入探索的方向。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/amphionteam/flexicodec 模型权重:论文中提及“Code is available at”,结合项目主页链接(https://flexicodec.github.io),通常意味着会开源模型权重。论文中已提供中文微调模型“FlexiCodec-ZH tune”。 数据集:训练使用公开的Librilight-Large数据集。评估使用公开的LibriSpeech、TIMIT和Emilia数据集。 Demo:提供在线演示页面:https://flexicodec.github.io 复现材料:提供了极其详细的训练配置(优化器、学习率、批大小、步数、硬件)、模型超参数(层数、维度、码本大小、Transformer配置)、损失函数、评估指标、基线模型重训练细节以及消融实验设置。附录部分包含大量补充信息。 引用的开源项目:SenseVoice-Small(ASR特征提取)、DAC(编解码器基础架构)、Vocos(TTS声码器)、Amphion工具包。 📌 核心摘要 要解决什么问题:传统高帧率神经音频编解码器会导致语音语言模型序列过长,计算成本高。现有低帧率(如12.5Hz)编解码器在进一步降低帧率时会严重丢失语义信息,限制了下游任务性能。 方法核心是什么:本文提出FlexiCodec,一种采用动态帧率的低比特率神经音频编解码器。其核心是利用预训练ASR模型提取的语义特征来指导帧合并,自适应地在语音信息稀疏区域(如静音、长元音)减少帧数,在信息密集区域保留更多细节。模型采用双流编码(ASR特征流+波形特征流)、Transformer瓶颈模块进行帧合并/解合并,并使用有限标量量化(FSQ)进行语义token化。 与已有方法相比新在哪里:FlexiCodec是首个在低于10Hz平均帧率下实现高质量、可重构语音的编解码器之一。其创新在于:(1) 动态帧率分配:打破了固定帧率的限制,允许在推理时通过阈值连续控制帧率(3-12.5Hz);(2) ASR特征引导语义编码与合并:使用更具语义集中性的ASR特征(而非SSL特征)同时用于语义量化和指导合并过程,提升了语义保持;(3) 创新的帧合并/解合并模块:引入Transformer对合并前后的序列进行精细化处理,减少伪影。 主要实验结果如何: 在核心语义测试中(RVQ-1 WER),FlexiCodec��6.25Hz平均帧率下WER为4.15%,远优于重训练的基线DualCodec(31.5%)和DAC(88.2%)。对比表5显示,其在语义保持上也优于许多更高帧率的编解码器。 在音频质量上(PESQ, UTMOS等),FlexiCodec在不同比特率类别下均取得最优或接近最优的成绩。 下游TTS实验表明,FlexiCodec-TTS(6.25Hz AR)在WER(3.2%)和主观评分(NMOS 3.32, QMOS 3.40)上与CosyVoice等强基线相当,但自回归阶段加速高达7.3倍。 消融研究证实,动态帧率策略在6.25Hz下能将RVQ-1 WER相对提升26%,ASR特征相比SSL特征在低帧率下具有决定性优势(WER从27.3%降至4.15%)。 模型 帧率 (Hz) WER(RVQ1) ↓ WER(RVQ1:8) ↓ PESQ ↑ UTMOS ↑ DualCodec (重训练) 6.25 31.5 3.42 2.74 4.08 FlexiCodec 6.25 4.15 2.53 2.76 4.18 FlexiCodec (无动态帧率) 6.25 5.22 2.73 2.76 4.18 5. 实际意义是什么:FlexiCodec通过显著降低音频token帧率,为构建更高效、低延迟的语音语言模型和语音合成系统提供了关键基础技术。其动态、可控的帧率设计为适应不同计算资源和应用场景提供了灵活性。 6. 主要局限性是什么:论文未充分探讨在极端噪声或高度重叠语音等复杂声学场景下的性能;多语言支持依赖于在特定语言上微调,零样本跨语言语义保持能力有限;动态帧率合并过程的可解释性虽有可视化,但合并决策的边界条件与语音语言学单位的精确对应关系仍需深入研究。 🏗️ 模型架构 FlexiCodec的整体架构如图1所示,其核心是双流特征提取与动态帧率处理。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 348 words

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 #强化学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #零样本 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dekun Chen (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute) 通讯作者:未明确说明(论文中未明确指出通讯作者) 作者列表:Dekun Chen (香港中文大学(深圳)/深圳湾实验室), Xueyao Zhang (香港中文大学(深圳)), Yuancheng Wang (香港中文大学(深圳)), Kenan Dai (Huawei Technologies Co., Ltd.), Li Ma (Huawei Technologies Co., Ltd.), Zhizheng Wu (香港中文大学(深圳)/澳门城市大学/Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的核心亮点在于其系统性地将“风格、音色、内容”的解耦问题,转化为一个可分阶段优化的强化学习课程(PPT),技术路径设计精巧且实验证据扎实。不过,其最终效果高度依赖奖励模型的质量,而论文中使用的7B开源奖励模型与闭源前沿模型仍存在代差,这在一定程度上限制了其在最复杂指令上的表现上限,也为未来工作留下了明确的改进方向。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 373 words

From Natural Alignment to Conditional Controllability in Multimodal Dialogue

📄 From Natural Alignment to Conditional Controllability in Multimodal Dialogue #语音合成 #多模态模型 #预训练 #多任务学习 #基准测试 🔥 8.0/10 | 前25% | #语音合成 | #多任务学习 | #多模态模型 #预训练 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zeyu Jin(清华大学计算机科学与技术系)(论文标注共同贡献) 通讯作者:Xiaoyu Qin(清华大学计算机科学与技术系)、Jia Jia(清华大学计算机科学与技术系/BNRist) 作者列表: Zeyu Jin(清华大学计算机科学与技术系) Songtao Zhou(清华大学计算机科学与技术系)(共同贡献) Haoyu Wang(清华大学计算机科学与技术系) Minghao Tian(Rice University) Kaifeng Yun(清华大学深圳国际研究生院) Zhuo Chen(字节跳动) Xiaoyu Qin(清华大学计算机科学与技术系) Jia Jia(清华大学计算机科学与技术系/BNRist) 💡 毒舌点评 论文在数据集构建和任务定义上表现出色,其提出的数据整理管道和“情感三元组”标注范式为可控多模态对话研究提供了坚实基础,但核心模型创新有限,且部分实验局限于验证数据集有效性,未能充分探索更先进的生成架构。 🔗 开源详情 代码:论文在摘要和结论中明确提到将公开代码和数据整理管道,GitHub仓库链接已在论文中给出(https://github.com/jessyjinzy/MM-Dia)。 模型权重:论文未提及将公开其微调后的模型(如Higgs-Audio-V2-SFT)权重。 数据集:MM-DIA和MM-DIA-BENCH已承诺开源,但具体获取方式需联系作者或等待发布。 Demo:论文提到了一个演示页面(https://mmdiaiclr26.github.io/mmdiaiclr26/),展示了不同控制变量下的语音合成样本。 复现材料:论文在“Reproducibility Statement”中承诺提供数据集、代码、模型配置、训练过程和评估协议的细节。附录包含了管道实现的部分算法和消融实验,但完整的训练超参数和硬件信息缺失。 引用的开源项目:论文中提到了多个依赖的开源工具和模型,包括:Higgs-Audio-V2 (Boson AI)、Dia-1.6B (Nari Labs)、Gemini-2.5系列、Qwen2.5-VL、InsightFace工具包、多个基线模型(HarmoniVox, FLOAT, MultiTalk, Sonic, Wan-2.2, HunyuanVideo)以及UTMOS、WER等评估工具。 📌 核心摘要 这篇论文旨在解决可控多模态对话生成中面临的三个核心挑战:高质量原生多模态对话数据稀缺、交互级语义的可扩展标注方法缺失,以及系统性评估基准不足。 其核心方法是构建了一个从电影和电视剧中自动提取、标注对话的“数据整理管道”,并据此创建了大规模多模态对话数据集 MM-DIA(360+小时,54,700段对话)。该数据集首次专注于跨模态的对话表达力,提供了句子级和对话级的细粒度交互标注,包括说话人身份、非语言声音和两种表达力标注范式:“情感三元组”(关系、互动模式、情感基调)和“自由描述”。同时,论文提出了 MM-DIA-BENCH 作为评估跨模态风格一致性的基准。 论文正式定义了多模态对话生成(MDG)任务,并将其应用于三个具体任务:1)风格可控对话语音合成(显式控制),2)视觉条件对话语音合成(隐式控制),3)语音驱动对话视频生成(隐式控制)。 主要实验结果显示:在MM-DIA上微调预训练模型(如Higgs-Audio-V2)后,风格可控对话语音合成任务在可懂度(WER从31.25降至4.45)和指令遵循度上显著提升。然而,在MM-DIA-BENCH上的测试表明,现有模型在维持隐式跨模态风格一致性方面存在明显不足,特别是在音视频对齐和对话级表达力方面。 这项工作的实际意义在于为可控、富有表现力的多模态对话生成研究建立了首个大规模数据集、统一任务框架和评估基准,指明了未来需要加强跨模态语义对齐和长程推理的研究方向。主要局限性是MDG任务仍处于初步定义阶段,且现有基线模型在隐式控制任务上表现不佳,表明这是一个开放且具挑战性的领域。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 286 words

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #语音编解码 #流匹配 #自回归模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #语音编解码 | #流匹配 #自回归模型 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Weidong Chen (The Chinese University of Hong Kong) 通讯作者:Xixin Wu (The Chinese University of Hong Kong) 作者列表:Weidong Chen(The Chinese University of Hong Kong)、Helen M. Meng(The Chinese University of Hong Kong)、Xixin Wu(The Chinese University of Hong Kong) 💡 毒舌点评 这篇工作最大的亮点在于将“组”作为语音量化的基本单元,并系统性地设计了粗细有序的token序列,这确实比传统逐帧量化更适合后续的语言模型建模,逻辑自洽且实验支撑有力。然而,其核心的token分配器虽然有效,但训练方法(GRPO)的引入略显“重”,对于一个动态分配离散资源的简单策略问题,是否有更轻量优雅的解法值得商榷,且论文最终未能开源代码,让这套精心设计的系统停留在了“可望”的层面。 ...

2026-05-04 · 更新于 2026-06-15 · 3 min · 461 words

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院),Guoyang Zeng(ModelBest Inc),Xin Liu(ModelBest Inc),Xiang Li(清华大学深圳国际研究生院),Renjie Yu(清华大学深圳国际研究生院),Ziyang Wang(ModelBest Inc),Runchuan Ye(清华大学深圳国际研究生院),Weiyue Sun(ModelBest Inc),Jiancheng Gui(ModelBest Inc),Kehan Li(清华大学深圳国际研究生院),Zhiyong Wu(清华大学深圳国际研究生院),Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 亮点:论文提出的“半离散残差表示”框架设计精巧,通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦,有效规避了传统连续模型的误差累积和离散模型的信息损失,堪称“鱼与熊掌兼得”的架构设计典范。短板:模型的高性能(VoxCPM)严重依赖海量内部数据(1百万小时),而公开验证(VoxCPM-Emilia)的性能与SOTA仍有差距,这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑,也削弱了其作为普适解决方案的说服力。 📌 核心摘要 解决的问题:现有端到端语音合成模型面临一个根本权衡:离散token方法稳定但会丢失声学细节(量化天花板),而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积,影响稳定性。 方法核心:提出VoxCPM,一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化(FSQ)瓶颈,它自然诱导出两个专门化模块:文本-语义语言模型(TSLM) 负责生成稳定的语义韵律骨架,残差声学语言模型(RALM) 负责恢复FSQ量化后丢失的精细声学细节。最终,由层次化表示共同引导一个局部扩散Transformer解码器(LocDiT) 生成高保真语音隐变量。 新意:与依赖外部离散语音token化器的多阶段管道不同,该框架将量化作为正则化机制内置于连续数据流中,实现了在单一端到端训练框架内的功能分离,消除了对外部预训练token化器的依赖,并缓解了连续模型中的任务纠缠。 主要结果:在超过1百万小时的双语数据上训练的0.5B参数VoxCPM,在SEED-TTS-EVAL基准上取得了开源系统中的最优性能,英语WER为1.85%,中文CER为0.93%,说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明,去除FSQ瓶颈(w/o FSQ)会导致在困难测试集上性能急剧恶化(中文CER从18.19%升至24.92%),验证了其核心作用。 实际意义:该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式,有望推动更自然、更具情感的语音交互技术发展。 主要局限性:SOTA性能严重依赖大规模内部训练数据,在较小公开数据集上的验证(VoxCPM-Emilia)表现虽具竞争力但非顶尖,表明其对数据规模可能较为敏感。此外,框架的整体复杂度(包含LM、RALM、扩散解码器)对部署资源有一定要求。 详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型,其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

2026-05-04 · 更新于 2026-06-15 · 4 min · 776 words

ICLR 2026 - 语音合成 论文列表

ICLR 2026 - 语音合成 共 10 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 9.0分 前10% 🥈 VibeVoice: Expressive Podcast Generation with Next-Token Dif 8.5分 前10% 🥉 SpeechJudge: Towards Human-Level Judgment for Speech Natural 8.5分 前10% 4. FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS 8.0分 前25% 5. Toward Complex-Valued Neural Networks for Waveform Generatio 8.0分 前25% 6. From Natural Alignment to Conditional Controllability in Mul 8.0分 前25% 7. Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Re 8.0分 前25% 8. Gogo: Group-wise granularity-ordered codec for stable and ef 7.5分 前25% 9. Continuous Audio Language Models 7.0分 前25% 10. MambaVoiceCloning: Efficient and Expressive Text-to-Speech v 6.5分 前50% 📋 论文详情 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言 ...

2026-05-04 · 更新于 2026-06-15 · 8 min · 1679 words

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音识别 #语音合成 #语音大模型 #预训练 #自回归模型 ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 学术质量 7.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing ),工作于 Meta 期间完成。 通讯作者:Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表: Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs ),工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评 亮点在于精准识别了语音-文本模型因序列长度悬殊导致的“计算不公平”问题,并借鉴了文本领域的字节级Transformer思想,设计出一套从静态、对齐到课程学习的渐进式语音分块方案,有效提升了模型效率和跨模态性能。短板是部分最有效方案(如对齐分块)在推理时仍依赖外部对齐模型(Wav2Vec2+CTC),课程学习虽缓解了此问题,但完全无对齐依赖的端到端训练方案更具吸引力;此外,论文聚焦于预训练和补全任务,对更复杂的生成、理解或实时对话任务的探索尚待深入。 ...

2026-05-04 · 更新于 2026-06-15 · 3 min · 485 words

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音合成 #状态空间模型 #流式处理 #跨语言 ✅ 6.5/10 | 前50% | #语音合成 | #状态空间模型 | #流式处理 #跨语言 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sahil Kumar (PhD Program in Mathematics, Yeshiva University, New York, NY 10033, USA) 通讯作者:Youshan Zhang* (School of Artificial Intelligence, Chuzhou University, Anhui, 239000, China) 作者列表:Sahil Kumar(叶史瓦大学数学博士项目)、Namrataben Patel(叶史瓦大学数学博士项目)、Honggang Wang(叶史瓦大学计算机科学与工程系)、Youshan Zhang(滁州学院人工智能学院) 💡 毒舌点评 亮点在于其设计的彻底性:为了证明SSM可以完全取代注意力,论文把TTS条件路径里的注意力模块剥得干干净净,只剩下一个训练时用的对齐器,这种“手术式”的架构验证值得肯定。短板则是性能提升实在像“技术微调”多过“范式突破”,在严格控制的条件下,MOS的些许涨跌更像是统计噪声的边缘胜利,让人怀疑其实际部署中的感知差异。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 252 words

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #语音大模型 #语音合成 #基准测试 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #语音合成 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shu-wen Yang(台湾大学通讯工程研究所) 通讯作者:Ming Tu(字节跳动 Seed),Lu Lu(字节跳动 Seed) 作者列表:Shu-wen Yang(台湾大学通讯工程研究所,字节跳动 Seed†),Ming Tu(字节跳动 Seed†),Andy T. Liu(字节跳动 Seed),Xinghua Qu(字节跳动 Seed),Hung-yi Lee(台湾大学通讯工程研究所),Lu Lu(字节跳动 Seed†),Yuxuan Wang(字节跳动 Seed),Yonghui Wu(字节跳动 Seed) 💡 毒舌点评 亮点:论文系统性地定义了副语言感知的S2S交互评估难题,并构建了从基准测试到自动评测再到强化学习训练的完整闭环,其提出的“PolyTone”训练策略和多阶段评测框架有效缓解了音频大模型的风格幻觉问题,实验结果令人信服。短板:整个框架高度依赖复杂的多阶段流程和多个外部模型(如Whisper, AudioReasoner, Qwen2.5-Omni),虽然论文提供了蒸馏后的奖励模型方案,但最终模型的轻量化和部署效率存在疑问,且核心RL方法(GRPO)并非原创。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 272 words