Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院),Guoyang Zeng(ModelBest Inc),Xin Liu(ModelBest Inc),Xiang Li(清华大学深圳国际研究生院),Renjie Yu(清华大学深圳国际研究生院),Ziyang Wang(ModelBest Inc),Runchuan Ye(清华大学深圳国际研究生院),Weiyue Sun(ModelBest Inc),Jiancheng Gui(ModelBest Inc),Kehan Li(清华大学深圳国际研究生院),Zhiyong Wu(清华大学深圳国际研究生院),Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 亮点:论文提出的“半离散残差表示”框架设计精巧,通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦,有效规避了传统连续模型的误差累积和离散模型的信息损失,堪称“鱼与熊掌兼得”的架构设计典范。短板:模型的高性能(VoxCPM)严重依赖海量内部数据(1百万小时),而公开验证(VoxCPM-Emilia)的性能与SOTA仍有差距,这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑,也削弱了其作为普适解决方案的说服力。 📌 核心摘要 解决的问题:现有端到端语音合成模型面临一个根本权衡:离散token方法稳定但会丢失声学细节(量化天花板),而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积,影响稳定性。 方法核心:提出VoxCPM,一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化(FSQ)瓶颈,它自然诱导出两个专门化模块:文本-语义语言模型(TSLM) 负责生成稳定的语义韵律骨架,残差声学语言模型(RALM) 负责恢复FSQ量化后丢失的精细声学细节。最终,由层次化表示共同引导一个局部扩散Transformer解码器(LocDiT) 生成高保真语音隐变量。 新意:与依赖外部离散语音token化器的多阶段管道不同,该框架将量化作为正则化机制内置于连续数据流中,实现了在单一端到端训练框架内的功能分离,消除了对外部预训练token化器的依赖,并缓解了连续模型中的任务纠缠。 主要结果:在超过1百万小时的双语数据上训练的0.5B参数VoxCPM,在SEED-TTS-EVAL基准上取得了开源系统中的最优性能,英语WER为1.85%,中文CER为0.93%,说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明,去除FSQ瓶颈(w/o FSQ)会导致在困难测试集上性能急剧恶化(中文CER从18.19%升至24.92%),验证了其核心作用。 实际意义:该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式,有望推动更自然、更具情感的语音交互技术发展。 主要局限性:SOTA性能严重依赖大规模内部训练数据,在较小公开数据集上的验证(VoxCPM-Emilia)表现虽具竞争力但非顶尖,表明其对数据规模可能较为敏感。此外,框架的整体复杂度(包含LM、RALM、扩散解码器)对部署资源有一定要求。 详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型,其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

2026-05-04 · 更新于 2026-05-21 · 4 min · 776 words

Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding

📄 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding #多模态模型 #音频分类 #音视频 #预训练 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Keane Ong(MIT;National University of Singapore) 通讯作者:未说明 作者列表:Keane Ong(MIT;National University of Singapore)、Wei Dai(MIT)、Carol Li(MIT)、Dewei Feng(MIT)、Hengzhi Li(MIT;Imperial College London)、Jingyao Wu(MIT)、Jiaee Cheong(Harvard University)、Rui Mao(Nanyang Technological University)、Gianmarco Mengaldo(National University of Singapore)、Erik Cambria(Nanyang Technological University)、Paul Pu Liang(MIT) 💡 毒舌点评 亮点:在行为理解领域,该工作首次系统性地将分散在情感、认知、病理和社会过程等多个维度的异构数据集、任务和评估指标统一成一个标准化基准,为构建行为基础模型提供了至关重要的“数据-任务-评估”三位一体的基础设施。短板:论文更像是一个扎实的工程整合工作,其核心创新在于“统一”而非提出解决行为理解某一具体子任务(如深度讽刺识别或复杂社交推理)的新算法或架构,对于寻求领域内技术深度突破的读者来说,可能略显“广而不深”。 ...

2026-05-04 · 更新于 2026-05-21 · 2 min · 384 words

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 通讯作者:Jiale Han(香港科技大学) 作者列表:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院),Jiabao Gao(香港中文大学(深圳)),Sipei Lin(香港中文大学(深圳)),Xuan Zhou(香港中文大学(深圳)),Chi Zhang(香港中文大学(深圳)),Bo Cheng(北京邮电大学网络与交换技术国家重点实验室),Jiale Han(香港科技大学),Benyou Wang(深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 💡 毒舌点评 亮点是首次对语音到语音系统进行了图灵测试,并构建了一个包含18个细粒度维度的诊断框架,不仅指出了“通过/失败”,更深入剖析了“为何失败”,将瓶颈精准定位在非语义层面。短板在于,作为开创性工作,其评估的S2S系统数量和对话场景多样性仍有限,且伪人对话的脚本部分由GPT-4o生成,可能引入了额外的偏差。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Carbohydrate1001/Turing-Test。 模型权重:论文中明确提到公开了模型(“Our code, dataset, and model are publicly available”),但未直接提供权重下载链接,需从上述GitHub仓库获取。 数据集:论文中明确提到公开了数据集,同样需从上述GitHub仓库获取。 Demo:论文中提到了部署了一个游戏化的在线评测平台,但未提供公开的在线演示链接。 复现材料:提供了极其详细的复现信息,包括: 数据收集的完整流程、参与者画像、初始化策略(附录B)。 Turing测试平台的设计细节(附录C)。 18个细粒度维度的定义、标注指南、标注员信息及质量保证流程(附录D)。 AI评委模型的训练框架、嵌入读取策略消融、模型消融、超参数调优(网格搜索与敏感性分析)的完整细节(附录E)。 论文中引用的开源项目:论文在构建伪人对话数据集时,引用了两个开源TTS模型:Nari Dia-1.6B (nari-labs, 2025) 和 Spark-TTS (Wang et al., 2025c)。在评估模型泛化性时,引用了CosyVoice2、Fisher和MultiDialog数据集。 📌 核心摘要 本文旨在回答一个关键问题:当前的语音到语音(S2S)系统能否像人类一样进行对话?为解决此问题,作者首次对S2S系统实施了图灵测试。核心方法是构建一个包含人-人、人-机和伪人(TTS合成)对话的高质量数据集,通过一个游戏化的在线平台收集了近3000次人类判断。与已有工作相比,新在于将图灵测试范式首次全面引入端到端S2S评估,并超越二元通过/失败的结论。主要实验结果显示,所有评估的9个最先进的S2S系统均未通过图灵测试,成功率最高仅为0.31(人类为0.87)。为了诊断失败原因,论文提出了一个包含5大类18个细粒度维度的“拟人度”分类法,并对数据进行了人工标注。分析表明,当前S2S系统的瓶颈不在语义理解(如逻辑连贯性、记忆一致性接近人类水平),而在于韵律特征(如节奏、重音)、情感表达不足以及过度恭维、书面化的“机械人格”。此外,论文探索了使用AI作为评委的可能性,发现9个现成多模态模型表现不佳,因此提出了一个基于Qwen2.5-Omni微调的可解释评委模型,该模型先预测18个细粒度维度分数,再通过线性分类器做出人/机判断,其在测试集上的二分类准确率达到96.05%,显著优于人类评委(72.84%)和基线模型。这项工作的意义在于为S2S系统建立了一个系统化的拟人度评估与诊断框架,并指明了超越语义理解、在副语言和情感个性化方面突破的研究方向。主要局限性是评估的系统和场景覆盖范围可能无法代表整个S2S领域,且伪人对话的脚本部分依赖大语言模型生成。 ...

2026-05-04 · 更新于 2026-05-21 · 2 min · 233 words

ICLR 2026 - 动作生成 论文列表

ICLR 2026 - 动作生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Gener 7.5分 前25% 📋 论文详情 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态 👥 作者与机构 第一作者:Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者:未说明(但Aniket Bera为最后作者,通常为通讯作者) 作者列表:Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-21 · 1 min · 115 words

ICLR 2026 - 图像生成 论文列表

ICLR 2026 - 图像生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 A Hidden Semantic Bottleneck in Conditional Embeddings of Di 8.5分 前25% 📋 论文详情 🥇 A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers 🔥 8.5/10 | 前25% | #图像生成 | #扩散模型 | #多任务学习 #模型评估 👥 作者与机构 第一作者:Trung X. Pham(韩国科学技术院,KAIST) 通讯作者:Chang D. Yoo(韩国科学技术院,KAIST) 作者列表:Trung X. Pham(KAIST)、Kang Zhang(KAIST)、Ji Woo Hong(KAIST)、Chang D. Yoo(KAIST) 💡 毒舌点评 本文首次系统性地揭示了扩散Transformer条件嵌入中高达99%的角相似性和超过66%的维度冗余,这是一个反直觉且重要的发现,为模型压缩和条件机制设计指明了新方向。但遗憾的是,论文对“为何如此”的理论解释仍停留在假设阶段(如“训练动态导致稳定信号”),缺乏更深入的数学分析或机制性验证,使得这个精彩观察的理论深度打了折扣。 ...

2026-05-04 · 更新于 2026-05-21 · 1 min · 100 words

ICLR 2026 - 基准测试 #数据集 论文列表

ICLR 2026 - 基准测试 #数据集 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling w 8.0分 前25% 📋 论文详情 🥇 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 通讯作者:Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院,中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院,中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院,中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院,中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-21 · 1 min · 136 words

ICLR 2026 - 基准测试 论文列表

ICLR 2026 - 基准测试 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluatio 8.5分 前25% 🥈 MCIF: Multimodal Crosslingual Instruction-Following Benchmar 8.5分 前25% 🥉 WearVox: An Egocentric Multichannel Voice Assistant Benchmar 8.0分 前25% 4. AudioTrust: Benchmarking The Multifaceted Trustworthiness of 7.5分 前25% 5. XModBench: Benchmarking Cross-Modal Capabilities and Consist 7.5分 前25% 6. MMSU: A Massive Multi-task Spoken Language Understanding and 7.5分 前50% 7. VideoMathQA: Benchmarking Mathematical Reasoning via Multimo 7.0分 前25% 8. EchoMind: An Interrelated Multi-level Benchmark for Evaluati 7.0分 前25% 9. STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 6.5分 前25% 📋 论文详情 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 ...

2026-05-04 · 更新于 2026-05-21 · 6 min · 1203 words

ICLR 2026 - 声源定位 论文列表

ICLR 2026 - 声源定位 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning 8.0分 前25% 📋 论文详情 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #空间音频 👥 作者与机构 第一作者:Min-Sang Baek(Hanyang University, Department of Electronic Engineering) 通讯作者:Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 作者列表:Min-Sang Baek(Hanyang University, Department of Electronic Engineering)、Gyeong-Su Kim(Hanyang University, Department of Electronic Engineering)、Donghyun Kim(Hanyang University, Department of Electronic Engineering)、Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-21 · 1 min · 113 words

ICLR 2026 - 多模态推理 论文列表

ICLR 2026 - 多模态推理 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in 7.5分 前25% 📋 论文详情 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(苏黎世联邦理工学院计算机系,标注为同等贡献) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 作者列表:Yucheng Wang(苏黎世联邦理工学院计算机系)、Yifan Hou(苏黎世联邦理工学院计算机系)、Aydin Javadov(苏黎世联邦理工学院计算机系)、Mubashara Akhtar(苏黎世联邦理工学院计算机系)、Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 💡 毒舌点评 亮点:论文构建了一套精妙的逻辑推理框架,将模态交互分解为六种可控模式,这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板:依赖高度简化的合成逻辑数据来揭示“根本瓶颈”,其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中,存疑。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-05-21 · 1 min · 102 words

ICLR 2026 - 多模态模型 论文列表

ICLR 2026 - 多模态模型 共 5 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And 8.5分 前25% 🥈 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models wi 8.0分 前25% 🥉 OmniVinci: Enhancing Architecture and Data for Omni-Modal Un 7.5分 前25% 4. Seeing, Listening, Remembering, and Reasoning: A Multimodal 7.5分 前25% 5. TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR 7.0分 前25% 📋 论文详情 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 ...

2026-05-04 · 更新于 2026-05-21 · 4 min · 671 words