Continuous Audio Language Models

📄 Continuous Audio Language Models #音频生成 #音乐生成 #自回归模型 #流匹配 #语音合成 🔥 9.5/10 | 前10% | #音频生成 #音乐生成 | #自回归模型 #流匹配 | #音频生成 #音乐生成 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Simon Rouard(Kyutai;IRCAM-CNRS Sorbonne Univ.) 通讯作者:未说明(论文未明确指定,通常对应邮箱作者为Simon Rouard和Alexandre Défossez) 作者列表:Simon Rouard(Kyutai;IRCAM-CNRS Sorbonne Univ.),Manu Orsini(Kyutai),Axel Roebel(IRCAM-CNRS Sorbonne Univ.),Neil Zeghidour(Kyutai),Alexandre Défossez(Kyutai) 💡 毒舌点评 这篇论文的亮点在于其系统性思维,它没有孤立地提出一个新模块,而是为“连续音频生成”这个目标设计了一整套涵盖编码、建模、采样和蒸馏的完整流水线(CALM),并通过“Pocket TTS”将学术想法落到了实处。然而,其短板在于音乐生成的实验数据集规模(400K歌曲)相比工业级模型仍显局促,这或许限制了其在最复杂音乐场景下潜力的完全展现,且论文未公开其训练数据集。 🔗 开源详情 代码:论文中提及了代码仓库链接:github.com/kyutai-labs/pocket-tts (用于Pocket TTS)。主论文代码链接在摘要中提及为:iclr-continuous-audio-language-models.github.io。 模型权重:明确提供了开源的“Pocket TTS”模型权重(100M参数),可在上述GitHub仓库获取。对于论文中的大型实验模型(如1.35B音乐模型),未提及是否开源。 数据集:论文详述了训练所用的数据集名称(如Emilia, LAION-Disco-12M等)和规模,但未提供统一的下载链接,部分数据集可能是公共的,部分可能为内部或受限数据集。 Demo:摘要中提到了示例音频网站 iclr-continuous-audio-language-models.github.io。 复现材料:提供了极其详尽的附录,包括:表14(VAE超参数)、表15(模型与训练超参数)、各任务的具体数据处理细节(附录D、F、G)、消融实验(表6, 表10)、补充实验(表7, 表8, 表9, 表11, 表12, 表13)、以及人类评估方法详细说明(附录H)。 论文中引用的开源项目:论文主要基于并引用了以下开源项目/模型:Mimi (Défossez et al., 2024b), WavLM (Chen et al., 2021b), Helium-1 (Kyutai, 2025), Mistral 7B (Jiang et al., 2023), CLAP (Elizalde et al., 2023), SentencePiece (Kudo & Richardson, 2018), fairseq (Ott et al., 2019), Whisper (Radford et al., 2022)。 📌 核心摘要 要解决什么问题:现有音频语言模型(ALM)依赖有损的离散音频令牌(如RVQ),导致生成高质量音频必须生成更多令牌,从而在保真度和计算成本之间存在根本矛盾。 方法核心是什么:提出连续音频语言模型(CALM),在VAE的连续潜空间中进行自回归建模。核心是一个大型因果Transformer(长上下文)处理带噪声的历史潜变量,一个轻量Transformer(短上下文)处理干净的近期潜变量,两者结合后条件化一个小型一致性模型(MLP),以单步生成下一个干净的连续潜变量。 与已有方法相比新在哪里:完全避免了有损量化,用一致性模型替代了离散模型的RQ-Transformer头或扩散模型的多步采样头,实现了质量与效率的同步提升。创新性地提出了“噪声长上下文+干净短上下文”的双Transformer设计、潜在分类器引导(Latent CFG)和潜在蒸馏(Latent Distillation)等技术。 主要实验结果如何:在语音延续、文本到语音(TTS)和音乐延续任务上全面超越了最先进的离散模型基线。 TTS任务(表3):CALM模型WER为1.81,优于F5-TTS的2.42和DSM的1.95,声学质量MUSHRA得分61.1。 音乐延续任务(表4):CALM一致性模型(4步)的FAD(0.71)优于32-RVQ RQ-Transformer基线(1.06),整体推理速度提升1.9倍,采样头速度提升5.4倍。 语音延续任务(表2):CALM在声学质量和有意义性上均超越8-RVQ RQ-Transformer。 消融研究(表6):证明短上下文Transformer和噪声增强是模型高性能的关键。 实际意义是什么:使得在轻量级设备(如笔记本电脑CPU)上运行高质量的实时音频生成成为可能。开源的“Pocket TTS”(100M参数)模型实现了这一目标,具有极高的实际应用价值。 主要局限性是什么:论文中音乐生成的训练数据集规模(约20K小时)相对有限;连续表示可能在某些细粒度控制上(如精确的音高、时长编辑)面临挑战;论文未提供其主训练数据集的下载链接。 🏗️ 模型架构 CALM的整体架构(图1)是一个端到端的连续自回归生成系统,由VAE编码器、双Transformer骨干和一致性模型头组成。 ...

2026-05-02 · 更新于 2026-05-19 · 3 min · 587 words

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chao-Hong Tan (未明确标注,但作者列表首名) 通讯作者:论文中未明确指定通讯作者。 作者列表:Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评 亮点:DrVoice 提出的双分辨率语音表示(DRSR)设计精巧,通过分组将输入帧率降至5Hz,大幅降低了计算成本(训练时间减少近50%),并成功缓解了语音与文本token的频率失配问题,在保持甚至超越SOTA性能的同时提升了效率。短板:模型在语音质量(UTMOS)上与最强基线(如Qwen2.5-Omni)持平,但在语音与文本对齐(ASR-WER)上仍有差距,说明其生成的语音在精确还原文本内容上还有提升空间,且全双工交互能力未实现。 ...

2026-05-02 · 更新于 2026-05-19 · 3 min · 496 words

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Weidong Chen (香港中文大学电子工程系) 通讯作者:Xixin Wu (香港中文大学电子工程系) 作者列表:Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评 论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合,从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾,设计思路清晰且优雅。但短板在于其框架组件繁多(编解码器、两阶段生成模型、额外训练的分配器),训练流程复杂,且token分配器的优化与主模型分离,可能并非全局最优,工程实现的门槛不低。 🔗 开源详情 代码:论文中未提及官方代码仓库链接。 模型权重:未提及公开预训练模型权重。 数据集:训练使用Emilia(英文子集),评估使用LibriTTS和Seed-TTS,均为已有公开数据集。论文未提及提供新的数据集。 Demo:提供了在线演示链接:https://happycolor.github.io/gogo。 复现材料:附录(A-M)提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化,复现信息非常充分。 论文中引用的开源项目:Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要 本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战:传统帧级量化难以捕获高层语义信息,以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此,作者提出了Gogo编解码器,它创新性地将连续帧分组,并为每组生成从粗到细、粒度有序的令牌,粗令牌编码高层抽象,细令牌逐步恢复声学细节。基于此,设计了GogoSpeech两阶段语音生成模型:第一阶段以极低令牌率生成高层语音骨架,第二阶段再丰富细节。此外,引入了一个基于GRPO训练的令牌分配器,根据语音片段的复杂度自适应分配细粒度令牌的预算,以提升效率。实验表明,在47 Hz的令牌率下,Gogo在多项重建指标(如UT-MOS 4.19, DNS-MOS 3.99)上优于其他SOTA编解码器。在零样本语音合成任务中,GogoSpeech取得了最佳的说话人相似度(SIM 0.667)和综合质量评分(SMOS 4.381, CMOS +1.832),并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略,且令牌分配器的训练与主生成模型解耦,可能存在优化不足。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 372 words

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院)、Guoyang Zeng(ModelBest Inc.)、Xin Liu(ModelBest Inc.)、Xiang Li(清华大学深圳国际研究生院)、Renjie Yu(清华大学深圳国际研究生院)、Ziyang Wang(ModelBest Inc.)、Runchuan Ye(清华大学深圳国际研究生院)、Weiyue Sun(ModelBest Inc.)、Jiancheng Gui(ModelBest Inc.)、Kehan Li(清华大学深圳国际研究生院)、Zhiyong Wu(清华大学深圳国际研究生院,通讯作者)、Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 论文巧妙地利用有限标量量化(FSQ)作为“强制分心”的瓶颈,逼着语言模型先管好内容和语调的大局,再把声学细节的脏活累活交给另一个模块,这种设计既有理论优雅性又有工程实用性;不过,尽管在客观指标和克隆相似度上表现亮眼,论文在主观自然度(N-MOS)上并未全面碾压IndexTTS2等强敌,暗示着“稳定”与“极致自然”之间可能还存在细微的权衡,尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情 代码:论文明确表示“We will release code and models to support future research”,但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。 模型权重:承诺发布,但未说明具体平台或链接。 数据集:使用了公开的Emilia数据集(9.5万小时),并提及了内部大规模双语数据集(超过100万小时,未公开)。 Demo:提供了在线演示页面链接:https://voxcpm.github.io/VoxCPM-demopage/。 复现材料:提供了非常充分的复现材料,包括:详细的模型架构参数表(附录表5)、训练阶段的学习率调度与批处理大小(附录表6)、所有消融实验的设置、硬件配置(GPU型号与数量)、以及多处关于训练技巧的说明(如WSD策略的重要性)。附录F部分包含了大量实验的细节和结果表格。 论文中引用的开源项目:主要引用了作为基线的其他TTS系统(如CosyVoice, F5-TTS等),以及预训练的语言模型MiniCPM-4。在实现上,使用了Megatron框架。 📌 核心摘要 要解决的问题:端到端语音合成中表达力(连续表示)与稳定性(离散表示)之间的根本性矛盾。离散化会损失细节,而连续建模则因任务纠缠(语义规划与声学渲染混杂)容易导致长序列上的误差累积和不稳定。 方法核心:提出一个统一的端到端框架,通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型(TSLM)和残差声学语言模型(RALM)之间插入一个可微分的有限标量量化(FSQ)瓶颈。该瓶颈自然诱导了任务分离:TSLM专注于生成稳定的语义-韵律“骨架”,RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器(LocDiT)生成最终语音。 与已有方法相比新在哪里: 新在统一框架:将显式的层次化设计(语义 vs. 声学)与残差学习结合在一个可端到端训练的统一框架内,避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。 新在瓶颈机制:不同于将量化作为预测目标,本工作将FSQ作为正则化瓶颈和归纳偏置,强制信息流进行分层,从而在保持可微性的同时实现了隐式的任务解耦。 新在训练范式:整个层次化模型(包括量化瓶颈)仅使用简单的扩散目标进行端到端训练,简化了流程并实现了协同优化。 主要实验结果: 主实验:在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM,在开源模型中取得了最先进(SOTA)的零样本TTS性能。在SEED-TTS-EVAL基准上,英文WER为1.85%,中文CER为0.93%,说话人相似度(SIM)分别为72.9%(EN)和77.2%(ZH),优于CosyVoice2, IndexTTS2等模型。 关键对比数据: 模型 参数量 训练数据 英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验:证实了FSQ瓶颈和残差声学模型(RALM)是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%;移除RALM(退化为单一连续模型)导致性能显著下降。FSQ维度选择也至关重要,256维是较优平衡点。 可视化分析:t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构,而RALM残差输出则聚类为说话人相关的声学特征,验证了隐式解耦。 实际意义:提供了一种新的、统一的端到端语音合成架构范式,证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成,无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。 主要局限性:论文中已提及和暗示的局限包括:在极致语音自然度(N-MOS)上并非所有场景都绝对领先(如中文部分测试落后于IndexTTS2);实时流式合成能力虽被提及(因果VAE、低延迟),但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现;模型依赖大规模高质量数据(超过100万小时)以达最佳性能,其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型,其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示: ...

2026-05-02 · 更新于 2026-05-19 · 3 min · 457 words

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者:未明确说明(论文提供了团队邮箱 jts.ai.team@gmail.com) 作者列表: Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology, 实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评 亮点:论文在泰语语音克隆上实现了SOTA,CER甚至优于人类基准,并在400次盲测中以70%胜率击败商业巨头,展示了强大的工程落地和数据调优能力。短板:模型核心架构源自VoxCPM,原创性有限;更关键的是“代码、模型、数据”三无状态,使得其优异的实验结果暂时停留在“不可复现的宣称”阶段,大大削弱了学术贡献的可验证性和社区价值。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 425 words

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音大模型 #预训练 #自回归模型 #语音识别 #语音合成 🔥 8.5/10 | 前10% | #语音大模型 | #预训练 | #自回归模型 #语音识别 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yen-Ju Lu (Center for Language and Speech Processing, Johns Hopkins University) 通讯作者:Srinivasan Iyer†, Duc Le† (†联合末位作者, Meta Superintelligence Labs) 作者列表: Yen-Ju Lu† (Center for Language and Speech Processing, Johns Hopkins University) Yashesh Gaur (Meta Superintelligence Labs) Wei Zhou† (Meta Superintelligence Labs) Benjamin Muller (Meta Superintelligence Labs) Jesus Villalba (Center for Language and Speech Processing, Johns Hopkins University) Najim Dehak (Center for Language and Speech Processing, Johns Hopkins University) Luke Zettlemoyer (Meta Superintelligence Labs) Gargi Ghosh (Meta Superintelligence Labs) Mike Lewis (Meta Superintelligence Labs) Srinivasan Iyer† (Meta Superintelligence Labs) Duc Le† (Meta Superintelligence Labs) 💡 毒舌点评 这篇论文的最大亮点在于精准诊断了语音-文本模型效率低下的“病因”(信息密度不匹配),并开出了一剂对症的“药方”(潜语音块),实验证明该药方不仅能提升语音任务表现,甚至对纯文本任务也有增益,思路清晰且效果显著。然而,其“药引子”——对齐补丁和课程学习策略——严重依赖外部对齐模型(Wav2Vec2+CTC),这为实际部署引入了额外的复杂性和潜在的误差传递,在追求“无对齐”的端到端理想模型道路上,这或许是一个迂回但务实的选择。 ...

2026-05-02 · 更新于 2026-05-19 · 3 min · 535 words

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #音视频 #自回归模型 #低资源 #预训练 🔥 8.5/10 | 前25% | #语音识别 | #自回归模型 | #音视频 #低资源 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alexandros Haliassos(NatWest AI Research & Imperial College London) 通讯作者:未明确说明 作者列表:Alexandros Haliassos(NatWest AI Research & Imperial College London),Rodrigo Mira(NatWest AI Research),Stavros Petridis(NatWest AI Research & Imperial College London) 💡 毒舌点评 这篇论文把CTC这个“老实人”的稳健和注意力“艺术家”的表达力在伪标签阶段强行撮合,用“老师傅带路”的方式训练学生,既省了计算又抗了噪,想法相当机灵。但可惜的是,这种“撮合”在分布外场景下也暴露了局限性,当CTC预测本身出错时,错误的传导依然存在,且论文对更极端的分布偏移(如完全不同的语言或方言)验证不足。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 371 words

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Youliang Zhang(清华大学,邮箱:zhangyou24@mails.tsinghua.edu.cn) 通讯作者:Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) (论文中标注了†和‡,通常表示通讯作者) 作者列表: Youliang Zhang(清华大学) Zhaoyang Li(StepFun) Duomin Wang†(StepFun) Jiahe Zhang(未说明) Deyu Zhou(StepFun;香港科技大学(广州)) Zixin Yin(StepFun;香港科技大学) Xili Dai(StepFun;香港科技大学) Gang Yu(StepFun) Xiu Li‡(清华大学(深圳)) 💡 毒舌点评 本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白,以工业级的系统性和透明度构建了一个规模(520万片段)和质量(1080P+)俱佳的专用数据集,为后续研究铺平了道路。然而,其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新,且在绝对视频生成质量上并未超越更庞大的级联扩散模型(如Hallo3),其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 387 words

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #可解释性 #自回归模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音乐生成 | #可解释性 | #自回归模型 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Daniel Zhao (University of California, San Diego) 通讯作者:未明确说明(论文列出了所有作者邮箱,无指定通讯作者) 作者列表:Daniel Zhao (University of California, San Diego)、Daniel Beaglehole (University of California, San Diego)、Taylor Berg-Kirkpatrick (University of California, San Diego)、Julian McAuley (University of California, San Diego)、Zachary Novack (University of California, San Diego) 💡 毒舌点评 亮点:该工作将“可解释性”与“可控生成”两个热门方向巧妙结合,通过激活空间干预提供了无需重训模型的细粒度控制方案,实验设计全面,既有严谨的量化指标,也有主观听感测试。 短板:对节奏、和弦进行等强时序依赖概念的控制效果仍较弱,其核心控制单元(均值池化的探针)本质上牺牲了时序动态信息,这在未来可能是需要突破的瓶颈。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 318 words

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音大模型 #自回归模型 #语音对话系统 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #语音大模型 #流式处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Cheng-Han Chiang(台湾大学;微软) 通讯作者:Xiaofei Wang(微软) 作者列表: Cheng-Han Chiang (台湾大学, 微软), Xiaofei Wang (微软), Linjie Li (微软), Chung-Ching Lin (微软), Kevin Lin (微软), Shujie Liu (微软), Zhendong Wang (微软), Zhengyuan Yang (微软), Hung-yi Lee (台湾大学), Lijuan Wang (微软) 💡 毒舌点评 这篇论文巧妙地利用“音频播放时间”来“偷”时间进行内部推理,为语音大模型引入“边想边说”能力,解决了传统“先想后说”带来的延迟问题,思路很工程化且有效。但论文的“突破性”有限,核心是将文本CoT技术适配到特定语音模型架构(GLM-4-Voice)的生成流程上,并非提出全新的模型范式;同时,实验主要局限于英语数学问答,对多语言、复杂对话场景的验证有待加强。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 319 words