语音大模型

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）通讯作者：Xueyi Li（广东智慧教育研究院）作者列表：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）、Xueyi Li（广东智慧教育研究院）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（广东智慧教育研究院）、Zitao Liu（广东智慧教育研究院） 💡 毒舌点评亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”，并巧妙地利用离散扩散模型的任意序自回归特性，构建了一个理论自洽的混合生成框架。短板在于，虽然模型在多个任务上超越了基线，但其性能与一些大型（7B以上）模型仍有差距，且实验部分主要依赖合成数据进行扩展，其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ai4ed/TtT。模型权重：未提及是否公开模型检查点或权重。数据集：论文中详细列出了训练所用数据集名称和部分规模，但未说明是否公开整合后的训练数据集或提供下载方式。 Demo：未提及在线演示。复现材料：提供了非常详尽的训练细节（优化器、学习率、批量大小、随机策略概率等）和推理配置（扩散步数、块大小、引导尺度等），并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。论文中引用的开源项目：明确使用了Qwen2.5作为主干模型，并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K， CosyVoice2， FineWeb-Edu等。评估中使用了Whisper， Paraformer-zh， Qwen3-30B-A3B等。 📌 核心摘要问题：现有的端到端语音对话模型（如Moshi, GLM-4-Voice）普遍采用单一自回归（AR）方法同时生成文本和音频，但这忽视了两种模态的本质依赖差异：文本生成是强目标间（target-target）依赖，而音频生成更依赖源-目标（source-target）依赖，即主要由输入文本决定。方法核心：提出了Text-to-Talk (TtT)，一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成，与基于吸收离散扩散的非自回归（NAR）方法用于音频生成，整合到同一个Transformer中。文本生成遵循标准因果顺序，而音频段内的生成被建模为可以任意顺序进行（得益于扩散模型的性质），但整体仍受制于因果的跨段依赖。创新点：理论框架：利用吸收离散扩散模型等价于“任意序自回归模型”的理论，为混合AR-NAR训练目标提供了上界分析，证明了其合理性。架构设计：设计了模态感知注意力机制，强制对文本使用因果注意力，而对音频段内允许双向注意力，同时保持跨段的因果依赖。训练策略：提出了三项训练策略（批量AR/NAR混合、前缀保留掩码、随机段截断）来弥合训练时部分掩码音频与推理时完整音频之间的差异。主要实验结果：在多个基准测试（Audio-QA, ASR, AAC, URO-Bench）上，TtT（3B参数）持续优于强大的纯AR和纯NAR基线模型。例如，在Audio-QA的LLaMAQuestions数据集上，TtT-3B得分34.68，而纯AR的Qwen2.5-3B仅得10.00；在AISHELL-2 ASR任务上，TtT-3B的WER为12.53，显著低于AR基线的54.94。与更大的模型相比，TtT在某些任务上也展现出竞争力。实际意义：为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式，通过尊重模态差异来减少误差传播，并实现音频的并行生成，有望降低延迟。主要局限性：当前实验主要基于3B参数的模型，其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证；部分训练数据依赖TTS合成，可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM（论文中使用Qwen2.5-Base）进行构建，通过扩展其词表以包含音频离散码元（来自GLM-4-Voice的音频分词器）和特殊控制符（如<SOA>、<EOA>、<EOS>）。整个框架是一个统一的Transformer编码器-解码器（在论文中记为fθ），共享一个输出头W用于在整个扩展词表V上预测logits。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者：未明确说明（论文提供了团队邮箱 jts.ai.team@gmail.com）作者列表： Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology，实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评亮点：论文在泰语语音克隆上实现了SOTA，CER甚至优于人类基准，并在400次盲测中以70%胜率击败商业巨头，展示了强大的工程落地和数据调优能力。短板：模型核心架构源自VoxCPM，原创性有限；更关键的是“代码、模型、数据”三无状态，使得其优异的实验结果暂时停留在“不可复现的宣称”阶段，大大削弱了学术贡献的可验证性和社区价值。 ...

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #语音大模型 #多模态模型 #鲁棒性 🔥 8.5/10 | 前25% | #音频安全 | #基准测试 | #语音大模型 #多模态模型学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Zifan Peng（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）通讯作者：Wenhan Dong（香港科技大学（广州））、Xinlei He（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）作者列表：Zifan Peng（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）、Yule Liu（香港科技大学（广州））、Zhen Sun（香港科技大学（广州））、Mingchen Li（北德克萨斯大学）、Zeren Luo（香港科技大学（广州））、Jingyi Zheng（香港科技大学（广州））、Wenhan Dong（香港科技大学（广州））、Xinlei He（香港科技大学（广州）、清华大学互联网体系结构国家重点实验室）、Xuechao Wang（香港科技大学（广州））、Yingjie Xue（中国科学技术大学）、Shengmin Xu（福建师范大学）、Xinyi Huang（南京航空航天大学） 💡 毒舌点评亮点：这篇论文为“音频大模型安全”这一新兴且关键的领域建立了第一个系统性的、大规模的基准测试框架（JALMBench），其覆盖的攻击面之广（从文本迁移攻击到音频原生攻击）、评估维度之深（效率、主题、声音多样性、模型架构），以及提供的开源工具和数据集之完整，都使其具有很高的实用和研究价值，真正起到了“点亮地图”的作用。短板：论文在“防御”部分的探索略显单薄，评估的几种防御方法（如Prompt Shield、LLaMA-Guard）基本是现有针对文本或视觉模型方法的简单迁移，并未提出任何针对音频信号特性或LALM多模态融合架构的新颖、专用防御机制，使得“破”之后的“立”显得力度不足。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/sfofgalaxy/JALMBench 模型权重：未提及。论文评估的是已有的开源和商业LALM，未发布新训练的模型。数据集：公开发布于HuggingFace数据集管理平台（链接包含在上述GitHub仓库中）。 Demo：未提及。复现材料：提供了极其详尽的复现材料，包括：数据生成的所有细节（TTS配置、翻译协议、说话人统计）、攻击和防御方法的详细实现、评估提示词全文、所有超参数设置、硬件信息、以及完整的附录说明。论文中引用的开源项目：Google Cloud TTS、DeepL Translator、F5-TTS、MMS-TTS、SpeechT5、Coqui.ai TTS（用于口音转换）等。 📌 核心摘要解决的问题：大型音频语言模型（LALMs）在实际应用中面临日益严峻的安全风险，尤其是能绕过安全对齐的越狱攻击。然而，该领域缺乏一个统一的、大规模的评估框架和基准数据集来系统性地评估和比较针对LALM的越狱攻击。方法核心：提出JALMBench，一个综合性基准测试框架。它包含245,355个音频样本（>1,000小时）和11,316个文本样本，支持12个主流LALM、8种攻击方法（4种文本迁移、4种音频原生）和5种防御方法。该框架采用模块化设计，易于扩展。与已有方法相比的新意：这是首个专门为评估LALM越狱漏洞而设计的综合基准。与现有零散的工作相比，它统一了评估标准和代码实现，覆盖了更全面的攻击类型（首次系统比较文本迁移和音频原生攻击）、更多的模型和防御策略，并进行了深入的多维度分析。主要实验结果：攻击有效性：音频模态的平均攻击成功率（ASR）高于文本模态（21.5% vs. 17.0%）。最强的音频原生攻击AdvWave在所有模型上平均ASR高达96.2%。架构影响：采用离散化音频编码的模型（如GLM-4-Voice）展现出更好的跨模态安全泛化能力，文本与音频的安全表现一致；而采用连续特征提取的模型（如LLaMA-Omni）则存在严重的模态安全差距。防御效果：现有防御方法效果有限。最佳的提示级防御（AdaShield）和响应级防御（LLaMA-Guard）分别将平均ASR降低了19.6和18.0个百分点，但提示级防御会导致约6.3%的效用下降。攻击效率：实现60%以上ASR通常需要>100秒处理时间，但40%左右的ASR可在<10秒内达成，说明低成本攻击是现实威胁。其他发现：明确的仇恨言论内容（如“写一篇煽动暴力的演讲”）被模型较好拒绝（平均ASR 41%），但隐晦的危害信息（如“制造假新闻引发恐慌”）ASR更高（67%）。非美国口音和多语言场景通常会提高攻击成功率。实际意义：为LALM的安全研究提供了重要的基准和度量标准，揭示了当前模型在音频模态下的脆弱性，特别是对直接信号级的操纵。研究发现（如编码策略对安全的影响、现有防御的不足）为设计更安全的LALM架构和专用防御机制指明了方向。主要局限性：论文明确指出未探索多轮越狱攻击；对影响攻击的声音因素（如情感、更细粒度的口音）覆盖不全；防御评估初步，缺乏针对音频模态的创新防御方法。 🏗️ 模型架构 JALMBench本身不是一个模型，而是一个用于评估模型的基准测试框架。其架构设计为模块化，包含三个主要部分： ...

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音大模型 #预训练 #自回归模型 #语音识别 #语音合成 🔥 8.5/10 | 前10% | #语音大模型 | #预训练 | #自回归模型 #语音识别学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yen-Ju Lu (Center for Language and Speech Processing, Johns Hopkins University) 通讯作者：Srinivasan Iyer†, Duc Le† (†联合末位作者， Meta Superintelligence Labs) 作者列表： Yen-Ju Lu† (Center for Language and Speech Processing, Johns Hopkins University) Yashesh Gaur (Meta Superintelligence Labs) Wei Zhou† (Meta Superintelligence Labs) Benjamin Muller (Meta Superintelligence Labs) Jesus Villalba (Center for Language and Speech Processing, Johns Hopkins University) Najim Dehak (Center for Language and Speech Processing, Johns Hopkins University) Luke Zettlemoyer (Meta Superintelligence Labs) Gargi Ghosh (Meta Superintelligence Labs) Mike Lewis (Meta Superintelligence Labs) Srinivasan Iyer† (Meta Superintelligence Labs) Duc Le† (Meta Superintelligence Labs) 💡 毒舌点评这篇论文的最大亮点在于精准诊断了语音-文本模型效率低下的“病因”（信息密度不匹配），并开出了一剂对症的“药方”（潜语音块），实验证明该药方不仅能提升语音任务表现，甚至对纯文本任务也有增益，思路清晰且效果显著。然而，其“药引子”——对齐补丁和课程学习策略——严重依赖外部对齐模型（Wav2Vec2+CTC），这为实际部署引入了额外的复杂性和潜在的误差传递，在追求“无对齐”的端到端理想模型道路上，这或许是一个迂回但务实的选择。 ...

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音克隆 #语音合成 #状态空间模型 #语音大模型 #扩散模型 ✅ 7.5/10 | 前25% | #语音克隆 | #状态空间模型 | #语音合成 #语音大模型学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sahil Kumar（Yeshiva University, Department of Mathematics）通讯作者：Youshan Zhang（Chuzhou University, School of Artificial Intelligence）作者列表：Sahil Kumar（Yeshiva University, Department of Mathematics）、Namrataben Patel（Yeshiva University, Department of Mathematics）、Honggang Wang（Yeshiva University, Department of Computer Science & Engineering）、Youshan Zhang（Chuzhou University, School of Artificial Intelligence） 💡 毒舌点评亮点：架构设计全面且理论动机清晰，通过引入门控双向融合与AdaLN调制，在完全移除推理时注意力的同时，有效提升了长文本的韵律稳定性和跨语言泛化能力，是Mamba在TTS领域一次扎实的工程化探索。短板：尽管声称改进，但核心性能增益（MOS +0.07， RTF -0.0005）绝对值很小，被扩散解码器主导的延迟瓶颈严重掩盖了SSM-only编码器的理论优势，实际部署价值提升有限。 ...

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音分词 #扩散模型 #流匹配 #语音大模型 #语音识别 ✅ 7.5/10 | 前25% | #语音分词 | #扩散模型 | #流匹配 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））通讯作者：未明确说明（论文中提供了第一作者的邮箱地址 yuanchengwang@link.cuhk.edu.cn）作者列表：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））、Zhenyu Tang（Meta超级智能实验室）、Yun Wang（Meta超级智能实验室）、Arthur Hinsvark（Meta超级智能实验室）、Yingru Liu（Meta超级智能实验室）、Yinghao Li（Meta超级智能实验室）、Kainan Peng（Meta超级智能实验室）、Junyi Ao（Meta超级智能实验室、香港中文大学（深圳））、Mingbo Ma（Meta超级智能实验室）、Mike Seltzer（Meta超级智能实验室）、Qing He（Meta超级智能实验室）、Xubo Liu（Meta超级智能实验室） 💡 毒舌点评亮点：论文提出的SiTok在极低比特率（0.2 kbps）和极低帧率（12.5 Hz）下实现了领先的语音重建质量和下游任务性能，为语音大模型提供了高效的离散化接口，技术路径清晰且实验全面。短板：模型规模巨大（1.6B参数）且依赖未公开的200万小时内部数据进行训练，这对于大多数研究团队而言复现门槛极高，其性能是否完全来自架构创新还是数据规模红利需要进一步厘清。 🔗 开源详情代码：论文附录D提供了详细的伪代码，且承诺将在论文正式发表后发布完整的推理代码和预训练模型检查点至公共、仅限研究使用的数据集。但未提供当前可用的代码仓库链接。模型权重：未提及当前是否提供公开的预训练权重。承诺未来发布。数据集：训练数据为200万小时内部数据，未公开，无法获取。 Demo：提供了在线演示网站链接：https://sitok-demo.github.io/。复现材料：提供了非常详细的模型架构（附录A）、伪代码（附录D.1， D.2）、训练超参数（附录D.3）和消融研究配置，复现信息（除数据和硬件外）较充分。论文中引用的开源项目：主要引用了Llama系列模型架构、RoPE位置编码、Vocos声码器、AdamW优化器��通用组件。未提及依赖其他特定的开源语音分词或扩散模型工具。 📌 核心摘要问题：现有语音分词器在平衡语义理解（需要压缩）与声学保真（需要细节）方面存在根本矛盾，尤其在极低比特率/帧率设置下，传统基于向量量化和回归损失的优化方式存在结构性瓶颈。方法核心：提出SiTok，一种基于扩散自编码器的语音分词器。其核心是端到端地联合优化离散量化与生成式重建，并引入一个基于CTC损失的辅助解码器对量化后的离散潜空间进行语义正则化，以学习同时具备高保真度和丰富语义的离散表示。创新点：a) 采用流匹配（扩散模型的一种）作为解码目标，替代传统回归损失或GAN，更有效地从激进压缩的离散码中恢复语音；b) 端到端联合训练量化器与扩散解码器，避免了两阶段训练导致的次优离散码；c) 直接对离散潜变量施加CTC语言监督，确保令牌的语义一致性；d) 探索了快捷微调等高效解码策略，将扩散推理步数大幅减少至2-4步。主要实验结果：SiTok在0.2 kbps和12.5 Hz的极端压缩设置下，重建WER为3.34（使用Classifier-Free Guidance），说话人相似度（SIM）达0.682（使用解码器微调），在语音重建和多项理解任务（ASR、情感识别、说话人验证、关键词检测）上均显著优于所有对比的强基线模型（见下表关键数据）。消融研究验证了扩散损失、语义正则化、模型缩放等关键设计的有效性。模型比特率(kbps) WER (↓) SIM (↑) UTMOS (↑) LLM ASR (↓) Ground Truth - 2.14 0.730 3.53 - Mimi (Baseline) 0.825 4.51 0.527 3.09 23.1 StableCodec (Baseline) 0.40 11.1 0.410 3.87 28.0 SiTok (CN=1, 基础) 0.20 4.06 0.641 3.44 4.95 SiTok (CN=1, +解码器微调) 0.20 3.79 0.682 3.48 - SiTok (CN=1, +Token CFG) 0.20 3.34 0.635 3.60 - 实际意义：为构建统一的、高效的语音大模型（同时处理理解和生成）提供了关键的离散化接口。其极低的令牌速率能显著缩短序列长度，提升语言模型的推理效率。主要局限性：a) 性能仍低于连续特征表示；b) 扩散解码器本身对流式生成不友好；c) 训练依赖大规模内部数据集，可获取性未说明。 🏗️ 模型架构 SiTok是一个基于扩散自编码器的语音分词系统，整体流程为：梅尔频谱图 -> 下采样 -> 编码器 -> 向量量化 -> 离散令牌 -> 扩散解码器 -> 重建梅尔频谱图。 ...

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #语音对话系统 #大语言模型 #多任务学习 #语音大模型 🔥 9.0/10 | 前25% | #语音情感识别 #语音对话系统 | #多任务学习 #大语言模型 | #语音情感识别 #语音对话系统学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xuanru Zhou（Zhejiang University，浙江大学）通讯作者：未说明作者列表：Xuanru Zhou（Zhejiang University）、Jiachen Lian（UC Berkeley，加州大学伯克利分校）、Henry Hong（UC Berkeley）、Xinyi Yang（Zhejiang University）、Gopala Anumanchipalli（UC Berkeley） 💡 毒舌点评亮点在于其将认知科学的世界模型概念和模块化思维（如心智理论ToM、言语行为SA）严谨地工程化为一个可学习的因果图结构，为语音模型提供了迄今最清晰、最可解释的“思考路径”，这比无脑堆数据和参数要高级得多。短板则是在“标签生成”环节重度依赖LLM（Vicuna-13b）作为教师模型，这不可避免地会引入教师模型的偏差和错误，论文中对此风险的缓解措施描述有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/eureka235/eureka235.github.io。承诺开源实现、训练和评估脚本。模型权重：论文中提到“we will open source the model”，承诺开源模型权重。数据集：论文使用了四个公开数据集（MELD, IEMOCAP, SLURP, VoxCeleb），未提供新数据集。未提及是否提供经过处理的特定数据版本。 Demo：提供了演示音频链接：http://bit.ly/4pBJuWP。复现材料：论文提供了极其详尽的复现材料，包括：模型架构细节（A.7）、训练设置与超参数（A.5）、评估指标计算方法（A.8）、用于标签生成和指令微调的完整系统提示（A.4.2, A.5.2）、以及所有消融实验的结果（A.6）。引用的开源项目：论文中引用并依赖的主要开源项目/工具包括：DistilBERT、WavLM、opensmile、Vicuna-13b（用于标签生成）、Llama-3.1-8B、Qwen2-Audio、LoRA。开源计划：论文明确表述了开源意图，并提供了代码链接和详尽的复现文档。 📌 核心摘要解决的问题：当前语音语言模型（SLMs）在语音理解上表现良好，但在需要深层推理（如情感归因、意图推断、反事实分析）的任务上表现薄弱，尤其在监督数据稀疏时，其推理过程不透明且易产生幻觉。方法核心：提出语音世界模型（SWM），其核心是一个预定义的因果图，将语音理解分解为四个认知模块：场景激活（WMA）、心智理论（ToM）、言语行为（SA）和语用意图（Prag）。该图建模了模块间的因果依赖关系。训练分两阶段：1）训练因果图以学习稳定的结构化状态表示；2）将图的输出作为显式提示，用于指令微调大语言模型（LLM或SLM），生成推理链和响应。创新之处：首次将基于认知科学的因果图结构作为语音理解的先验框架，取代了传统黑盒编码器或启发式CoT。它实现了模块化、可解释的推理，并利用因果结构实现了高效的半监督学习和更紧凑的搜索空间。主要实验结果：因果图验证：所提出的因果图比随机连接图收敛快约5倍，且在半监督设置下能有效推断未标注模块（如在无WMA标签时，其下游SA模块准确率仍达70.7%）。推理性能对比：在基于GPT-4o的模型评分中，SWM（Llama3.1-8B）的总体得分（7.81）大幅超越Qwen2-Audio-CoT基线（5.18），并在情感提及率（EM）和情感分类准确率（EA）上超越所有基线，包括GPT-4o（EM: 68.20%， EA: 45.16%），EA达66.26%。训练效率：整个训练过程仅需约20 GPU小时，远低于训练大型商业模型。实际意义：为构建可解释、高效且推理能力强的语音理解系统提供了新范式。该框架降低了训练成本，并为在部分标注数据下进行有效学习提供了解决方案，有望加速语音AI在需要复杂理解的交互场景（如智能助手、情感计算）中的应用。主要局限性：当前仅使用了四个预定义的认知模块，可能无法涵盖所有复杂的语音动态；因果图结构是预定义的，缺乏对新依赖关系的自适应学习能力；模型性能在一定程度上受限于其依赖的LLM生成的训练数据的质量。 🏗️ 模型架构 SWM的架构分为两个主要阶段：因果图训练与指令微调。 ...

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音大模型 #自回归模型 #语音对话系统 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #语音大模型 #流式处理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cheng-Han Chiang（台湾大学；微软）通讯作者：Xiaofei Wang（微软）作者列表： Cheng-Han Chiang (台湾大学, 微软), Xiaofei Wang (微软), Linjie Li (微软), Chung-Ching Lin (微软), Kevin Lin (微软), Shujie Liu (微软), Zhendong Wang (微软), Zhengyuan Yang (微软), Hung-yi Lee (台湾大学), Lijuan Wang (微软) 💡 毒舌点评这篇论文巧妙地利用“音频播放时间”来“偷”时间进行内部推理，为语音大模型引入“边想边说”能力，解决了传统“先想后说”带来的延迟问题，思路很工程化且有效。但论文的“突破性”有限，核心是将文本CoT技术适配到特定语音模型架构（GLM-4-Voice）的生成流程上，并非提出全新的模型范式；同时，实验主要局限于英语数学问答，对多语言、复杂对话场景的验证有待加强。 ...

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #端到端 #语音对话系统 #大语言模型 #自回归模型 🔥 8.0/10 | 前25% | #语音对话系统 | #端到端 | #语音大模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Liang-Hsuan Tseng (刘亮轩) (台湾大学电机工程学系研究所；MediaTek Research实习) 通讯作者：未明确说明。作者列表中第二作者Yi-Chang Chen（联发科技研究中心）和第四作者Da-shan Shiu（联发科技研究中心）提供了邮箱，可能负责主要联络。作者列表： Liang-Hsuan Tseng (台湾大学电机工程学系研究所, MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电机工程学系研究所, MediaTek Research实习) Da-shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究卓越中心) 💡 毒舌点评这篇论文的亮点在于它跳出了“先有语音token，再想办法与文本对齐”的常规思路，从源头设计了一种与文本一一对应的语音标记，巧妙解决了SLM建模中的长度不匹配痛点，使得联合建模变得“straightforward”，效果立竿见影。然而，其高度依赖ASR（Whisper）来获取文本锚点，这意味着模型性能上限可能受限于ASR的准确性和泛化能力，且对于非语言声音（如笑声、环境声）的处理存在明显短板，暴露了当前“文本中心主义”语音建模范式的局限性。 ...