语音对话系统

End-to-end Listen, Look, Speak and Act

📄 End-to-end Listen, Look, Speak and Act #多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者) 通讯作者：Chao Zhang (清华大学) 作者列表：Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学) 💡 毒舌点评这篇论文在架构设计上确实有巧思，将全双工多模态交互与MoE范式结合，实现了首个能“听说读写做”的端到端模型，在模拟环境中的全面表现也很亮眼。但核心实验全在��真环境里打转，离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟，且其声称的“首个”全双工多模态端到端模型，在缺乏与同期所有相关工作进行系统性对比的情况下，说服力稍显不足。 ...

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）通讯作者：Xueyi Li（广东智慧教育研究院）作者列表：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）、Xueyi Li（广东智慧教育研究院）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（广东智慧教育研究院）、Zitao Liu（广东智慧教育研究院） 💡 毒舌点评亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”，并巧妙地利用离散扩散模型的任意序自回归特性，构建了一个理论自洽的混合生成框架。短板在于，虽然模型在多个任务上超越了基线，但其性能与一些大型（7B以上）模型仍有差距，且实验部分主要依赖合成数据进行扩展，其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ai4ed/TtT。模型权重：未提及是否公开模型检查点或权重。数据集：论文中详细列出了训练所用数据集名称和部分规模，但未说明是否公开整合后的训练数据集或提供下载方式。 Demo：未提及在线演示。复现材料：提供了非常详尽的训练细节（优化器、学习率、批量大小、随机策略概率等）和推理配置（扩散步数、块大小、引导尺度等），并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。论文中引用的开源项目：明确使用了Qwen2.5作为主干模型，并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K， CosyVoice2， FineWeb-Edu等。评估中使用了Whisper， Paraformer-zh， Qwen3-30B-A3B等。 📌 核心摘要问题：现有的端到端语音对话模型（如Moshi, GLM-4-Voice）普遍采用单一自回归（AR）方法同时生成文本和音频，但这忽视了两种模态的本质依赖差异：文本生成是强目标间（target-target）依赖，而音频生成更依赖源-目标（source-target）依赖，即主要由输入文本决定。方法核心：提出了Text-to-Talk (TtT)，一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成，与基于吸收离散扩散的非自回归（NAR）方法用于音频生成，整合到同一个Transformer中。文本生成遵循标准因果顺序，而音频段内的生成被建模为可以任意顺序进行（得益于扩散模型的性质），但整体仍受制于因果的跨段依赖。创新点：理论框架：利用吸收离散扩散模型等价于“任意序自回归模型”的理论，为混合AR-NAR训练目标提供了上界分析，证明了其合理性。架构设计：设计了模态感知注意力机制，强制对文本使用因果注意力，而对音频段内允许双向注意力，同时保持跨段的因果依赖。训练策略：提出了三项训练策略（批量AR/NAR混合、前缀保留掩码、随机段截断）来弥合训练时部分掩码音频与推理时完整音频之间的差异。主要实验结果：在多个基准测试（Audio-QA, ASR, AAC, URO-Bench）上，TtT（3B参数）持续优于强大的纯AR和纯NAR基线模型。例如，在Audio-QA的LLaMAQuestions数据集上，TtT-3B得分34.68，而纯AR的Qwen2.5-3B仅得10.00；在AISHELL-2 ASR任务上，TtT-3B的WER为12.53，显著低于AR基线的54.94。与更大的模型相比，TtT在某些任务上也展现出竞争力。实际意义：为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式，通过尊重模态差异来减少误差传播，并实现音频的并行生成，有望降低延迟。主要局限性：当前实验主要基于3B参数的模型，其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证；部分训练数据依赖TTS合成，可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM（论文中使用Qwen2.5-Base）进行构建，通过扩展其词表以包含音频离散码元（来自GLM-4-Voice的音频分词器）和特殊控制符（如<SOA>、<EOA>、<EOS>）。整个框架是一个统一的Transformer编码器-解码器（在论文中记为fθ），共享一个输出头W用于在整个扩展词表V上预测logits。 ...

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #数据集 🔥 9.0/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xiang Li（北京邮电大学网络与交换技术国家重点实验室、深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室）通讯作者：Jiale Han（香港科技大学）作者列表： Xiang Li（北京邮电大学网络与交换技术国家重点实验室、深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室） Jiabao Gao（香港中文大学（深圳）） Sipei Lin（香港中文大学（深圳）） Xuan Zhou（香港中文大学（深圳）） Chi Zhang（香港中文大学（深圳）） Bo Cheng（北京邮电大学网络与交换技术国家重点实验室） Jiale Han（香港科技大学） Benyou Wang（深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室） 💡 毒舌点评这篇论文的亮点在于其开创性和系统性：它首次将图灵测试从文本或语音合成领域完整地迁移到端到端语音对话系统评估，并构建了首个包含18维度的细粒度诊断框架，这为“何为类人语音交互”设立了新的评估标准。然而，其短板在于实验设计的简化，例如角色扮演和特定开场白的提示可能无法完全模拟真实世界中开放、自发的对话场景，且测试对话长度较短（20-60秒），对长程记忆和动态人格塑造的评估有所欠缺。 🔗 开源详情代码：论文明确提供了公开的代码仓库链接：https://github.com/Carbohydrate1001/Turing-Test。模型权重：论文提到公开了模型，但具体权重获取方式需参考上述代码仓库（has_model: 是）。数据集：论文明确提供了公开的数据集，并通过上述代码仓库发布（has_dataset: 是）。 Demo：论文中未提及提供在线演示的链接。复现材料：论文在附录中详细说明了数据收集流程（B节）、图灵测试平台设计（C节）、细粒度标注协议（D节）、以及AI评判器的训练设置、嵌入读取选择、模型消融、超参数调优和敏感性分析（E节），复现信息非常充分。论文中引用的开源项目：论文引用了多个开源模型和数据集，包括： S2S模型：GPT-4o, Gemini2.5-Pro, Qwen3, Kimi-K1.5, ChatGLM-4.5, Hunyuan-TurboS, Doubao-Pro 1.5, Claude-Sonnet 4, iFLYTEK-Spark。 TTS模型：Nari Dia-1.6B, Spark-TTS。对话数据集：DailyDialog, DailyTalk, IEMOCAP, MagicData。 AI评判器骨干模型：Qwen2.5-Omni。其他技术：LoRA（低秩适应）。 📌 核心摘要本文旨在解决如何评估现代语音到语音（S2S）系统是否能够像人类一样自然对话这一核心问题。为此，研究者首次针对S2S系统开展了图灵测试。方法核心是构建一个高质量、多类别（人-人、人-机、伪人类）的对话数据集，并通过一个游戏化的在线平台收集大规模人类判断（2,968条）。与仅提供“通过/失败”的传统评估不同，本文进一步开发了一个包含5大类、18个细粒度维度的类人性诊断标注体系，并基于此训练了一个可解释的AI评判模型。与已有工作相比，本文的新意在于：1）首次对端到端S2S系统进行图灵测试；2）从“是否像人”的视角进行诊断，发现当前瓶颈不在语义理解，而在副语言特征、情感表达和对话人格；3）开发了一个显著优于通用多模态模型且可提供诊断依据的专用AI评判器。主要实验结果显示，所有被评估的9个S2S系统的成功率均远低于0.5的人类基准，无人类通过测试；细粒度分析显示S2S系统在“记忆一致性”、“逻辑连贯性”等方面接近人类，但在“韵律”、“情感声学表达”、“谄媚行为”等方面差距明显。所提出的AI评判器在测试集上的整体分类准确率达到96.05%，远超人类评判者的72.84%和通用AI模型的平均水平45.27%。这项工作的实际意义在于为S2S系统提供了一个超越功能性、聚焦于“类人性”的评估基准和诊断工具，明确指出了下一代语音对话AI需要突破的关键方向。主要局限性在于评估的对话场景和长度相对有限，且“伪人类”对话作为对照组的引入虽然增加了测试难度，但其与S2S系统固有缺陷的直接关联性值得进一步探讨。 ...

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未明确标注）通讯作者：未说明（论文中未明确标注）作者列表：Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao 机构列表：MiniCPM-o Team, OpenBMB（根据署名推断） 💡 毒舌点评这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工，其技术方案完整度和边缘部署效率令人印象深刻，是该方向的一个坚实里程碑。不过，论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱，更像是一个高效的技术原型，离真正“类人”的复杂场景交互还有相当距离。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）通讯作者：Xiaobo Xia（新加坡国立大学，中国科学技术大学）；Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）作者列表：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Xiaobo Xia（新加坡国立大学，中国科学技术大学）、Lu Wang（Rtizz-AI）、Longze Chen（中国科学院深圳先进技术研究院，中国科学院大学）、Renke Shan（Rtizz-AI）、Jing Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）、Tat-Seng Chua（新加坡国立大学） 💡 毒舌点评亮点在于其架构的简洁与统一性，用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计，这在处理需要深度融合的多模态检索任务时确实显示出优势，实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长，且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模，大规模Scaling下的表现未知，使得“下一代范式”的论断稍显仓促。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ritzz-ai/Next-OMNI 模型权重：是，论文明确提到“开源”模型检查点，并提供了链接。数据集：部分公开。论文中使用的大部分数据集为公开数据集（如LAION, LibriSpeech等），但也包含“私有数据”。论文未提供统一的训练数据下载链接，但详细列出了数据来源和构成（表8）。 Demo：论文中未提及在线演示。复现材料：非常充分。附录中提供了模型设计细节（D）、数据策展详情（E）、训练配方（F，表9）和额外的实验与可视化结果（G, H, I）。论文中引用的开源项目：主要包括：Qwen2.5系列（骨干/对齐损失）、CLIP-ViT（视觉编码器初始化）、Whisper（音频编码器初始化）、FLUX（图像生成数据合成）、MMEvol（指令数据增强）、以及训练数据相关的多个公开数据集工具（如LAION, Common Crawl）。 📌 核心摘要本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余（混合/解耦设计）导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI，首个完全基于离散流匹配（DFM）的开源全能态基础模型。与已有的自回归或混合架构相比，其新在：1）完全摒弃自回归范式，采用DFM进行并行去噪，原生支持双向信息融合；2）设计了带有重建损失的统一表征编码器，为生成、理解和检索任务提供一体化特征；3）引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下：在全能态理解基准（OmniBench, WorldSense, AV-Odyssey）上，平均得分39.7，优于OpenOmni（36.5）；在多轮视觉交互（OpenING）上，平均分55.0，显著高于前代模型；在多模态检索（MMEBEDIR子集）上，平均Top-5准确率32.9，优于所有对比模型（MMaDA为31.8）；在语音交互（Spoken QA）上取得有竞争力的结果。实际意义在于，它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于，受限于计算资源，模型仅在7B规模上训练和验证，其在大规模下的潜力尚未证明。 ...

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #知识蒸馏 #基准测试 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #强化学习 | #知识蒸馏 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shu-wen Yang (台湾大学电气工程学系研究生院 / 字节跳动 Seed) 通讯作者：Lu Lu (字节跳动 Seed)， Hung-yi Lee (台湾大学电气工程学系) 作者列表： Shu-wen Yang (台湾大学电气工程学系研究生院，字节跳动 Seed) Ming Tu (字节跳动 Seed) Andy T. Liu (字节跳动 Seed) Xinghua Qu (字节跳动 Seed) Hung-yi Lee (台湾大学电气工程学系) Lu Lu (字节跳动 Seed) Yuxuan Wang (字节跳动 Seed) Yonghui Wu (字节跳动 Seed) 💡 毒舌点评这篇论文最大的亮点在于精准定义了“语音对话模型听不懂弦外之音”这一痛点，并系统性地设计了从评估基准（ParaS2SBench）到强化学习训练（ParaS2SAlign）的完整解决方案，堪称“对症下药”的范例。但其短板也明显：核心的强化学习框架（GRPO）和奖励模型蒸馏技术并非首次提出，创新更多体现在将这些技术成功适配到一个全新的、定义良好的问题域中，而非算法本身的突破；此外，自动评估器虽与人类评分高度相关，但其“风格幻觉”问题可能并未完全根除，依然依赖于其精心构建的特征提取流水线。 ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学，上海创新研究院）通讯作者：Jinlan Fu (N/A), Xipeng Qiu (复旦大学，上海创新研究院)（论文标注†为共同通讯作者）作者列表：Siyin Wang（复旦大学，上海创新研究院）、Jinlan Fu（新加坡国立大学）、Feihong Liu（复旦大学）、Xinzhe He（复旦大学）、Huangxuan Wu（复旦大学）、Junhao Shi（复旦大学，上海创新研究院）、Kexin Huang（复旦大学）、Zhaoye Fei（复旦大学）、Jingjing Gong（上海创新研究院）、Zuxuan Wu（复旦大学，上海创新研究院）、Yu-Gang Jiang（复旦大学）、See-Kiong Ng（新加坡国立大学）、Tat-Seng Chua（新加坡国立大学）、Xipeng Qiu（复旦大学，上海创新研究院） 💡 毒舌点评亮点：这篇论文真正让机器人“听懂”了对话的弦外之音（比如“嗯…橙汁”的嫌弃语气）并主动发起询问确认，而不是傻等一句“把可乐放桌上”的明确指令，这在人机交互的自然性上是个重要进步。短板：虽然构建了庞大的合成数据集，但真实世界交互的复杂性（比如多人同时说话、声音重叠、远场噪声）与合成数据之间的差距可能仍然存在，论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/OpenMOSS/RoboOmni 模型权重：未提及是否公开预训练权重，但论文中提到将“开源模型检查点”。数据集：公开OmniAction数据集，承诺将开源获取。 Demo：未提及在线演示。复现材料：提供了非常详细的训练细节（硬件、超参数、优化器设置）、数据集构建流程（三阶段）、实验设置（基线模型描述）和附录中的更多示例。引用的开源项目：论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要问题：现有的视觉-语言-动作（VLA）模型严重依赖用户发出的显式、直接的指令（如文本命令），但在真实场景中，人类意图常通过对话上下文、语气、环境音等隐式线索表达，机器人缺乏主动推断和确认意图的能力。方法核心：提出RoboOmni，一个基于端到端全模态大语言模型（如Qwen2.5-Omni）的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频（包含语音和副语言线索、环境声）和文本对话历史，统一进行意图推理、生成确认性语音回复和执行机器人动作。新意：a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架，无需ASR管道，保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction（14万 episodes），包含6种上下文指令类型。主要实验结果：在模拟基准OmniAction-LIBERO上，RoboOmni平均成功率85.6%，大幅超越最强文本基线NORA（25.9%）。在真实人类语音测试（OmniAction-LIBERO-Real）中，成功率76.6%，优于π0（73.8%）。真实机器人实验成功率73.9%，远超ASR+VLA基线（52.2%）。消融实验证明，移除音频后意图识别准确率从88.89%暴跌至11.11%。实际意义：推动了机器人从“命令执行者”向“主动协作者”的转变，为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。主要局限性：a) 依赖大规模合成数据，虽然通过真人录音补充，但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座（Qwen2.5-Omni）的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构，所有组件通过自回归语言模型骨干统一。 ...

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #语音对话系统 #大语言模型 #多任务学习 #语音大模型 🔥 9.0/10 | 前25% | #语音情感识别 #语音对话系统 | #多任务学习 #大语言模型 | #语音情感识别 #语音对话系统学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xuanru Zhou（Zhejiang University，浙江大学）通讯作者：未说明作者列表：Xuanru Zhou（Zhejiang University）、Jiachen Lian（UC Berkeley，加州大学伯克利分校）、Henry Hong（UC Berkeley）、Xinyi Yang（Zhejiang University）、Gopala Anumanchipalli（UC Berkeley） 💡 毒舌点评亮点在于其将认知科学的世界模型概念和模块化思维（如心智理论ToM、言语行为SA）严谨地工程化为一个可学习的因果图结构，为语音模型提供了迄今最清晰、最可解释的“思考路径”，这比无脑堆数据和参数要高级得多。短板则是在“标签生成”环节重度依赖LLM（Vicuna-13b）作为教师模型，这不可避免地会引入教师模型的偏差和错误，论文中对此风险的缓解措施描述有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/eureka235/eureka235.github.io。承诺开源实现、训练和评估脚本。模型权重：论文中提到“we will open source the model”，承诺开源模型权重。数据集：论文使用了四个公开数据集（MELD, IEMOCAP, SLURP, VoxCeleb），未提供新数据集。未提及是否提供经过处理的特定数据版本。 Demo：提供了演示音频链接：http://bit.ly/4pBJuWP。复现材料：论文提供了极其详尽的复现材料，包括：模型架构细节（A.7）、训练设置与超参数（A.5）、评估指标计算方法（A.8）、用于标签生成和指令微调的完整系统提示（A.4.2, A.5.2）、以及所有消融实验的结果（A.6）。引用的开源项目：论文中引用并依赖的主要开源项目/工具包括：DistilBERT、WavLM、opensmile、Vicuna-13b（用于标签生成）、Llama-3.1-8B、Qwen2-Audio、LoRA。开源计划：论文明确表述了开源意图，并提供了代码链接和详尽的复现文档。 📌 核心摘要解决的问题：当前语音语言模型（SLMs）在语音理解上表现良好，但在需要深层推理（如情感归因、意图推断、反事实分析）的任务上表现薄弱，尤其在监督数据稀疏时，其推理过程不透明且易产生幻觉。方法核心：提出语音世界模型（SWM），其核心是一个预定义的因果图，将语音理解分解为四个认知模块：场景激活（WMA）、心智理论（ToM）、言语行为（SA）和语用意图（Prag）。该图建模了模块间的因果依赖关系。训练分两阶段：1）训练因果图以学习稳定的结构化状态表示；2）将图的输出作为显式提示，用于指令微调大语言模型（LLM或SLM），生成推理链和响应。创新之处：首次将基于认知科学的因果图结构作为语音理解的先验框架，取代了传统黑盒编码器或启发式CoT。它实现了模块化、可解释的推理，并利用因果结构实现了高效的半监督学习和更紧凑的搜索空间。主要实验结果：因果图验证：所提出的因果图比随机连接图收敛快约5倍，且在半监督设置下能有效推断未标注模块（如在无WMA标签时，其下游SA模块准确率仍达70.7%）。推理性能对比：在基于GPT-4o的模型评分中，SWM（Llama3.1-8B）的总体得分（7.81）大幅超越Qwen2-Audio-CoT基线（5.18），并在情感提及率（EM）和情感分类准确率（EA）上超越所有基线，包括GPT-4o（EM: 68.20%， EA: 45.16%），EA达66.26%。训练效率：整个训练过程仅需约20 GPU小时，远低于训练大型商业模型。实际意义：为构建可解释、高效且推理能力强的语音理解系统提供了新范式。该框架降低了训练成本，并为在部分标注数据下进行有效学习提供了解决方案，有望加速语音AI在需要复杂理解的交互场景（如智能助手、情感计算）中的应用。主要局限性：当前仅使用了四个预定义的认知模块，可能无法涵盖所有复杂的语音动态；因果图结构是预定义的，缺乏对新依赖关系的自适应学习能力；模型性能在一定程度上受限于其依赖的LLM生成的训练数据的质量。 🏗️ 模型架构 SWM的架构分为两个主要阶段：因果图训练与指令微调。 ...

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音大模型 #自回归模型 #语音对话系统 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #语音大模型 #流式处理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cheng-Han Chiang（台湾大学；微软）通讯作者：Xiaofei Wang（微软）作者列表： Cheng-Han Chiang (台湾大学, 微软), Xiaofei Wang (微软), Linjie Li (微软), Chung-Ching Lin (微软), Kevin Lin (微软), Shujie Liu (微软), Zhendong Wang (微软), Zhengyuan Yang (微软), Hung-yi Lee (台湾大学), Lijuan Wang (微软) 💡 毒舌点评这篇论文巧妙地利用“音频播放时间”来“偷”时间进行内部推理，为语音大模型引入“边想边说”能力，解决了传统“先想后说”带来的延迟问题，思路很工程化且有效。但论文的“突破性”有限，核心是将文本CoT技术适配到特定语音模型架构（GLM-4-Voice）的生成流程上，并非提出全新的模型范式；同时，实验主要局限于英语数学问答，对多语言、复杂对话场景的验证有待加强。 ...

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #端到端 #语音对话系统 #大语言模型 #自回归模型 🔥 8.0/10 | 前25% | #语音对话系统 | #端到端 | #语音大模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Liang-Hsuan Tseng (刘亮轩) (台湾大学电机工程学系研究所；MediaTek Research实习) 通讯作者：未明确说明。作者列表中第二作者Yi-Chang Chen（联发科技研究中心）和第四作者Da-shan Shiu（联发科技研究中心）提供了邮箱，可能负责主要联络。作者列表： Liang-Hsuan Tseng (台湾大学电机工程学系研究所, MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电机工程学系研究所, MediaTek Research实习) Da-shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究卓越中心) 💡 毒舌点评这篇论文的亮点在于它跳出了“先有语音token，再想办法与文本对齐”的常规思路，从源头设计了一种与文本一一对应的语音标记，巧妙解决了SLM建模中的长度不匹配痛点，使得联合建模变得“straightforward”，效果立竿见影。然而，其高度依赖ASR（Whisper）来获取文本锚点，这意味着模型性能上限可能受限于ASR的准确性和泛化能力，且对于非语言声音（如笑声、环境声）的处理存在明显短板，暴露了当前“文本中心主义”语音建模范式的局限性。 ...