端到端 | 语音/音频论文速递

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #端到端 #多模态模型 #流式处理 #语音克隆 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jingyao Gong（Independent Researcher，独立研究者）通讯作者：未明确说明（论文中仅提供第一作者邮箱 gongjy.cs@foxmail.com，未指明通讯作者）作者列表：Jingyao Gong（Independent Researcher）毛舌点评该论文的亮点在于它将一个完整的“听-看-想-说”全模态闭环在0.1B的小模型规模上实现并彻底开源，包括训练代码、模型权重和处理过的多模态训练数据集，为社区提供了一个可完全复现和修改的小型研究基线。然而，其短板也十分明显：受限于极小的模型规模，在语音自然度、长句稳定性和复杂指令跟随能力上与大模型存在显著差距，其评估也主要集中在内部一致性而非端到端的用户体验，更像一个验证技术可行性的原型而非实用系统。核心摘要问题：旨在探索在极小参数规模（0.1B）下，构建一个能够同时处理文本、语音、图像输入并输出文本与流式语音的端到端全模态模型的可行性与设计范式。方法：采用“思考者-说话者”分离架构。“思考者”是完整的MiniMind语言模型主干，接收文本、经过投影的语音（SenseVoice）和图像（SigLIP2）特征；“说话者”是一个独立的4层MiniMind模块，接收来自思考者中层的语义桥接状态和自回归的Mimi语音编码历史，以预测8层的Mimi码本用于生成流式语音。说话人身份通过参考语音编码和预计算的CAM++嵌入在说话者模块中进行条件化。创新：核心创新在于为小规模全模态模型提出的三项设计选择：(1) 使用中层语义桥接，而非首层或末层状态，为说话者提供更干净的语义条件；(2) 公开了用于训练的多模态序列格式和数据集；(3) 为8个Mimi码本设计了参数高效的共享基础加低秩适配器的嵌入与输出头接口。主要实验结果：一致性：在内部一致性评估中，密集模型和MoE模型在平均字符错误率（CER）上分别为0.0897和0.0900。语音克隆：使用CAM++说话人嵌入进行评估，密集模型和MoE模型的总体语音克隆相似度（余弦相似度）分别为0.5995和0.5937。跨模型对比：在简短英文问答T2A一致性上，0.1B的MiniMind-O（Avg CER: 0.0964， Avg WER: 0.0973）落后于0.5B的Mini-Omni（Avg CER: 0.0101， Avg WER: 0.0185）和Mini-Omni2（Avg CER: 0.0371， Avg WER: 0.0431）。消融实验：说话者模块的隐藏维度从768降至512或384时，CER显著恶化。低秩适配器消融显示输出头的秩比嵌入层的秩更重要。实际意义：提供了一个完全可公开审查和复现的小规模全模态交互系统，降低了该领域的研究门槛。其明确的设计选择（如中层桥接）和完全开源的闭环数据，为分析和改进小模型全模态架构提供了可控的研究对象。主要局限性：语音自然度和长句生成的稳定性不足；视觉通路依赖冻结编码器和固定占位符，能力有限；评估主要关注内部转录一致性，未充分评估自然度、鲁棒性和安全性等。详细分析 01.模型架构 MiniMind-O 是一个端到端的全模态模型，其核心架构遵循“思考者-说话者”分离范式，整体数据流如图1所示。 ...

A cross-species neural foundation model for end-to-end speech decoding

📄 A cross-species neural foundation model for end-to-end speech decoding #语音识别 #自监督学习 #跨模态 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #跨模态 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Yizi Zhang（Columbia University）， Linyang He（Columbia University）（*表示共同第一作者）通讯作者：未明确说明（论文中提供了通讯邮箱，但未明确标注“Corresponding Author”）作者列表：Yizi Zhang（Columbia University）， Linyang He（Columbia University）， Chaofei Fan（Stanford University）， Tingkai Liu（Microsoft）， Han Yu（Columbia University）， Trung Le（University of Washington）， Jingyuan Li（Amazon）， Scott Linderman（Stanford University）， Lea Duncker（Columbia University）， Francis R Willett（Stanford University）， Nima Mesgarani（Columbia University）， Liam Paninski（Columbia University） 💡 毒舌点评这篇论文堪称BCI语音解码领域的“系统集成大师”，它巧妙地将跨物种预训练、Transformer编码器和音频LLM这几个当前最时髦的模块组装成一个性能SOTA的端到端框架，展现了强大的工程整合能力和扎实的实验功底。然而，其核心创新更多在于“组合”而非“发明”，且最终端到端性能仍未超越精心调优的级联系统，这或许暗示了“神经信号直接生成文本”这条路还有很长的坡要爬。 ...

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #端到端 #预训练 #迁移学习 ✅ 7.0/10 | 前25% | #音乐生成 | #端到端 | #预训练 #迁移学习学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（香港科技大学）通讯作者：Xiaoyu Zhang（香港城市大学）作者列表：Zijian Zhao（香港科技大学）、Dian Jin（香港理工大学）、Zijing Zhou（香港大学）、Xiaoyu Zhang（香港城市大学） 💡 毒舌点评亮点：论文开创性地将自动舞台灯光控制（ASLC）从“规则映射”问题重新定义为“生成任务”，并基于BART设计了端到端的Skip-BART模型，其生成效果在人工评估中已接近专业灯光师水平，概念和方法均有新意。短板：尽管开创了新范式，但其构建的RPMC-L2数据集仅包含约700个摇滚/朋克/金属风格的现场演出片段，规模和多样性有限，这严重制约了模型在更广泛音乐类型和复杂舞台场景下的泛化能力上限。 🔗 开源详情代码：是，提供完整代码仓库链接：https://github.com/RS2002/Skip-BART 模型权重：是，提供训练好的模型参数供下载。数据集：是，提供了处理后的数据集（RPMC-L2）下载链接。 Demo：论文中未提及在线演示。复现材料：论文在附录中提供了详细的预训练配置（附录A）、实验设置（附录B）和数据集构建细节（附录C），包括所有超参数、损失函数权重和数据处理流程，复现信息非常充分。引用的开源项目：论文依赖并引用了多个开源工具/模型，包括：PianoBART（用于迁移学习的骨干）、OpenL3（音频特征提取）、PyTorch（深度学习框架），以及用于生成对比歌曲的Suno。 📌 核心摘要问题：现有的自动舞台灯光控制（ASLC）大多依赖将音乐分类到有限类别后映射到预设灯光模式，导致结果公式化、单调且缺乏合理性。作者认为灯光控制本质上是艺术创作过程，而非简单的规则映射。方法：论文首次提出将ASLC视为一个生成任务，并提出了端到端深度学习模型 Skip-BART。该模型以BART为骨干，使用OpenL3提取音频特征，通过离散嵌入处理灯光数据（HSV色彩空间的色相H和明度V）。其核心创新是引入跳连接机制，显式对齐音乐帧与灯光帧，以增强时序对应关系。训练过程采用掩码语言模型（MLM）预训练和端到端微调，并结合了迁移学习（PianoBART）和受限随机温度控制（RSTC）采样。创新：与传统分类-映射范式相比，新在：(1) 将ASLC建模为序列到序列的生成问题；(2) 设计了包含跳连接的Skip-BART架构；(3) 构建了首个专门的ASLC数据集RPMC-L2。实验结果：在自建的RPMC-L2数据集上，Skip-BART在定量指标（RMSE, MAE, corr(|Δ|)）上显著优于规则基线方法（见下表）。人工评估（38名参与者）显示，Skip-BART的总体评分（M=4.35）与真实灯光师（M=4.51）无显著差异（p=0.724），但显著高于规则方法（M=2.67，p<0.001）。 | 方法 | RMSE↓ (Hue) | RMSE↓ (Value) | MAE↓ (Hue) | MAE↓ (Value) | corr(|Δ|)↑ (Hue) | corr(|Δ|)↑ (Value) | | :— | :— | :— | :— | :— | :— | :— | | Rule-based | 48.67 | 93.39 | 43.43 | 86.55 | 0.50 | 0.58 | | Skip-BART | 36.13 | 60.74 | 28.72 | 51.27 | 0.88 | 2.94 | ...

End-to-end Listen, Look, Speak and Act

📄 End-to-end Listen, Look, Speak and Act #语音对话系统 #端到端 #多模态模型 #大语言模型 #流式处理 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Siyin Wang (清华大学)， Wenyi Yu (清华大学) [论文中注明两人贡献相等] 通讯作者：Chao Zhang (清华大学) 作者列表：Siyin Wang (清华大学)， Wenyi Yu (清华大学)， Xianzhao Chen (字节跳动)， Xiaohai Tian (字节跳动)， Jun Zhang (字节跳动)， Lu Lu (字节跳动)， Yuxuan Wang (字节跳动)， Chao Zhang (清华大学) 💡 毒舌点评这篇论文的亮点在于其清晰的架构设计（SA-MoE）和全面的任务验证，成功地将“说”和“做”这两个通常分离的能力整合到了一个全双工框架中，向类人交互迈出了扎实的一步。但短板也同样明显：目前所有验证都停留在模拟环境（LIBERO, CALVIN），缺乏真实世界复杂场景的考验，且“同时说话和操作”时性能出现可感知的下降，暴露出当前模型在处理真正高强度并发多任务时仍显吃力。 ...

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #端到端 #多模态模型 #大语言模型 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #端到端 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（好未来教育集团 TAL Education Group，暨南大学 Guangdong Institute of Smart Education）通讯作者：Xueyi Li（暨南大学 Guangdong Institute of Smart Education）作者列表：Tianqiao Liu（好未来教育集团，暨南大学）、Xueyi Li（暨南大学）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（暨南大学）、Zitao Liu（暨南大学） 💡 毒舌点评论文对端到端语音模型中文本与音频生成范式错配问题的洞察一针见血，并给出了一个理论上优雅、实验上有效的混合训练框架，是当前S2S建模思路的一次重要升级。但论文对模型推理时块级扩散的计算开销分析着墨不多，且训练数据依赖大量合成语音（如CosyVoice2生成），其在真实复杂声学环境下的泛化能力仍是潜在挑战。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/ai4ed/TtT。模型权重：论文中未提及预训练模型权重（如Pretrain+TtT的检查点）的公开下载链接。数据集：论文中使用的训练数据大多为公开数据集（如AISHELL, LibriSpeech, VoiceAssistant-400K等），但具体的数据处理脚本和混合配方未完全开源。评估数据集如URO-Bench、Audio-QA集等为公开基准。 Demo：论文中未提及提供在线演示（Demo）。复现材料：论文提供了极其详细的训练细节（超参数、优化器设置、训练策略概率）、模型配置（基于Qwen2.5）、以及架构和注意力机制的示意图（图2, 3），并附有详尽的附录。这些构成了坚实的复现基础。引用的开源项目：论文依赖并引用了多个开源项目作为基础组件，主要包括：音频分词器/解码器：GLM-4-Voice (Zeng et al., 2024)。主干LLM：Qwen2.5系列。 ASR评估工具：Whisper (Radford et al., 2023)、Paraformer。 TTS数据生成：CosyVoice2。训练框架：DeepSpeed。论文中提及的开源计划：论文中未提及额外的开源计划（如未来发布模型权重或扩展数据）。 📌 核心摘要本文针对现有端到端语音到语音（S2S）模型用统一自回归（AR）方法建模文本和音频所存在的范式错配问题，提出了“Text-to-Talk”（TtT）框架。核心问题在于，文本生成是强序列依赖的（目标-目标依赖），而音频生成更依赖输入源（源-目标依赖），强行用AR约束音频会引入不必要的误差传播。方法核心是设计一个混合生成框架，在同一个Transformer中，对文本使用标准AR建模，对音频段使用吸收离散扩散（一种NAR范式）建模，并证明了这种联合训练目标是目标联合分布的上界。与已有方法相比，新在两点：1）首次识别并形式化了文本与音频在依赖结构上的不对称性；2）提出了一个统一的架构和训练框架来适配这种不对称性，而非强行统一生成范式。主要实验结果显示，TtT在Audio-QA、ASR、AAC和URO-Bench等多个基准上，一致超越了纯AR和纯NAR的基线模型。例如，在3B参数规模下，TtT在多个ASR数据集上的WER大幅优于Qwen2.5-3B (AR)，在Audio-QA任务上也显著提升。实际意义在于，为构建更自然、高效、符合生成特性的端到端语音交互系统提供了新思路。主要局限性包括：1）块级扩散推理的效率需要进一步评估；2）模型性能对大规模多模态预训练数据（约200B tokens）有一定依赖；3）尽管在轻量级模型中表现优异，但与某些超大参数量模型（如GLM-4-Voice）在综合基准上仍有差距。 ...

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yixuan Zhou（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Yixuan Zhou（清华大学深圳国际研究生院），Guoyang Zeng（ModelBest Inc），Xin Liu（ModelBest Inc），Xiang Li（清华大学深圳国际研究生院），Renjie Yu（清华大学深圳国际研究生院），Ziyang Wang（ModelBest Inc），Runchuan Ye（清华大学深圳国际研究生院），Weiyue Sun（ModelBest Inc），Jiancheng Gui（ModelBest Inc），Kehan Li（清华大学深圳国际研究生院），Zhiyong Wu（清华大学深圳国际研究生院），Zhiyuan Liu（清华大学计算机科学与技术系） 💡 毒舌点评亮点：论文提出的“半离散残差表示”框架设计精巧，通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦，有效规避了传统连续模型的误差累积和离散模型的信息损失，堪称“鱼与熊掌兼得”的架构设计典范。短板：模型的高性能（VoxCPM）严重依赖海量内部数据（1百万小时），而公开验证（VoxCPM-Emilia）的性能与SOTA仍有差距，这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑，也削弱了其作为普适解决方案的说服力。 📌 核心摘要解决的问题：现有端到端语音合成模型面临一个根本权衡：离散token方法稳定但会丢失声学细节（量化天花板），而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积，影响稳定性。方法核心：提出VoxCPM，一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化（FSQ）瓶颈，它自然诱导出两个专门化模块：文本-语义语言模型（TSLM）负责生成稳定的语义韵律骨架，残差声学语言模型（RALM）负责恢复FSQ量化后丢失的精细声学细节。最终，由层次化表示共同引导一个局部扩散Transformer解码器（LocDiT）生成高保真语音隐变量。新意：与依赖外部离散语音token化器的多阶段管道不同，该框架将量化作为正则化机制内置于连续数据流中，实现了在单一端到端训练框架内的功能分离，消除了对外部预训练token化器的依赖，并缓解了连续模型中的任务纠缠。主要结果：在超过1百万小时的双语数据上训练的0.5B参数VoxCPM，在SEED-TTS-EVAL基准上取得了开源系统中的最优性能，英语WER为1.85%，中文CER为0.93%，说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明，去除FSQ瓶颈（w/o FSQ）会导致在困难测试集上性能急剧恶化（中文CER从18.19%升至24.92%），验证了其核心作用。实际意义：该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式，有望推动更自然、更具情感的语音交互技术发展。主要局限性：SOTA性能严重依赖大规模内部训练数据，在较小公开数据集上的验证（VoxCPM-Emilia）表现虽具竞争力但非顶尖，表明其对数据规模可能较为敏感。此外，框架的整体复杂度（包含LM、RALM、扩散解码器）对部署资源有一定要求。详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型，其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

📄 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection #音乐理解 #多模态模型 #端到端 #音乐信息检索 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Benjamin Shiue-Hal Chou（Purdue University）通讯作者：未说明（论文未明确指定，但联系邮箱主要为{作者名}@purdue.edu，可能为共同指导）作者列表： Benjamin Shiue-Hal Chou（Purdue University） Purvish Jajal（Purdue University） Nick John Eliopoulos（Purdue University） James C. Davis（Purdue University） George K. Thiruvathukal（Loyola University Chicago） Kristen Yeon-Ji Yun（Purdue University） Yung-Hsiang Lu（Purdue University） 💡 毒舌点评亮点：论文将“音乐练习错误检测”这一序列比较问题，巧妙地转化为一个多模态编码与解码任务，并且通过架构设计（Ladder编码器）和输入表示（符号提示）两个层面，针对性地解决了之前方法在对齐能力和输入歧义上的痛点，设计思路清晰且有效。短板：符号提示策略在更简单的CocoChorales-E数据集上（尤其对Extra Note）带来的增益有限，甚至略有下降，表明这种多模态融合的收益可能与任务复杂度强相关；此外，模型对大幅节奏变化和复杂和弦遮蔽的处理仍有明显局限。 ...

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 🔥 8.0/10 | 前25% | #语音情感识别 | #时频分析 | #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Alaa Nfissi（数据科学实验室（DOT-Lab）， Université TÉLUQ；康考迪亚大学信息系统工程学院（Concordia Institute for Information Systems Engineering））通讯作者：未明确说明作者列表：Alaa Nfissi（数据科学实验室（DOT-Lab）， Université TÉLUQ；康考迪亚大学信息系统工程学院）、Wassim Bouachir（数据科学实验室（DOT-Lab）， Université TÉLUQ）、Nizar Bouguila（康考迪亚大学信息系统工程学院）、Brian Mishara（魁北克大学蒙特利尔分校心理学系；蒙特利尔自杀、伦理问题及临终实践研究与干预中心） 💡 毒舌点评这篇论文的亮点在于它不满足于简单地使用或微调现有前端，而是试图从数学原理上重新定义一个更灵活、可学习的时频分析框架（LFST），体现了扎实的信号处理功底和理论建模能力。然而，其主要短板在于计算效率：论文附录的复杂度分析显示，LFST+STEE在FLOPs、延迟和内存占用上远超STFT、LEAF等基线，这使得“紧凑”的STEE编码器所节省的参数优势在端到端系统中可能被前端的计算成本抵消，削弱了其实用吸引力。 🔗 开源详情代码：论文中明确提供了GitHub代码仓库链接：https://github.com/alaaNfissi/LFST-for-SER。模型权重：论文中未提及公开的模型权重。数据集：NSPL-CRISE为私有数据集（经IRB批准使用），论文中未提及公开获取方式。IEMOCAP和EMO-DB为公开数据集，论文中提供了引用。 Demo：论文中未提及在线演示。复现材料：论文提供了详尽的超参数设置（Table 8）、训练细节（Section 4.2）、算法伪代码（Algorithm 1-3）和技术附录，为复现提供了充分信息。论文中引用的开源项目：论文未明确提及依赖的外部开源工具或模型（除作为基线对比的方法外）。 📌 核心摘要要解决什么问题：传统语音情感识别（SER）的前端（如STFT、小波变换）存在固定的时间-频率（TF）分辨率权衡，且参数需人工调优，无法自适应任务需求。已有超小波变换（Superlet）局限于整数阶，存在阶跃伪影。方法核心：提出可学习分数阶超小波变换（LFST）作为全可微的前端。LFST通过学习每个频带上的分数阶阶数（通过对数域几何平均实现）、单调对数频率网格和频率依赖的基频周期，生成TF幅度图S和相位一致性图κ。结合一个可学习非对称硬阈值（LAHT）模块对S去噪。之后，设计了紧凑的频谱时序情感编码器（STEE），利用深度可分离卷积、混合TF块、自适应FiLM门控和轴向自注意力处理S和κ，输出情感分类。新在哪里：相比固定前端或先前非可学习的超小波，LFST首次将超小波的阶数、频率网格和周期全部设为可学习参数，并进行了端到端训练。同时，引入了物理意义明确的相位一致性κ通道和LAHT去噪模块，形成了一个理论完备、可数据驱动的TF表示学习框架。主要实验结果：在IEMOCAP（4类）上，准确率87.5%，F1值86.8%；在EMO-DB（7类）上，准确率91.4%，F1值90.4%；在NSPL-CRISE（5类，电话语音）上，准确率76.9%，F1值76.6%。在与相同STEE编码器下的STFT、小波、固定超小波、LEAF前端对比中，LFST在三个数据集上均取得最佳性能。关键消融显示，在NSPL-CRISE上，移除κ导致F1下降9.7个百分点，移除LAHT下降2.5个百分点。实际意义：为语音及音频分析提供了一种可学习、可解释、数学基础扎实的TF表示学习前端，可替代传统固定设计，并可能应用于其他需要精细时频分析的场景。主要局限性：系统计算成本较高，LFST前端的FLOPs和内存占用远高于STFT等轻量级前端，限制了部署。此外，研究未在更大规模、更多语言的数据集上验证，也未与强大的预训练SSL模型进行直接性能对比。 🏗️ 模型架构整个系统（LFST+STEE）处理流程为：原始波形 → LFST前端 → 两通道TF图（幅度S，相位一致性κ） → STEE编码器 → 情感类别。所有组件端到端可训练。 ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统 ✅ 7.5/10 | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学、上海创新研究院）通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）作者列表： Siyin Wang（复旦大学、上海创新研究院） Jinlan Fu（国家大学新加坡） Feihong Liu（复旦大学） Xinzhe He（复旦大学） Huangxuan Wu（复旦大学） Junhao Shi（复旦大学、上海创新研究院） Kexin Huang（复旦大学） Zhaoye Fei（复旦大学） Jingjing Gong（上海创新研究院） Zuxuan Wu（复旦大学、上海创新研究院） Yu-Gang Jiang（复旦大学） See-Kiong Ng（国家大学新加坡） Tat-Seng Chua（国家大学新加坡） Xipeng Qiu（复旦大学、上海创新研究院） 💡 毒舌点评这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。 ...

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音对话系统 #流式处理 #自回归模型 #语音大模型 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #流式处理 | #自回归模型 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cheng-Han Chiang（National Taiwan University， Microsoft GenAI）通讯作者：Xiaofei Wang（Microsoft）作者列表：Cheng-Han Chiang（National Taiwan University, Microsoft）， Xiaofei Wang（Microsoft）， Linjie Li（Microsoft）， Chung-Ching Lin（Microsoft）， Kevin Lin（Microsoft）， Shujie Liu（Microsoft）， Zhendong Wang（Microsoft）， Zhengyuan Yang（Microsoft）， Hung-yi Lee（National Taiwan University）， Lijuan Wang（Microsoft） 💡 毒舌点评亮点在于将人类“边想边说”的模式形式化为一个可计算的交错生成框架，并在几乎不增加首包延迟的前提下显著提升了数学推理任务的准确率，堪称“偷时间”的艺术。短板在于对生成的“思考链”本身的质量和可靠性缺乏更深入的分析，且实验场景集中于英文数学题，对更复杂对话场景的泛化能力有待验证。 ...