Iclr-2026

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #数据集 #大语言模型 #多模态模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #数据集 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh（AXXX, Moscow, Russia；MTUCI, Moscow, Russia）通讯作者：论文中未明确标注通讯作者作者列表：Dmitrii Korzh（AXXX, MTUCI），Dmitrii Tarasov（FusionBrain Lab, AXXX; HSE University），Artyom Iudin（AXXX; MTUCI），Elvir Karimov（AXXX; MTUCI; Applied AI Institute），Matvey Skripkin（FusionBrain Lab, AXXX; Applied AI Institute），Nikita Kuzmin（AXXX; MTUCI; Applied AI Institute），Andrey Kuznetsov（FusionBrain Lab, AXXX; Innopolis University），Oleg Y. Rogov（AXXX; MTUCI; Applied AI Institute），Ivan Oseledets（AXXX; Applied AI Institute; Moscow State University） 💡 毒舌点评亮点在于，论文贡献了一个规模空前、标注细致的开源S2L数据集，并系统性地探索了从ASR后校正到端到端Audio-LLM的多种技术路线，为这个细分领域确立了坚实的基准和评估框架。短板是，无论是ASR后校正还是端到端方法，模型架构本身均无显著创新，更多是现有技术的组合与应用，其性能提升很大程度上依赖于新构建的高质量数据集。 ...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（ByteDance Seed） Yuanzhe Chen（ByteDance Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（ByteDance Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.） 💡 毒舌点评这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

📄 SpeechOp: Inference-Time Task Composition for Generative Speech Processing #语音增强 #语音分离 #扩散模型 #多任务学习 #零样本 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Justin Lovelace（Cornell University）通讯作者：未明确说明（论文作者来自Cornell University和Adobe Research，从贡献描述看，Adobe Research团队的Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin可能承担更多指导角色，但论文未明确标注通讯作者）作者列表： Justin Lovelace（Cornell University） Rithesh Kumar（Adobe Research） Jiaqi Su（Adobe Research） Ke Chen（Adobe Research） Kilian Q Weinberger（Cornell University） Zeyu Jin（Adobe Research） 💡 毒舌点评本文巧妙地将“资源过剩”的TTS模型改造为“资源匮乏”S2S任务的处理器，其提出的TC-CFG推理组合策略从原理上解释了如何优雅地融合不同生成任务的信号，避免了简单的分数平均带来的先验冲突。然而，论文的核心扩散架构（DiT+VAE）和多任务训练范式本身并无颠覆性创新，其真正亮点在于系统整合与工程设计，且在代码和模型开源方面显得较为吝啬，限制了社区的快速跟进与验证。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #扩散模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前25% | #视频生成 | #扩散模型 | #流匹配 #多模态模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li (VITA@EPFL) 通讯作者：未说明 (论文末尾致谢部分提及Alexandre Alahi教授，但未明确标注为通讯作者) 作者列表：Wuyang Li (VITA@EPFL), Wentao Pan (VITA@EPFL), Po-Chien Luan (VITA@EPFL), Yang Gao (VITA@EPFL), Alexandre Alahi (VITA@EPFL) 💡 毒舌点评论文最大的亮点在于提出了“错误回收”这一新颖且直觉上合理的范式来解决长视频生成中的误差累积问题，通过让模型“吃自己生成的错误”来提升鲁棒性，理论分析深刻且实验效果显著。短板在于其核心理论框架（尤其是错误注入与计算的数学部分）稍显复杂，部分实现细节（如错误银行的动态更新）的工程可行性分析略显不足，且在超长视频（15分钟）展示中，角色身份一致性等更高级挑战的解决方案尚处萌芽阶段。 🔗 开源详情代码：论文提及将开源完整代码库，项目主页为 https://stable-video-infinity.github.io/homepage/，但具体代码仓库链接未在文中提供。模型权重：论文承诺将提供模型，但具体发布平台（如Hugging Face）和权重链接未提及。数据集：论文承诺将公开所有基准数据集。 Demo：提供了项目主页，但未明确说明是否提供在线交互式Demo。复现材料：论文提供了详细的超参数表（表12）、数据集描述和部分实现细节（如基于Wan 2.1，使用LoRA），为复现提供了重要信息。引用的开源项目：明确基于 Wan 2.1 视频生成模型；音频说话任务参考了 Hallo 3；舞蹈任务参考了 UniAnimate-DiT；自动提示流生成使用了 Qwen2.5 大语言模型。论文中未提及开源计划的具体时间表或权重文件的最终发布地址。 📌 核心摘要这篇论文旨在解决长视频生成中的关键瓶颈——误差累积（drifting）问题。现有方法多通过调整噪声调度器或引入参考帧来缓解而非根除误差，导致生成的视频长度有限且场景单一。为此，论文提出了Stable Video Infinity (SVI)，其核心是“错误回收微调”方法：在训练时，人为地将模型（DiT）历史生成中可能出现的误差注入到干净的输入数据中，模拟推理时的误差累积场景；模型随后学习从这些“被污染”的输入中恢复出正确的预测结果，相当于学会了自我纠错。与已有方法相比，SVI的根本创新在于它弥合了训练时假设输入无误差与推理时条件中包含误差之间的“假设鸿沟”，使模型能够主动修正错误而非被动缓解。实验在一致性、创意和条件生成三个基准上进行，结果显示SVI在视频质量、一致性和动态程度等核心指标上均显著超越Wan 2.1、StreamingT2V、FramePack等最新方法（例如，在超长一致性生成中，SVI-Shot的Subject Consistency达到97.89%，比最强基线FramePack高出约11%）。该工作的实际意义在于首次将视频生成从“秒级”推进到“无限长度”，并支持文本流、音频、骨架等多条件控制。主要局限性包括：训练数据规模较小（仅数千条视频），可能导致风格泛化不足；当前版本为并行生成，暂不支持实时流式输出；以及超长片段中的身份一致性等高级语义控制仍有提升空间。 ...

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

📄 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs #语音识别 #语音大模型 #鲁棒性 #流式处理 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #语音大模型 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhan Song（北京大学计算机科学学院，多媒体信息处理国家重点实验室）通讯作者：Linhao Zhang（张林浩，未提供机构，推测为微信AI基础模型技术中心）、Houfeng Wang（王厚峰，北京大学计算机科学学院，多媒体信息处理国家重点实验室）作者列表：Yuhan Song（北京大学计算机科学学院，多媒体信息处理国家重点实验室）、Linhao Zhang（未说明具体机构）、Chuhan Wu（微信AI基础模型技术中心）、Aiwei Liu（微信AI基础模型技术中心）、Wei Jia（微信AI基础模型技术中心）、Houfeng Wang（北京大学计算机科学学院，多媒体信息处理国家重点实验室）、Xiao Zhou（微信AI基础模型技术中心） 💡 毒舌点评这篇论文精准地抓住了现有语义语音分词器在噪声下“一碰就碎”的痛点，并提出了一个巧妙且工程友好的“位级投票”解决方案，实验结果对比非常亮眼，是解决一个实际问题的好工作。然而，其多分支结构在训练时引入的额外计算成本和复杂性未被深入讨论，且对“共识损失”的理论依据和不同变体的探索也显得较为基础。 🔗 开源详情代码：提供GitHub仓库链接 https://github.com/Tencent/StableToken，论文中声明代码将公开。模型权重：论文中声明模型检查点将在接受后公开。数据集：训练使用的主要开源数据集列表已公开（表7）。评估使用FLEURS、LibriSpeech、CHiME-4、ESD、SEED-TTS等公开数据集。 Demo：论文中未提及在线演示。复现材料：提供了训练超参数（表8）、噪声增强配置（表9）、模型详细架构描述、消融实验设置（附录C）等详尽信息。论文中引用的开源项目：骨干网络使用了Whisper-large-v3，对比基线包括HuBERT、NAST、R-Spin、SpeechTokenizer等。 📌 核心摘要本文旨在解决当前语义语音分词器在面对微小声学扰动（即使语音清晰可辨）时输出序列极不稳定的问题，这种不稳定性严重增加了下游语音大语言模型的学习负担。论文指出问题的根源在于两个方面：脆弱的单路径量化架构和仅监督最终转录文本的遥远训练信号。为此，作者提出了StableToken，一种基于共识机制的鲁棒分词器。其核心方法包含两个相互协同的部分：(1) Voting-LFQ模块，一种多分支量化器，每个分支独立处理输入并生成二进制表示，最后通过位级多数投票机制聚合成一个稳定的输出；(2) 噪声感知共识训练策略，在训练时为部分分支提供带噪声的输入（多视图），并通过一个共识损失强制所有分支的表示保持一致，从而显式地学习对噪声不变的特征。实验表明，StableToken在单元编辑距离（UED）指标上取得了当前最优结果，相对于最佳基线（S3 Tokenizer，26.17%）将平均UED降低了60%以上至10.17%，同时保持了高质量的音频重建能力。这种基础稳定性的提升直接转化为下游语音大模型在语音识别（ASR）、语音情感识别（SER）和文本到语音（TTS）任务上的鲁棒性收益，尤其在严重噪声下性能优势显著。主要局限性在于，多分支的数量选择是经验性的，且论文未深入探讨其在不同硬件上的实际推理效率开销。 🏗️ 模型架构 StableToken的整体架构建立在端到端ASR模型的基础之上，以Whisper-large-v3编码器为骨干网络。其核心创新在于将传统的单路径量化器替换为Voting-LFQ（投票式无查找量化）模块。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者：Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表：Zihan Liu（北京航空航天大学，上海人工智能实验室），Zhikang Niu（上海交通大学，上海创新研究院），Qiuyang Xiao（上海交通大学），Zhisheng Zheng（上海交通大学），Ruoqi Yuan（北京航空航天大学），Yuhang Zang（上海人工智能实验室），Yuhang Cao（上海人工智能实验室），Xiaoyi Dong（上海人工智能实验室，香港中文大学），Jianze Liang（上海人工智能实验室），Xie Chen（上海交通大学，上海创新研究院），Leilei Sun（北京航空航天大学），Dahua Lin（香港中文大学，上海人工智能实验室），Jiaqi Wang（上海人工智能实验室，上海创新研究院） 💡 毒舌点评本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题，证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”，从音高、响度等基础感知到时空推理，层层深入，确实能测出模型的真实短板。不过，论文本身止步于“诊断医生”，并未给出“治疗方案”，其核心价值依赖于未来模型能否利用这个基准取得进步，稍显被动。 📌 核心摘要本文指出，现有的音频基准测试主要评估可通过文本描述传达的语义内容，无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此，论文提出了“音频4D智能”的概念，即结合时间（1D）和三维空间（3D）进行深度推理的能力。作者构建了STAR-Bench基准，包含两个层级：基础声学感知（对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估）和整体时空推理（包括连续过程与离散事件序列的时间推理，以及静态定位、多源关系和动态轨迹跟踪的空间推理）。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型（16个开源，3个闭源）的评测中，STAR-Bench展现出巨大挑战性，人类表现远高于所有模型。研究发现：闭源模型（如Gemini 2.5 Pro）在知识和推理上领先，但细粒度感知仍是其瓶颈；开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如，在仅使用音频文本描述答题时，MMAU和MMAR基准的准确率仅下降5.9%和9.0%，而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%，证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究，为未来模型改进指明了方向，如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #自回归模型 #激活干预 #音频大模型 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Daniel Zhao（University of California, San Diego）通讯作者：未说明（从作者列表和邮箱格式推断，第一作者Daniel Zhao可能是主要联系人，但未明确标注）作者列表：Daniel Zhao（University of California, San Diego）、Daniel Beaglehole（University of California, San Diego）、Taylor Berg-Kirkpatrick（University of California, San Diego）、Julian McAuley（University of California, San Diego）、Zachary Novack（University of California, San Diego） 💡 毒舌点评这篇论文的亮点在于它成功地将RFM这一“老”概念嫁接到了音乐生成这个热门但控制困难的任务上，并通过精巧的层/时间调度设计实现了相当不错的控制效果，免去了训练或微调基础模型的巨大开销。不过，其控制能力严重依赖于在高度理想化的合成音乐数据集（SYNTHEORY）上训练的探针，当面对真实世界复杂多变的音乐纹理时，这些探针发现的“方向”是否依然稳健有效，论文并未给出足够有说服力的证据。 ...

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音对话系统 #流式处理 #自回归模型 #语音大模型 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #流式处理 | #自回归模型 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cheng-Han Chiang（National Taiwan University， Microsoft GenAI）通讯作者：Xiaofei Wang（Microsoft）作者列表：Cheng-Han Chiang（National Taiwan University, Microsoft）， Xiaofei Wang（Microsoft）， Linjie Li（Microsoft）， Chung-Ching Lin（Microsoft）， Kevin Lin（Microsoft）， Shujie Liu（Microsoft）， Zhendong Wang（Microsoft）， Zhengyuan Yang（Microsoft）， Hung-yi Lee（National Taiwan University）， Lijuan Wang（Microsoft） 💡 毒舌点评亮点在于将人类“边想边说”的模式形式化为一个可计算的交错生成框架，并在几乎不增加首包延迟的前提下显著提升了数学推理任务的准确率，堪称“偷时间”的艺术。短板在于对生成的“思考链”本身的质量和可靠性缺乏更深入的分析，且实验场景集中于英文数学题，对更复杂对话场景的泛化能力有待验证。 ...

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #迁移学习 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #迁移学习 | #参数高效微调 #多语言学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）通讯作者：Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）作者列表： Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院） Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院） Jia Qi Yip（南洋理工大学计算与数据科学学院） Kwok-Yan Lam（南洋理工大学数字信任中心 & 计算与数据科学学院） Eng Siong Chng（南洋理工大学数字信任中心 & 计算与数据科学学院） 💡 毒舌点评亮点：论文巧妙地将“模型平均”的思想压缩到了单一LoRA适配器的初始化阶段，通过将多个奇异向量求和来构建更“博学”的冻结矩阵A，这个想法精巧且实现简单。短板：实验验证仅限于多语言ASR，作者自己也承认对需要“局部”知识适应的任务（如NLU）无效，这让人怀疑该方法是普适的参数高效技巧，还是一个仅对特定任务类型（全局风格/口音迁移）有效的“特解”。 ...

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiehui Luo（中央音乐学院），Yuguo Yin（北京大学）（论文注明贡献相等）通讯作者：Yuguo Yin（北京大学）作者列表： Jiehui Luo（中央音乐学院） Yuguo Yin（北京大学） Yuxin Xie（北京大学） Jinghan Ru（北京大学） Xianwei Zhuang（北京大学） Minghua He（北京大学） Aofan Liu（北京大学） Zihan Xiong（电子科技大学） Dongchao Yang（香港中文大学） 💡 毒舌点评这篇论文的亮点在于将对比学习中的“力分解”具象化，并精准指出垂直分量是“双刃剑”，由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心（一个可学习的正则化项）相对朴素，且论文未开源代码，使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的预训练或微调后的模型权重。数据集：使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo：未提及。复现材料：论文提供了较为详细的实现细节（如编码器选择、优化器、学习率、批次大小、温度等），并在附录中补充了部分消融实验和统计显著性分析。论文中引用的开源项目：CED-Base（音频编码器）， SONAR-TE（文本编码器）， Deepseek V3（用于翻译和回译分析）。 📌 核心摘要本文针对音频-文本对比学习（CLAP）中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现，来自负样本的推力可分解为与拉力方向平行和垂直的分量；其垂直分量虽包含丰富信息，但其不受控的特性会导致优化路径发生侧向偏移，影响训练稳定性和最终对齐质量。 ...