A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026

📄 A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026 #语音翻译 #语音识别 #多模态模型 #低资源 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音翻译 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Aziz Sharipov Ortega, Charles University, MFF, ÚFAL。Dominik Macháček, Charles University, MFF, ÚFAL & University of Edinburgh。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 572 words

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

📄 Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals #多模态模型 #语音情感识别 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #多模态模型 | arxiv 👥 作者与机构 论文作者为 Jiyuan Liu, Liangwei Nathan Zheng, Wei Emma Zhang, Xinpei Wang, Weitong Chen。主要机构为 Adelaide University(澳大利亚)和 Shandong University(中国)。 💡 毒舌点评 这篇工作想在融合前做点事情,动机听起来不错,就是觉得特征里有好有坏,得先挑挑拣拣。VGMR设计得挺精巧,像个精致的瑞士军刀,模块套模块。实验也铺得挺开,五个数据集、两种骨干,消融分析一套一套的,看起来很努力。但问题在于,“价值”这东西到底是个啥,你说它来自交叉模态的一致与冲突,但具体怎么影响最终门控,还是个黑盒。那个用模态移除算出的监督信号\(L_{value}\),感觉像是用一个粗糙的全局指标去指导一个精巧的局部操作,有点拧巴。作者自己也说了计算开销不小,推理延迟翻了几倍,实际落地得掂量掂量。最后,虽然号称通用,但大部分实验还是在情感分析上打转,对真正考验多模态能力的、模态质量参差不齐的现实场景(比如一边说话一边被风吹麦克风)缺乏验证。总的来说,是一篇扎实但创新有限的工作,离“ask what to keep”这个启发性问题的深刻答案还有距离。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 296 words

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评 这是一篇扎实的“元研究”(meta-research)论文。优点很明显:S2ST领域确实急需一个统一的评估标准,作者们以惊人的工程量(1248个配置!)构建并发布了这个COMPASS框架,这种“苦力活”对于社区发展的价值毋庸置疑。然而,审稿人需要清醒地认识到,这篇论文的核心贡献在于“测量工具”和“大规模实证”,而非提出新的翻译或合成算法。因此,它的“创新性”应相对于评估框架领域来评判,而非模型架构领域。论文的实验设计非常全面,但其结论在某种程度上依赖于特定的基准数据集(FLEURS, CVSS),这在作者自己提出的局限性中已经承认。最大的短板在于开源状态:承诺的工具包代码尚未公开,这严重影响了论文的即时可用性和可复现性。总体而言,这是一篇对社区有用的基础设施论文,但距离一个“完美”的基准评估还存在距离。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 343 words

Cosmos 3: Omnimodal World Models for Physical AI

📄 Cosmos 3: Omnimodal World Models for Physical AI #多模态模型 #扩散模型 #音频生成 #强化学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构 论文作者:NVIDIA(英伟达)。贡献者来自NVIDIA的多个部门,包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。 💡 毒舌点评 Cosmos 3是一篇典型的“巨无霸”式工业技术报告,旨在通过发布一个全模态(语言、图像、视频、音频、动作)统一模型,为Physical AI(机器人、自动驾驶)提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上(MoT)和训练策略上(分阶段、多模态课程)都有扎实的工程实践,并在多个SOTA榜单上取得了优异成绩。然而,它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力,而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示,但在分析某个具体子问题(如长尾物理规律的建模、跨具身迁移的理论基础)时深度有限。更关键的是,作为一篇技术报告,其“自我声明”的局限性部分(sim-to-real gap等)论述得相当克制,甚至可以说是轻描淡写,对于一篇宣称要解决真实世界Physical AI问题的工作来说,这需要读者自己更批判性地审视。开源程度很高,但模型的巨大规模和复杂的基础设施栈,使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。 📌 核心摘要 Cosmos 3 是一个统一的全模态世界模型家族,旨在联合处理和生成语言、图像、视频、音频和动作序列,以支持Physical AI(具身智能)。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构:一个自回归Reasoner路径负责理解和推理,一个扩散Generator路径负责生成,两者通过双流联合注意力机制交互。模型采用多阶段训练流程,Reasoner先在大规模图文/视频-文本数据上预训练,再在Physical AI任务上微调;Generator则采用渐进式多模态课程训练,从图像、视频、音频预训练开始,逐步引入动作和传输数据进行中期训练,最后在特定领域数据上进行后训练。评估显示,Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平,其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型,在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 629 words

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 476 words

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构 作者:Yuanhao Chen, Peter Chin 机构:Dartmouth College, Hanover, NH, USA 💡 毒舌点评 一篇动机良好、理论包装扎实的工作,但将一个在单个数据集、单个参与者上的工程优化,拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑,且缺乏与最先进级联系统的公平比较。理论命题(Proposition 3.1 & 3.2)虽优雅,但与现实训练条件(τ为有限值)脱节,更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤,严重阻碍了验证与复现。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 400 words

OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination

📄 OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination #多模态模型 #模型评估 7.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #模型评估 | arxiv 👥 作者与机构 Zixuan Dong, Jiafu Tang, Zhide Lei, Zhe Cao, Zijie Zhang, Yanghai Wang, Shihao Li, Xiaodong Wang, Baoyun Peng, Jiaheng Liu. 作者来自国防科技大学和南京大学。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 438 words

SegTune: Structured and Fine-Grained Control for Song Generation

📄 SegTune: Structured and Fine-Grained Control for Song Generation #音乐生成 #生成模型 #多模态模型 #数据增强 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前25% | #音乐生成 | #数据增强 | #生成模型 #多模态模型 | arxiv 👥 作者与机构 Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan。机构为Kling Team, Kuaishou Technology;University of Science and Technology of China;Peking University。论文在Kuaishou Technology的Kling Team实习期间完成。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 451 words

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评 这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。 ...

2026-06-03 · 更新于 2026-06-19 · 5 min · 933 words

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký (论文未在摘要中提供具体机构,通常包括布拉格捷克技术大学、小米、OPPO等) ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 508 words