多模态模型

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜（47 篇，按分数降序）排名论文总分分档主任务 🥇 Audio Interaction Model 9.8分前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分前50% - 39. Do speech foundation models perceive speaker similarity 6.3分前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

📄 DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities #多模态模型 #自监督学习 #数据集 #基准测试 9.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前25% | #多模态模型 | #自监督学习 | #数据集 #基准测试 | arxiv 👥 作者与机构 Sajad Ebrahimi, Nima Jamali, Bardia Shirsalimian, Kelly McConvey, Wentao Zhang, Jalehsadat Mahdavimoghaddam, Maksym Taranukhin, Maura Grossman, Vered Shwartz, Yuntian Deng, Ebrahim Bagheri University of Toronto, University of Waterloo, Toronto Metropolitan University, University of British Columbia, Vector Institute ...

Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention

📄 Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention #语音问答 #多模态模型 7.5/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #语音问答 | #多模态模型 | arxiv 👥 作者与机构主要作者：Ming-Hao Hsu (hsuminghao1006@gmail.com), Xiaohai Tian, Jun Zhang, Zhizheng Wu (wuzhizheng@cuhk.edu.cn)。机构为中国香港中文大学（深圳）数据科学学院和字节跳动。 💡 毒舌点评这篇论文的诊断工作做得相当扎实，把“语音推理不行”这个笼统问题精准定位到了“实体绑定失败”这个具体病灶上，并且用EA-CoT这个“对症下药”的提示方法取得了显著疗效。实验设计也体现了严谨性，通过设置结构化控制提示和token预算对照组，努力剥离了“指令内容”和“生成长度”的混淆效应，这种实验洁癖值得肯定。消融实验也清晰地量化了“实体枚举”这一核心组件的贡献。然而，其提出的解决方案（EA-CoT）本质上是一种推理时的提示工程，而非模型架构的根本性改进，这使得其“修复”的普适性和效率存疑。论文承认这会显著增加推理延迟，在实际部署中可能是个硬伤。此外，评估完全依赖于合成语音和两个7B规模的模型，对真实世界噪声环境和更大规模模型的泛化能力，我们只能保持谨慎乐观。总体而言，这是一篇诊断清晰、验证严谨、但处方略显保守的工作。 📌 核心摘要本研究深入剖析了语音大语言模型（SLLMs）在复杂推理任务上性能逊于文本模型的“模态差距”问题。作者发现，这种差距并非均匀分布，而是高度集中于需要连续跟踪实体状态的逻辑推理任务（如“谎言之网”），在这些任务上语音输入的准确率甚至降至随机水平。论文将问题根源诊断为“实体绑定失败”：语音编码器的下采样机制虽然保留了全局语义，却模糊了细粒度的声学细节和离散令牌边界，导致模型在隐式推理过程中无法稳定关联实体与其动态属性。为此，论文提出“实体感知思维链”（EA-CoT）推理时干预策略，强制模型在文本空间显式地枚举实体并记录其属性主张，从而绕过脆弱的声学隐式跟踪。实验证明，EA-CoT在实体密集型任务上实现了高达24.4个百分点的绝对准确率提升，有效弥合了模态差距，且该方法即使在实体名称被错误识别时仍能保持有效。消融实验进一步确认，性能增益完全源于显式的语义绑定过程。 🔗 开源详情代码：论文中未提及代码链接或开源代码仓库。模型权重：论文中提及了 Qwen2.5-Omni-7B [33] 和 Phi-4-Multimodal [34] 两个模型，并说明在它们的发布配置下评估，但未提供具体的权重下载链接（如 HuggingFace 或 ModelScope）。数据集：论文中提及使用了 VoiceBench BBH [5] 的四个类别（共 1,000 条样本）和 MMSU [35] 数据集进行实验，未提及这些数据集的具体开源链接或协议。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等复现材料。论文中引用的开源项目： VoiceBench：论文引用了该基准，未提供直接链接。引用来源为[5]: Y. Chen, X. Yue, C. Zhang, X. Gao, R. T. Tan, and H. Li, “Voicebench: Benchmarking llm-based voice assistants,” CoRR, vol. abs/2410.17196, 2024. MMSU：论文引用了该基准，未提供直接链接。引用来源为[35]: D. Wang, J. Wu, J. Li, D. Yang, X. Chen, T. Zhang, and H. Meng, “MMSU: A massive multi-task spoken language understanding and reasoning benchmark,” CoRR, vol. abs/2506.04779, 2025. Qwen2.5-Omni：论文提及该模型并引用了技术报告，未提供权重或代码链接。引用来源为[33]: J. Xu, Z. Guo, J. He, H. Hu, T. He, S. Bai, K. Chen, J. Wang, Y. Fan, K. Dang, B. Zhang, X. Wang, Y. Chu, and J. Lin, “Qwen2.5-omni technical report,” CoRR, vol. abs/2503.20215, 2025. Phi-4-Multimodal：论文提及该模型并引用了技术报告，未提供权重或代码链接。引用来源为[34]: A. Abouelenin et al., “Phi-4-mini technical report: Compact yet powerful multimodal language models via mixture-of-loras,” CoRR, vol. abs/2503.01743, 2025. Qwen-Audio：论文在背景部分提及，未提供直接链接。引用来源为[4]: Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Y. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” 2023. [Online]. Available: https://arxiv.org/abs/2311.07919 SALMONN：论文在背景部分提及，未提供直接链接。引用来源为[2]: C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: towards generic hearing abilities for large language models,” in ICLR. OpenReview.net, 2024. SpeechGPT：论文在背景部分提及，未提供直接链接。引用来源为[3]: D. Zhang, S. Li, X. Zhang, J. Zhan, P. Wang, Y. Zhou, and X. Qiu, “Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities,” in EMNLP (Findings), ser. Findings of ACL, vol. EMNLP 2023. Association for Computational Linguistics, 2023, pp. 15 757–15 773. CORD：论文在相关工作中提及，未提供直接链接。引用来源为[18]: J. Hu, D. Zhu, X. Luo, D. Zhang, S. He, Y. Lei, H. Zheng, S. Feng, J. He, Y. Sun, H. Wu, and H. Wang, “CORD: bridging the audio-text reasoning gap via weighted on-policy cross-modal distillation,” CoRR, vol. abs/2601.16547, 2026. Closing the modality reasoning gap for speech large language models：论文在相关工作中提及，未提供直接链接。引用来源为[19]: C. Wang, H. Lu, X. Zhang, S. Liu, Y. Lu, J. Li, and Z. Wu, “Closing the modality reasoning gap for speech large language models,” CoRR, vol. abs/2601.05543, 2026. Anatomy of the modality gap：论文引用了同一作者团队的相关工作，未提供直接链接。引用来源为[9]: M.-H. Hsu, X. Zhang, X. Tian, J. Zhang, and Z. Wu, “Anatomy of the modality gap: Dissecting the internal states of end-to-end speech llms,” 2026. [Online]. Available: https://arxiv.org/abs/2603.01502 🏗️ 方法概述和架构论文方法的核心在于诊断“实体绑定失败”这一特定瓶颈，并设计针对性的推理时干预策略EA-CoT。整个方法框架可视为一个“诊断-治疗”系统。 ...

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文总分分档主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026

📄 A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026 #语音翻译 #语音识别 #多模态模型 #低资源 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音翻译 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Aziz Sharipov Ortega， Charles University, MFF, ÚFAL。Dominik Macháček， Charles University, MFF, ÚFAL & University of Edinburgh。 ...

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

📄 Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals #多模态模型 #语音情感识别 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #多模态模型 | arxiv 👥 作者与机构论文作者为 Jiyuan Liu, Liangwei Nathan Zheng, Wei Emma Zhang, Xinpei Wang, Weitong Chen。主要机构为 Adelaide University（澳大利亚）和 Shandong University（中国）。 💡 毒舌点评这篇工作想在融合前做点事情，动机听起来不错，就是觉得特征里有好有坏，得先挑挑拣拣。VGMR设计得挺精巧，像个精致的瑞士军刀，模块套模块。实验也铺得挺开，五个数据集、两种骨干，消融分析一套一套的，看起来很努力。但问题在于，“价值”这东西到底是个啥，你说它来自交叉模态的一致与冲突，但具体怎么影响最终门控，还是个黑盒。那个用模态移除算出的监督信号\(L_{value}\)，感觉像是用一个粗糙的全局指标去指导一个精巧的局部操作，有点拧巴。作者自己也说了计算开销不小，推理延迟翻了几倍，实际落地得掂量掂量。最后，虽然号称通用，但大部分实验还是在情感分析上打转，对真正考验多模态能力的、模态质量参差不齐的现实场景（比如一边说话一边被风吹麦克风）缺乏验证。总的来说，是一篇扎实但创新有限的工作，离“ask what to keep”这个启发性问题的深刻答案还有距离。 ...

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评这是一篇扎实的“元研究”（meta-research）论文。优点很明显：S2ST领域确实急需一个统一的评估标准，作者们以惊人的工程量（1248个配置！）构建并发布了这个COMPASS框架，这种“苦力活”对于社区发展的价值毋庸置疑。然而，审稿人需要清醒地认识到，这篇论文的核心贡献在于“测量工具”和“大规模实证”，而非提出新的翻译或合成算法。因此，它的“创新性”应相对于评估框架领域来评判，而非模型架构领域。论文的实验设计非常全面，但其结论在某种程度上依赖于特定的基准数据集（FLEURS， CVSS），这在作者自己提出的局限性中已经承认。最大的短板在于开源状态：承诺的工具包代码尚未公开，这严重影响了论文的即时可用性和可复现性。总体而言，这是一篇对社区有用的基础设施论文，但距离一个“完美”的基准评估还存在距离。 ...

Cosmos 3: Omnimodal World Models for Physical AI

📄 Cosmos 3: Omnimodal World Models for Physical AI #多模态模型 #扩散模型 #音频生成 #强化学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构论文作者：NVIDIA（英伟达）。贡献者来自NVIDIA的多个部门，包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。 💡 毒舌点评 Cosmos 3是一篇典型的“巨无霸”式工业技术报告，旨在通过发布一个全模态（语言、图像、视频、音频、动作）统一模型，为Physical AI（机器人、自动驾驶）提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上（MoT）和训练策略上（分阶段、多模态课程）都有扎实的工程实践，并在多个SOTA榜单上取得了优异成绩。然而，它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力，而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示，但在分析某个具体子问题（如长尾物理规律的建模、跨具身迁移的理论基础）时深度有限。更关键的是，作为一篇技术报告，其“自我声明”的局限性部分（sim-to-real gap等）论述得相当克制，甚至可以说是轻描淡写，对于一篇宣称要解决真实世界Physical AI问题的工作来说，这需要读者自己更批判性地审视。开源程度很高，但模型的巨大规模和复杂的基础设施栈，使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。 📌 核心摘要 Cosmos 3 是一个统一的全模态世界模型家族，旨在联合处理和生成语言、图像、视频、音频和动作序列，以支持Physical AI（具身智能）。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构：一个自回归Reasoner路径负责理解和推理，一个扩散Generator路径负责生成，两者通过双流联合注意力机制交互。模型采用多阶段训练流程，Reasoner先在大规模图文/视频-文本数据上预训练，再在Physical AI任务上微调；Generator则采用渐进式多模态课程训练，从图像、视频、音频预训练开始，逐步引入动作和传输数据进行中期训练，最后在特定领域数据上进行后训练。评估显示，Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平，其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型，在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。 ...

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构作者：Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构：南京大学智能科学与技术学院，Video Rebirth，上海交通大学，北京交通大学，上海人工智能实验室 ...