DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

📄 DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities #多模态模型 #自监督学习 #数据集 #基准测试 9.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前25% | #多模态模型 | #自监督学习 | #数据集 #基准测试 | arxiv 👥 作者与机构 Sajad Ebrahimi, Nima Jamali, Bardia Shirsalimian, Kelly McConvey, Wentao Zhang, Jalehsadat Mahdavimoghaddam, Maksym Taranukhin, Maura Grossman, Vered Shwartz, Yuntian Deng, Ebrahim Bagheri University of Toronto, University of Waterloo, Toronto Metropolitan University, University of British Columbia, Vector Institute ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 257 words

Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention

📄 Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention #语音问答 #多模态模型 7.5/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #语音问答 | #多模态模型 | arxiv 👥 作者与机构 主要作者:Ming-Hao Hsu (hsuminghao1006@gmail.com), Xiaohai Tian, Jun Zhang, Zhizheng Wu (wuzhizheng@cuhk.edu.cn)。机构为中国香港中文大学(深圳)数据科学学院和字节跳动。 💡 毒舌点评 这篇论文的诊断工作做得相当扎实,把“语音推理不行”这个笼统问题精准定位到了“实体绑定失败”这个具体病灶上,并且用EA-CoT这个“对症下药”的提示方法取得了显著疗效。实验设计也体现了严谨性,通过设置结构化控制提示和token预算对照组,努力剥离了“指令内容”和“生成长度”的混淆效应,这种实验洁癖值得肯定。消融实验也清晰地量化了“实体枚举”这一核心组件的贡献。然而,其提出的解决方案(EA-CoT)本质上是一种推理时的提示工程,而非模型架构的根本性改进,这使得其“修复”的普适性和效率存疑。论文承认这会显著增加推理延迟,在实际部署中可能是个硬伤。此外,评估完全依赖于合成语音和两个7B规模的模型,对真实世界噪声环境和更大规模模型的泛化能力,我们只能保持谨慎乐观。总体而言,这是一篇诊断清晰、验证严谨、但处方略显保守的工作。 📌 核心摘要 本研究深入剖析了语音大语言模型(SLLMs)在复杂推理任务上性能逊于文本模型的“模态差距”问题。作者发现,这种差距并非均匀分布,而是高度集中于需要连续跟踪实体状态的逻辑推理任务(如“谎言之网”),在这些任务上语音输入的准确率甚至降至随机水平。论文将问题根源诊断为“实体绑定失败”:语音编码器的下采样机制虽然保留了全局语义,却模糊了细粒度的声学细节和离散令牌边界,导致模型在隐式推理过程中无法稳定关联实体与其动态属性。为此,论文提出“实体感知思维链”(EA-CoT)推理时干预策略,强制模型在文本空间显式地枚举实体并记录其属性主张,从而绕过脆弱的声学隐式跟踪。实验证明,EA-CoT在实体密集型任务上实现了高达24.4个百分点的绝对准确率提升,有效弥合了模态差距,且该方法即使在实体名称被错误识别时仍能保持有效。消融实验进一步确认,性能增益完全源于显式的语义绑定过程。 🔗 开源详情 代码:论文中未提及代码链接或开源代码仓库。 模型权重:论文中提及了 Qwen2.5-Omni-7B [33] 和 Phi-4-Multimodal [34] 两个模型,并说明在它们的发布配置下评估,但未提供具体的权重下载链接(如 HuggingFace 或 ModelScope)。 数据集:论文中提及使用了 VoiceBench BBH [5] 的四个类别(共 1,000 条样本)和 MMSU [35] 数据集进行实验,未提及这些数据集的具体开源链接或协议。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料。 论文中引用的开源项目: VoiceBench:论文引用了该基准,未提供直接链接。引用来源为[5]: Y. Chen, X. Yue, C. Zhang, X. Gao, R. T. Tan, and H. Li, “Voicebench: Benchmarking llm-based voice assistants,” CoRR, vol. abs/2410.17196, 2024. MMSU:论文引用了该基准,未提供直接链接。引用来源为[35]: D. Wang, J. Wu, J. Li, D. Yang, X. Chen, T. Zhang, and H. Meng, “MMSU: A massive multi-task spoken language understanding and reasoning benchmark,” CoRR, vol. abs/2506.04779, 2025. Qwen2.5-Omni:论文提及该模型并引用了技术报告,未提供权重或代码链接。引用来源为[33]: J. Xu, Z. Guo, J. He, H. Hu, T. He, S. Bai, K. Chen, J. Wang, Y. Fan, K. Dang, B. Zhang, X. Wang, Y. Chu, and J. Lin, “Qwen2.5-omni technical report,” CoRR, vol. abs/2503.20215, 2025. Phi-4-Multimodal:论文提及该模型并引用了技术报告,未提供权重或代码链接。引用来源为[34]: A. Abouelenin et al., “Phi-4-mini technical report: Compact yet powerful multimodal language models via mixture-of-loras,” CoRR, vol. abs/2503.01743, 2025. Qwen-Audio:论文在背景部分提及,未提供直接链接。引用来源为[4]: Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Y. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” 2023. [Online]. Available: https://arxiv.org/abs/2311.07919 SALMONN:论文在背景部分提及,未提供直接链接。引用来源为[2]: C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: towards generic hearing abilities for large language models,” in ICLR. OpenReview.net, 2024. SpeechGPT:论文在背景部分提及,未提供直接链接。引用来源为[3]: D. Zhang, S. Li, X. Zhang, J. Zhan, P. Wang, Y. Zhou, and X. Qiu, “Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities,” in EMNLP (Findings), ser. Findings of ACL, vol. EMNLP 2023. Association for Computational Linguistics, 2023, pp. 15 757–15 773. CORD:论文在相关工作中提及,未提供直接链接。引用来源为[18]: J. Hu, D. Zhu, X. Luo, D. Zhang, S. He, Y. Lei, H. Zheng, S. Feng, J. He, Y. Sun, H. Wu, and H. Wang, “CORD: bridging the audio-text reasoning gap via weighted on-policy cross-modal distillation,” CoRR, vol. abs/2601.16547, 2026. Closing the modality reasoning gap for speech large language models:论文在相关工作中提及,未提供直接链接。引用来源为[19]: C. Wang, H. Lu, X. Zhang, S. Liu, Y. Lu, J. Li, and Z. Wu, “Closing the modality reasoning gap for speech large language models,” CoRR, vol. abs/2601.05543, 2026. Anatomy of the modality gap:论文引用了同一作者团队的相关工作,未提供直接链接。引用来源为[9]: M.-H. Hsu, X. Zhang, X. Tian, J. Zhang, and Z. Wu, “Anatomy of the modality gap: Dissecting the internal states of end-to-end speech llms,” 2026. [Online]. Available: https://arxiv.org/abs/2603.01502 🏗️ 方法概述和架构 论文方法的核心在于诊断“实体绑定失败”这一特定瓶颈,并设计针对性的推理时干预策略EA-CoT。整个方法框架可视为一个“诊断-治疗”系统。 ...

2026-06-04 · 更新于 2026-06-12 · 5 min · 1043 words

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 569 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-06-12 · 14 min · 2920 words

A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026

📄 A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026 #语音翻译 #语音识别 #多模态模型 #低资源 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音翻译 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Aziz Sharipov Ortega, Charles University, MFF, ÚFAL。Dominik Macháček, Charles University, MFF, ÚFAL & University of Edinburgh。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 572 words

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

📄 Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals #多模态模型 #语音情感识别 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #多模态模型 | arxiv 👥 作者与机构 论文作者为 Jiyuan Liu, Liangwei Nathan Zheng, Wei Emma Zhang, Xinpei Wang, Weitong Chen。主要机构为 Adelaide University(澳大利亚)和 Shandong University(中国)。 💡 毒舌点评 这篇工作想在融合前做点事情,动机听起来不错,就是觉得特征里有好有坏,得先挑挑拣拣。VGMR设计得挺精巧,像个精致的瑞士军刀,模块套模块。实验也铺得挺开,五个数据集、两种骨干,消融分析一套一套的,看起来很努力。但问题在于,“价值”这东西到底是个啥,你说它来自交叉模态的一致与冲突,但具体怎么影响最终门控,还是个黑盒。那个用模态移除算出的监督信号\(L_{value}\),感觉像是用一个粗糙的全局指标去指导一个精巧的局部操作,有点拧巴。作者自己也说了计算开销不小,推理延迟翻了几倍,实际落地得掂量掂量。最后,虽然号称通用,但大部分实验还是在情感分析上打转,对真正考验多模态能力的、模态质量参差不齐的现实场景(比如一边说话一边被风吹麦克风)缺乏验证。总的来说,是一篇扎实但创新有限的工作,离“ask what to keep”这个启发性问题的深刻答案还有距离。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 296 words

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评 这是一篇扎实的“元研究”(meta-research)论文。优点很明显:S2ST领域确实急需一个统一的评估标准,作者们以惊人的工程量(1248个配置!)构建并发布了这个COMPASS框架,这种“苦力活”对于社区发展的价值毋庸置疑。然而,审稿人需要清醒地认识到,这篇论文的核心贡献在于“测量工具”和“大规模实证”,而非提出新的翻译或合成算法。因此,它的“创新性”应相对于评估框架领域来评判,而非模型架构领域。论文的实验设计非常全面,但其结论在某种程度上依赖于特定的基准数据集(FLEURS, CVSS),这在作者自己提出的局限性中已经承认。最大的短板在于开源状态:承诺的工具包代码尚未公开,这严重影响了论文的即时可用性和可复现性。总体而言,这是一篇对社区有用的基础设施论文,但距离一个“完美”的基准评估还存在距离。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 343 words

Cosmos 3: Omnimodal World Models for Physical AI

📄 Cosmos 3: Omnimodal World Models for Physical AI #多模态模型 #扩散模型 #音频生成 #强化学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构 论文作者:NVIDIA(英伟达)。贡献者来自NVIDIA的多个部门,包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。 💡 毒舌点评 Cosmos 3是一篇典型的“巨无霸”式工业技术报告,旨在通过发布一个全模态(语言、图像、视频、音频、动作)统一模型,为Physical AI(机器人、自动驾驶)提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上(MoT)和训练策略上(分阶段、多模态课程)都有扎实的工程实践,并在多个SOTA榜单上取得了优异成绩。然而,它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力,而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示,但在分析某个具体子问题(如长尾物理规律的建模、跨具身迁移的理论基础)时深度有限。更关键的是,作为一篇技术报告,其“自我声明”的局限性部分(sim-to-real gap等)论述得相当克制,甚至可以说是轻描淡写,对于一篇宣称要解决真实世界Physical AI问题的工作来说,这需要读者自己更批判性地审视。开源程度很高,但模型的巨大规模和复杂的基础设施栈,使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。 📌 核心摘要 Cosmos 3 是一个统一的全模态世界模型家族,旨在联合处理和生成语言、图像、视频、音频和动作序列,以支持Physical AI(具身智能)。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构:一个自回归Reasoner路径负责理解和推理,一个扩散Generator路径负责生成,两者通过双流联合注意力机制交互。模型采用多阶段训练流程,Reasoner先在大规模图文/视频-文本数据上预训练,再在Physical AI任务上微调;Generator则采用渐进式多模态课程训练,从图像、视频、音频预训练开始,逐步引入动作和传输数据进行中期训练,最后在特定领域数据上进行后训练。评估显示,Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平,其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型,在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 629 words

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 476 words

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构 作者:Yuanhao Chen, Peter Chin 机构:Dartmouth College, Hanover, NH, USA 💡 毒舌点评 一篇动机良好、理论包装扎实的工作,但将一个在单个数据集、单个参与者上的工程优化,拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑,且缺乏与最先进级联系统的公平比较。理论命题(Proposition 3.1 & 3.2)虽优雅,但与现实训练条件(τ为有限值)脱节,更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤,严重阻碍了验证与复现。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 400 words