多模态模型

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）通讯作者：Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）作者列表：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院，中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院，中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所） 💡 毒舌点评这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集，填补了领域空白，为后续研究提供了标准评测场。其短板在于模型架构本身（Omni-RewardModel）是现有技术（如Bradley-Terry框架、GRPO强化学习）在更大规模多模态数据上的直接应用，缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情代码：提供了GitHub仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：提及了公开Omni-RewardModel权重，下载链接为：https://hf.co/datasets/HongbangYuan/OmniRewardBench (注：此处链接标签为Dataset，但文中暗示模型权重也可能在此或类似路径) 数据集：明确公开两个数据集：Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData)，均托管于HuggingFace。 Demo：论文中未提及在线演示。复现材料：论文在正文和附录中描述了数据收集、标注流程、模型训练细节（如骨干模型选择、训练数据比例、强化学习算法）以及评估协议，复现信息较为充分。引用的开源项目：模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集，如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要要解决什么问题：现有的奖励模型存在两个核心挑战：一是模态不平衡，主要关注文本和图像，对音频、视频、3D等模态支持不足；二是偏好刚性，基于固定的二元偏好对训练，无法捕捉复杂多样的个性化偏好。方法核心是什么：提出Omni-Reward框架，包含三个核心组件：(1) 评测基准Omni-RewardBench，首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集；(2) 训练数据集Omni-RewardData，包含248K通用偏好对和69K用于指令微调的自由格式偏好对；(3) 模型Omni-RewardModel，包括判别式（BT）和生成式（R1）两种全模态奖励模型。与已有方法相比新在哪里：(1) 首次系统性地将奖励建模扩展到全模态场景（包括音频、3D）；(2) 首次在奖励建模中引入自由形式的自然语言偏好描述，替代传统的二元选择，以支持动态、个性化的偏好对齐；(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。主要实验结果如何：在自有基准Omni-RewardBench（w/ Ties设置）上，Omni-RewardModel-BT达到65.36% 准确率，超越最强基线（Claude 3.5 Sonnet的66.54%已属顶级，但模型整体仍有提升空间）。在公开基准VL-RewardBench上，Omni-RewardModel-BT达到76.3% 准确率，取得SOTA性能。消融实验证明，使用混合多模态数据进行训练比单模态数据显著提升泛化能力；指令微调数据对于处理自由格式偏好至关重要。模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告实际意义是什么：为未来的全模态大模型（如GPT-4o, Qwen2.5-Omni）提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变，使AI系统能更灵活地适应不同用户或场景的具体需求。主要局限性是什么：(1) Omni-RewardBench的规模（3.7K对）相对较小，可能不足以全面评估超大规模模型；(2) 任务定义相对粗粒度，每种模态任务内的多样性还可进一步细分；(3) 当前数据仅限单轮交互，未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体，其整体架构如下图所示。核心是基于一个多模态大语言模型（如MiniCPM-o-2.6或Qwen2.5-VL）作为骨干网络，处理来自文本、图像、视频、音频等模态的输入。 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、南方科技大学、快手科技）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学，南方科技大学，快手科技），Shengjun Zhang（快手科技），Da Li（快手科技，中国科学院大学），Yuxiao Luo（快手科技，北京大学），Yan Wang（快手科技），Di Xu（快手科技），Biao Yang（快手科技），Wei Yuan（快手科技，项目负责人），Fan Yang（快手科技，项目负责人），Zhihai He（南方科技大学，通讯作者），Wenming Yang（清华大学，通讯作者） 💡 毒舌点评亮点：论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题，并通过一个高质量、大规模的诊断基准（OmniCVR）将其量化，这比提出一个改进模型更有价值。短板：提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型，这种“音频-文本化”的工程化方案虽然有效，但显得不够优雅，且引入了额外的延迟和潜在信息损失，算不上是最根本的端到端解决方案。 🔗 开源详情代码：论文承诺将开源完整代码库，包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示，但提到数据将发布在HuggingFace（https://huggingface.co/datasets/Jun-Yang/OmniCVR），代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。模型权重：论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。数据集：OmniCVR数据集（包括160K+片段、50K+三元组、5K测试集）将完全开源。获取方式为通过上述HuggingFace链接。 Demo：论文中未提及是否提供在线演示。复现材料：论文在附录（Appendix G）中提供了用于数据生成（如生成视频描述、修改指令）的完整提示词模板，以及详细的双重验证协议说明，这对于复现数据生成管线至关重要。然而，关于模型训练的具体细节（学习率、优化器、批次大小等）论文中未提及。论文中引用的开源项目/模型：论文明确使用了以下开源模型作为组件或基线： Qwen2.5-Omni：用于视频音频标注生成。 Gemini 2.5 Pro：用于数据验证。 Qwen2-Audio-7B-Instruct：用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL：作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect：用于视频分割。所有使用的数据集（HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR）均为公开数据集。 📌 核心摘要本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR，该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组（源视频、修改文本、目标视频）的大规模数据集，其中超过57%的查询需要同时修改视觉和音频（集成查询）。为此，作者设计了一个可扩展的自动化数据生成管线，并通过大模型与人类专家的双重验证确保数据质量。为验证基准，论文提出了AudioVLM2Vec模型，其核心创新是利用音频理解大模型（Qwen2-Audio）将音频转为细粒度描述文本，再与视觉信息一同输入VLM2Vec框架。主要实验结果表明，AudioVLM2Vec在OmniCVR基准上取得了最优性能，尤其是在音频中心查询上，相比基线VLM2Vec实现了巨大的性能提升（R@1从12.4提升到77.2）。这证明了显式注入音频语义对于跨模态检索的关键作用，并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准，推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟（约1.77倍），且该方案可能无法完美捕捉音频的所有非语义信息（如音色、节奏等）。 ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Caorui Li（东南大学、南京大学）通讯作者：Jiaheng Liu（南京大学）作者列表：Caorui Li（东南大学、南京大学）、Yu Chen（东南大学、南京大学）、Yiyan Ji（南京大学）、Jin Xu（阿里巴巴集团）、Zhenyu Cui（东南大学）、Shihao Li（南京大学）、Yuanxing Zhang（快手科技）、Zhenghao Song（M-A-P）、Dingling Zhang（南京大学）、Ying He（北京科技大学）、Haoxiang Liu（北京科技大学）、Yuxuan Wang（阿里巴巴集团）、Qiufeng Wang（东南大学）、Jiafu Tang（南京大学）、Zhenhe Wu（M-A-P）、Jiehui Luo（中央音乐学院）、Zhiyu Pan（南京大学）、Weihao Xie（华中科技大学）、Chenchen Zhang（M-A-P）、Zhaohui Wang（南京大学）、Jiayi Tian（阿里巴巴集团）、Yanghai Wang（南京大学）、Zhe Cao（南京大学）、Minxin Dai（南京大学）、Ke Wang（M-A-P）、Runzhe Wen（南京大学）、Yinghao Ma（伦敦玛丽女王大学）、Yaning Pan（复旦大学）、Sungkyun Chang（伦敦玛丽女王大学）、Termeh Taheri（伦敦玛丽女王大学）、Haiwen Xia（北京大学）、Christos Plachouras（伦敦玛丽女王大学）、Emmanouil Benetos（伦敦玛丽女王大学）、Yizhi Li（曼彻斯特大学）、Ge Zhang（M-A-P）、Jian Yang（M-A-P）、Tianhao Peng（M-A-P）、Zili Wang（M-A-P）、Minghao Liu（2077AI）、Junran Peng（北京科技大学）、Zhaoxiang Zhang（中国科学院）、Jiaheng Liu（南京大学） 💡 毒舌点评该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题，并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集，其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而，其核心贡献是一个评测基准（Benchmark）而非一个解决该难题的新模型，且目前数据集尚未完全公开，这限制了其即时影响力。 ...

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #语音大模型 #对比学习 #跨模态 #大语言模型 ✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #语音大模型 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Hanrong Ye（NVIDIA）通讯作者：Hongxu Yin（NVIDIA）， Pavlo Molchanov（NVIDIA）作者列表：Hanrong Ye， Chao-Han Huck Yang， Arushi Goel， Wei Huang， Ligeng Zhu， Yuanhang Su， Sean Lin， An-Chieh Cheng， Zhen Wan， Jinchuan Tian， Yuming Lou， Dong Yang（以上作者标注为“Core Contribution”，均来自NVIDIA）， Zhijian Liu， Yukang Chen， Ambrish Dantrey， Ehsan Jahangiri， Sreyan Ghosh， Daguang Xu， Ehsan Hosseini-Asl， Danial Mohseni Taheri， Vidya Murali， Sifei Liu， Yao Lu， Oluwatobi Olabiyi， Yu-Chiang Frank Wang， Rafael Valle， Bryan Catanzaro， Andrew Tao， Song Han， Jan Kautz， Hongxu Yin§†， Pavlo Molchanov§*（标注“§Equal Advisory”，“†Corresponding Authors”），机构均为NVIDIA。 💡 毒舌点评论文在系统性地探索全模态LLM架构与数据配方上做得非常扎实，尤其是OmniAlignNet结合时间编码的设计有清晰的工程动机。然而，论文对模型的具体规模（参数量、计算成本）和数据合成管道的细节披露略显不足，使得“效率优势”的宣称（如0.2T token训练）的完整上下文不够透明，更像是一个精心调优的大型系统工程展示，而非在某个单一技术点上的颠覆性创新。 ...

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型评估 #模型比较 #迁移学习 #多任务学习 ✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongxian Wei (清华大学) 通讯作者：Chun Yuan (清华大学) 作者列表：Yongxian Wei (清华大学)， Runxi Cheng (清华大学)， Weike Jin (华为诺亚方舟实验室)， Enneng Yang (中山大学)， Li Shen (中山大学)， Lu Hou (华为诺亚方舟实验室)， Sinan Du (清华大学)， Chun Yuan (清华大学)， Xiaochun Cao (中山大学)， Dacheng Tao (南洋理工大学) 💡 毒舌点评亮点在于提出了首个系统性的MLLM能力融合基准和“无数据”的模态融合思路，为社区提供了重要的评估框架和基线。短板是论文标题中的“Omni-language model”在实验中仅限于简单的音视频问答融合，与真正意义上的通用全能模型差距较大，且核心方法OptMerge在理论层面更像是对现有技术的巧妙组合。 ...

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #音视频 #时频分析 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #时频分析学术质量 7.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kun Li（University of Twente；IT University of Copenhagen）通讯作者：Sami Sebastian Brandt（IT University of Copenhagen）作者列表：Kun Li（University of Twente, IT University of Copenhagen）、Michael Ying Yang（University of Bath）、Sami Sebastian Brandt（IT University of Copenhagen） 💡 毒舌点评这篇论文的亮点在于它为音乐音视频问答（AVQA）设计了一个从问题引导到最终预测的端到端框架，并创新性地将音频的频率域特征作为一等公民纳入时空交互中，有效解决了视觉线索微弱时（如演奏者动作不明显）的识别难题，消融实验也扎实地证明了各模块的必要性。然而，其主要短板在于提出的框架相对复杂，引入了多个预训练编码器（CLIP， VGGish， AST），整体计算开销和模型复杂度可能限制其在资源受限场景的应用，且实验主要集中在音乐场景这一相对小众的benchmark上。 ...

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #多模态模型 #流匹配 #数据增强 #生物声学 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州）， avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei ZHANG (香港科技大学（广州）)， Tianxin Xie (香港科技大学（广州）)， Minghao Yang (香港科技大学（广州）)， Li Liu* (香港科技大学（广州）) 💡 毒舌点评亮点：这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统，用LLM（Thinker-A2CA）动态决定“合成什么”来弥补诊断器的短板，把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习，这个系统设计思想很有启发性。短板：不过，整个系统有点像个精心组装的乐高，依赖多个重型组件（LLM， BEATs， Longformer，流匹配模型），对于呼吸音这个相对垂直的应用场景，其工程复杂度和算力需求是否与性能增益完全匹配，值得商榷。另外，生成的“合成临床音频”虽然用于训练有效，但缺乏真实生理细节的验证，其临床保真度仍需医生在严格双盲测试中评判。 📌 核心摘要要解决的问题：深度学习在呼吸音分析中面临两大挑战：一是将音频信号转为频谱图会导致瞬态事件（如啰音）的信息损失；二是缺乏大规模、高质量的多模态（音频+临床文本）标注数据，且存在严重的类别不平衡。方法核心：提出Resp-Agent，一个由中央控制器（Thinker-A2CA）编排的多智能体闭环系统。该系统能主动分析诊断器的弱点，并调度生成器进行针对性合成，从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合，并用稀疏音频锚点捕捉瞬态事件；生成器采用两阶段设计，先用LLM在文本诊断和参考音频风格条件下生成离散音频单元，再用流匹配解码器重建波形。新在何处：1) 系统范式：首次将呼吸音的分析（诊断）和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构：提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制，实现高效且精细的文本-音频跨模态对齐。3) 生成器设计：将文本LLM改造为可控的多模态音频单元生成器，并采用流匹配进行波形重建。4) 基准数据：构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k（22.9万条记录）。主要实验结果：在ICBHI基准上，Resp-Agent的诊断性能（ICBHI Score 72.7%）超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上，使用Thinker指导合成的平衡数据后，多模态诊断器的宏观F1从0.212大幅提升至0.598，证实了闭环生成策略的有效性。生成器在可控性（风格/内容解耦）和保真度（FAD 1.13）上也优于强基线（如微调的StableAudio Open）。关键实验结果见下表：模型/方法数据集指标原始（不平衡）平衡后诊断器对比 Conformer (音频基线) Resp-229k Test-CD Macro-F1 0.1935 0.5360 Resp-Agent Diagnoser (Ours) Resp-229k Test-CD Macro-F1 0.2118 0.5980 生成器策略对比 No-Synth (基线) Resp-229k Test-CD Macro-F1 0.212 - Class-Prior Rebalancing Resp-229k Test-CD Macro-F1 - 0.512 Thinker-A2CA (Ours) Resp-229k Test-CD Macro-F1 - 0.598 生成器音频保真度对比 StableAudio Open (微调) 个体化重建 FAD ↓ 1.54 - Resp-Agent Generator (Ours) 个体化重建 FAD ↓ 1.13 - 实际意义：为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式，即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。主要局限性：1) 系统复杂度高，涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效，但其真实性和临床细节（如相位、微结构）仍需更严格的评估。3) 评估主要集中在诊断性能，对生成音频的直接临床效用（如用于教学或模拟）验证不足。 🏗️ 模型架构 Resp-Agent是一个由中央控制器协调的多智能体系统，包含三个核心模块：Thinker（规划者）、Generator（生成器）和 Diagnoser（诊断器），形成一个“诊断->发现问题->指导合成->改进诊断”的闭环。 ...

RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System

📄 RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System #语音伪造检测 #多模态模型 #对比学习 #鲁棒性 #数据集 ✅ 7.0/10 | 前25% | #语音伪造检测 | #多模态模型 | #对比学习 #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Nitin Choudhury（论文中未提供其具体机构）通讯作者：论文中未明确标注通讯作者。作者列表：Nitin Choudhury（未说明）、Nikhil Kumar（未说明）、Aditya Kumar Sinha（未说明）、Abhijeet Anand（未说明）、Hossein Salemi（未说明）、Orchid Chetia Phukan（未说明）、Hemant Purohit（未说明）、Arun Balaji Buduru（未说明）。论文中未提供作者与机构的对应关系。 💡 毒舌点评论文在解决数据稀缺问题上做得非常扎实，构建了包含心理语言学、情感和声音克隆三大对抗轴的合成数据集Robo-SAr，并进行了严格的人工验证，这为后续研究提供了宝贵的基准。然而，将KAN应用于多模态融合的创新点略显牵强，其带来的性能提升是否完全归功于KAN的特殊性质，还是仅仅因为增加了模型复杂度和非线性度，文中论证不足；此外，承诺开源却迟迟未兑现代码和数据，在当下开源生态中略显扣分。 🔗 开源详情代码：论文中承诺在审稿后遵循伦理标准发布代码和数据，但当前未提供具体链接。（论文中未提及代码链接）模型权重：论文中未提及RoboKA模型权重的具体下载链接。论文使用的预训练模型（如Wav2Vec2， BERT等）为开源模型，其权重可在Hugging Face获取，具体链接已在“论文中引用的开源项目”部分列出。数据集：论文创建了“Robo-SAr”数据集并承诺发布，但当前未提供具体链接。论文中引用了两个现有数据集：Fraud Call India数据集（https://www.kaggle.com/datasets/narayanyadav/fraud-call-india-dataset）和FTC Do Not Call Registry（https://www.consumer.ftc.gov/articles/how-stop-unwanted-calls）。 Demo：论文中未提及。复现材料：论文提供了部分训练与评估协议细节，包括：使用5折交叉验证、严格的组级划分（按说话人、引擎、情绪、转录本划分以避免数据泄露）、评估设置（T1-T4）、以及超参数（如对比学习中的温度参数τ）。但未提供完整的超参数配置文件、训练日志或检查点。论文中引用的开源项目：预训练音频模型：Wav2Vec2 (https://huggingface.co/facebook/wav2vec2-base), WavLM (https://huggingface.co/microsoft/wavlm-base), HuBERT (https://huggingface.co/facebook/hubert-base-ls960) 预训练文本模型：BERT (https://huggingface.co/bert-base-uncased), RoBERTa (https://huggingface.co/roberta-base), GPT-2 (https://huggingface.co/gpt2) 文本转语音模型：Bark (https://github.com/suno-ai/bark), SpeechT5 (https://huggingface.co/microsoft/speecht5_tts), xTTS (来自Coqui TTS: https://github.com/coqui-ai/TTS) 语音识别模型：OpenAI Whisper (https://github.com/openai/whisper) 情感预测模型：roberta-base-conv-emotion (https://huggingface.co/waves/hubert-base-superb-er，论文中引用[35]但未给出具体链接，此处为最可能对应的Hugging Face模型) 📌 核心摘要解决的问题：针对Robocall（自动语音电话）欺诈检测，现有研究因隐私问题受限于有限的公开数据集，且现有防御系统在面对高级对抗性策略时鲁棒性不足。方法核心：提出RoboKA框架，首先使用跨模态对比学习对齐从预训练音频（如Wav2Vec2）和文本（如BERT）模型提取的特征，然后使用基于Kolmogorov-Arnold Networks的模块进行非线性融合与分类，以捕获复杂的跨模态交互。同时构建了名为Robo-SAr的对抗性合成数据集。与已有方法相比新在哪里：a) 首次构建了系统化、多对抗轴（心理语言学操控、情感诱导、声音克隆）的Robocall合成数据集Robo-SAr；b) 首次将KAN架构引入多模态Robocall检测的融合与分类阶段，用以替代传统的线性/MLP头，以建模更丰富的非线性关系；c) 采用不确定性感知的损失融合策略平衡对比学习和分类目标。主要实验结果：在四个评估设置（TTS引擎留出、情感留出、20%数据留出、真实世界DNCR数据OoD测试）下，RoboKA（最优组合HuBERT + BERT）全面超越单模态和现有双模态基线。例如，在最具挑战性的OoD测试（T4）上，RoboKA对“无需电话”的召回率（uRc）达到82.21，比最强基线（HuBERT⊗BERT的67.21）高出15个百分点。消融实验证明了多模态、CMCL和KAN的各自贡献。实际意义：为Robocall检测研究提供了首个公开的、涵盖多种对抗策略的基准数据集，并提出了一种更鲁棒的多模态检测框架，有助于推动该领域防御技术的进步。主要局限性：a) 研究仅限于英语；b) 真实世界评估集（DNCR）仅包含负面样本，无法评估精确率；c) 合成数据与真实世界声学条件仍可能存在领域差距。 🏗️ 模型架构模型架构图（图1） ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统 ✅ 7.5/10 | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学、上海创新研究院）通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）作者列表： Siyin Wang（复旦大学、上海创新研究院） Jinlan Fu（国家大学新加坡） Feihong Liu（复旦大学） Xinzhe He（复旦大学） Huangxuan Wu（复旦大学） Junhao Shi（复旦大学、上海创新研究院） Kexin Huang（复旦大学） Zhaoye Fei（复旦大学） Jingjing Gong（上海创新研究院） Zuxuan Wu（复旦大学、上海创新研究院） Yu-Gang Jiang（复旦大学） See-Kiong Ng（国家大学新加坡） Tat-Seng Chua（国家大学新加坡） Xipeng Qiu（复旦大学、上海创新研究院） 💡 毒舌点评这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。 ...

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #语音翻译 #多模态模型 #多语言 #低资源 #大语言模型 🔥 8.5/10 | 前25% | #语音翻译 | #多模态模型 | #多语言 #低资源学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Yexing Du（哈尔滨工业大学，鹏城实验室）通讯作者：Youcheng Pan（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学，鹏城实验室）作者列表：Yexing Du（哈尔滨工业大学，鹏城实验室）、 Youcheng Pan（鹏城实验室）、 Zekun Wang（哈尔滨工业大学）、 Zheng Chu（哈尔滨工业大学）、 Yichong Huang（哈尔滨工业大学）、 Kaiyuan Liu（哈尔滨工业大学，鹏城实验室）、 Bo Yang（鹏城实验室）、 Yang Xiang（鹏城实验室）、 Ming Liu（哈尔滨工业大学，鹏城实验室）、 Bing Qin（哈尔滨工业大学，鹏城实验室） 💡 毒舌点评亮点：论文思路非常聪明，绕过了图像多模态翻译的数据瓶颈，利用语音（尤其是TTS生成的合成语音）作为补充信息源，实现了多语言覆盖的飞跃。短板：框架对上游TTS模型的质量和语言覆盖有强依赖，论文中自进化机制的“正样本”筛选标准（S2 > S1）略显简单粗暴，可能无法捕获语音信息更复杂的交互模式。此外，论文声称“语音提供韵律线索”，但在实验中缺乏对韵律特征的具体分析或可视化，更多是效果验证。 ...