ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval

📄 ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval #音频检索 #基准测试 #多模态模型 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #基准测试 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Honglei Zhang (南京大学软件学院) 通讯作者:未说明(论文未明确指定) 作者列表: Honglei Zhang (南京大学软件学院) Yuting Chen (西北工业大学软件学院) Chenpeng Hu (西北工业大学软件学院) Siyue Zhang (南洋理工大学计算与数据科学学院) Yilei Shi (西北工业大学软件学院) 💡 毒舌点评 本文最大的价值在于“撕开了一道口子”:用精心设计的合成基准,无情地揭示了当前多模态检索模型(即便是基于强大MLLM的)在“否定”、“时长”等基础推理任务上脆弱得可笑,最高平均准确率仅20.1%,这为后续研究划出了明确的“能力短板”地图。但硬伤也很明显:全靠合成数据得出的结论,多少有点“温室里的比武”,模型在真实世界嘈杂、语义模糊的查询中表现如何,这篇论文其实并没有给出答案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重获取链接。 数据集:ReasonAudio。论文中在摘要部分的脚注提到“The dataset is available on HuggingFace”,但未提供具体URL。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置、检查点等复现材料。 论文中引用的开源项目: FSD50K (Fonseca et al., 2022):https://zenodo.org/record/4060432 Freesound (Jiang et al., 2025):https://freesound.org/ AudioCaps (Kim et al., 2019):https://www.kaggle.com/datasets/costacr/audio-caps Clotho (Drossos et al., 2020):https://zenodo.org/record/4783391 WavText5K (Deshmukh et al., 2022):https://github.com/Declare-lab/WavText5K SoundDescs (Koepke et al., 2023):https://zenodo.org/record/6990313 AudioSet (Sun et al., 2025):https://research.google.com/audioset/ SVQ (MSEB) (Google Research, 2025):https://github.com/google-research/google-research/tree/master/mseb Spoken SQuAD (Lee et al., 2018):https://github.com/raoyongming/Spoken-SQuAD Qwen2-Audio (Chu et al., 2024):https://github.com/QwenLM/Qwen2-Audio Step-Audio (Huang et al., 2025):https://github.com/step-function-ai/Step-Audio BGE-M3 (Chen et al., 2024):https://github.com/FlagOpen/FlagEmbedding Qwen3-Embedding (Zhang et al., 2025c):https://github.com/QwenLM/Qwen3-Embedding CLAP (Elizalde et al., 2023):https://github.com/LAION-AI/CLAP AudioCLIP (Guzhov et al., 2022):https://github.com/AndreyGuzhov/AudioCLIP Wav2CLIP (Wu et al., 2022):https://github.com/keunwoochoi/Wav2CLIP LCO-Embedding (Xiao et al., 2025):https://github.com/LCO-AI/LCO-Embedding e5-omni (Chen et al., 2026):https://github.com/microsoft/unilm/tree/master/e5-omni OmniEmbed (Xu et al., 2025):https://github.com/XuLab-Connect/OmniEmbed CLIP (Radford et al., 2021):https://github.com/openai/CLIP 补充信息 [模型架构] 补充:对于“基于MLLM的嵌入模型”这一范式,论文原文更具体地指出其设计动机和核心是“leverage pretrained multimodal large language models (MLLMs) to learn unified representations across modalities”(利用预训练的多模态大语言模型来学习跨模态的统一表示)。这明确了其架构创新点在于直接基于强大的多模态生成模型进行微调以获取检索嵌入,而非从头训练或使用纯编码器架构。 [实验结果] 补充:论文在第5节的分析中,对多选题测试和t-SNE可视化的结果有更深入和具体的解读。 关于多选题测试(图2),论文指出OmniEmbed-7B在Duration任务上的准确率(50.8%)是“marginally above random chance”(略高于随机水平),而在Negation任务上的准确率(27.5%)则“indicating a failure to capture negation semantics and a bias toward matching mentioned sounds”(表明未能捕捉否定语义,并存在匹配查询中提及声音的偏见)。这比“接近随机”和“低于随机”的概括更具体地揭示了模型的问题本质。 关于t-SNE可视化(图3),论文结论更明确地指出,嵌入空间的错位(misalignment)直接导致了“failing to encode logical constraints—particularly negation—into the shared embedding space”(未能将逻辑约束——尤其是否定——编码到共享嵌入空间)。这直接解释了模型在否定任务上表现低于随机水平的原因。 [核心摘要/毒舌点评] 补充:论文在摘要和结论中均强调了一个关键发现:所提出的五个推理任务“pose significant challenges to current models”(对当前模型构成重大挑战)。这不仅是实验结果,也是论文的核心诊断结论,明确了其作为“压力测试”基准的价值。 📌 核心摘要 要解决什么问题:现有的文本-音频检索基准(如AudioCaps, Clotho)主要关注语义匹配,忽视了现实世界查询中常见的复杂逻辑推理需求(如否定、时序、并发、时长)。这导致当前检索模型的能力评估不全面。 方法核心是什么:提出了首个推理密集型文本-音频检索基准ReasonAudio。通过从FSD50K和Freesound收集200种原子声音,程序化合成为10,000个具有精确时间关系的复合音频片段,并基于模板生成了1,000个涵盖五个推理任务(否定、排序、重叠、时长、混合)的文本查询。 与已有方法相比新在哪里:不同于以往侧重于音频-文本描述对的检索数据集,ReasonAudio专注于评估模型对查询中逻辑和时间约束的理解与执行能力,是音频检索领域的首个推理专用基准。 主要实验结果如何:在ReasonAudio上评测了三大范式十个模型,发现所有模型都表现不佳。两个阶段和CLIP式模型平均准确率低于10%。基于MLLM的嵌入模型表现最好,但最佳模型(OmniEmbed-7B)的平均准确率也仅为20.1%。具体而言,模型在“重叠”和“排序”任务上相对较好,但在“否定”和“时长”任务上严重失败,准确率极低。模型即使在只评估推理能力的多选题设置中,“否定”任务准确率也低于随机水平(27.5%)。 实际意义是什么:本工作为社区提供了一个用于诊断和推进音频检索模型推理能力的标准化评测工具。实验结果明确指出了当前模型,特别是通过对比学习微调的MLLM,无法有效保留其骨干网络的推理能力,为未来的模型训练范式(如如何更好地对齐与约束嵌入空间)指明了改进方向。 主要局限性是什么:基准完全基于合成音频构建,缺乏真实录音环境的声学复杂性和语义模糊性。评估的查询规模(1000条)虽满足实验需求,但与工业应用规模仍有差距。论文未提出新的模型方法,主要贡献在于诊断与评测。 🏗️ 模型架构 本文是一篇基准测试与模型评估论文,并未提出一个新的检索模型架构。其核心“架构”是所提出的ReasonAudio基准的构建流程以及对现有模型范式的评测框架。 ...

2026-05-06 · 更新于 2026-06-15 · 3 min · 429 words

语音/音乐/音频论文速递 2026-05-06

语音/音乐/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Towards Open World Sound Event Detection 8.5分 前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分 前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分 前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分 前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分 前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分 前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分 前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分 前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分 前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分 前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分 前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分 前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分 前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分 前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分 前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分 前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分 前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分 前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分 前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分 前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分 前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

2026-05-06 · 更新于 2026-06-15 · 15 min · 3158 words

BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios

📄 BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios #基准测试 #模型评估 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #音视频 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Advait Tilak(未说明) 通讯作者:未说明 作者列表:Advait Tilak(未说明)、Jiwon Choi(未说明)、Nazifa Mouli(未说明)、Wei Le(未说明) 💡 毒舌点评 亮点:BRITE基准的核心设计非常“聪明”,它通过“不可能场景”和细粒度问答,像给T2V模型做“压力测试”和“CT扫描”,能精准定位模型是“记不住动作”还是“对不上音画”,这比单纯看生成视频“像不像”深刻得多。 短板:然而,这个“CT扫描仪”本身有点贵——整个评估依赖大量人工标注,导致基准规模受限(每个模型仅100个提示),其结论的统计显著性和泛化能力可能会被质疑,更像是一个概念验证(Proof-of-Concept)而非可无限扩展的工业标准。 🔗 开源详情 代码:https://doi.org/10.6084/m9.figshare.31179547 模型权重:论文中未提及 数据集:https://doi.org/10.6084/m9.figshare.31179547 Demo:论文中未提及 复现材料:论文中提及的代码、提示词和数据集均发布于上述 figshare 链接。论文附录提供了用于生成提示词和评估问题的 LLM 提示词模板(Meta-Prompt),但未提及模型训练配置或检查点。 论文中引用的开源项目:未提及(论文中引用的评估对象为闭源商业模型,如 Sora 2, Veo 3.1, Runway Gen4.5 等;使用的生成工具如 GPT-4, Gemini 2.5 Pro 为闭源商业 API,未提供其开源代码仓库链接)。 📌 核心摘要 问题:当前文本到视频(T2V)生成模型的评估基准存在两大盲点:一是主要关注合理场景,无法测试模型在违背常识的“不可能场景”下是否还能忠实于指令;二是绝大多数基准只评估视觉,忽略了对音频及其与视频同步性的评估。 方法核心:提出了BRITE,一个集不可能场景提示、多维度(包含音频与音视频同步)原子问题评估、以及人类在环可靠验证于一体的综合T2V评估框架。 创新之处:(1) 系统性地将“不可能场景”(社会反转、生物/物理不可能、时间修改)作为核心测试用例;(2) 首次在T2V基准中引入对音频内容和音视频时序同步的细粒度评估;(3) 设计了人类在环协议(从提示筛选、问题生成到最终标注)以规避VLM评估的“循环偏见”,确保可靠性。 实验结果:在五个SOTA模型(Sora 2, Veo 3.1等)上评估了500个视频和1364个问题。结果显示,模型普遍在生成静态主体(平均得分0.90)和环境(0.94)上表现良好,但在动态动作绑定(0.59)、音频正确性(0.61)和音视频同步(0.47)上显著退化。其中,时间修改类场景最具挑战性(平均分0.65)。关键数据见下表: 模型 总体得分 主体 动作 环境 音频 音视频同步 Runway Gen4.5 0.84 0.93 0.61 0.96 N/A N/A Sora 2 0.77 0.94 0.65 0.95 0.76 0.55 Veo 3.1 0.76 0.92 0.58 0.97 0.69 0.63 Qwen3MAX 0.69 0.90 0.56 0.90 0.63 0.41 PixVerse 5.5 0.59 0.82 0.55 0.88 0.37 0.31 平均 0.73 0.90 0.59 0.94 0.61 0.47 上图(a)显示了模型在“不可能场景”上的整体及分维度表现;下图(b)展示了在四类不同不可能提示上的推理性能。关键结论:Runway Gen4.5综合表现最佳,但所有模型在“时间修改”上均表现不佳,且主体-动作性能差距显著。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 295 words

HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound #音频分类 #多模态模型 #数据集 #基准测试 #音频事件检测 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Robin Burchard(University of Siegen) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Robin Burchard(University of Siegen)、Pascal-André Brückner(University of Siegen)、Marius Bock(University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence)、Juergen Gall(University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence)、Kristof Van Laerhoven(University of Siegen) 💡 毒舌点评 亮点在于其工程上的“洁癖”——用三击掌同步传感器、在家录制真实环境声、为隐私彻底静音人声,这种对数据质量近乎偏执的追求,是很多论文做不到的。短板则在于,花了大力气采集的环境传感器(温湿度、气压)数据,在最终的机器学习实验中几乎成了“鸡肋”,虽然可视化显示有响应,但消融实验未带来提升,暴露出如何有效融合这类低频、慢变上下文模态仍是开放问题。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 286 words

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频问答 #数据集 #多模态模型 #医学音频 #基准测试 ✅ 6.5/10 | 前25% | #音频问答 | #数据集 | #多模态模型 #医学音频 | arxiv 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Harshit Rajgarhia(未说明所属机构) 通讯作者:论文中未提及 作者列表:Harshit Rajgarhia(未说明)、Shuubham Ojha(未说明)、Asif Shaik(未说明)、Akhil Pothanapalli(未说明)、Rachuri Lokesh(未说明)、Abhishek Mukherji(未说明)、Prasanna Desikan(未说明) 💡 毒舌点评 亮点:论文正视了医学音频领域数据获取难的痛点,并通过结合合成语音与真实临床对话的方式,构建了一个任务类型丰富、规模可观(46,701 QA对)的基准测试集,填补了该领域的评估空白。短板:摘要仅展示了评测结果(如Gemini 2.5 Pro仅68.1%),但对数据集构建过程中的关键技术(如合成语音如何“精心构造”以模拟伪影)、详细的实验对比分析(与其他音频QA或医学QA基准的对比)着墨甚少,使得其作为“基准”的深度和说服力略显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及具体的下载链接或开源协议。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目:未提及。 补充信息 [实验结果] 补充:论文中明确指出,对13个音频和多模态推理模型进行了评测,并观察到“性能在不同问题类型上存在显著差异”(substantial performance variation across question types)。尽管分析报告中提到“摘要未提供其他模型的具体性能数字”,这与原文信息一致,但原文中强调的“13个模型”这一具体数量和对“问题类型间差异”的观察是明确存在的事实,可以作为更完整的背景信息。 (注:经仔细比对,提供的“深度分析结果”已全面且准确地覆盖了“论文原文”中所有实质性信息,包括模型架构(未提及)、实验结果核心数据(Gemini-2.5-pro约68.1%)、训练细节(不适用)、消融实验(未提及)、自我声明的局限性(分析中已推断)以及SOTA差距(仅提及单一模型结果)。原文本身为摘要性质,未提供更详细的实验数据、对比表格或消融分析,因此分析报告无法基于现有信息补充更多具体数值或细节。) ...

2026-05-05 · 更新于 2026-06-15 · 1 min · 119 words

Neck-Learn: Attention-Based Multiple Instance Learning and Ensemble Framework for Ecological Momentary Assessment

📄 Neck-Learn: Attention-Based Multiple Instance Learning and Ensemble Framework for Ecological Momentary Assessment #语音生物标志物 #多实例学习 #集成学习 #信号处理 #基准测试 ✅ 7.0/10 | 前25% | #语音生物标志物 | #多实例学习 | #集成学习 #信号处理 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ahsan Jamal Cheema (哈佛大学) 通讯作者:未说明 作者列表:Ahsan Jamal Cheema(哈佛大学,剑桥;马萨诸塞州眼耳医院,波士顿) 💡 毒舌点评 亮点:论文在声带功能亢进检测中,首次尝试将多实例学习(MIL)引入对变长时间序列(日录音)的处理,有效捕捉了以往被压缩丢弃的日内时序动态,并结合传统梯度提升树模型构建了性能优异的集成框架,在NPVH这一更具挑战的任务上取得了显著提升。短板:深度学习部分(CNN-MIL)的具体细节(如1D卷积的输入通道关系、注意力头的可视化)阐述略显不足,且全文未能充分讨论其与更主流的时序模型(如Transformer)的对比可能性,使得“最优”架构的论证稍显薄弱;此外,该研究强依赖于NeckVibe挑战赛数据集,其泛化性尚需在独立临床场景中进一步验证。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集:论文中提及数据集为 NeckVibe Challenge,但未提供具体下载链接,仅通过引用 [NeckVibe2026] 说明 Demo:论文中未提及 复现材料:论文在 “2.3 Cross-Validation and Data Splitting” 与 “2.4 Model Architectures” 节中报告了所有超参数与训练细节(如 5 折分组交叉验证、XGBoost/LightGBM 参数、CNN-MIL 结构、集成权重优化方法等),并声明 “All hyperparameters are reported in Section 2.3 to enable full reproducibility.”,但未提供具体配置文件或检查点下载链接 论文中引用的开源项目: XGBoost:https://github.com/dmlc/xgboost LightGBM:https://github.com/microsoft/LightGBM PyTorch:https://github.com/pytorch/pytorch scikit-learn:https://github.com/scikit-learn/scikit-learn SciPy:https://github.com/scipy/scipy NumPy:https://github.com/numpy/numpy pandas:https://github.com/pandas-dev/pandas 补充信息 [细节详述] 补充:论文在特征表示部分明确提到,用于CNN-MIL的窗口级时间序列在输入前使用了稳健缩放器进行归一化,该缩放器是基于30%训练数据的中位数和四分位距(IQR)计算的,目的是减少IBIF(气动力)异常值的影响。这一预处理细节在已有分析的“细节详述”中未提及。 [细节详述] 补充:在损失函数方面,论文明确指出梯度提升树的损失函数同样对正类进行了加权(权重与CNN-MIL使用的类别权重相同:PVH为1.73,NPVH为4.08),而不仅仅是CNN-MIL。此信息在已有分析中仅部分提及。 [实验结果] 补充:论文明确列出了优化后的集成模型中各组件的权重:对于PVH分类任务,权重为CNN-MIL 0.45, XGBoost 0.35, LightGBM 0.20;对于NPVH分类任务,权重为CNN-MIL 0.50, XGBoost 0.15, LightGBM 0.35。权重差异反映了CNN-MIL在NPVH任务上的核心作用。 [模型架构] 补充:论文在方法部分明确指出,除了最终提交的CNN-MIL模型外,还测试并训练了其他模型架构,包括基于RNN的模型和基于对比学习的CNN模型,但论文中只包含了性能最佳的模型。这解释了模型选择过程。 [核心摘要/详细分析] 补充:论文在讨论部分对自身局限性的阐述更系统,除了已提及的CNN-MIL独立处理每日数据、可解释性有限外,还明确指出了另外两个局限:(1)目前仅使用发声段数据,未来可探索利用发声与非发声段之间的过渡信息(如相对基频RFF);(2)当前模型是非因果的(需要在看到整天/多天数据后才能预测),未来可探索仅使用过去时间戳数据进行实时预测的因果模型。 [评分理由] 补充:在“与SOTA的差距”方面,论文通过测试集结果可量化差距:本集成模型在PVH任务上比NeckVibe挑战赛基线高出 0.059 AUC (0.879 vs. 0.82),在NPVH任务上高出 0.068 AUC (0.848 vs. 0.78)。这一具体数值对比在分析中未明确给出。 📌 核心摘要 本文旨在解决生态瞬时评估(EMA)中,利用颈表面加速度计数据进行声带功能亢进(VH)及其亚型(PVH, NPVH)的自动检测问题。已有方法通常将多日数据压缩为固定长度的受试者级特征向量,丢失了日内时序动态信息。本文提出一种新型混合集成框架:一方面,利用梯度提升树(XGBoost, LightGBM)处理从日内数据中提取的受试者级分布特征,以捕捉全局模式;另一方面,创新性地构建了一个基于注意力的多实例学习(CNN-MIL)框架,将每日录音视为一个“包”,包内每个窗口为一个“实例”,从而直接学习日内时序依赖关系和关键时段。在NeckVibe挑战赛的测试集上,该集成模型在PVH分类中达到0.879 AUC,在NPVH分类中达到0.848 AUC,显著超越了赛事基线(0.82, 0.78)。该框架的主要贡献在于证明了保留并学习日内时序动态对于VH检测,特别是对于非损伤性亚型NPH至关重要。其主要局限性包括CNN-MIL模型的可解释性有待提高,以及未能利用更长时间(跨日)的趋势信息。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 362 words

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #数据集 #多模态模型 #海洋科学 #知识图谱 #基准测试 ✅ 7.0/10 | 前25% | #数据集 | #知识图谱 | #多模态模型 #海洋科学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yida Xue (徐一达) (浙江大学计算机科学与技术学院, 软件技术学院) 通讯作者:Ningyu Zhang (张宁钰) (浙江大学计算机科学与技术学院), Guozhou Zheng (郑国舟) (舟山海洋研究中心) 作者列表:Yida Xue (浙江大学计算机科学与技术学院, 软件技术学院)、Ningyu Zhang (浙江大学计算机科学与技术学院)、Tingwei Wu (浙江大学计算机科学与技术学院, 软件技术学院)、Zhe Ma (浙江大学计算机科学与技术学院)、Daxiong Ji (软件技术学院)、Zhao Wang (软件技术学院)、Guozhou Zheng (舟山海洋研究中心)、Huajun Chen (浙江大学计算机科学与技术学院, 海洋感知国家重点实验室) 💡 毒舌点评 论文构建了一个非常全面且质量控制严格的海洋领域多模态数据集,从教科书到实地采集数据无所不包,是海洋AI领域一项扎实的基础工程。然而,实验部分仅展示了在开源小模型上微调的性能提升,缺乏更大规模模型预训练或与更多SOTA模型的直接比较,使得“基础模型”这一宏大目标的论证稍显薄弱。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 302 words

RenCon 2025: Revival of the Expressive Performance Rendering Competition

📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition #音乐生成 #模型评估 #音乐信息检索 #基准测试 ✅ 7.5/10 | 前25% | #音乐生成 | #模型评估 | #音乐信息检索 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhang(Queen Mary University of London) 通讯作者:未说明 作者列表:Huan Zhang(Queen Mary University of London)、Taegyun Kwon(Korea Advanced Institute of Science and Technology)、Anders Friburg(KTH Royal Institute of Technology)、Junyan Jiang(New York University)、Hayeon Bang(Korea Advanced Institute for Science and Technology (KAIST))、Hyeyoon Cho(Korea Advanced Institute for Science and Technology (KAIST))、Gus Xia(Mohamed bin Zayed University of Artificial Intelligence)、Akira Maezawa(Yamaha Corporation)、Simon Dixon(Queen Mary University of London)、Dasaem Jeong(Sogang University) 💡 毒舌点评 亮点:这篇论文作为时隔12年的竞赛复兴报告,其核心价值在于系统性地重新建立了该领域的评测框架,其两阶段赛制设计和对MIDI动态校准问题的讨论,为未来研究提供了清晰的实践路线图和待解决难题清单。 短板:本质上是一篇优秀的“竞赛会议纪要”,其贡献局限于描述已发生的事情和汇总结果,在提出新的、具有启发性的科学假设或算法洞见方面略显不足,更像是一个工作的终点而非新研究的起点。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 277 words

The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge

📄 The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge #语音情感识别 #多模态模型 #数据集 #基准测试 #多语言 ✅ 7.0/10 | 前50% | #语音情感识别 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文列出了多位作者,但未明确排序或指明第一作者) 通讯作者:未说明(论文未明确指出通讯作者) 作者列表:Panagiotis Tzirakis(未说明)、Alice Baird(未说明)、Jeffrey Brooks(未说明)、Emilia Parada-Cabaleiro(未说明)、Lukas Stappen(未说明)、Sharath Rao(未说明)、Theo Lebryk(未说明)、Jakub Piotr Cłapa(未说明)、Jens Madsen(未说明) 💡 毒舌点评 亮点在于它提供了一个规模庞大、多语言、多模态的双人对话数据集,并设计了三个有层次的任务(影响、轮流、融洽)来系统评估人际动力学建模,填补了现有基准多偏向单说话人预测的空白。但短板也很明显:作为一篇挑战赛论文,其技术贡献主要停留在基线方法的设计上,而基线本身是极其简单的双层MLP,且实验部分仅展示了单一基线的结果,并未与任何复杂的现有SOTA方法进行对比分析,因此难以判断所提基准的实际挑战高度。 🔗 开源详情 代码:论文中未提及代码链接。论文鼓励参与者上传代码以支持可复现性,但未在论文正文中提供具体代码仓库地址。 模型权重:论文中未提及具体模型权重下载链接。论文提及提供了“baseline systems”(基线系统),但未给出模型权重的直接获取方式。 数据集:数据集名称为Hume-DaiKon。论文指出,参与者需要完成 Hume AI 的最终用户许可协议(end-user license agreement)并遵循官方竞赛主页上提供的数据访问说明来获取数据。论文未给出数据集的直接下载 URL。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了详细的基线实验描述,包括特征提取方法(使用Whisper-small和FaceNet)、模型架构(两层MLP编码器)、训练配置(优化器、学习率、损失函数等)以及评估指标。这些信息已足够用于复现论文中的基线实验。但未提及提供具体的训练配置文件或检查点下载链接。 论文中引用的开源项目: Whisper (Whisper-small encoder):用于音频特征提取。项目地址:https://github.com/openai/whisper FaceNet:用于视频(人脸)特征提取。论文引用的实现是 FaceNet,通常指 Google 的开源模型或其 PyTorch 实现。相关项目地址可参考:https://github.com/timesler/facenet-pytorch PyTorch:用于实现所有模型。项目地址:https://github.com/pytorch/pytorch Qwen2.5-72B-Instruct:用于生成 Rapport 伪标签的大语言模型。项目地址:https://github.com/QwenLM/Qwen2.5 vLLM:用于部署 Qwen2.5-72B-Instruct 以进行推理的引擎。项目地址:https://github.com/vllm-project/vllm 补充信息 [模型架构] 补充:在轮流发言预测任务中,时间头将预测值裁剪到 [-5, 10] 秒范围,此设计是为了同时适应预测发言间隙(正值)与重叠(负值)的情况。 [核心创新点] 补充:论文强调挑战旨在鼓励“文化意识建模”,其多语言数据集的设计就是为了支持这一点,这是其框架的重要动机之一。 [细节详述] 补充:数据集在发布时明确“旨在保留语料库的多语言特性,而不是将其限制在一两种语言中”,因此训练、验证和测试集都包含了五种语言的数据,并进行了分层划分。 [毒舌点评/核心摘要] 补充(对局限性的强调):论文自身在结论中明确指出,基准的建立鼓励了“文化意识建模”的研究,但这也恰恰是其挑战所在,即模型需要具备跨文化泛化能力,而简单的基线并未涉及此维度。 📌 核心摘要 这篇论文介绍了2026年ACII情感计算会议下的双人对话(DaiKon)工作坊与挑战赛。它旨在解决现有对话情感基准大多以单个说话人为中心,忽略了对话双方之间动态、耦合的人际过程(如单向影响、轮流发言、融洽关系发展)的问题。方法核心是基于新发布的Hume-DaiKon数据集(包含945段、743.4小时的五语种自然对话),设计三个相互关联的子挑战:预测说话人情感强度、预测下一说话人及发言时间、预测对话过程中的融洽关系轨迹。与已有工作相比,新在提供了一个统一的多语言、多模态基准框架,鼓励模型超越说话人中心预测,去建模人际间的时序依赖和动态交互。实验上,论文公布了基于简单MLP的基线结果:在情感影响预测任务上达到0.40 CCC / 0.50 Pearson;轮流发言任务上为0.66 Macro-F1 / 1.50秒 MAE;融洽预测任务上为0.68 CCC / 0.70 Pearson。主要结论是音频特征在各任务中表现最好,但简单的多模态融合并未带来提升,表明更复杂的时序建模和融合策略是必要的。其实际意义是为情感计算、人机交互、行为分析等社区提供了一个可复现的、聚焦于双人动态交互的研究平台和评估标准。主要局限性在于基线方法过于简单,未能充分展示任务的挑战性上限;同时,融洽关系的标签是通过大语言模型生成的伪标签,其可靠性未得到验证。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 261 words

TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation

📄 TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation #音乐生成 #基准测试 #流匹配 #多模态模型 ✅ 7.5/10 | 前25% | #音乐生成 | #流匹配 | #基准测试 #多模态模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表未按惯例排序,未明确标注) 通讯作者:未说明 作者列表:Xiaoda Yang, Majun Zhang, Changhao Pan, Nick Huang, Yang Yuguang, Fan Zhuo, Pengfei Zhou, Jin Zhou, Sizhe Shan, Shan Yang, Miles Yang, Yang You, Zhou Zhao(所有作者所属机构在论文中未明确说明) 💡 毒舌点评 亮点:该工作真正填补了“音乐-舞蹈共同生成”评估领域的空白,提出的多层级评估框架(从物理节拍对齐到MLLM感知判断)非常系统且具有前瞻性。 短板:论文在宣传自身模型“RhyJAM”的竞争力时,其音频美感、视频质量等关键指标与顶级闭源模型(如Veo 3)仍有可见差距,却未深入讨论为何“统一架构”未能在所有维度上全面超越级联或闭源方案。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 420 words