MOTOR: A Multimodal Dataset for Two-Wheeler Rider Behavior Understanding

📄 MOTOR: A Multimodal Dataset for Two-Wheeler Rider Behavior Understanding #数据集 #行为识别 #智能交通 #多模态学习 #安全关键 📝 5.9/10 | 前50% | #视频行为识别 | #多模态后期融合 | #数据集 #行为识别 | arxiv 学术质量 4.2/7 | 影响力 0.3/2 | 可复现性 1.4/2 | 置信度 0.85 👥 作者与机构 Varun A. Paturkar, Shankar Gangisetty, C. V. Jawahar。机构:CVIT, IIIT-Hyderabad, India. 💡 毒舌点评 这篇论文的野心不小,想填补全球南方两轮车数据集的空白,但呈现出来的成果却像一个“高配低能”的初代产品。所谓的“首个”、“大规模”需要打上引号——仅16名骑行者、25小时数据,与nuScenes、BDD100k等主流四轮车数据集相比就是个小玩具,连同门RAAD的持续时长都未必比得上。方法部分更令人失望,就是用现成的视频骨干网络(S3D, ResNet3D, SwinT, MViTv2)跑一跑,再把几个模态的特征拼接起来,这融合策略粗糙得像是本科课程设计。最讽刺的是,号称集成了音频模态,但在所有实验和方法设计中完全无视,等于白采了数据。评分给高了对不起严谨的学术标准,给低了又打击新人积极性,5.5分算是个无奈的折中——肯定你填补空白的动机,但批评你完成度的不足。 📌 核心摘要 本文介绍了MOTOR(MOtorized TwO-wheeler Rider),这是第一个专门针对密集非结构化交通环境中两轮车骑行行为的大规模、多视角、多模态数据集。数据集包含来自16名骑行者的1629个序列(超过25小时视频),集成了同步的前视、后视、头盔视角视频,以及骑行者眼动、道路音频和遥测数据(GPS、加速度计、陀螺仪)。标注内容丰富,涵盖12种常规与非常规骑行操作及其合法性(合法、非法、未指定)。论文使用多种先进的动作识别骨干网络(CNN: S3D, ResNet3D;Transformer: Video Swin Transformer, MViTv2)对行为识别和操作合法性分类任务进行了基准测试。实验表明,多模态融合(RGB+眼动+遥测)的性能始终优于单模态基线,其中Video Swin Transformer在两个任务上均取得最佳表现。主要局限在于数据集规模相对有限、地域特异性强,且基准方法在多模态融合架构设计上缺乏创新。 🔗 开源详情 代码:论文中提及代码在项目主页获取,但未直接提供GitHub代码仓库链接。项目主页为:https://varuniiith.github.io/MOTOR-Dataset/ 模型权重:论文中未提及模型权重的分享链接(如HuggingFace或ModelScope)。 数据集:数据集的获取方式指向同一项目主页:https://varuniiith.github.io/MOTOR-Dataset/ Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的训练配置信息(如优化器、学习率、epoch数等),但未提及是否有提供检查点或完整的复现脚本包。 论文中引用的开源项目: Project Aria 眼动追踪设备(引用 [engel2023projectarianewtool]):论文中未给出具体URL。 Pupil Labs 眼动追踪设备(引用 [kassner2014pupilopensourceplatform]):论文中未给出具体URL。 GoPro Telemetry Extractor 工具(引用 [telemetry_extractor]):论文中未给出具体URL。 🏗️ 方法概述和架构 论文提出了一种三流后期融合架构,作为骑行者行为识别和操作合法性分类的基线模型,整体流程如图6所示。该架构包含三个并行的数据流处理模块,其特征最终被拼接后送入分类器。 ...

2026-05-23 · 更新于 2026-06-12 · 2 min · 345 words

Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models

📄 Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models #情感分析 #政治沟通 #语音情感识别 #多模态学习 #大语言模型 ✅ 7.0/10 | 前50% | #语音情感识别 | #大语言模型 | #情感分析 #政治沟通 | arxiv 学术质量 4.7/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 Jürgen Dietrich (Democracy Intelligence gGmbH, Germany) 💡 毒舌点评 一篇典型的“以问题为导向,以方法为手段”的应用型研究,但其“问题”(声学SER作为政治Pathos代理的有效性)的设定本身值得商榷。作者用一个相对简单的对比实验(一个演讲者,51个片段),得出了一个几乎在意料之中的结论(考虑语义的LLM比不考虑语义的纯声学模型在“理解”情感诉求上更强)。论文最大的价值可能不在于证明了一个众所周知的道理,而在于它“顺手”对经典基准EMO-DB进行的解构,以及对“声学特征→离散情感→连续维度”这一常见投影路径的严谨批判。然而,实验设计(单样本、单说话者、特定政治语境)的先天不足,使得其结论的泛化性像其分析的演讲片段一样“摇摇欲坠”。整体而言,这是一篇诚实的、但影响力受限于其狭窄实验设置的“问题诊断”式论文。 📌 核心摘要 本研究评估了声学语音情感识别(SER)模型作为政治演讲中“Pathos”(情感诉求)维度计算代理的适用性。Pathos由TRUST多智能体LLM系统定义,其操作化为情感语言的社会影响程度(从-2到+2)。研究以德国联邦议院Felix Banaszak的一段演讲(51个片段)为案例,系统比较了三种分析模态:(1)基于emotion2vec声学模型并通过后处理Russell环形投影得到的Arousal/Valence;(2)Gemini 2.5 Flash多模态LLM分析音频与文本得到的Arousal/Valence;(3)TRUST-Pathos评分。主要发现是,Gemini Valence与TRUST-Pathos存在强正相关(\(\rho=+0.664, p<0.001\)),而emotion2vec Valence则无显著关联(\(\rho=+0.097, p=0.499\))。此外,通过对EMO-DB数据集的系统性质量评估,揭示了其在生态效度上的严重局限性,如“厌恶”类别完全无法被Gemini识别。研究表明,LLM驱动的多模态分析因其对语义和语用的理解,在捕捉政治相关Pathos方面远优于纯声学模型,而声学特征在低层级Arousal估计上仍有价值,两者应为互补关系。 🔗 开源详情 代码:论文提及“TRUST Multimodal Pipeline (v1.0)”是一个开放研究系统,但未在正文或附录中提供其具体的代码仓库链接(如GitHub)。因此,无法访问其完整代码。 模型权重: emotion2vec:论文中指出其为开源模型,并提供了GitHub链接:https://github.com/ddlBoJack/emotion2vec。模型权重可在HuggingFace上获取,但论文未提供具体链接。 Gemini 2.5 Flash:通过Google GenAI API (v1.74.0) 调用,为商业模型,论文未提及任何模型权重的开源获取方式。 数据集: Berlin Database of Emotional Speech (EMO-DB):论文对其进行了详细分析。获取链接通常为柏林工业大学主页:http://deposit.ddb.cnbv.berlin.de/DB1/EMODB/。论文参考文献[6]通常包含此链接。 Banaszak演讲数据:来自德国联邦议院官方媒体库。链接:https://www.bundestag.de/medien/video。需根据日期(2026年3月5日)和发言者(Felix Banaszak)搜索具体视频。 PAVOQUE:论文在Section 6提及此数据集用于未来工作,但未提供链接。 Demo:论文中未提及。 复现材料:论文提供了详细的复现相关材料,包括: Arousal/Valence投影权重表(Table 1)。 EMO-DB完整说话者×情感矩阵(Table 5, Appendix A)。 Banaszak演讲的41个分段详细评分表(Table 6, Appendix B),包含e2v-A, e2v-V, Gem-A, Gem-V, Pathos, Gem-Emotion, Gem-Rhetoric。 论文中引用的开源项目: emotion2vec: https://github.com/ddlBoJack/emotion2vec WhisperX: https://github.com/m-bain/whisperX pyannote.audio: https://github.com/pyannote/pyannote-audio FFmpeg: https://ffmpeg.org/ OpenFace: https://github.com/TadasBaltrusaitis/OpenFace L2CS-Net: https://github.com/HciRLab/L2CS-Net MediaPipe: https://google.github.io/mediapipe/ EmoBox: https://github.com/JunchenX/EmoBox 🏗️ 方法概述和架构 本研究的核心方法是在TRUST框架内,对来自同一语音片段的“声学情感”与“LLM多模态情感”估计值,与“TRUST-Pathos”评分进行统计相关性比较。整体分析流程如论文Section 3所述,主要包含四个阶段:数据准备、三种模态的特征提取与评分、统计分析。 ...

2026-05-22 · 更新于 2026-06-12 · 2 min · 396 words

Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation

📄 Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation #关键词检测 #语音处理 #双阶段匹配 #多模态学习 #持续学习 #参数高效微调 ✅ 7.4/10 | 前50% | #关键词检测 | #迁移学习 | #语音处理 #双阶段匹配 | arxiv 学术质量 4.8/7 | 影响力 1.0/2 | 可复现性 1.6/2 | 置信度 0.9 👥 作者与机构 Zhiqi Ai (上海大学) Han Cheng (上海大学) Shiyi Mu (上海大学) Xinnuo Li (纽约大学) Yongjin Zhou (上海大学, 通讯作者) Shugong Xu (西安交通大学-利物浦大学, 通讯作者) 💡 毒舌点评 这篇论文工作扎实,工程味浓,属于典型的“系统性优化”而非“范式革新”。作者明显深谙从学术到落地的全链路痛点:双阶段匹配的流水线设计巧妙地在通用性(CTC)和精确性(QbyT)间取得平衡;多模态注册(MAM)与参数高效微调(LoRA)的结合,直击了个性化部署中数据稀缺与效率的矛盾。实验设计覆盖面极广,从标准基准到波斯语口音等边缘场景,展现了极强的“打补丁”能力。然而,这恰恰是其主要问题:论文的创新更像是一组现有技术的精巧组合与调优,缺乏一个高屋建瓴的理论框架或令人眼前一亮的洞察。所谓“state-of-the-art”的宣称,在部分数据集上(如Qcomm)的优势微弱,且与SOTA系统的比较多停留在数值层面,缺乏对其成功或失败模式的深层分析。此外,论文篇幅冗长,方法描述虽详尽但略显啰嗦,结论部分也较为平淡,未能充分升华其贡献。它是一篇出色的系统论文,但距离一篇令人印象深刻的顶级会议论文,尚差一些思想的火花和叙事的锋芒。 📌 核心摘要 本文提出了DMA-KWS,一个高效且鲁棒的用户定义关键词检测(UDKWS)框架。该框架整合了双阶段匹配、多模态注册和持续适应机制。首先,双阶段匹配管道包括一个基于CTC解码的流式音素搜索,用于定位候选音频段;随后,一个基于查询文本(QbyT)的音素匹配器对候选段进行细粒度验证,以更好地区分易混淆关键词。其次,多模态注册模块融合了关键词的文本嵌入与用户注册音频的特征,实现了说话人相关的关键词检测,利用注册音频中的口音信息提升识别准确率。最后,基于LoRA的参数高效持续适应机制,利用合成数据与真实反馈数据对模型进行轻量级微调,以快速适应新注册的关键词。大量实验表明,DMA-KWS在多个数据集上取得了具有竞争力的性能,展现了强大的零样本能力,并能以极少的参数更新实现快速定制化。 ...

2026-05-22 · 更新于 2026-06-12 · 3 min · 473 words

MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

📄 MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue #多模态学习 #视觉语言模型 #指代表达定位 #具身对话 ✅ 6.5/10 | 前50% | #跨模态 | #跨模态 | #多模态学习 #视觉语言模型 | arxiv 学术质量 6.5/7 | 影响力 5.5/2 | 可复现性 0.3/2 | 置信度 high 👥 作者与机构 Anna Deichler, Jim O’Regan, Fethiye Irmak Dogan, Lubos Marcinek, Anna Klezovich, Iolanda Leite, and Jonas Beskow KTH Royal Institute of Technology, Stockholm, Sweden {deichler, joregan, fidogan, lubosm, annkle, iolanda, beskow}@kth.se ...

2026-05-22 · 更新于 2026-06-12 · 2 min · 349 words

ICASSP 2026 - 多模态学习 论文列表

ICASSP 2026 - 多模态学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bo 6.0分 前25% 📋 论文详情 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练 👥 作者与机构 第一作者:Tianyu Bell Pan(佛罗里达大学 ECE系) 通讯作者:未说明 作者列表:Tianyu Bell Pan(佛罗里达大学 ECE系)、Olivia Dizon-Paradis(佛罗里达大学 ECE系)、Damon L. Woodard(佛罗里达大学 ECE系) 💡 毒舌点评 这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱,特别是那个显式的、减去无标签收益项的泛化界,概念很巧妙。然而,其短板也同样明显:整篇论文的实验部分完全依赖于模拟数据的示意图,缺乏任何真实数据集上的基准测试或与SOTA方法的对比,使得漂亮的理论如同空中楼阁,难以令人信服其在实际应用中的威力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:论文未提供训练细节、配置、检查点或附录说明。Algorithm 1的描述是主要的复现依据。 论文中引用的开源项目:未提及依赖的开源工具或模型。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 85 words

Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds

📄 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds #多模态学习 #半监督学习 #协同训练 #理论分析 ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Tianyu Bell Pan(佛罗里达大学 ECE系) 通讯作者:未说明 作者列表:Tianyu Bell Pan(佛罗里达大学 ECE系)、Olivia Dizon-Paradis(佛罗里达大学 ECE系)、Damon L. Woodard(佛罗里达大学 ECE系) 💡 毒舌点评 这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱,特别是那个显式的、减去无标签收益项的泛化界,概念很巧妙。然而,其短板也同样明显:整篇论文的实验部分完全依赖于模拟数据的示意图,缺乏任何真实数据集上的基准测试或与SOTA方法的对比,使得漂亮的理论如同空中楼阁,难以令人信服其在实际应用中的威力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:论文未提供训练细节、配置、检查点或附录说明。Algorithm 1的描述是主要的复现依据。 论文中引用的开源项目:未提及依赖的开源工具或模型。 📌 核心摘要 解决问题:针对传统单视图半监督学习(SSL)中存在的“确认偏差”问题,即错误的伪标签会自我强化,本文旨在为多模态(多视图)协同训练方法提供坚实的理论保证。 方法核心:提出一个两视图协同训练框架,其中每个视图的分类器选择高置信度的预测作为伪标签提供给另一个视图进行重训练,并加入跨视图一致性损失。理论分析基于视图充分性和条件独立性假设。 创新之处:(1)证明了在单次迭代中,较弱视图的期望误差会收缩为两个视图误差的凸组合(Lemma 3.1);(2)证明了两个视图的最大误差会以几何速率收敛到一个不可约的下限(Theorem 3.2);(3)推导了一个PAC风格的泛化界,其中包含一个非负的“减法无标签收益项”(Γ),该项随着无标签数据比例、跨视图一致性和视图独立性的增加而增加(Theorem 3.5)。 实验结果:论文未提供在真实数据集上的定量实验结果。所有“实验”均为数值模拟,以示意图形式展示了误差收敛曲面(图1)、泛化界随无标签样本数变化(图2)以及收益项Γ随分歧和独立性变化(图3)。论文中未给出具体数值。 实际意义:该理论框架量化了多模态协同训练的优势来源,解释了无标签数据和视图间一致性如何协同作用以提升泛化性能,为设计和在实践中安全使用此类算法提供了理论指导。 主要局限性:最大局限是缺乏真实实验验证。理论基于较强的假设(如视图条件独立),其在现实世界复杂多模态数据(视图相关)上的适用性未知。未与现有单视图或多视图SSL方法进行性能对比。 🏗️ 模型架构 本文提出的不是传统意义上的神经网络模型,而是一个协同训练算法框架(Algorithm 1)。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 159 words

Multimodal Transformer with Multiperspective Training for Predicting Self-Expression Skills from Video Interview

📄 Multimodal Transformer with Multiperspective Training for Predicting Self-Expression Skills from Video Interview #多模态模型 #多模态学习 #数据集 #预训练 ✅ 7.0/10 | 前25% | #多模态模型 | #多模态模型 | #多模态学习 #数据集 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Ryo Masumura(NTT, Inc., Japan) 通讯作者:未说明 作者列表:Ryo Masumura(NTT, Inc., Japan)、Shota Orihashi(NTT, Inc., Japan)、Mana Ihori(NTT, Inc., Japan)、Tomohiro Tanaka(NTT, Inc., Japan)、Naoki Makishima(NTT, Inc., Japan)、Suzuka Yamada(NTT, Inc., Japan)、Taiga Yamane(NTT, Inc., Japan)、Naotaka Kawata(NTT, Inc., Japan)、Satoshi Suzuki(NTT, Inc., Japan) 💡 毒舌点评 亮点:论文开创性地定义了“自我表达技能”的多视角自动评估任务,并巧妙设计了多视角训练策略,让模型既能进行多模态融合判断,也能对单一维度进行评估,实验显示其性能可比肩人类评估员。 短板:所用数据集和模型均未开源,对于一个标注成本高昂的新任务而言,这无疑大大限制了后续研究的跟进和验证,使得其“有效模型”的结论暂时只能停留在论文层面。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 312 words