论文速递 | 语音/音乐/音频论文速递

MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts

📄 MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

MOTOR: A Multimodal Dataset for Two-Wheeler Rider Behavior Understanding

📄 MOTOR: A Multimodal Dataset for Two-Wheeler Rider Behavior Understanding #数据集 #行为识别 #智能交通 #多模态学习 #安全关键 📝 5.9/10 | 前50% | #视频行为识别 | #多模态后期融合 | #数据集 #行为识别 | arxiv 学术质量 4.2/7 | 影响力 0.3/2 | 可复现性 1.4/2 | 置信度 0.85 👥 作者与机构 Varun A. Paturkar, Shankar Gangisetty, C. V. Jawahar。机构：CVIT, IIIT-Hyderabad, India. 💡 毒舌点评这篇论文的野心不小，想填补全球南方两轮车数据集的空白，但呈现出来的成果却像一个“高配低能”的初代产品。所谓的“首个”、“大规模”需要打上引号——仅16名骑行者、25小时数据，与nuScenes、BDD100k等主流四轮车数据集相比就是个小玩具，连同门RAAD的持续时长都未必比得上。方法部分更令人失望，就是用现成的视频骨干网络（S3D, ResNet3D, SwinT, MViTv2）跑一跑，再把几个模态的特征拼接起来，这融合策略粗糙得像是本科课程设计。最讽刺的是，号称集成了音频模态，但在所有实验和方法设计中完全无视，等于白采了数据。评分给高了对不起严谨的学术标准，给低了又打击新人积极性，5.5分算是个无奈的折中——肯定你填补空白的动机，但批评你完成度的不足。 📌 核心摘要本文介绍了MOTOR（MOtorized TwO-wheeler Rider），这是第一个专门针对密集非结构化交通环境中两轮车骑行行为的大规模、多视角、多模态数据集。数据集包含来自16名骑行者的1629个序列（超过25小时视频），集成了同步的前视、后视、头盔视角视频，以及骑行者眼动、道路音频和遥测数据（GPS、加速度计、陀螺仪）。标注内容丰富，涵盖12种常规与非常规骑行操作及其合法性（合法、非法、未指定）。论文使用多种先进的动作识别骨干网络（CNN: S3D, ResNet3D；Transformer: Video Swin Transformer, MViTv2）对行为识别和操作合法性分类任务进行了基准测试。实验表明，多模态融合（RGB+眼动+遥测）的性能始终优于单模态基线，其中Video Swin Transformer在两个任务上均取得最佳表现。主要局限在于数据集规模相对有限、地域特异性强，且基准方法在多模态融合架构设计上缺乏创新。 🔗 开源详情代码：论文中提及代码在项目主页获取，但未直接提供GitHub代码仓库链接。项目主页为：https://varuniiith.github.io/MOTOR-Dataset/ 模型权重：论文中未提及模型权重的分享链接（如HuggingFace或ModelScope）。数据集：数据集的获取方式指向同一项目主页：https://varuniiith.github.io/MOTOR-Dataset/ Demo：论文中未提及在线演示链接。复现材料：论文中提供了详细的训练配置信息（如优化器、学习率、epoch数等），但未提及是否有提供检查点或完整的复现脚本包。论文中引用的开源项目： Project Aria 眼动追踪设备（引用 [engel2023projectarianewtool]）：论文中未给出具体URL。 Pupil Labs 眼动追踪设备（引用 [kassner2014pupilopensourceplatform]）：论文中未给出具体URL。 GoPro Telemetry Extractor 工具（引用 [telemetry_extractor]）：论文中未给出具体URL。 🏗️ 方法概述和架构论文提出了一种三流后期融合架构，作为骑行者行为识别和操作合法性分类的基线模型，整体流程如图6所示。该架构包含三个并行的数据流处理模块，其特征最终被拼接后送入分类器。 ...

Multimodal Fusion via Self-Consistent Task-Gradient Fields

📄 Multimodal Fusion via Self-Consistent Task-Gradient Fields ✅ 6.8/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Multimodal Latent Language Modeling with Next-Token Diffusion

📄 Multimodal Latent Language Modeling with Next-Token Diffusion ✅ 7.2/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Multiple Choice Learning of Low-Rank Adapters for Language Modeling

📄 Multiple Choice Learning of Low-Rank Adapters for Language Modeling ✅ 6.8/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

MusicDET: Zero-Shot AI-Generated Music Detection

📄 MusicDET: Zero-Shot AI-Generated Music Detection ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

📄 NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Neural-Inspired Modeling of Auditory Selection and Compensation for Audio-Visual Speech Separation

📄 Neural-Inspired Modeling of Auditory Selection and Compensation for Audio-Visual Speech Separation ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Omni-Perception Policy Optimization for Multimodal Emotion Reasoning

📄 Omni-Perception Policy Optimization for Multimodal Emotion Reasoning ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

OmniDenseCap: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

📄 OmniDenseCap: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions 🔥 8.0/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递