数据集 | 语音/音频论文速递

What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty

📄 What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty #词汇难度预测 #梯度提升决策树 #多语言 #数据集 📝 5.0/10 | 前50% | #词汇难度预测 | #梯度提升决策树 | #多语言 #数据集 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Jonas Mayer Martins (University of Göttingen, Germany) 通讯作者：Lisa Beinborn (University of Göttingen, Germany) 作者列表：Jonas Mayer Martins (University of Göttingen, Germany), Zhuojing Huang (University of Göttingen, Germany), Aaricia Herygers (University of Göttingen, Germany), Lisa Beinborn (University of Göttingen, Germany) 💡 毒舌点评论文巧妙地将语言迁移理论融入可解释的机器学习框架，清晰地揭示了不同母语背景学习者学习英语词汇时的“难度地图”差异，具有直接的教育应用潜力。然而，其核心迁移特征——字符n-gram相似度——是一个极其粗糙的代理指标，完全忽略了语义、语音和词源层面的迁移，这使得对“迁移”机制的建模深度和结论的普适性大打折扣。 ...

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

📄 CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings #脑机接口 #迁移学习 #预训练 #跨模态 #数据集 ✅ 6.5/10 | 前25% | #脑机接口 | #迁移学习 | #预训练 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 1.0/1 | 置信度高 👥 作者与机构第一作者：Liuyin Yang（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences）通讯作者：Marc M. Van Hulle（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences）作者列表：Liuyin Yang（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Qiang Sun（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Bob Van Dyck（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Eva Calvo Merino（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Marc M. Van Hulle（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences） 💡 毒舌点评亮点在于首次系统性地研究了将头皮EEG预训练基础模型迁移到颅内ECoG解码的可行性，并在两个不同任务上验证了该框架的有效性。其设计的KNNSoftFourier适配器为解决电极几何差异提供了新颖的解决方案，LOO-FT策略为临床快速部署提供了实用路径。短板在于，其在公开基准任务（手指轨迹）上的性能提升统计上并不显著，且核心贡献更多是方法整合与验证，而非提出颠覆性的算法新范式。主要优势体现在低数据适配和私有任务上。 ...

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Qijie You（北京科技大学 University of Science and Technology Beijing）通讯作者：Wentao Zhang（北京大学 Peking University、中关村学院 Zhongguancun Academy）作者列表：Qijie You（北京科技大学）、Hao Liang（北京大学、中关村学院，同等贡献）、Mingrui Chen（中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences）、Bohan Zeng（北京大学）、Meiyi Qiang（北京大学）、Zhenhao Wong（北京大学）、Wentao Zhang（北京大学、中关村学院，项目负责人，通讯作者） 💡 毒舌点评这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段，完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图；其提出的“硬双模态约束”过滤机制是一个非常聪明的设计，确保了跨模态查询不是简单的拼接。然而，其短板也明显：整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上，这虽保证了规模，却也引入了模型特有的偏见，且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑，更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

📄 MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes #语音对话系统 #多模态模型 #基准测试 #数据集 #大语言模型 ✅ 7.0/10 | #语音对话系统 #多模态模型 | arxiv 👥 作者与机构第一作者：Maximillian Chen (哥伦比亚大学计算机系) 通讯作者：Yohan Jo (首尔大学) 作者列表： Maximillian Chen (哥伦比亚大学计算机系，现供职于Google) Xuanming Zhang (哥伦比亚大学计算机系，*共同贡献) Michael Peng (哥伦比亚大学计算机系) Zhou Yu (哥伦比亚大学计算机系) Alexandros Papangelis (哥伦比亚大学计算机系，现供职于Apple) Yohan Jo (首尔大学，对应作者) 💡 毒舌点评本文最大的亮点在于构建了一个全面且精心设计的智能家居语音交互基准，将多模态理解、工具调用和状态跟踪紧密结合，填补了该领域评估工具的空白。然而，其核心贡献是“定义问题和提供工具”而非“解决问题”，模型部分的实验更像是利用现有闭源大模型作为“天花板”展示，缺乏对模型本身架构创新的探讨，使得论文在技术创新深度上稍显不足。 📌 核心摘要解决的问题：在智能家居物联网场景中，开发能理解用户语音指令、操作现实世界设备并管理复杂交互状态（如歧义、纠正、冗余）的多模态语音助手面临重大挑战。现有任务导向对话（TOD）基准未能充分涵盖物理空间约束、动态状态跟踪和混合主动交互模式。方法核心：提出MIST，一个合成的多轮、语音驱动的工具调用基准数据集及其生成框架。该框架采用神经符号方法：首先采样多样化家庭配置（房间、设备、用户特征），然后通过概率编排器生成包含六种核心交互模式（动作执行、例程更新、纠正循环、歧义解决、冗余拒绝、状态更新）的对话，确保每轮对话在模拟的“数字孪生”家庭状态上是物理一致的。新意：与已有TOD任务或纯文本工具调用任务相比，MIST首次系统地将语音输入、多设备状态跟踪、复杂空间逻辑和混合主动交互模式整合在一个统一的评估基准中。其数据生成框架可扩展，能持续产生符合物理约束的新数据。主要结果：实验评估了多个开放权重和闭源多模态大模型。闭源模型（尤其是Gemini 2.5 Pro）在代码生成（执行匹配79.53%，精确匹配65.56%）和对话智能（F1 46.00，准确率66.73%）上显著优于开放权重模型（最佳开放模型Qwen 3 Omni的精确匹配仅为47.19%，F1为14.54）。错误分析显示，开放模型主要问题是过度触发和目标设备错误，而闭源模型主要问题是参数值错误。即使最强闭源模型也存在显著改进空间（如73.0%的确认请求被遗漏）。实际意义：MIST为评估和提升面向物理世界的多模态语音助手提供了高质量的测试平台，其可扩展的数据生成框架有助于合成训练数据，推动开放权重模型在这一重要应用场景中的发展。主要局限性：论文明确提到，当前评估主要基于闭源模型性能作为参照，开放权重模型表现不佳，任务具有挑战性。潜在局限包括：合成数据与真实世界交互的差距、评估指标（尤其是Exact Match）可能对合理变体过于严苛、缺乏端到端语音流式交互的评估。 🔗 开源详情代码：论文中未提供明确的代码仓库（如 GitHub）链接。论文中提及发布了一个“可扩展的数据生成框架”，并指向项目主页 https://billyzhang24kobe.github.io/mist-smarthome，但未说明代码的具体托管位置。模型权重：论文中未提及发布任何模型权重。论文评估了多个开源（如 Qwen Audio, Soundwave）和闭源（如 Gemini 2.5）多模态模型，但这些是外部模型，并非本文发布。数据集：数据集名称为 MIST (Multimodal Interactive Speech-based Tool-calling Dataset)。论文中提到发布该数据集，但未提供直接的下载链接（如 HuggingFace）。唯一的信息是指向项目主页 https://billyzhang24kobe.github.io/mist-smarthome，数据集可能需通过该页面获取。未提及具体的开源协议。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及提供如训练配置、预训练检查点等复现材料。论文在附录中详细描述了数据生成框架的实现细节（如环境模拟、用户角色、声学参数等），并提供了用于生成数据的系统提示词（如 Table A6, Table A8），这些信息有助于理解或扩展数据生成过程。论文中引用的开源项目：论文中评估了以下模型作为基线，但未提供这些模型的官方链接： Qwen Audio Qwen 2 Audio Soundwave Qwen 3 Omni Gemini 2.5 Flash-Lite, Gemini 2.5 Flash, Gemini 2.5 Pro（闭源模型） 🏗️ 方法概述和架构 MIST系统由两个核心部分组成：一个可扩展的神经符号数据生成框架和一个基于现有MLLM的基准评估流程。 ...

Do Melody and Rhythm Coevolve?

📄 Do Melody and Rhythm Coevolve? #音乐认知 #文化演化 #跨文化研究 #计算流水线 #音乐信息检索 #数据集 ✅ 7.5/10 | 前25% | #音乐认知 | #计算流水线 | #文化演化 #跨文化研究 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Harin Lee（University of Cambridge, UK）通讯作者：未说明（论文未明确指定通讯作者；Nori Jacoby为最后作者）作者列表：Harin Lee（University of Cambridge, UK）、Rainer Polak（RITMO Centre for Interdisciplinary Studies in Rhythm, Time and Motion, University of Oslo, Norway）、Manuel Anglada-Tort（Department of Psychology, Goldsmiths College, University of London, UK）、Marc Schönwiesner（Department of Life Sciences, Leipzig University, Germany）、Minsu Park（Division of Social Science, New York University Abu Dhabi, UAE）、Nori Jacoby（Department of Psychology, Cornell University, USA） 💡 毒舌点评本文的核心价值在于用一个强大且可扩展的计算流水线，首次对“旋律与节奏是否共同演化”这一音乐学基础问题进行了大规模实证检验。其方法论上的创新（绕过标注，直接分析音频分布）令人印象深刻，为跨文化音乐研究设立了新标杆。然而，将旋律简化为人声、节奏简化为鼓声的操作，无疑是对音乐丰富性的“优雅降维”，使得结论所探讨的“旋律”与“节奏”实则是特定音乐元素子集的代理变量。 ...

PianoCoRe: Combined and Refined Piano MIDI Dataset

📄 PianoCoRe: Combined and Refined Piano MIDI Dataset #数据集 #数据清洗 #音乐信息检索 #钢琴表演建模 ✅ 7.5/10 | 前25% | #数据集 | #数据清洗 | #音乐信息检索 #钢琴表演建模 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ilya Borovik（Skolkovo Institute of Science and Technology, Moscow, Russia）通讯作者：未说明（论文中未明确指定通讯作者）作者列表：Ilya Borovik（Skolkovo Institute of Science and Technology, Moscow, Russia） 💡 毒舌点评亮点：该工作最大的价值在于其卓越的系统工程和开源精神——将零散、杂乱的现有钢琴MIDI语料库整合、清洗、对齐成一个开箱即用、分层合理的数据集，并配套发布了高质量的质量分类器和对齐优化工具，极大地降低了后续研究者的门槛。短板：核心创新更偏向“数据料理”而非“算法突破”，例如质量分类器和对齐精炼的启发式规则虽然有效，但方法本身缺乏更强的理论深度或新颖性，在某种程度上更像是一篇详尽的“技术手册”或“最佳实践指南”。 📌 核心摘要要解决什么问题：现有的钢琴符号音乐数据集存在覆盖范围窄、缺乏多样性、缺少音符级对齐、命名格式不一致等问题，阻碍了大规模、高质量的钢琴表演分析与建模研究。方法核心是什么：论文构建了PianoCoRe数据集，其核心方法包括：a) 一套多阶段、自动化的数据匹配与整合流程，将多个现有数据集（ASAP, ATEPP, GiantMIDI-Piano, PERiScoPe, Aria-MIDI）合并；b) 一个训练的MIDI质量分类器，用于识别损坏和类乐谱的转录；c) 一个名为RAScoP的对齐精炼流水线，用于清理时间对齐错误并插值缺失音符。与已有方法相比新在哪里：新在首次将多个主流开源钢琴数据集整合并去重，发布为具有清晰层级（C/B/A/A*）的数据集，覆盖不同应用场景需求，这是之前不存在的。同时，配套的质量分类和对齐精炼工具链是此前缺乏的、易用的开源解决方案。主要实验结果： MIDI质量分类器在平衡测试集上的宏平均F1分数达到89.1%。 ...

Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes

📄 Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes #音频深度伪造检测 #内容审核 #模型评估 #数据集 #评测协议 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #模型评估 | #内容审核 #数据集 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Michael Soprano（University of Udine, Department of Mathematics, Computer Science and Physics）通讯作者：未说明（论文未明确指定通讯作者）作者列表：Michael Soprano（University of Udine, Department of Mathematics, Computer Science and Physics）、Andrea Cioci（University of Udine, Department of Mathematics, Computer Science and Physics）、Stefano Mizzaro（University of Udine, Department of Mathematics, Computer Science and Physics） 💡 毒舌点评这篇论文的亮点在于其严谨的实验设计，系统地量化了普通人在检测逼真假视频时的“集体盲点”，特别是对音视频联合伪造的无力感，为“眼见不一定为实”的当代困境提供了扎实的实证数据。但短板在于其结论高度依赖于特定的众包平台和数据集，且未与当前先进的自动检测模型进行对比，使得“人类筛查信号”到底有多强、能否与模型互补，仍是一个未解之谜。 ...

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #音频分类 #数据集 #预训练 #领域适应 #多模态模型 ✅ 7.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #领域适应 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yida Xue（浙江大学计算机科学与技术学院；浙江大学软件技术学院）通讯作者：Ningyu Zhang（浙江大学计算机科学与技术学院；浙江大学软件技术学院；海洋感知国家重点实验室）、Guozhou Zheng（舟山海洋研究中心；海洋感知国家重点实验室）作者列表：Yida Xue（浙江大学计算机科学与技术学院，浙江大学软件技术学院），Ningyu Zhang（浙江大学计算机科学与技术学院，浙江大学软件技术学院，海洋感知国家重点实验室），Tingwei Wu（浙江大学计算机科学与技术学院，浙江大学软件技术学院），Zhe Ma（浙江大学计算机科学与技术学院），Daxiong Ji（浙江大学软件技术学院），Zhao Wang（浙江大学软件技术学院），Guozhou Zheng（舟山海洋研究中心，海洋感知国家重点实验室），Huajun Chen（浙江大学计算机科学与技术学院，ZJU-杭州全球科技创新中心，海洋感知国家重点实验室） 💡 毒舌点评亮点：该工作首次系统性地整合了声呐、水下图像、科学图表和文本等多源异构海洋数据，并构建了配套的知识图谱引导的指令数据与评估基准，填补了领域空白，为海洋科学Foundation Model的开发铺平了道路。短板：作为一篇数据集论文，其方法论创新主要体现在工程化的数据处理和整合流程上，缺乏在模型架构或训练范式上的突破；对于如此大规模多模态数据的噪声分布、跨模态对齐的误差分析以及数据偏见等关键问题讨论不足。 📌 核心摘要要解决什么问题：海洋科学领域缺乏大规模、高质量、多模态对齐的数据集，导致通用多模态大模型（MLLMs）在海洋科学任务上应用受限，存在严重的“数据瓶颈”。方法核心是什么：提出OceanPile，一个为海洋基础模型设计的大规模多模态语料库，包含三个核心组件：用于预训练的OceanCorpus（整合文本、声呐、水下图像等多源数据）；用于指令微调的OceanInstruction（基于层次化海洋概念知识图谱生成的指令数据）；以及用于评估的OceanBenchmark（手动标注的基准测试集）。与已有方法相比新在哪里：相比于零散的单一模态海洋数据集（如声呐或图像数据集）或目标单一的海洋大模型（如OceanGPT），OceanPile首次提供了覆盖物理、化学、生物等多学科，整合了声学、视觉、文本等多模态，且经过对齐和质量控制的综合性资源，旨在全面支持海洋科学MLLM的预训练、微调和评估。主要实验结果如何：实验表明，使用OceanInstruction微调的模型在OceanBenchmark上性能显著提升。例如，Qwen3-VL-8B-Instruct的多模态总体得分从13.07提升至32.59（+19.52），超越了GPT-4o（14.35）和GPT-5（9.67），并略优于Gemini-3-Flash（31.21）。具体任务提升显著：海洋物种识别（Marine Organisms VQA）从9.96提升至48.52（+38.56）。关键数据见下表：模型文本基准：海洋科学QA (%) 多模态基准海洋科学VQA (%) 声呐VQA (%) 海洋生物VQA (%) 总体 (%) Qwen3-30B 25.49 - - - - Qwen3-30B (with OceanPile) 26.47 - - - - Qwen3-VL-8B - 21.21 8.04 9.96 13.07 Qwen3-VL-8B (with OceanPile) - 29.29 19.97 48.52 32.59 GPT-5 16.67 19.19 0.71 9.11 9.67 GPT-4o 6.86 16.16 5.71 21.19 14.35 Gemini-3-Flash 24.51 32.32 11.11 50.21 31.21 实际意义是什么：为海洋科学AI研究提供了关键的基础设施（数据集和基准），有望加速海洋环境感知、物种识别、资源勘探等领域的智能化进程，推动领域专用大模型的发展。 ...

Contrastive Regularization for Accent-Robust ASR

📄 Contrastive Regularization for Accent-Robust ASR #语音识别 #对比学习 #自监督学习 #鲁棒性 #数据集 ✅ 7.5/10 | 前25% | #语音识别 | #对比学习 | #自监督学习 #鲁棒性 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Van-Phat Thai (Air Traffic Management Research Institute, Nanyang Technological University, Singapore) 通讯作者：未说明作者列表：Van-Phat Thai (Air Traffic Management Research Institute, Nanyang Technological University, Singapore), Aradhya Dhruv (Air Traffic Management Research Institute, Nanyang Technological University, Singapore), Duc-Thinh Pham (Center of AI Research, VinUniversity, Vietnam), Sameer Alam (Air Traffic Management Research Institute, Nanyang Technological University, Singapore) 💡 毒舌点评这篇论文的亮点在于用极其简单的“口香糖”式修补（一个轻量对比损失）给强大的预训练模型“打补丁”，就在口音鲁棒性上取得了显著提升，且分析部分（余弦色散）直观地揭示了模型表征变得更“紧凑”的过程。短板在于其核心假设高度依赖L2-ARCTIC数据集的特性（即相同文本由不同口音的说话人重复朗读），这限制了方法在更通用、文本不重复场景下的直接适用性。 ...

DECKER: Domain-invariant Embedding for Cross-Keyboard Extraction and Recognition

📄 DECKER: Domain-invariant Embedding for Cross-Keyboard Extraction and Recognition #音频安全 #领域适应 #对比学习 #数据集 #大语言模型 ✅ 7.5/10 | 前25% | #音频安全 | #领域适应 | #对比学习 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Bikrant Bikram Pratap Maurya (IIIT-Delhi, India) 通讯作者：论文中未明确标注通讯作者，根据署名位置和邮箱，Arun Balaji Buduru (IIIT-Delhi) 可能为导师。作者列表：Bikrant Bikram Pratap Maurya (IIIT-Delhi, India)、Nitin Choudhury (IIIT-Delhi, India)、Daksh Agarwal (Guru Gobind Singh Indraprastha University, Delhi, India)、Arun Balaji Buduru (IIIT-Delhi, India) 💡 毒舌点评本文提出的DECKER框架在构建“领域不变”键盘声学表示上做到了教科书级别的全面——KSN、对抗、对比、随机化四件套一个不少，并配套了一个前所未有的大规模真实场景数据集HEAR，实验设计严谨。但论文的立足点——“键盘声学侧信道攻击是重大现实威胁”本身在安全社区就存在争议，且其最犀利的武器“LLM辅助解码”在对抗高熵随机密码时几乎失效，这使其对“增强型攻击”的宣称打了折扣。 ...