Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval

📄 Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval #语音活动检测 #对比学习 #检索增强 #预训练 ✅ 7.0/10 | 前25% | #语音活动检测 | #对比学习 #检索增强 | #对比学习 #检索增强 | arxiv 学术质量 5.5/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Boda Xiao(北京大学BioMed-X研究中心、北京国家通用人工智能前沿科学中心) 通讯作者:Heping Cheng(北京大学分子医学研究所、北京-清华生命科学中心、未来技术学院) 作者列表:Boda Xiao(北京大学BioMed-X研究中心、北京国家通用人工智能前沿科学中心)、Bo Wang(北京大学言语与听觉研究中心、北京国家通用人工智能前沿科学中心)、Heping Cheng(北京大学分子医学研究所、北京-清华生命科学中心、未来技术学院) 💡 毒舌点评 这篇论文的核心在于一个聪明的“偷懒”策略:面对从低信噪比MEG信号直接重建语音特征这一艰巨任务(作者自述精度仅~0.4),他们选择不去硬碰硬,而是转向一个更简单的任务——在庞大的LibriVox有声书库里,为给定的MEG片段“找出”对应的原始音频。这确实是一个在特定竞赛规则下能拿到高分(F1: 0.962)的巧妙工程捷径。然而,这恰恰暴露了其根本局限:该框架的成功极度依赖一个强假设——测试时听到的语音必须100%存在于那个预定义的60% LibriVox子集中。一旦脱离这个封闭的、已知的“题库”,该方法就立刻失效,对于未匹配部分只能回退到那个他们自己认为“不够好”的简单回归基线。因此,它更像一个针对LibriBrain 2025竞赛的“特解”,而非一个能推广到真实世界非侵入式BCI场景的通用方法论。论文的亮点在于其清晰的“绕行”思路,但其短板在于将一个通用科学问题转化为了一个特定条件下的工程问题,且对通用性和鲁棒性避而不谈。 📌 核心摘要 问题:解决在LibriBrain 2025竞赛中,从低信噪比的MEG信号中准确检测语音/静默段的问题。作者指出,直接从MEG回归语音特征(如梅尔频谱图)的精度(Pearson相关系数~0.4)不足以支持此任务。 方法核心:提出一个两阶段框架:首先,使用对比学习模型从大规模外部音频库(约60% LibriVox)中检索与给定测试MEG最匹配的语音片段;其次,使用一个语音检测模型,根据检索到的语音片段(及其经过处理的版本)直接生成二进制语音/静默序列。 新在哪里:不同于主流的直接从MEG回归特征的范式,该方法绕过了直接重建的难题,转而利用外部数据库进行检索,将“重建问题”转化为“检索与模式匹配问题”。 实验结果:该方法在LibriBrain竞赛扩展赛道取得了第一名,F1-score为0.962。对于测试MEG数据(总时长2243秒)中从1398秒开始的后半部分,通过检索匹配到了LibriVox中的特定有声书(studyinscarlet13)并成功生成序列;对于前1398秒,因在下载的60% LibriVox子集中未找到匹配音频,回退使用简单CNN+LSTM回归方法。 实际意义:证明了在存在大规模外部音频库的特定场景下,利用检索策略辅助脑信号解码的可行性,为竞赛任务提供了第一名的解决方案。 主要局限性:方法严重依赖测试音频存在于预定义的外部库中(论文中仅为60% LibriVox子集),无法处理库中没有的语音内容;对于未找到匹配音频的信号段,性能依赖于简单基线;整体框架的通用性和跨任务泛化能力未得到验证。 🔗 开源详情 代码:论文中未提及作者自己训练模型的代码链接。 模型权重: 预训练模型权重:论文中提及并提供了外部预训练模型权重链接:https://huggingface.co/facebook/wav2vec2-base-960h。 作者团队训练的模型权重:包括MEG编码器、对比学习模型、语音检测模型,均未提供下载链接。 数据集: LibriVox数据集:论文中提及,并提供了下载主站链接:https://www.audiobooks.com。论文使用了约60%的数据(约10,000本有声读物),但未提供其使用的具体子集列表或下载脚本。 Libriaudio:作者根据比赛组织者提供的语音源URL从LibriVox下载并整理的完整音频文件集合,用于后续合成MEGaudio。未提供此数据集的直接下载链接。 MEGaudio:通过将event.tsv文件中记录的静音段插入Libriaudio对应位置后合成的音频,作为训练MEG-语音匹配模型和语音检测模型的直接输入。论文未提供此合成数据集的直接下载链接,但描述了其构建方法。 LibriBrain 2025竞赛数据集:论文未提及该竞赛数据集的独立下载链接。 Demo:论文中未提及。 复现材料: 训练配置:论文提供了详细的模型训练超参数(如学习率1×10⁻³、批量大小、温度参数τ=0.015、训练停止条件等)。 数据划分:明确说明了使用Sherlock 1任务的第9、10会话作为验证集,第11、12会话作为测试集,其余作为训练集。 模型架构:指定了MEG编码器使用ConvConcatNet架构(引用自文献[20]),但未提供该架构的具体实现细节。 检查点:论文中未提及检查点的公开获取方式。 论文中引用的开源项目: Wav2vec 2.0:论文中明确使用了其预训练模型,并提供了HuggingFace链接:https://huggingface.co/facebook/wav2vec2-base-960h。 Adam优化器:论文中使用了Adam优化器进行模型训练,但未提供其具体实现(如PyTorch或TensorFlow)的链接。 ConvConcatNet:论文中引用为文献[20],但未提供该架构的具体代码链接。 🏗️ 方法概述和架构 本文提出了一种两阶段流水线框架,用于从MEG信号中检测语音活动。该框架的核心思想是规避从低信噪比MEG信号中直接重建语音特征的困难,转而采用“检索-分析”的策略。 ...

2026-05-14 · 更新于 2026-06-19 · 2 min · 252 words

Decoupled Azimuth Elevation AoA Estimation Exploiting Kronecker Separable Steering Matrices

📄 Decoupled Azimuth Elevation AoA Estimation Exploiting Kronecker Separable Steering Matrices #声源定位 #信号处理 #麦克风阵列 #到达角估计 ✅ 7.0/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #到达角估计 | arxiv 学术质量 6.5/8 | 影响力 1.0/2 | 可复现性 0.0/1 | 置信度 高 👥 作者与机构 第一作者:Faizan A. Khattak(利兹大学计算机科学学院) 通讯作者:未明确标注(论文未在作者信息中指定通讯作者) 作者列表:Faizan A. Khattak(利兹大学计算机科学学院)、Ian K. Proudler(斯特拉斯克莱德大学电子电气工程系)、Stephan Weiss(斯特拉斯克莱德大学电子电气工程系)、Fazal-E Asim(巴西联邦大学Ceará分校电信工程系) 💡 毒舌点评 本文提出了一种利用导向矢量的Kronecker可分离结构对二维到达角估计进行维度解耦的框架,推导严谨,为一类特定阵列结构提供了清晰的计算路径。然而,其“state-of-the-art”的声称因基线选择的局限性而大打折扣,实验对比缺乏与近年(2020年后)其他高效二维估计方法的直接较量,且未提供任何可复现材料,这在一定程度上削弱了其说服力。 📌 核心摘要 要解决什么问题:如何在均匀矩形阵列(URA)及其结构化非均匀变体(NURA)中,高效且准确地进行二维到达角(AoA,包括方位角和仰角)估计。传统二维MUSIC等算法计算复杂度高,而现有的一些快速算法(如RD-MUSIC)在精度上有所损失。 方法核心是什么:提出了一种子空间解耦框架。核心思想是,当阵列导向矢量可以表示为方位和仰角导向矢量的Kronecker乘积时,其对应的导向矩阵可以表示为Khatri-Rao乘积。论文推导出如何从阵列协方差矩阵的信号子空间出发,通过一系列矩阵重塑(unvec)、行/列提取、水平拼接和SVD操作,分别恢复出方位和仰角方向的独立信号子空间。 与已有方法相比新在哪里:新在“解耦”思想及其低复杂度的矩阵实现。与直接进行二维谱搜索的MUSIC或基于子阵的ESPRIT不同,本方法在预处理阶段将二维问题分解为两个独立的一维问题,使得经典的一维算法(如root-MUSIC, ESPRIT)可以独立应用于每个维度,最后再进行角度配对。这避免了昂贵的二维谱搜索或复杂的张量运算。 主要实验结果如何:仿真表明,对于URA,在低信噪比和有限快拍数下,所提的De-RMUSIC和De-ESPRIT算法在RMSE性能上优于对比的RD-MUSIC和ESPRIT-MIMO,且对于大阵列优势更明显(见图2、图3)。计算时间上,De-ESPRIT略慢于ESPRIT-MIMO,但远快于RD-MUSIC(见图4)。对于NURA,所提De-MUSIC在保持与2D-MUSIC相当精度的同时,计算复杂度显著降低(见图5、图6),其优化版本De-MUSIC-Opt通过单变量非线性优化进一步提升了效率。 实际意义是什么:为大规模MIMO、三维定位等应用场景中广泛使用的矩形平面阵列提供了一种计算效率更高、在特定条件下精度更优的AoA估计方案,尤其适用于对功耗或计算实时性要求较高的系统。 主要局限性是什么:方法所能估计的源数量存在理论上限(min{M, N}-1),少于传统二维方法(MN-1)。实验对比的基线方法选择有限,未能与近年提出的其他高效二维估计方法进行比较。论文未提供任何代码或可复现材料。此外,所有结论均基于理想化的仿真模型,未考虑实际阵列中的非理想因素。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文未提供代码,但提供了详细的仿真参数(如URA/NURA尺寸、源角度、信噪比范围、快拍数L、RMSE定义)和性能指标,可基于此在MATLAB中复现仿真结果。 论文中引用的开源项目:未提及具体的第三方开源项目链接,主要引用学术文献中的算法(如MUSIC [16], root-MUSIC [11], ESPRIT [15], RD-MUSIC [19], ESPRIT-MIMO [10], gold-MUSIC [14]等)。 🏗️ 方法概述和架构 图1展示了论文所研究的阵列几何结构:(a) 结构化非均匀矩形阵列(NURA)和 (b) 结构化非均匀平行四边形阵列(NUPgA)。图中蓝点表示传感器位置。其核心结构特点是,水平方向上各行传感器的间距模式是相同且与行索引无关的,垂直方向上各列传感器的间距模式也是相同且与列索引无关的。这种结构保证了完整的阵列导向矢量可以分解为水平(方位)和垂直(仰角)导向矢量的Kronecker积,即公式(1):𝐚(μh,μv) = 𝐚h(μh) ⊗ 𝐚v(μv)。这为后续的维度解耦提供了数学基础。 ...

2026-05-14 · 更新于 2026-06-19 · 2 min · 331 words

Does language matter for spoken word classification? A multilingual generative meta-learning approach

📄 Does language matter for spoken word classification? A multilingual generative meta-learning approach #音频分类 #少样本学习 #多语言 #关键词检测 #元学习 ✅ 6.0/10 | 前50% | #音频分类 | #少样本学习 | #多语言 #关键词检测 | arxiv 学术质量 4.0/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Batsirayi Mupamhi Ziki 通讯作者:未说明 作者列表:Batsirayi Mupamhi Ziki, Louise Beyers, Ruan van der Merwe 💡 毒舌点评 论文提出了一个有价值的经验性问题——多语言建模在少样本口语词分类中是否优于单语言建模,并给出了一个初步答案:在特定的生成式元学习(GeMCL)框架下,增加语言种类带来的性能提升可能远小于预期,数据量可能是一个更强的影响因素。然而,其结论的强度被一个关键的实验设计所限制:所有模型都基于同一个GeMCL框架,且缺乏与更广泛、更常见的基线(如标准监督学习微调、其他元学习算法)的全面对比。因此,“语言不重要”的结论更像是“在GeMCL这一特定框架下的观察”,而非一个普适规律。论文自我意识到了这一点的局限,并谨慎地提出了未来工作方向。 📌 核心摘要 要解决的问题:本文探讨在少样本口语词分类(关键词检测)任务中,使用多语言数据训练的模型是否一定优于单语言模型,并探究“语言”在其中的作用。 方法核心:采用生成式元持续学习(GeMCL)框架,该框架结合了元学习(处理少样本)和贝叶斯生成建模(为每个类别建模高斯分布),并具有抗灾难性遗忘的特性。实验分别在MSWC数据集的四种高资源语言上训练了单语言、双语言和多语言GeMCL模型。 与已有方法的对比:该工作将GeMCL这一结合了元学习和持续学习特性的算法,应用于多语言口语词分类这一交叉场景。其核心分析视角(在相同框架下,系统比较不同语言组合训练的模型性能)相较于简单地应用该算法,提供了一种新颖的经验性比较。 主要实验结果:在多语言口语词语料库(MSWC)上进行25-way 5-shot评估。 表2 显示,在四种训练语言上,单语言模型与多语言模型的平均准确率差异微小且统计不显著(例如,德语单语93.99% vs. 多语言93.96%)。 对于未见过的语言,多语言模型仅在统计上显著优于双语模型(11种语言)和各单语言模型(29-38种语言)。但单语模型与多语言模型的平均绝对准确率差从未超过6%(见图3)。 图2 的箱线图揭示了一个关键发现:模型性能与训练期间见到的独特数据小时数的相关性,似乎比与训练语言数量的相关性更强。例如,双语模型(数据量较大)与多语言模型的平均绝对差仅约1%。 实际意义:该研究暗示,在构建高效的多语言少样本语音分类系统时,简单地增加训练语言数量可能并非最有效的策略;确保充足、多样的训练数据量可能更为关键。这为低资源语言系统设计提供了经验参考。 主要局限性:实验仅基于GeMCL这一种元学习框架,结论的普适性受限;与传统非元学习基线的比较缺失;未深入分析不同语言在特征空间的可分性差异。作者在结论中明确承认了这些局限,并指出需要进一步研究。 🔗 开源详情 代码:论文中未提及代码仓库链接 模型权重:论文中未提及模型权重链接 数据集:Multilingual Spoken Words Corpus (MSWC);论文中提及其由Mazumder等人(2021b)发布,但未提供直接链接。可通过作者在论文中引用的原始文献获取相关信息。 Demo:论文中未提及在线演示链接 复现材料:论文中提供了模型架构细节(12层12头Transformer,85,066,756参数)、训练超参数(AdamW优化器,权重衰减1e-2,学习率5e-5,训练2000步)、元学习设置(25-way-5-shot)等信息,但未提供检查点或完整配置文件下载。 论文中引用的开源项目: Multilingual Spoken Words Corpus (MSWC):论文中引用其为Mazumder et al., 2021b,但未提供URL。 GeMCL (Generative Meta-Continual Learning):论文中引用为Banayeeanzade et al., 2021 和 Lee et al., 2024,但未提供代码仓库链接。 模型无关元学习 (MAML):论文中引用为Finn et al., 2017,但未提供代码链接。 原型网络 (Prototypical Networks):论文中引用为Snell et al., 2017,但未提供代码链接。 AdamW优化器:论文中引用为Loshchilov and Hutter, 2019,但未提供链接。 遗漏灾难性遗忘免疫:GeMCL算法的特性,论文中引用为Banayeeanzade et al., 2021,但未提供单独代码链接。 🏗️ 方法概述和架构 整体流程概述:本文采用生成式元持续学习(GeMCL)框架,这是一个结合了元学习和贝叶斯生成建模的端到端少样本分类系统。系统的核心流程是:在元训练阶段,通过采样大量“N-way K-shot”任务来优化一个共享的音频编码器和贝叶斯分类器的先验参数;在元测试阶段,对于新的少样本分类任务,利用支持集数据更新类别的后验分布,并对查询集样本进行分类。 ...

2026-05-14 · 更新于 2026-06-19 · 2 min · 326 words

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

📄 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents #语音对话系统 #基准测试 #语音质量评估 #端到端 #语音合成 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Tara Bogavelli(ServiceNow) 通讯作者:Tara Bogavelli(ServiceNow,tara.bogavelli@servicenow.com) 作者列表:Tara Bogavelli(ServiceNow)、Gabrielle Gauthier Melançon(ServiceNow)、Katrina Stankiewicz(ServiceNow)、Oluwanifemi Bamgbose(ServiceNow)、Fanny Riols(ServiceNow)、Hoang H. Nguyen(ServiceNow)、Raghav Mehndiratta(ServiceNow)、Lindsay Devon Brin(ServiceNow)、Joseph Marinier(ServiceNow)、Hari Subramani(ServiceNow)、Anil Madamala(ServiceNow)、Sridhar Krishna Nemala(ServiceNow)、Srinivas Sunkara(ServiceNow) 💡 毒舌点评 论文提出了一个极其详尽且工程上完备的端到端语音智能体评估框架,其模拟验证闭环和双维度指标设计直击当前领域评估不全面的痛点;然而,具有讽刺意味的是,如此严谨的评估工具揭示了一个尴尬的现实:即便是最顶尖的商业语音模型,在可靠性(pass^k)和鲁棒性上依然表现拙劣,且评估成本高昂。这使得该框架短期内更像一面照妖镜,而非即插即用的优化指南。 📌 核心摘要 本文提出了EVA-Bench,一个针对企业级语音智能体的端到端评估框架,旨在解决现有基准测试在生成逼真对话模拟和全面测量语音特定故障模式方面的不足。 方法核心在于一个模拟验证闭环:框架通过一个用户模拟器与被测智能体进行实时bot-to-bot音频多轮对话,并包含一个自动化验证机制,在评分前检测并再生模拟器行为漂移的对话。评估指标方面,引入了两个复合分数:EVA-A(准确性,涵盖任务完成、策略忠实度、语音内容保真)和EVA-X(体验感,涵盖对话推进、口语化简洁度、轮次时机),两者均被设计为适用于级联和端到端架构,支持直接比较。 与已有方法(如τ-Voice, FDB-v3)相比,EVA-Bench的新颖性体现在:1)同时整合了带验证的实时多轮模拟、控制变量的声学扰动套件和架构无关的综合度量体系;2)借鉴了代码生成领域的概念,提出了基于多试次一致性的pass@1, pass@k, pass^k度量,明确区分峰值性能与可靠性能;3)首次包含了对智能体语音输出内容保真度的音频级评估(Speech Fidelity)。 主要实验结果表明:1)在评估的12个系统中,没有一个系统能在EVA-A和EVA-X的pass@1指标上同时超过0.5;2)峰值性能(pass@k)与可靠性能(pass^k)差距巨大,中位数在EVA-A上达到0.44;3)声学扰动(如法语口音、咖啡店噪声)会显著降低性能,且对级联架构的准确性和对端到端架构的体验感影响不同。例如,法语口音导致级联系统任务完成率平均下降10个百分点,而对端到端系统影响甚微。 该工作的实际意义在于为语音智能体提供了首个标准化、全面且公平的跨架构评估工具,其开源发布有望推动该领域研究从孤立组件优化转向端到端系统质量提升。 主要局限性包括:评估依赖于模拟用户,其行为可能无法完全代表真实人类呼叫者;评估成本高昂;当前仅覆盖英语和特定企业领域;LLM裁判可能存在偏差,尤其是对同家族模型;评估框架未涵盖有害内容、隐私泄露等安全维度,也不支持复杂架构(如多智能体)。 ...

2026-05-14 · 更新于 2026-06-19 · 3 min · 545 words

EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales

📄 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales #多智能体协同 #测试时演化 #强化学习 #知识迁移 #无训练方法 🔥 8.0/10 | 前25% | #多智能体协同 | #测试时演化 | #强化学习 #知识迁移 | arxiv 学术质量 7.0/8 | 影响力 0.75/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Yaolun Zhang(Oregon State University, AG2AI, Inc.), Tianyi Xu(University of Wisconsin–Madison) 通讯作者:未明确指定(提供了多位作者的邮箱) 作者列表:Yaolun Zhang (Oregon State University, AG2AI, Inc.), Tianyi Xu (University of Wisconsin–Madison), Shengyu Dai (Johnson & Johnson), Zhenwen Shao (Johnson & Johnson), Qingyun Wu (Pennsylvania State University, AG2AI, Inc.), Huazheng Wang (Oregon State University, AG2AI, Inc.) 💡 毒舌点评 论文核心创新在于提出了一个非对称的知识路由机制(CoDream),有效解决了多智能体测试时演化中“专业化稀释”与“跨智能体学习缺失”的两难问题,并在三个异构任务流上取得了扎实的性能提升。然而,其框架的复杂度和高达3.6倍的单智能体推理成本是一个明显的短板,在追求“演化智能”的同时,如何控制“智能成本”是其走向实用化的关键挑战。此外,对启发式阈值的依赖和有限的评估模型规模,也使其结论的泛化性面临质疑。 ...

2026-05-14 · 更新于 2026-06-19 · 3 min · 444 words

GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language

📄 GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language #基准测试 #几何推理 #多模态模型 ✅ 7.0/10 | 前25% | #几何推理 | #基准测试 | #多模态模型 | arxiv 学术质量 6.9/8 | 影响力 0.7/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jinwoong Kim(北京大学,王选计算机技术研究所) 通讯作者:未说明 作者列表:Jinwoong Kim(北京大学,王选计算机技术研究所)、Rui Yang(北京大学,王选计算机技术研究所)、Huishuai Zhang(北京大学,王选计算机技术研究所) 💡 毒舌点评 亮点:论文提出了一个极具价值的新评估范式——将几何推理的焦点从“答案正确性”或“视觉相似度”转移到“可执行性”和“几何约束满足”上。通过设计一个支持迭代修复的交互式环境(GeoBuildBench),为严格评估模型的结构化推理、规则遵循和错误修正能力提供了一个创新的测试床。这对于理解和改进智能体(Agent)的具身推理能力有重要意义。 短板:论文的“方法”部分更多是环境构建与评估框架设计,而非提出新的模型架构或学习算法。此外,虽然评估了多个前沿模型,但对模型在迭代过程中具体修正策略的分析(如面对特定约束反馈时的推理路径)仍停留在统计层面,缺乏更深入的定性案例研究来揭示“为什么”某些模型修正能力更强。 📌 核心摘要 问题:现有的几何推理基准主要关注文本答案的正确性或生成图像的视觉相似度,忽略了将自然语言描述转化为几何一致、可执行的构造图这一关键且具有挑战性的步骤。这导致模型可能产生“结构性幻觉”——输出看似合理,但内部的几何关系(如平行、相切)或对象引用是错误的。 方法核心:提出GeoBuildBench,一个用于评估几何构造能力的交互式基准和环境。核心任务是:模型根据中文几何题文本,生成一个领域特定语言(DSL)程序来构造几何图形。环境执行程序、渲染图形,并通过一个验证模块检查对象覆盖(所有必需对象是否创建)和几何约束满足(如角度值、距离相等、平行等),随后将结构化反馈(错误、缺失对象、违反的约束)返回给模型,形成“生成-执行-验证-修复”的闭环交互。 创新点:其新意在于:(1) 定义了可执行几何构造这一新的评估任务,而非静态问答或图像生成;(2) 设计了基于几何约束满足(数值验证)而非视觉相似度的客观评估体系;(3) 构建了支持迭代修复的交互式环境,评估模型的闭环推理能力;(4) 通过严格流程构建了一个文本完整、几何可构造的高质量数据集(489个问题)。 实验结果:对GPT-5.1、Gemini-3-Flash、Qwen3-VL-235B和LLaMA-3.2-90B-Vision四个模型进行了评估,最大迭代预算为5步。前沿闭源模型(GPT-5.1, Gemini-3-Flash)成功率较高(78.9%, 75.3%),但开源模型(Qwen3-VL, LLaMA-3.2-Vision)表现显著较差(42.2%, 21.3%)。所有模型普遍存在结构幻觉(如引用未定义对象)和约束违反问题,且利用反馈进行自我修正的能力有限,表现为修复速度慢或幻觉持续。关键数据见下表: 模型 成功率(%) 平均步数(↓) 幻觉数/问题(↓) 缺失对象数(↓) 违反约束数(↓) GPT-5.1 78.9 1.87 0.40 939 1119 Gemini-3-Flash 75.3 1.55 0.34 329 932 Qwen3-VL-235B 42.2 2.30 2.30 2042 1817 LLaMA-3.2-90B-Vision 21.3 2.23 2.38 1823 1584 补充关键细节:Gemini-3-Flash的平均幻觉恢复步数最短(1.17步),表明其从错误中学习的效率最高。在难度分析(Table 18)中,即使是最强的GPT-5.1,在最高难度(Level 4)问题上的成功率也降至65.7%。 实际意义:该基准为评估和理解大模型的结构化输出能力、规则遵循能力和闭环错误修复能力提供了严格框架,揭示了当前多模态模型在将语言精确映射到符号化构造步骤并维持状态一致性方面的弱点,对发展更可靠的几何推理智能体和具身AI有直接启发。 局限性:基准范围限于中国平面几何问题和预定义的DSL及验证条件集;评估结果依赖于固定的交互协议(如5步预算、特定提示模板);对模型如何利用反馈的深层机制分析不足。 🔗 开源详情 代码:https://github.com/ooongs/GeoBuildBench 模型权重:论文中未提及。论文评估了多个第三方模型,但未发布自研模型权重。 数据集:GeoBuildBench 数据集(包含489个中文平面几何问题及标注)。论文未提供独立的数据集下载链接,但代码仓库很可能包含数据集。 Demo:论文中未提及。 复现材料:论文附录(Appendix A-H)提供了详细的复现材料,包括: GeoDSL 快速参考:完整的语法、命令和执行语义(附录A)。 验证语义与失败模式:支持的验证条件类型、对象覆盖检查和数值容差的详细定义(附录B)。 完整系统提示词:用于代理(agent)的完整系统提示词(附录C)。 任务解析与标注提示词:用于数据过滤、清洗和标注几何问题的具体提示词(附录D)。 数据集统计与标注细节:类别分布、构建难度分布及解释(附录E)。 可视化构造示例:一个可构造问题和一个不可构造问题的详细GeoDSL代码与渲染图(附录F)。 详细评估诊断:模型性能的整体诊断、幻觉类型分析、缺失对象分析、验证条件失败分析、反馈利用率指标等(附录G)。 附加评估结果:跨语言评估和按难度分级的成功率分析(附录H)。 论文中引用的开源项目:论文中提到了多个相关工作,包括GeoQA, Geometry3K, Inter-GPS, GMB/GMBL, MagicGeo/MagicGeoBench, GeoUni, AlphaGeometry, GEOS,但未提供其具体开源链接。 🏗️ 方法概述和架构 GeoBuildBench构建了一个代理-环境交互循环,用于评估几何构造能力。核心流程为:输入自然语言几何问题 → 代理生成一个GeoDSL程序 → 几何内核执行程序并更新几何状态 → 渲染器基于状态生成图像 → 验证模块根据任务定义(必需对象和验证条件)检查执行结果,生成通过/失败的结构化反馈 → 将图像与反馈一起返回给代理 → 代理根据反馈迭代修改程序,直到验证通过或达到预算上限。 ...

2026-05-14 · 更新于 2026-06-19 · 2 min · 357 words

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs #音视频 #高效推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音视频 | #高效推理 | #多模态模型 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(Korea Advanced Institute of Science and Technology (KAIST)) 通讯作者:未明确说明(论文中列出的通讯作者地址为“Equal contribution”,与第一作者相同) 作者列表:Chaeyoung Jung(KAIST)、Kyeongha Rho(KAIST)、Joon Son Chung(KAIST) 💡 毒舌点评 这篇论文的“移除音频已知,保留音频未知”的剪枝思想确实新颖且直观,实验结果也非常亮眼,尤其是在Qwen2.5-Omni 7B上能以55%的压缩率保持甚至超越全token性能。但尴尬的是,方法最核心的“保留空间细节”分支(图2中标注2⃝)依赖于一个固定的全局空间保留比例ρspa,这在处理如球员球衣号码、面部表情等高度局部化、信息量集中的细节时显得非常脆弱,论文的失败案例也明确证实了这一点。一个自适应的、可能依赖内容或查询的空间预算分配机制,才是该方法从“有效”迈向“鲁棒”的关键下一步。此外,将所有实验仅限于短视频片段,其结论在长视频场景下的普适性存疑。 📌 核心摘要 要解决什么问题:全模态大语言模型(Omni-LLMs)在处理音视频输入时,会产生大量token,导致计算开销巨大,阻碍了实际部署。现有的token剪枝方法要么针对特定任务训练,要么过度依赖音频-视觉的强对齐信号,可能丢弃理解宽泛上下文所需的证据。 方法核心是什么:论文提出了一个名为ContextGuard的推理时token剪枝框架。其核心思想是将token压缩从“选择重要token”重新定义为“移除跨模态冗余,同时保留音频无法表达的视觉上下文”。具体实现包含三个主要步骤:a) 音频引导的语义剪枝:使用一个轻量级的音频到视觉语义预测器(A2V Predictor)从音频预测粗糙视觉语义,移除与预测语义高度相似(即可被音频解释)的视频token;b) 空间细节保留:通过网格采样和局部空间变化度量,额外保留一部分token以覆盖图像空间,保存颜色、姿态等音频无法指定的局部细节;c) 基于深度分数的时间合并:对时间上相似的chunk进行分段和合并,进一步压缩冗余帧。 与已有方法相比新在哪里:与现有训练基础的(如EchoingPixels, OmniSIFT)或基于对齐的(如OmniZip)方法不同,ContextGuard不追求为当前查询选择最相关的token,而是致力于去除被音频流冗余表达的视觉信息,并主动保留那些与音频不匹配的视觉证据(如场景文字、背景物体),以维护更广泛的上下文信息。 主要实验结果如何:在Qwen2.5-Omni(7B/3B)和Video-SALMONN2+(7B/3B)两个模型及六个音视频基准测试上,ContextGuard显著优于基线方法。关键结果如表1所示: Method Comp.↑ (%) World.↑ Daily.↑ Video-MME↑ OmniVid.↑ AVQA↑ video-SAL2.↓ Avg.↑ (%) Qwen2.5-Omni 7B Full Token 0 47.4 57.1 78.8 48.2 87.6 48.1 100.0 Random 50 45.7 52.4 78.4 43.4 86.7 50.4 95.4 FastV 50 45.6 56.6 77.9 47.6 87.0 49.8 98.1 OmniZip 54 46.8 56.6 77.1 47.0 87.0 52.8 97.3 ContextGuard 55 47.7 57.2 78.8 48.2 87.1 48.1 100.0 Qwen2.5-Omni 3B Full Token 0 47.7 57.7 75.8 44.0 87.6 53.5 100.0 Random 50 44.1 53.1 74.0 42.8 87.1 56.1 95.7 FastV 50 46.7 55.6 74.0 44.0 87.2 54.6 98.2 OmniZip 54 47.1 55.8 74.9 42.8 87.3 52.4 98.9 ContextGuard 61 47.7 56.6 75.8 45.2 87.3 52.3 100.5 Video-SALMONN2+ 7B Full Token 0 50.7 56.3 79.2 43.4 67.8 18.9 100.0 Random 50 47.3 51.6 76.2 39.5 66.8 25.7 90.7 FastV 50 46.3 51.8 79.2 42.2 66.1 24.0 92.8 OmniZip 49 47.8 53.8 79.2 42.8 68.8 22.4 95.7 ContextGuard 55 50.6 55.5 81.4 47.0 66.9 19.9 100.5 Video-SALMONN2+ 3B Full Token 0 48.1 57.7 76.2 45.8 81.6 22.7 100.0 Random 50 44.3 51.6 73.2 42.0 81.2 30.3 90.6 FastV 50 45.6 53.2 71.0 36.1 81.0 27.4 90.2 OmniZip 49 45.6 54.7 73.2 41.6 81.3 26.3 93.7 ContextGuard 56 47.1 55.5 73.6 44.6 81.4 24.2 96.9 特别是在Qwen2.5-Omni 7B上,剪枝55%的token后,在6个基准中的5个上达到了全token性能。 实际意义是什么:该方法为部署高效的全模态大模型提供了有力的工具,通过一个无需微调下游LLM、仅需一个独立训练的轻量预测器的推理时框架,大幅降低了音视频理解的计算成本和内存占用,对实时交互应用具有重要价值。 主要局限性是什么:方法依赖于固定的精细粒度空间保留比例(ρspa),这可能导致在需要非常具体局部细节的任务(如识别球衣号码、细微表情)上表现不佳,正如其失败案例所示。此外,所有评估均基于短于1分钟的视频片段,限制了结论对长视频场景的适用性。A2V预测器的鲁棒性在不同内容类型(如音乐视频)上未被充分讨论。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: WorldSense: 论文中未提供链接。 Daily-Omni: 论文中未提供链接。 Video-MME: 论文中未提供链接。 AVQA: 论文中未提供链接。 OmniVideoBench: 论文中未提供链接。 video-SALMONN2 test set: https://huggingface.co/datasets/videoSALMONN2/video-SALMONN_2_testset AudioSet: 论文中提及,未提供具体链接。 VGGSound: 论文中提及,未提供具体链接。 Demo:论文中未提及。 复现材料:论文提供了详细的附录,包括 A2V 预测器的架构、训练目标、训练数据(AudioSet 和 VGGSound)、超参数设置、以及各项分析实验的细节(如语义保留比例、空间细节保留策略、时序合并实现等)。未提及训练检查点或代码库。 论文中引用的开源项目: Qwen2.5-Omni: 论文中作为基线模型使用,未提供代码或权重仓库链接。 Video-SALMONN2+: 论文中作为基线模型使用,未提供代码或权重仓库链接。 OmniZip: 论文中作为对比方法,未提供代码或仓库链接。 FastV: 论文中作为对比方法,未提供代码或仓库链接。 🏗️ 方法概述和架构 整体流程概述:ContextGuard是一个在LLM解码器之前运行的、多阶段的音视频token剪枝框架。其输入为交替的音视频token序列,输出为压缩后的视觉token序列和完整的音频token序列。该框架并非端到端系统,而是由一个独立训练的轻量级A2V预测器和一个基于启发式规则的剪枝-合并流水线组成。 ...

2026-05-14 · 更新于 2026-06-19 · 3 min · 510 words

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

📄 Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction #多模态模型 #医疗音频 #自洽学习 #提示工程 #动机访谈编码 ✅ 6.0/10 | 前50% | #动机访谈编码 | #自洽学习 | #多模态模型 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Guangzeng Han (University of Memphis, Department of Computer Science) 通讯作者:Xiaolei Huang (Department of Psychology, Washington State University Vancouver; 论文发表时隶属于University of Memphis) 作者列表:Guangzeng Han (University of Memphis), James G. Murphy (Veterans Affairs Health Care System; University of California San Francisco), Benjamin O. Ladd (University of Memphis), Xiaolei Huang (Washington State University Vancouver), Brian Borsari (Washington State University Vancouver) 💡 毒舌点评 本文将自洽推理从纯文本扩展至多模态临床编码,并设计了四种具有临床动机(内容、韵律、证据评分、对比)的提示策略,展现了在垂直领域应用大模型的工程巧思;然而,在一个仅含5个会话、898个话语的小规模数据集上,仅与两个简单的提示基线(Direct, COT)对比,且绝对性能(宏F1 < 51%)较低,严重削弱了方法“优越性”的证明力度和普适性结论,更像是一次概念验证(proof-of-concept)。 ...

2026-05-14 · 更新于 2026-06-19 · 2 min · 381 words

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

📄 NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating #音频事件检测 #音频大模型 #长音频处理 #零样本 ✅ 7.0/10 | 前25% | #音频事件检测 | #音频大模型 | #长音频处理 #零样本 | arxiv 学术质量 7.0/8 | 影响力 0.85/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Zhongju Yuan(根特大学) 通讯作者:未说明 作者列表:Zhongju Yuan(根特大学), Geraint Wiggins(根特大学), Dick Botteldooren(根特大学) 💡 毒舌点评 这篇论文提出了一个名为NAACA的框架,其核心是受神经科学启发的振荡工作记忆(OWM)模块。该设计巧妙地将听觉显著性检测重构为一个无需训练的在线滤波问题,在暴力音频检测任务上取得了显著的性能提升和计算节省。生物启发的理论基础和严格的数学证明是其最大亮点。然而,该框架的性能上限完全受制于上游预训练编码器(PANN)和音频语言模型(AudioQwen)的能力,且其在单一、偏“电影化”的数据集(XD-Violence)上的评估,以及仅以定性方式展示的通用性(USoW),使其更像一个针对特定任务精心设计的“门控插件”,而非一个经过充分验证的普适性架构革新。 📌 核心摘要 这篇论文旨在解决当前音频语言模型(ALM)在处理长音频流时面临的“注意力稀释”问题——即模型的注意力容易被持续存在的背景模式所占据,从而遗漏后期出现的稀有但关键的声音事件。为此,论文提出了一种名为NAACA的无需训练的框架,其核心是一个受神经科学启发的“振荡工作记忆”(OWM)模块。OWM将预训练编码器输出的类别概率转化为频率调制的振荡驱动信号,并在一个二维网格上维持动态的吸引子状态,通过监测系统总能量的波动来自适应地检测声音场景的“显著性变化”。仅当检测到显著变化时,才将对应的原始音频片段送入ALM进行语义推理。与基于统计或表示学习的传统漂移检测方法不同,OWM不依赖长期历史数据缓存。实验表明,在XD-Violence数据集上,NAACA将AudioQwen的平均精度(AP)从53.50%提升至70.60%,同时通过门控机制减少了约40%的ALM调用次数。在USoW数据集上的定性分析展示了OWM检测新事件、抵抗瞬态暂停以及捕捉子类别变化的能力。论文的局限性在于其性能受限于所选编码器和ALM的固有能力,且当前定量评估主要集中在异常检测任务上。 🔗 开源详情 代码:https://github.com/zjyuan1208/NAACA-Oscillatory-Working-Memory 模型权重:论文中未提供专用模型权重链接。文中使用的预训练模型如PANN和AudioQwen为公开模型,但论文未提供其具体的权重下载链接或版本号。 数据集:论文中未提供专用数据集链接。文中使用的数据集XD-Violence和Urban Soundscapes of the World (USoW) 均为已发表的公开数据集。 Demo:论文中未提及 复现材料:论文的附录B提供了完整的载波频率分配与网格映射策略、附录C提供了主检测算法(C.1)和自适应阈值计算算法(C.2)的伪代码、附录J提供了额外的FFT频谱分析图。这些附录内容为复现OWM模块提供了关键的算法细节和参数配置。 论文中引用的开源项目: PANN:论文中未提供链接(知名的预训练音频特征提取模型)。 AudioQwen:论文中未提供链接(作为ALM基线使用的模型)。 HL-Net:论文中未提供链接(作为监督音频基线被引用)。 AVadCLIP:论文中未提供链接(作为监督音频基线被引用)。 S3R:论文中未提供链接(作为监督视频基线被引用)。 VadCLIP:论文中未提供链接(作为监督视频基线被引用)。 Holmes-VAU:论文中未提供链接(作为监督视频基线被引用)。 TRACE:论文中未提供链接(作为零样本视频基线被引用)。 🏗️ 方法概述和架构 NAACA是一个多阶段的、无需训练的在线音频处理流水线,旨在为音频语言模型(ALM)提供显著性门控,以实现高效、准确的长音频理解。其整体流程为:输入音频流 → 分段与编码 → 基于OWM的显著性检测 → 选择性ALM推理 → 输出语义解释。 ...

2026-05-14 · 更新于 2026-06-19 · 2 min · 362 words

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Wei Wu(北京大学) 通讯作者:Hao Tang(北京大学,邮箱:bjdxtanghao@gmail.com) 作者列表:Wei Wu(北京大学),Ziyang Xu(北京大学),Zeyu Zhang(北京大学,项目负责人),Yang Zhao(La Trobe University),Hao Tang(北京大学) 注:论文明确标注前三位作者(Wei Wu, Ziyang Xu, Zeyu Zhang)贡献相等(Equal contribution)。 💡 毒舌点评 本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”,并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式(单人演讲、多人讨论、交互问答)的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而,其主要弱点在于核心贡献更偏向系统集成而非底层技术创新,关键模块(如视频合成、语音生成)的技术细节几乎完全依赖于未说明的外部模型,使得论文的“技术深度”存疑。同时,评估体系严重依赖于可能同源的VLM评判者,缺乏人类评估数据的校准,使得其高分结果的说服力大打折扣。 📌 核心摘要 解决的问题:现有演示视频生成系统大多依赖用户提供完整的源文档(如论文、报告),无法处理简短、开放式的用户查询,并主动获取内容和视觉资源来生成演示视频。 方法核心:提出PresentAgent-2,一个端到端的智能体框架。系统接收用户查询和选定的演示模式,首先将查询提炼为主题,并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源(文本、图片、GIF、视频)。随后,基于这些资源规划演示结构、生成幻灯片和对应模式的脚本(单人演讲为叙述脚本,多人讨论为角色对话脚本,交互问答为基于上下文的回答),合成音频,并将幻灯片、音频和动态媒体(保持GIF/视频的可播放性)合成为最终的演示视频。 与已有方法相比的新颖之处:a) 任务设定开放:首次系统性地研究从开放查询到演示视频的生成,而非从给定文档转换。b) 内容获取主动:集成了针对演示场景优化的“深度研究”模块,主动收集多模态资源。c) 输出模式丰富:在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理:在视频合成中保留了检索到的GIF和视频的动态特性,而非将其转换为静态截图。 主要实验结果:论文构建了名为PresentEval的多模态演示基准测试集,包含60个查询-参考视频对(每种模式20对)。使用不同骨干模型(如Qwen3.5-VL-Plus)进行评估,结果显示系统在客观测验(满分5)和主观评估(满分5)上均取得较高分数(例如,使用Qwen3.5-VL-Plus时,客观测验得分均>4.8,主观评估均分均>4.3)。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。 实际意义:为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式,降低了从问题到结构化多媒体演示视频的制作门槛。 主要局限性:a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限(60例)。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情 代码:https://github.com/AIGeeksGroup/PresentAgent-2 模型权重:论文中未提及模型权重的具体下载链接(如HuggingFace/ModelScope)。 数据集:论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集(60个查询-参考视频对),但未提供其公开获取地址。 Demo:https://aigeeksgroup.github.io/PresentAgent-2 复现材料:论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。 论文中引用的开源项目: Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD:论文中仅在相关工作或表格中提及项目名称和引用,未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统,旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示:接收用户的自然语言查询q和选定的演示模式m,首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ,随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步:q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

2026-05-14 · 更新于 2026-06-19 · 3 min · 434 words