Perforated Neural Networks for Keyword Spotting

📄 Perforated Neural Networks for Keyword Spotting #关键词检测 #神经网络架构 #模型压缩 #边缘计算 📝 5/10 | 前60% | #关键词检测 | #神经网络架构 | #模型压缩 #边缘计算 | arxiv 学术质量 4/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Vishy Gopal(Purdue University) 通讯作者:未说明 作者列表:Vishy Gopal(Purdue University),Aris Ilias Goutis(Renesas Electronics),Ralph Crewe(Perforated AI),Erin Yanacek(Perforated AI),Rorry Brenner(Perforated AI) 💡 毒舌点评 亮点:将一种生物启发的训练框架(PB)应用于一个边界清晰、指标明确的边缘实用任务(KWS),并通过大规模超参数搜索在“精度-参数量”的帕累托图上展示了极具视觉说服力的优势。论文的工程价值和潜在应用吸引力显而易见。短板:这是一篇典型的“黑客松获奖报告”式论文,而非严谨的学术研究。其最核心的缺陷是实验对比的严重不足和科学严谨性的缺失:仅与一个陈旧的平台默认基线进行比较,完全回避与当前领域SOTA(如MobileNet、EfficientNet-Lite、高效剪枝/量化模型)的直接对决;核心声称(“普遍优势”)仅凭一次搜索的散点图支撑,没有任何统计显著性分析或消融实验来验证性能提升的确切来源。因此,其学术贡献大打折扣。 📌 核心摘要 要解决的问题:在边缘设备(如MCU、SoC)上部署关键词检测(KWS)模型时,面临着低内存、低算力和高精度不可兼得的矛盾。传统的模型压缩技术(如剪枝、量化)通常以牺牲精度来换取模型尺寸的减小。 方法核心:将穿孔反向传播(Perforated Backpropagation, PB)框架应用于Edge Impulse平台的KWS流程。PB在网络标准训练收敛后,为神经元添加“树突节点”。这些节点通过修改的级联相关规则(Equations 3 & 4)学习,其权重更新不通过主网络的反向传播梯度(Equation 2中对应项置零),从而在计算图中独立于主网络。 与已有方法相比新在哪里:PB被定位为一个“即插即用”的插件,而非全新的网络架构。它区别于传统压缩技术(如剪枝、量化),声称可以同时提高精度或减少参数。此前PB已在化学、金融、NLP、图像识别等领域有过验证,但本文是其首次在音频/边缘推理领域的系统性应用。 主要实验结果:在Edge Impulse KWS任务上进行了800次超参数搜索。结果显示,穿孔模型在帕累托前沿上全面超越传统模型。关键数据(来自Table 1):最优树突模型(最小超过基线精度)参数量1,556,测试精度0.933(错误率0.067);基线模型参数量3,859,测试精度0.921(错误率0.079)。与基线相比,最优模型在错误率降低16%的同时,参数量减少了60%。 实际意义:为边缘AI工程师提供了一种新的模型增强工具,通过增加少量计算复杂度(添加和训练树突节点)来换取在严格约束下的性能提升。 主要局限性:实验对比基线薄弱(仅为Edge Impulse平台默认模型),缺乏与当前轻量级SOTA模型(如MobileNet系列、EfficientNet-Lite、高效剪枝/量化模型)的对比;缺乏消融实验以验证树突节点机制本身相对于简单增加参数的有效性;实验结论基于一次超参搜索结果,缺乏统计显著性检验(如多次运行的均值、方差);论文未提供数据集规模、具体损失函数、优化器、完整超参数配置及训练硬件等关键实现细节,严重妨碍可复现性。 🔗 开源详情 代码:https://github.com/perforated-ai/dendritic-impulse-block 模型权重:论文中未提供独立的模型权重下载链接。最佳模型的参数量和测试精度在文中给出(1,556参数,0.933准确率)。相关权重文件应包含在上述代码仓库中。 数据集:论文中未提供具体的数据集名称或独立的下载链接。实验使用了Edge Impulse平台标准关键词识别教程流水线中的数据。数据集原始来源及许可信息需参考Edge Impulse平台(未在论文中给出具体链接)。 Demo:论文中未提及。 复现材料:论文中未提供详细的训练配置文件或复现文档。但提供了Weights & Biases的超参扫描报告链接:https://wandb.ai/vishy-gopal/dendritic-kws/reports/KWS-sweep-report–Vmlldzo4OTcwMzU,其中包含了所有800次试验的详细配置和结果。 论文中引用的开源项目: Perforated AI GitHub 仓库:提供论文中所有模型代码。链接:https://github.com/perforated-ai/dendritic-impulse-block Edge Impulse:关键词识别实验的平台,但论文中未给出其具体项目链接。 Weights & Biases:用于进行大规模超参数扫描的工具。链接:https://wandb.ai/vishy-gopal/dendritic-kws/reports/KWS-sweep-report–Vmlldzo4OTcwMzU 🏗️ 方法概述和架构 整体流程概述:本文提出的方法是一个分阶段的训练框架,旨在将“树突计算”模块嵌入到现有的神经网络中。其核心流程为:首先,使用标准反向传播将一个基础的卷积神经网络(由Edge Impulse平台提供)训练至收敛;然后,交替进行“神经元阶段”和“树突阶段”的迭代优化,逐步添加并冻结“树突节点”,最终得到一个包含树突节点的增强模型用于部署。 ...

2026-05-18 · 更新于 2026-06-19 · 2 min · 379 words

Real-time Speech Restoration using Data Prediction Mean Flows

📄 Real-time Speech Restoration using Data Prediction Mean Flows #音频修复 #流匹配 #实时处理 #高效推理 #均值流 #数据预测 ✅ 7.5/10 | 前25% | #音频修复 | #流匹配 | #实时处理 #高效推理 | arxiv 学术质量 6.3/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Sebastian Braun(论文未说明其所属机构) 通讯作者:论文中未明确标注通讯作者 作者列表:Sebastian Braun(论文中仅列出此一位作者,未说明其机构) 💡 毒舌点评 这篇论文定位明确,直击实时生成式语音修复中“高质量”与“低延迟、低算力”的矛盾,并通过组合技术(DP-IMF)和精心设计的新架构(RMFSR)给出了一个工程上极具吸引力的解决方案(120倍算力节省)。然而,其主观测试结果(Overall MOS 2.91)与自称“接近”的非因果上界(3.20)存在统计显著性未明的差距,且WER随NFE上升暴露了生成幻觉的风险;加之关键训练细节的缺失,使得这篇面向实用的工作在复现和全面评估上打了折扣。 📌 核心摘要 本文旨在解决生成式语音修复模型(如扩散/流匹配)因计算量大、延迟高而无法实时部署的问题。核心方法是提出一个结合数据预测(DP)损失与改进均值流(IMF) 训练的流匹配框架,并设计了一个新型低延迟卷积U-net架构(RMFSR)。相比已有工作,其主要贡献在于:1)首次将DP-IMF组合应用于音频流匹配,通过直接预测干净数据并训练大步长,减少推理步数;2)提出了针对性的训练调度(r=t比例与r-t跨度)以及流匹配分布设计(logit-normal时间采样、粉红噪声先验);3)设计了RMFSR架构,通过因果卷积、TCN瓶颈等,在将MACs/s降低120倍(从142.78G降至1.22G)的同时,仅引入STFT窗长(20ms)的算法延迟。实验在SIG2024测试集上表明,RMFSR-DP-IMF模型在多步推理(NFE>1)下,客观指标接近强大的非因果基线,主观整体MOS(2.91)相比未处理信号(2.72)有显著提升,但仍低于非因果基线(3.20)。该工作为资源受限的实时音频应用(如通信、助听器)提供了一种高效的解决方案,但其一步推理质量不佳,且与SOTA在主观感知上仍有可察觉的差距。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/sebraun-msr/realtimemeanflowspeechrestoration 模型权重:论文中未提及是否开源模型权重。 数据集: 训练数据使用了 EARS 数据集 (项目页面: https://github.com/facebookresearch/EARS)、DNS Challenge 背景噪声 (项目页面: https://github.com/microsoft/DNS-Challenge) 和 DAPS 数据集 (获取方式: https://zenodo.org/record/2594445)。 测试评估使用了 Signal Improvement Challenge 2024 (SIG2024) 测试集 (相关挑战页面: https://github.com/microsoft/Signal-Improvement-2024)。 Demo:论文中提供了音频示例页面:https://sebraun-msr.github.io/realtimemeanflowspeechrestoration/ 复现材料:论文中未提及训练配置、检查点等复现材料的具体链接或获取方式。 论文中引用的开源项目: Whisper (用于WER评估): https://github.com/openai/whisper DNS Challenge 工具包 (用于生成数据): https://github.com/microsoft/DNS-Challenge EARS 数据集: https://github.com/facebookresearch/EARS DAPS 数据集: https://zenodo.org/record/2594445 Signal Improvement Challenge 2024 (SIG2024): https://github.com/microsoft/Signal-Improvement-2024 🏗️ 方法概述和架构 整体流程概述 本文提出一个端到端的语音修复系统。输入为带失真的语音信号,首先通过短时傅里叶变换(STFT)并进行幅度压缩(系数c=0.3),得到复数压缩谱域表示X^c。该表示y与当前带噪状态xt拼接作为条件,输入到一个基于流匹配的生成模型(RMFSR)中。该模型通过迭代求解普通微分方程(ODE),从带噪的先验分布p_init逐步恢复出干净的语音谱表示x0。最终,对输出谱进行逆操作(解压缩、逆STFT),得到修复后的时域语音信号。整个流程的核心是训练一个能够高效、少步数地执行这一生成过程的神经网络。 ...

2026-05-18 · 更新于 2026-06-19 · 3 min · 466 words

Scalable neuromorphic computing from autonomous spiking dynamics in a clockless reconfigurable chip

📄 Scalable neuromorphic computing from autonomous spiking dynamics in a clockless reconfigurable chip #音频分类 #脉冲神经网络 #硬件加速 #FPGA ✅ 7.8/10 | 前25% | #音频分类 | #脉冲神经网络 | #硬件加速 #FPGA | arxiv 学术质量 6.3/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Eric Oliveira Gomes (LMOPS UR4423 Laboratory, CentraleSupélec and Université de Lorraine, Metz, France) 通讯作者:Eric Oliveira Gomes (同上) 作者列表:Eric Oliveira Gomes (LMOPS UR4423 Laboratory, CentraleSupélec and Université de Lorraine, Metz, France)、Damien Rontani (LMOPS UR4423 Laboratory, CentraleSupélec and Université de Lorraine, Metz, France) 💡 毒舌点评 这篇论文提出了一种在商用FPGA上利用异步数字电路固有物理动力学实现神经形态计算的巧妙方法,将自主布尔网络扩展为支持兴奋-抑制的神经元,并首次构建了物理层面的储层计算系统。其核心想法——利用门电路固有延迟而非时钟模拟神经动力学——颇具独创性,且在特定任务上展示了竞争力的能效比。然而,作为一项声称“物理实现”的工作,其验证仅限于单一、相对简单的SHD语音分类任务,且网络规模较小(196神经元)。更关键的是,系统本质上是一个固定储层加主机端读出层的“异步计算加速器”,缺乏片上学习能力和真正的端到端自主性,这与论文标题中“自主脉冲动力学”所暗示的完整神经形态处理器仍有相当距离。实验部分对网络动力学本身的深入分析不足,使得“准模拟”计算的价值更多地停留在工程实现层面。 ...

2026-05-18 · 更新于 2026-06-19 · 3 min · 458 words

Sound Sparks Motion: Audio and Text Tuning for Video Editing

📄 Sound Sparks Motion: Audio and Text Tuning for Video Editing #视频编辑 #测试时调优 #音视频 #多模态模型 📝 5.5/10 | 前25% | #视频编辑 | #测试时调优 | #音视频 #多模态模型 | arxiv 学术质量 4.7/8 | 影响力 0.6/1 | 可复现性 0.2/1 | 置信度 中 👥 作者与机构 第一作者:AmirHossein Naghi Razlighi (论文中未明确说明所属机构) 通讯作者:论文中未明确说明 作者列表:AmirHossein Naghi Razlighi (未说明)、Aryan Mikaeili (未说明)、Ali Mahdavi-Amiri (未说明)、Daniel Cohen-Or (未说明)、Yiorgos Chrysanthou (未说明) 💡 毒舌点评 亮点:论文精准定位了视频生成模型在“运动编辑”上的普遍短板,并提出了一个动机清晰、框架轻量(免训练)的测试时调优解决方案。其核心洞察在于联合利用音频和文本条件作为控制轴,这一多模态视角颇具启发性。 短板:方法严重依赖一个未公开的、特定的“音频-视觉视频生成模型”,其通用性存疑;核心监督信号来自一个黑盒VLM,引入了不可控的评估偏差;且当前摘要中完全缺乏定量实验对比,使得任何关于“有效性”或“优越性”的结论都悬而未决,说服力严重不足。 📌 核心摘要 问题:现有大型视频生成模型在“运动编辑”方面表现不佳。它们能很好地响应外观变化,但难以根据文本提示在已有视频中产生特定、局部的动作或状态转换。 核心方法:提出“Sound Sparks Motion”,一个免训练的测试时调优框架。它通过对一个音频-视觉视频生成模型内部的多模态条件信号进行微调来实现运动编辑。具体是调优两个轻量变量:一个从源视频派生的音频潜在表示,以及文本条件的一个残差扰动。 新颖之处:与修改模型权重的微调或仅依赖文本提示的方法不同,该方法通过联合调优音频和文本条件信号(特别是音频通路),挖掘模型中潜在的、难以通过纯文本控制的运动控制能力。 实验结果:论文摘要未提供任何定量实验结果数值。关键结论基于定性观察和消融分析:单独调优音频或文本效果不佳,组合是必要的;学习到的调优变量具有跨视频迁移的潜力。 实际意义:为视频内容创作者提供了一种新的、基于音频线索的细粒度运动编辑工具。更重要的是,提出了一种通过测试时调优来“探针”和释放预训练多模态模型隐藏能力的范式。 主要局限:方法效果受限于底层音频-视觉生成模型的质量和多模态条件结构。评估依赖于另一个预训练的VLM,其准确性无法保证。计算成本(每个视频需要调优)和泛化到其他视频编辑任务的能力有待验证。 🔗 开源详情 代码:论文摘要提及代码可通过项目页面获取,但未给出具体链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文摘要提及代码和数据可通过项目主页获取:https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/ 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 整体流程概述:这是一个免训练的测试时调优(Test-Time Tuning)框架。输入是需要编辑的源视频、描述期望运动的文本提示,以及一个预训练的音频-视觉视频生成模型。核心处理过程是通过一个基于VLM反馈的优化环路,对模型的音频条件和文本条件进行轻微调整。输出是运动被编辑后的视频。 ...

2026-05-18 · 更新于 2026-06-19 · 1 min · 211 words

Toward World Modeling of Physiological Signals with Chaos-Theoretic Balancing and Latent Dynamics

📄 Toward World Modeling of Physiological Signals with Chaos-Theoretic Balancing and Latent Dynamics #生理信号预测 #世界模型 #混沌理论 #自监督学习 #时间序列分析 ✅ 6/10 | 前50% | #生理信号预测 | #自监督学习 | #世界模型 #混沌理论 | arxiv 学术质量 4.7/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yunfei Luo(加州大学圣地亚哥分校,达特茅斯学院) 通讯作者:Yuliang Chen(加州大学圣地亚哥分校),Tauhidur Rahman(加州大学圣地亚哥分校) 作者列表:Yunfei Luo(加州大学圣地亚哥分校,达特茅斯学院)、Xi Chen(加州大学圣地亚哥分校)、Yuliang Chen(加州大学圣地亚哥分校,达特茅斯学院)、Lanshuang Zhang(加州大学圣地亚哥分校)、Md Mofijul Islam(Amazon Web Services)、Siwei Zhao(Sanderling Renal Services)、Peter Kotanko(Renal Research Institute, Icahn School of Medicine at Mount Sinai)、Subhasis Dasgupta(加州大学圣地亚哥分校)、Andrew Campbell(达特茅斯学院)、Rakesh Malhotra(加州大学圣地亚哥分校)、Tauhidur Rahman(加州大学圣地亚哥分校)。注:论文明确声明“Work does not relate to position at Amazon”。 💡 毒舌点评 这篇论文提出了一种结合混沌理论与潜在动态的“生理信号世界模型”框架,其“混沌平衡预训练”和“直觉-洞察”双路径推理的构思具有一定的启发性和领域针对性。然而,作为核心创新的“洞察”机制(即潜在状态转移建模)在论文中的数学表述存在严重混淆(公式1和2),将离散状态转移与连续表示采样混为一谈,使得该关键组件的可复现性和理论严谨性大打折扣。此外,论文对“世界模型”的宣称略显超前,其实验评估主要集中在条件预测任务上,缺乏更直接的交互式或反事实推理验证,其贡献的实际边界有待更清晰地界定。 ...

2026-05-18 · 更新于 2026-06-19 · 3 min · 455 words

语音/音乐/音频论文速递 2026-05-18

语音/音乐/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分 前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分 前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分 前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分 前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分 前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分 前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分 前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分 前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分 前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分 前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分 前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分 前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分 前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

2026-05-18 · 更新于 2026-06-19 · 11 min · 2305 words

AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

📄 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting #音视频分割 #对比学习 #特征金字塔 #多模态模型 ✅ 7.2/10 | 前25% | #音视频分割 | #多模态模型 | #对比学习 #特征金字塔 | arxiv 学术质量 6/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yuyuan Liu (论文完成时为澳大利亚阿德莱德大学博士生,现署名牛津大学工程科学系) 通讯作者:Yu Tian (中佛罗里达大学) 作者列表:Yuyuan Liu (牛津大学工程科学系 / 澳大利亚阿德莱德大学人工智能研究所)、Yuanhong Chen (澳大利亚阿德莱德大学人工智能研究所)、Chong Wang (斯坦福大学)、Junlin Han (牛津大学工程科学系)、Junde Wu (牛津大学工程科学系)、Can Peng (牛津大学工程科学系)、Jingkun Chen (牛津大学工程科学系)、Yu Tian (中佛罗里达大学)、Gustavo Carneiro (萨里大学) 💡 毒舌点评 亮点:论文提出了一个工程上非常精巧的设计——AuralFuser外部模块。它在不修改冻结SAM2骨干网络参数的前提下,通过构建特征金字塔实现了多尺度、深层次的跨模态融合,并生成了稀疏和密集两种特征级提示。这种“提示”而非“适配”的范式,巧妙地平衡了性能提升与保持基础模型泛化能力,且在与人工提示结合的场景下展现了显著的效率优势。AudioCon对比学习策略也针对性地解决了音频-视觉学习中固有的模态数量不平衡问题。 短板:然而,论文的理论深度有限。其核心方法更侧重于一种有效的架构集成,而非对音频-视觉分割本质问题的理论突破。对关键组件(如Stepping-Stone [42])的依赖性,暴露了其端到端闭环的不足。此外,对AudioCon等设计选择的消融分析可以更深入,例如不同尺度特征对齐的差异性探讨、负样本构建策略的权衡等。整体而言,这是一篇扎实、有效的系统性工作,但创新高度和理论贡献未达到顶级理论会议的顶尖水准。 ...

2026-05-17 · 更新于 2026-06-19 · 4 min · 681 words

ViMU: Benchmarking Video Metaphorical Understanding

📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Qi Li(新加坡国立大学) 通讯作者:Xinchao Wang(新加坡国立大学) 作者列表:Qi Li(新加坡国立大学)、Xinchao Wang(新加坡国立大学) 💡 毒舌点评 该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧,覆盖全面,任务定义(尤其是强制无提示)具有启发性。然而,作为一项评估工作,其核心贡献是提供了一个“考卷”,而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型(GPT-5.4)进行核心生成与验证,这既引发了关于其自身偏差和“原创性”的疑问,也使得完全复现其构建过程变得困难。实验分析虽然深入,但主要揭示了现有模型的不足,缺乏对基准本身局限性的充分量化验证。 📌 核心摘要 解决的问题:现有视频理解模型主要关注字面视觉内容,缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。 方法核心:提出了ViMU(视频隐喻理解)基准,包含588个视频和2352个问题,覆盖四大任务:开放解释(OE)、证据定位(EG)、修辞机制识别(RM)和社会价值信号识别(SV)。基准构建采用多阶段、迭代优化的流水线,结合前沿LLM(GPT-5.4)生成与人工专家审核。 与已有方法相比的新颖性:不同于聚焦于隐含物理关系或单一现象(如幽默)的现有基准,ViMU专注于社会文化语境下的广义“潜台词”理解,并强制采用“无提示”(hint-free)的评估方式,要求模型在不被告知具体线索的情况下进行推断。 主要实验结果:对16个前沿多模态大模型(MLLMMs)的评估显示,即便是最强的闭源模型,其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。 模型 日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明:1)模型普遍倾向于预测更通用、安全的类别,而低估更隐晦的社会编码类别;2)在传统视频理解任务上表现优异的模型,在隐喻理解上不一定领先。 ...

2026-05-17 · 更新于 2026-06-19 · 3 min · 558 words

语音/音乐/音频论文速递 2026-05-17

语音/音乐/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜(2 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分 前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

2026-05-17 · 更新于 2026-06-19 · 3 min · 515 words

A Benchmark for Early-stage Parkinson's Disease Detection from Speech

📄 A Benchmark for Early-stage Parkinson’s Disease Detection from Speech #语音生物标志物 #基准测试 #医疗音频 #模型评估 ✅ 7.2/10 | 前30% | #语音生物标志物 | #基准测试 | #医疗音频 #模型评估 | arxiv 学术质量 5.6/8 | 影响力 0.7/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Terry Yi Zhong (Centre for Language Studies, Radboud University, Nijmegen, the Netherlands) 通讯作者:论文中未明确指定通讯作者。作者列表及邮箱显示,通讯联系可能为第一作者或资深作者 Bastiaan R. Bloem。 作者列表:Terry Yi Zhong, Cristian Tejedor-Garcia, Khiet P. Truong (Centre for Language Studies, Radboud University, the Netherlands), Janna Maas, Bastiaan R. Bloem (Center of Expertise for Parkinson and Movement Disorders, Radboud University Medical Center, the Netherlands), Louis ten Bosch (Centre for Language Studies, Radboud University, the Netherlands) 💡 毒舌点评 在语音PD检测领域众说纷纭的“巴别塔”困境中,本文试图建立一座通用的“基准高塔”。其系统性整合和临床考量令人钦佩,但作为高塔地基的公开语料库(仅两个数据集)却略显单薄,可能使其宣称的普适性在面对更复杂的现实世界“地基”时产生动摇。 ...

2026-05-15 · 更新于 2026-06-19 · 3 min · 531 words