NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

📄 NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating #音频事件检测 #音频大模型 #长音频处理 #零样本 ✅ 7.0/10 | 前25% | #音频事件检测 | #音频大模型 | #长音频处理 #零样本 | arxiv 学术质量 7.0/8 | 影响力 0.85/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Zhongju Yuan(根特大学) 通讯作者:未说明 作者列表:Zhongju Yuan(根特大学), Geraint Wiggins(根特大学), Dick Botteldooren(根特大学) 💡 毒舌点评 这篇论文提出了一个名为NAACA的框架,其核心是受神经科学启发的振荡工作记忆(OWM)模块。该设计巧妙地将听觉显著性检测重构为一个无需训练的在线滤波问题,在暴力音频检测任务上取得了显著的性能提升和计算节省。生物启发的理论基础和严格的数学证明是其最大亮点。然而,该框架的性能上限完全受制于上游预训练编码器(PANN)和音频语言模型(AudioQwen)的能力,且其在单一、偏“电影化”的数据集(XD-Violence)上的评估,以及仅以定性方式展示的通用性(USoW),使其更像一个针对特定任务精心设计的“门控插件”,而非一个经过充分验证的普适性架构革新。 📌 核心摘要 这篇论文旨在解决当前音频语言模型(ALM)在处理长音频流时面临的“注意力稀释”问题——即模型的注意力容易被持续存在的背景模式所占据,从而遗漏后期出现的稀有但关键的声音事件。为此,论文提出了一种名为NAACA的无需训练的框架,其核心是一个受神经科学启发的“振荡工作记忆”(OWM)模块。OWM将预训练编码器输出的类别概率转化为频率调制的振荡驱动信号,并在一个二维网格上维持动态的吸引子状态,通过监测系统总能量的波动来自适应地检测声音场景的“显著性变化”。仅当检测到显著变化时,才将对应的原始音频片段送入ALM进行语义推理。与基于统计或表示学习的传统漂移检测方法不同,OWM不依赖长期历史数据缓存。实验表明,在XD-Violence数据集上,NAACA将AudioQwen的平均精度(AP)从53.50%提升至70.60%,同时通过门控机制减少了约40%的ALM调用次数。在USoW数据集上的定性分析展示了OWM检测新事件、抵抗瞬态暂停以及捕捉子类别变化的能力。论文的局限性在于其性能受限于所选编码器和ALM的固有能力,且当前定量评估主要集中在异常检测任务上。 🔗 开源详情 代码:https://github.com/zjyuan1208/NAACA-Oscillatory-Working-Memory 模型权重:论文中未提供专用模型权重链接。文中使用的预训练模型如PANN和AudioQwen为公开模型,但论文未提供其具体的权重下载链接或版本号。 数据集:论文中未提供专用数据集链接。文中使用的数据集XD-Violence和Urban Soundscapes of the World (USoW) 均为已发表的公开数据集。 Demo:论文中未提及 复现材料:论文的附录B提供了完整的载波频率分配与网格映射策略、附录C提供了主检测算法(C.1)和自适应阈值计算算法(C.2)的伪代码、附录J提供了额外的FFT频谱分析图。这些附录内容为复现OWM模块提供了关键的算法细节和参数配置。 论文中引用的开源项目: PANN:论文中未提供链接(知名的预训练音频特征提取模型)。 AudioQwen:论文中未提供链接(作为ALM基线使用的模型)。 HL-Net:论文中未提供链接(作为监督音频基线被引用)。 AVadCLIP:论文中未提供链接(作为监督音频基线被引用)。 S3R:论文中未提供链接(作为监督视频基线被引用)。 VadCLIP:论文中未提供链接(作为监督视频基线被引用)。 Holmes-VAU:论文中未提供链接(作为监督视频基线被引用)。 TRACE:论文中未提供链接(作为零样本视频基线被引用)。 🏗️ 方法概述和架构 NAACA是一个多阶段的、无需训练的在线音频处理流水线,旨在为音频语言模型(ALM)提供显著性门控,以实现高效、准确的长音频理解。其整体流程为:输入音频流 → 分段与编码 → 基于OWM的显著性检测 → 选择性ALM推理 → 输出语义解释。 ...

2026-05-14 · 更新于 2026-06-22 · 2 min · 362 words

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Wei Wu(北京大学) 通讯作者:Hao Tang(北京大学,邮箱:bjdxtanghao@gmail.com) 作者列表:Wei Wu(北京大学),Ziyang Xu(北京大学),Zeyu Zhang(北京大学,项目负责人),Yang Zhao(La Trobe University),Hao Tang(北京大学) 注:论文明确标注前三位作者(Wei Wu, Ziyang Xu, Zeyu Zhang)贡献相等(Equal contribution)。 💡 毒舌点评 本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”,并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式(单人演讲、多人讨论、交互问答)的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而,其主要弱点在于核心贡献更偏向系统集成而非底层技术创新,关键模块(如视频合成、语音生成)的技术细节几乎完全依赖于未说明的外部模型,使得论文的“技术深度”存疑。同时,评估体系严重依赖于可能同源的VLM评判者,缺乏人类评估数据的校准,使得其高分结果的说服力大打折扣。 📌 核心摘要 解决的问题:现有演示视频生成系统大多依赖用户提供完整的源文档(如论文、报告),无法处理简短、开放式的用户查询,并主动获取内容和视觉资源来生成演示视频。 方法核心:提出PresentAgent-2,一个端到端的智能体框架。系统接收用户查询和选定的演示模式,首先将查询提炼为主题,并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源(文本、图片、GIF、视频)。随后,基于这些资源规划演示结构、生成幻灯片和对应模式的脚本(单人演讲为叙述脚本,多人讨论为角色对话脚本,交互问答为基于上下文的回答),合成音频,并将幻灯片、音频和动态媒体(保持GIF/视频的可播放性)合成为最终的演示视频。 与已有方法相比的新颖之处:a) 任务设定开放:首次系统性地研究从开放查询到演示视频的生成,而非从给定文档转换。b) 内容获取主动:集成了针对演示场景优化的“深度研究”模块,主动收集多模态资源。c) 输出模式丰富:在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理:在视频合成中保留了检索到的GIF和视频的动态特性,而非将其转换为静态截图。 主要实验结果:论文构建了名为PresentEval的多模态演示基准测试集,包含60个查询-参考视频对(每种模式20对)。使用不同骨干模型(如Qwen3.5-VL-Plus)进行评估,结果显示系统在客观测验(满分5)和主观评估(满分5)上均取得较高分数(例如,使用Qwen3.5-VL-Plus时,客观测验得分均>4.8,主观评估均分均>4.3)。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。 实际意义:为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式,降低了从问题到结构化多媒体演示视频的制作门槛。 主要局限性:a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限(60例)。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情 代码:https://github.com/AIGeeksGroup/PresentAgent-2 模型权重:论文中未提及模型权重的具体下载链接(如HuggingFace/ModelScope)。 数据集:论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集(60个查询-参考视频对),但未提供其公开获取地址。 Demo:https://aigeeksgroup.github.io/PresentAgent-2 复现材料:论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。 论文中引用的开源项目: Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD:论文中仅在相关工作或表格中提及项目名称和引用,未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统,旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示:接收用户的自然语言查询q和选定的演示模式m,首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ,随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步:q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

2026-05-14 · 更新于 2026-06-22 · 3 min · 434 words

Scaling few-shot spoken word classification with generative meta-continual learning

📄 Scaling few-shot spoken word classification with generative meta-continual learning #音频分类 #元学习 #持续学习 #少样本 ✅ 7.0/10 | 前50% | #音频分类 | #元学习 | #持续学习 #少样本 | arxiv 学术质量 5.5/8 | 影响力 0.6/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Louise Beyers 通讯作者:未说明 作者列表:Louise Beyers, Batsirayi Mupamhi Ziki, Ruan van der Merwe 💡 毒舌点评 本文的核心价值在于验证了生成式元持续学习(GeMCL)在语音领域处理大规模(1000类)少样本口语词分类的可行性,其展现出的极高稳定性(波动性比基线低一个数量级)和极低的适应成本(相比基线快约2000倍)是其最大亮点,为需要动态更新关键词的边缘设备场景提供了极具吸引力的方案。然而,其绝对性能在类别数较多时(>750)始终略逊于基于冻结HuBERT的基线,这使得其实用性略打折扣。更重要的是,研究仅基于单一英语数据集,且核心算法GeMCL并非本文提出,其创新更偏向于工程应用验证与实验视角,而非方法学的原创性突破。 📌 核心摘要 问题:传统的少样本口语词分类(关键词检测)研究局限于少量类别,将其扩展到上千类别同时保持高效持续学习能力的潜力尚未被充分探索。 方法核心:采用生成式元持续学习(GeMCL)算法。该算法结合了元学习的快速适应能力和持续学习的抗遗忘特性。其核心是一个生成式分类器,为每个词类维护一个高斯分布(由Normal-Gamma先验建模),新样本到达时通过闭式贝叶斯更新类统计量,无需重新训练整个模型。 新意:首次将GeMCL应用于语音数据,并首次报告了多达1000类的少样本口语词分类结果。研究不是单纯比较算法,而是对比了“从零训练GeMCL”与“微调预训练大模型(HuBERT)”这两种策略在特定资源约束场景下的表现。 主要结果:在MSWC英语数据集上,5-shot设置下: 性能:当类别扩展到1000时,GeMCL的平均准确率约为75%,略低于冻结HuBERT加分类头(CH)基线的约77%(图3)。 稳定性:GeMCL的逐词准确率波动(挥发性)平均仅为0.48%,远低于CH模型的7.13%和全微调模型的24.55%(表1)。 效率:GeMCL的元训练和超参搜索总时间约42.84小时(单GPU),而CH和全微调基线的预训练和超参搜索时间均远超其(约2000+小时)。在面对新类时,GeMCL仅需计算统计量(约0.06小时),而基线需要完全重新微调(124-186小时)(表2)。 实际意义:证明了基于元持续学习的方法在语音关键词分类任务上,能够以极低的增量成本支持大规模类别扩展,且性能稳定可预测,适合部署在需要动态更新关键词的边缘设备上。 主要局限性:研究仅在英语MSWC数据集上进行;与HuBERT基线的比较存在数据源、训练方式和模型规模的差异;未对GeMCL内部组件进行消融研究。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的具体下载链接。 数据集:Multilingual Spoken Words Corpus (MSWC)。获取链接:https://github.com/mozilla/CommonVoice/tree/main/multilingual#multilingual-spoken-words-corpus。论文中声明仅使用英语子集。 Demo:论文中未提及。 复现材料:论文中详细描述了实验设置(如模型架构、训练步数、超参数),但未提供训练检查点、配置文件或代码仓库等可直接复现的材料。 论文中引用的开源项目: Multilingual Spoken Words Corpus (MSWC):https://github.com/mozilla/CommonVoice/tree/main/multilingual#multilingual-spoken-words-corpus HuBERT:论文引用了原始论文,但未提供其预训练权重的具体开源链接(通常可在 Hugging Face Hub 获取,但论文本身未提及)。 GeMCL:论文引用了原始论文及实现,但未提供其特定开源代码仓库链接。 其他如 Prototypical Networks、AdamW 优化器等均为通用算法或工具,论文未提供特定实现链接。 🏗️ 方法概述和架构 本文的核心方法是将生成式元持续学习(GeMCL)框架应用于大规模少样本口语词分类。这是一个两阶段的框架,包含元训练阶段和持续学习(适应)阶段。 ...

2026-05-14 · 更新于 2026-06-22 · 2 min · 336 words

Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering

📄 Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering #音频生成 #扩散模型 #符号到音频 #鼓声渲染 #音频编码 ✅ 7.0/10 | 前50% | #音频生成 | #扩散模型 | #符号到音频 #鼓声渲染 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Konstantinos Soiledis (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University; Athena RC) 通讯作者:未说明 作者列表:Konstantinos Soiledis (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University, Rethymno & Athens; Athena RC), Maximos Kaliakatsos-Papakostas (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University), Dimos Makris (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University), Konstantinos Tsamis (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University; Athena RC) 💡 毒舌点评 亮点:论文在“符号鼓声到音频”这一细分且控制要求高的任务上,提出了一个技术自洽的解决方案(物理时间对齐+PCA压缩DAC潜空间+辅助离散损失)。其核心贡献在于验证了在编解码器潜空间中进行条件扩散的可行性,并通过精心设计的实验(如引入PCA重构上界作为无损验证、使用FAD-R²诊断FAD可靠性、进行严格的配对统计检验)使其结论比许多同类工作更可靠、更具说服力。 短板:创新性高度特异化,与特定的DAC模型(其输出投影矩阵的秩为72)强绑定,普适性存疑。评估局限于四拍短窗口和单一数据集,且完全缺乏主观听觉评估(MOS等),使得对“声学上逼真”的断言缺乏直接感知证据。 ...

2026-05-14 · 更新于 2026-06-22 · 4 min · 709 words

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Nguyen Quang Trung(南洋理工大学,LMMs-Lab) 通讯作者:未说明 作者列表:Nguyen Quang Trung(南洋理工大学,LMMs-Lab),Yiming Gao(南洋理工大学,LMMs-Lab),Fanyi Pu(南洋理工大学,LMMs-Lab),Kaichen Zhang(南洋理工大学,LMMs-Lab),Shuo Sun(约翰霍普金斯大学),Ziwei Liu(南洋理工大学,LMMs-Lab) 💡 毒舌点评 这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题,其IMAVB基准测试的2×2设计堪称教科书式的诊断工具;然而,作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整,其在真实、开放世界场景中的泛化能力和实际部署价值被高估了,诊断本身很彻底,但治疗方案可能只是止痛药。 📌 核心摘要 要解决什么问题:当全模态大语言模型(LLM)遇到与其自身感官输入(视觉、音频)相矛盾的文本前提时,其失败究竟是源于感知层面(未能检测到矛盾)还是行动层面(检测到了但未能在输出中拒绝)?现有的协同性基准测试无法揭示这种失败模式。 方法核心是什么:论文提出了IMAVB(一个500个电影片段的2×2设计基准测试),通过保持视频和音频不变,仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针(分析隐藏状态)和引导对数调整(PGLA,一种推理时干预方法),来诊断模型内部表示与外部行为之间的脱节。 与已有方法相比新在哪里:与现有的跨模态基准测试(如AVHBench)相比,IMAVB使用隐含的虚假前提(而非明确验证提示)、长视频(1-5分钟),并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域,并量化了其模态不对称性(音频接地弱于视觉)。 主要实验结果如何:在8个开源全模态LLM和Gemini 3.1 Pro上,论文发现了显著的“表示-行动鸿沟”:线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提,但模型的实际拒绝率极低(多数开源模型在音频误导性检测上为0%)。PGLA通过将内部信号反馈至输出,在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。 模型 基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么:研究结果表明,提升全模态LLM的感知接地能力,瓶颈可能不在于更大的编码器或更丰富的表示,而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。 主要局限性是什么:基准测试局限于电影领域,可能无法推广到所有视频类型;误导性前提是单次细节交换;PGLA的干预是基于同一基准测试数据训练的,其跨域泛化能力未经验证;对商用模型(Gemini)的分析仅限于行为层面,缺乏表示分析。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”,但未给出具体的GitHub等仓库地址。 模型权重:论文中未提及提供预训练或微调的模型权重链接。 数据集:IMAVB数据集。论文中提及一个匿名访问链接:https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的实验设置、评估协议和实现细节,主要包含在附录中(如Appendix J, L, G)。评估使用了开源框架lmms-eval(链接:https://github.com/EvolvingLMMs-Org/lmms-eval)。所有实验使用温度0、top-p和top-k为1的设置,并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。 论文中引用的开源项目: lmms-eval:开源多模态评估框架。论文中引用为lmms-eval,链接:https://github.com/EvolvingLMMs-Org/lmms-eval。 评估的开源全模态LLM(论文中未提供其官方权重或代码链接,仅列出名称):OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。 商业模型:Gemini 3.1 Pro(通过API评估,未开源)。 数据生成与标注中使用的模型:Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o(论文中未提供这些模型的具体链接)。 其他方法(论文中提及但未提供实现链接):Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构 本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程,包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...

2026-05-14 · 更新于 2026-06-22 · 4 min · 720 words

Text2Score: Generating Sheet Music From Textual Prompts

📄 Text2Score: Generating Sheet Music From Textual Prompts #大语言模型 #自回归模型 #音乐生成 #乐谱生成 #开源工具 ✅ 7.0/10 | 前25% | #乐谱生成 | #大语言模型 | #自回归模型 #音乐生成 | arxiv 学术质量 6.8/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Keshav Bhandari 通讯作者:未说明 作者列表:Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton 机构信息:论文正文未明确列出每位作者的具体机构。根据论文末尾的致谢,研究得到了UKRI和EPSRC(英国)、SUTD(新加坡科技设计大学)及新加坡教育部的资助。部分作者(如Emmanouil Benetos, Dorien Herremans)是音乐信息检索领域的知名学者,通常与Goldsmiths, University of London相关联,但严格基于提供的文本,具体机构信息未明确说明。 💡 毒舌点评 Text2Score的核心思想——用LLM做宏观规划、用专用模型做微观生成——在逻辑上很清晰,也确实解决了端到端模型缺乏推理能力的痛点。然而,这种“解耦”是一把双刃剑:它把音乐创意的“上限”交给了LLM的规划能力,而这个规划能力又受限于其见过的、有限的结构化计划模板。论文声称的“绕过文本-音乐对”更像是一种巧妙的工程规避,而非根本性的学术突破。更值得玩味的是,其精心设计的客观评估指标(可读性、可演奏性)在提升模型“技术分”的同时,也可能在鼓励生成安全、保守但缺乏惊喜的音乐。 📌 核心摘要 问题:文本驱动的符号音乐生成面临两大挑战:一是高质量、大规模的文本-音乐配对数据集稀缺,且自动标注管道存在噪声和幻觉;二是大多数现有模型专注于MIDI格式,专注于可读、可演奏的乐谱(如MusicXML/ABC)生成的工作很少,且端到端模型缺乏处理复杂音乐结构所需的推理能力。 方法核心:提出了Text2Score,一个两阶段框架。 规划阶段:使用大型语言模型(LLM)作为编排器,将自然语言提示解析为结构化的“小节级计划”。该计划是一个序列 𝒫={N, G, I_total, m_1, ..., m_N},其中每个小节向量 m_i 包含该小节的活跃乐器、音域、音符密度、速度、拍号、调号、和声音级集和力度等属性。 执行阶段:使用一个从头训练的、基于分层Transformer的生成模型。该模型包含一个冻结的ModernBERT计划编码器,通过交叉注意力将计划编码为潜在表示 H_plan;以及一个两层的分层解码器:一个块级(Patch-level)解码器(20层GPT-2)负责建模小节间关系并接收计划条件,一个字符级解码器(6层GPT-2)负责逐字符生成每个小节的交错ABC记谱字符串。 训练范式:其创新在于直接从符号XML数据中提取“计划”作为监督信号,训练数据为(从乐谱提取的计划,乐谱)对,从而绕开了对齐的文本-音乐对。训练采用两阶段策略:顺序预训练(使用连续计划)和结构性微调(动态选择5-10个结构关键小节组成的稀疏计划进行微调)。 新在哪里:核心创新在于“规划-执行”的解耦范式,以及利用符号音乐数据本身构建训练监督信号的新颖方法,有效规避了数据稀缺和噪声问题。此外,提出了专注于乐谱本身可读性与可演奏性的客观评估框架。 主要实验结果:在自建的238个评估提示集上,Text2Score在多个维度上显著优于基线。具体结果见下表(论文表2、表3)。 客观评估结果(关键指标,数据来自论文表2) ...

2026-05-14 · 更新于 2026-06-22 · 3 min · 459 words

Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

📄 Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition #语音识别 #课程学习 #迁移学习 #多语言 #低资源 ✅ 7.0/10 | 前50% | #语音识别 | #课程学习 | #迁移学习 #多语言 | arxiv 学术质量 5.8/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 作者列表:Kush Juvekar (Adalat AI, India), Kavya Manohar (Adalat AI, India), Aditya Srinivas Menon (Adalat AI, India), Arghya Bhattacharya (Adalat AI, India), Kumarmanas Nethil (Adalat AI, India) 通讯作者:未说明 💡 毒舌点评 论文提出了一个诊断低资源语音识别中“studio-bias”现象的有用基准和训练策略,其系统化的因子设计实验是扎实的工程科学。但核心方法(高学习率、从难到易课程)本质上是超参数优化和课程学习思想在特定问题上的应用与组合,创新性更多是经验性的“最佳配方”而非原理性突破。更关键的是,所有结果完全依赖Whisper这一种模型架构和有限的两种语言,且实验缺少必要的统计稳定性分析,泛化结论需谨慎看待。 ...

2026-05-14 · 更新于 2026-06-22 · 3 min · 453 words

WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data

📄 WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data #语音识别 #机器翻译 #低资源 #迁移学习 #濒危语言 #知识增强 ✅ 7.0/10 | 前25% | #语音识别 | #迁移学习 | #机器翻译 #低资源 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Ziheng Zhang(Australian National University) 通讯作者:Liang Zheng(Australian National University) 作者列表:Ziheng Zhang(Australian National University), Yunzhong Hou(Australian National University), Naijing Liu(University of Oxford), Liang Zheng(Australian National University) 💡 毒舌点评 本文为濒危语言文档化提供了一个实用且思路清晰的工具链,其核心价值在于用语言学知识(音系相似性、词典)巧妙弥补了数据匮乏的短板。然而,该系统更像是一个精心设计的工程方案,而非一个具有广泛启示性的算法突破。其性能严重依赖一个外部的、覆盖率有限的词典,且两阶段设计带来的错误传播问题未得到充分缓解。在仅单一语言上验证,其宣称的“强基线”意义有待更多数据集检验。 ...

2026-05-14 · 更新于 2026-06-22 · 3 min · 467 words

语音/音乐/音频论文速递 2026-05-14

语音/音乐/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-06-22 · 11 min · 2240 words

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

📄 A Semi-Supervised Framework for Speech Confidence Detection using Whisper #语音自信度检测 #半监督学习 #伪标签 #迁移学习 #Whisper #数据增强 #低资源 #语音大模型 ✅ 6.5/10 | 未提及 | #语音自信度检测 | #半监督学习 | #伪标签 #迁移学习 | arxiv 学术质量 6.0/8 | 影响力 0.6/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Adam Wynn 通讯作者:未说明 作者列表:Adam Wynn(未说明具体学术机构,但论文脚注提及由IEEE Publication Technology Group制作,地址在Piscataway, NJ),Jingyun Wang(未说明) 💡 毒舌点评 这篇论文为“感知自信度检测”这一小众且缺乏基准的任务构建了一个完整、实验扎实的半监督框架。其核心思路——结合Whisper的语义能力与可解释声学特征(eGeMAPS + 辅助模型)进行晚期融合,并通过“不确定性感知”伪标签扩充数据——在解决数据稀缺问题上逻辑自洽且有效。然而,其创新性更多体现在系统集成和工程优化,而非方法论的根本突破。文中多个关键超参数(如伪标签阈值τ、融合权重λ、损失权重18.0)的选择依据仅提及“经验消融”或“经验性确定”,缺乏充分的实验展示或理论推导,使得部分设计略显“黑箱”。尽管实验结果支持了其框架的有效性,但单一、未公开的小规模数据集评估限制了结论的泛化说服力。 📌 核心摘要 要解决什么问题:自动检测语音中的感知说话人自信度对于自适应计算和情感交互至关重要,但面临标注数据稀缺(任务主观且无公开基准)和现有方法局限(纯声学特征泛化差,纯自监督模型可能忽略细粒度韵律线索)的挑战。 方法核心是什么:提出一个五阶段半监督混合框架:(A) 构建并标注小型数据集;(B) 提取Whisper语义嵌入和94维声学特征向量(eGeMAPS + 辅助不流畅/压力模型概率);(C) 训练辅助的不流畅性和压力检测模型;(D) 用仅基于声学特征向量训练的MLP对无标签数据生成伪标签,并通过高置信度阈值(τ=0.8)过滤;(E) 训练一个双流晚期融合的混合模型,融合Whisper流和特征向量流的输出,并使用源增强损失函数在真值+伪标签数据上训练。 与已有方法相比新在哪里:首次为感知自信度检测提出专用半监督框架。核心创新点在于:(1) 架构创新:明确提出并实现了将Whisper深度语义表示与可解释声学特征(含辅助任务线索)进行晚期融合,以显式引入韵律纠正信号;(2) 策略创新:引入“不确定性感知”伪标签策略,强调通过严格的置信度过滤来保证伪标签质量,而非单纯追求数量。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 570 words