Stable Hybrid Cross-Attention Fusion for Audio-Visual Event Recognition

📄 Stable Hybrid Cross-Attention Fusion for Audio-Visual Event Recognition #自监督学习 6.7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 6.7/10 | 后50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Parinaz Binandeh Dehaghani, Danilo Pena, A. Pedro Aguiar. 论文未明确提及作者所属机构。 💡 毒舌点评 这篇论文就像一份工整但缺乏野心的毕业设计。它系统地将几个成熟的组件(冻结的预训练骨干、FiLM、交叉注意力、Transformer)拼接在一起,在一个老旧且规模不大的数据集(AVE)上刷出了比简单基线高一点点的数字。作者不断强调“稳定”和“高效”,但效率提升主要来自缓存特征——这几乎是把模型从端到端训练中开除出去的取巧做法,值得这么吹吗?论文的核心弱点在于其极度保守的实验:与之对比的baseline弱得可怜,连自己引为相关工作的MAFnet都不敢直接比。声称面向“智能城市监控”,却连一个真实场景的验证都没有,纯属画饼。这种缺乏挑战性和深度的工作,很难让顶会的审稿人提起兴趣。 📌 核心摘要 本文针对音频-视觉事件识别任务,提出了一种稳定的混合交叉注意力融合框架。该框架的核心思想是:利用冻结的预训练VideoMAE和AST模型作为固定的特征提取器,并离线缓存其特征,以提升训练效率和稳定性。在融合阶段,首先通过FiLM(Feature-wise Linear Modulation)机制,利用视觉特征对音频特征进行条件化调制,注入初步的跨模态信息。随后,通过双向交叉注意力模块(音频查询视觉、视觉查询音频)实现更深度的模态间交互。这些交互后的特征被拼接并输入一个多模态Transformer编码器,以联合建模时序依赖和跨模态关联。最后,通过一个模态-时间注意力机制,自适应地加权聚合所有时空位置的特征,得到最终的表示用于分类。实验在AVE数据集上进行,通过五次独立随机种子评估,结果表明该框架在准确率、平衡准确率、F1值等指标上均优于单模态和简单拼接融合的基线,同时训练时间仅有小幅增加。论文的核心贡献在于提出了一个结合了冻结骨干、缓存特征和混合交叉注意力的完整融合流水线。 🔗 开源详情 代码:论文中未提及提供自己实现的代码链接。 模型权重: VideoMAE (视觉骨干): 引用预训练权重 https://huggingface.co/MCG-NJU/videomae-base AST (音频骨干): 引用预训练权重 https://huggingface.co/MIT/ast-finetuned-audioset-10-10-0.4593 数据集:论文中未提及具体下载链接或开源协议。仅提及使用AVE (Audio-Visual Event) 数据集。 Demo:论文中未提及。 复现材料:论文中未提及提供训练配置文件、融合模块模型检查点或详细的复现文档。仅在“Implementation Details”部分描述了超参数。 论文中引用的开源项目:与预训练骨干链接相同。 🏗️ 方法概述和架构 本文提出的稳定混合交叉注意力融合框架(Stable Hybrid Cross-Attention Fusion Framework)包含四个主要阶段:视觉特征提取、音频特征提取、FiLM音频条件化,以及稳定的混合交叉注意力融合与模态-时间注意力。其总体架构如图1所示。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 399 words

SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models #语音识别 #多模态模型 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 作者:Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构:KAIST 💡 毒舌点评 这篇论文填补了一个明显但重要的空白:当前的音频-视觉幻觉基准大多盯着狗叫警笛,而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而,作为一个基准测试论文,它的“方法”本质上是一套精心设计的问卷和数据构建流水线,技术深度有上限。最大的槽点在于数据集完全依赖YouCook2,这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上,对现实世界中多变的语音风格(对话、旁白、嘈杂环境)和视频内容的泛化能力存疑。所有任务都用选择题,这更像是在测“辨别力”而非真正的“生成式幻觉”,可能高估了模型在实际对话场景中的可靠性。尽管如此,它系统性地揭示了开源模型在语音-视觉对齐上的无能,以及与商业模型的巨大鸿沟,这点功劳必须认可。 📌 核心摘要 本文指出,现有的音频-视觉大语言模型(AV-LLMs)幻觉基准主要评估环境声音(如狗叫)引发的幻觉,忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此,作者提出了SVHalluc,这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断,并分别为每个维度设计了三个由粗到细的任务(共六个)。在六个开源及商业AV-LLMs上的零样本评估表明,开源模型在多个任务上表现接近随机猜测,而Gemini 2.5 Pro显著优于所有开源模型,揭示了巨大差距。深入分析表明,模型失败的根源在于有限的跨模态信息整合与推理能力,而非单模态感知(如语音识别)的不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重的下载链接。论文评估了多个开源模型(Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2)和商业模型(Gemini 2.5 Pro),但未提供它们的HuggingFace或ModelScope链接。 数据集:论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建,使用了其验证集,并通过自动化流程(使用Whisper模型进行语音转写,GPT模型辅助生成负样本)进行增强。论文中未提供SVHalluc数据集本身的直接下载链接,但提供了项目主页:https://chenshuang-zhang.github.io/projects/svhalluc/,可能包含获取信息。 Demo:论文中未提及。 复现材料: 数据集构建细节:论文详细描述了SVHalluc数据集的自动构建流程,包括使用GPT模型提取动作和对象的提示词(见附录B)、数据集质量控制策略(见附录C)。 评估指标:对于二分类任务,报告了准确率、精确率、召回率和F1分数;对于多分类任务,报告了准确率。 实验设置:论文明确指出所有评估均在零样本(zero-shot)设置下进行,无需额外训练。 论文中引用的开源项目: YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。 Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接:https://github.com/openai/whisper Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签,以评估模型的时间定位能力。项目链接:https://github.com/snakers4/silero-vad 🏗️ 方法概述和架构 本文提出的方法是构建名为SVHalluc的基准测试,用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分:基准任务设计和数据集构建流水线。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 375 words

The DeepSpeak-Agentic Dataset

📄 The DeepSpeak-Agentic Dataset #语音合成 #语音识别 #多模态模型 8.7/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Sarah Barrington (University of California, Berkeley), Maty Bohacek (Stanford University), Hany Farid (University of California, Berkeley). *表示共同第一作者。 💡 毒舌点评 这篇论文做了一件重要且及时的事:为快速兴起的实时交互式AI代理建立一个大规模、多模态的数据集。数据集本身(37小时视听对话)和为构建它而设计的自动化系统是主要贡献。然而,审稿人必须指出几个显著的短板。首先,论文的核心技术挑战——代理的响应延迟(平均3.79秒)——只是被报告了,却没有进行任何优化尝试或深入分析其对交互质量和检测的影响,这使其“基准”意义打折扣。其次,实验评估部分虽全面,但对数据集特性的挖掘不够深入。例如,论文提到了人类判断的线索,但未深入分析不同线索(如视觉、听觉、对话模式)在不同代理配置或场景下的出现频率差异。再者,论文自称解决了“实时交互”的记录问题,但方法概述部分对系统架构的描述过于简略,缺乏关键组件(如会话同步、错误处理、延迟补偿)的细节,使得“可扩展自动化系统”的 claim 缺乏足够的技术支撑。最后,关于隐私、伦理的讨论仅停留在“IRB批准”和“内容审核”层面,对于公开发布包含人脸、声音的对话数据可能引发的长期风险(如声音克隆、行为模仿)的深入探讨缺失。总体而言,这是一个好的资源论文,但在技术深度和反思性上仍有不足。 📌 核心摘要 本文介绍了DeepSpeak-Agentic数据集,这是一个包含200个、超过37小时实时交互式人机对话的视听数据集,旨在为研究快速发展的具身AI代理提供一个基准。作者构建了一个可扩展的自动化数据采集系统,该系统能随机组合不同的LLM(如Llama-4, GPT-4o)、合成语音(ElevenLabs等)和视觉形象(Tavus, HeyGen)来创建AI代理,并与通过Prolific招募的人类参与者进行随机配对对话。对话内容涵盖四种场景。基于该数据集的分析表明:1)人类能快速识别AI代理(80.5%在10秒内),主要线索是不自然的动作和声音;2)现有取证检测器表现不佳,最佳音频和视频检测器的等错误率(EER)分别高达23%和33%,仅文本检测器(Desklib)表现良好(EER 8%)。该数据集公开发布,可用于多模态取证评估、人机交互研究以及未来AI代理的基准测试。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 333 words

Tonal parsimony in chord-sequence analysis: combining modulation cost and tonal vocabulary

📄 Tonal parsimony in chord-sequence analysis: combining modulation cost and tonal vocabulary #音乐信息检索 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.1/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构 作者:François Pachet 机构:LIP6, Sorbonne Université, Paris, France; Ynosound, Paris, France 💡 毒舌点评 一篇音乐领域的理论计算机科学作业。核心思想是给“让分析用的调音盘尽量小”这个音乐家的朴素直觉穿上形式化外衣,并为这个特定宇宙(24个大小调)设计了一个专用的DP算法。论文把“优化”这个动作拆解成了三个清晰的任务(最小化转场、最小化调性数、字典序最小化),这很工程化,也很清晰。问题在于,它声称的“通用性”和“重要性”在音乐这个非常依赖具体音律和实践的领域要打折扣。实验做得扎实,但更像是在验证一个精巧工具的边界,而非解决一个根本性的难题。爵士和弦替换规则那一段很有实用价值,是论文最接地气的部分。 📌 核心摘要 本文研究为和弦序列分配局部调性的问题。针对传统动态规划方法仅最小化调制次数(转场)可能引入不必要多调性中心的局限,本文提出了“调性简约性”准则,即在字典序上首先最小化调制次数(\(C\)),然后最小化使用的不同调性数量(\(K\))。尽管该联合目标在一般情况下是组合困难的,但论文利用固定24个大小调调性宇宙的特性,设计了精确的动态规划算法。此外,论文提出了一种加权的爵士和弦替换闭包层,用于在优化前扩充每个和弦的候选调性域。在LMD Chords语料库和专业标注的爵士标准曲上的实验表明,该方法能够在保持最小调制次数的同时,有效减少分析所需的调性数量,并取得与专家标注更高的和弦-音阶一致性。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提及。 数据集: LMD Chords:由 Holloway (2025) 提供,可从 https://github.com/mdecks/lmd-lp 获取。论文指出这是从 Lakh MIDI Dataset 文件中通过 Chordino 方法提取的和弦符号序列。 Jazz Standards Progressions Book:论文引用为 (Jazz Standards Progressions Book, n.d.),这是一个提供专业注释的爵士标准曲进行库,但论文中未提供具体的获取链接。 Demo:论文中未提及。 复现材料:论文中未提供具体的训练配置、检查点或附录文件链接。论文详细描述了算法和实验设置,并提供了用于验证的MiniZinc模型描述,但未提供可直接下载的复现材料包。 论文中引用的开源项目: MiniZinc:论文中提到用于建立约束优化模型进行验证。链接:https://www.minizinc.org/。 Lakh MIDI Dataset (LMD):论文中提到的数据源。链接:http://colinraffel.com/projects/lmd/。 Chordino:论文中提到用于从LMD文件提取和弦的算法。论文中未提供具体链接。 Jazz Standards Progressions Book:论文中提到用于外部验证的专业爵士标准曲注释库。论文中未提供具体链接。 🏗️ 方法概述和架构 本文的核心方法是解决一个约束优化问题:给定和弦序列 \(c_1, ..., c_n\) 以及每个位置 \(i\) 的候选调性集合 \(T_i \subseteq \mathcal{T}\) (\(|\mathcal{T}|=24\)),选择分析序列 \(x_1, ..., x_n\) (\(x_i \in T_i\)) 以最小化字典序目标 \(\min_{\mathrm{lex}}(C, K)\),其中 \(C(x) = \sum_{i=1}^{n-1} [x_i \neq x_{i+1}]\) 是调制次数,\(K(x) = |\{x_1, ..., x_n\}|\) 是不同调性数量。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 362 words

Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals

📄 Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals #多模态模型 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.2/1.5 📝 5.4/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 作者:Shenghao Ding 机构:Yet Another AI 💡 毒舌点评 这是一篇典型的“想法很有趣,但离实用还很远”的初步探索论文。作者试图为音频、图像、视频这三种模态寻找一个基于小波的统一令牌语法,这个动机本身是有价值的。然而,论文的局限性过于明显,以至于其核心贡献被实验的玩具性质所削弱。使用\(64\times64\)的图像和\(8\)帧视频,在极小的数据集上只做自编码重建,然后声称看到了“跨模态的希望”,这说服力不足。更关键的是,作为一个“令牌化”方案,它完全没有进行离散化、熵编码,也没有任何下游生成任务的验证,这使其本质上只是一篇关于“共享小波系数表示”的技术报告,而非一个完整的令牌化解决方案。写作清晰,自我定位诚实(自称“初步结果”),但这也意味着它离顶会要求的完整贡献和扎实验证相去甚远。 📌 核心摘要 本文提出了一个称为“Wavelet as Tokenizer (WAT)”的框架,旨在探索能否为音频、图像和视频定义一种基于小波系数的统一令牌语法。论文采用了一级Haar离散小波变换(DWT)作为前端,将不同模态信号转换为系数令牌,每个令牌包含值和显式元数据(模态、等级、尺度、子带、位置)。模型使用一个共享的、无注意力机制的令牌级连续潜在编码器/解码器(仅含LayerNorm-MLP)进行处理,并通过模态特定的逆变换重建信号。 主要实验发现包括:1)在小型自编码任务中,共享的波系数令牌方案对三种模态均可行;2)对音频系数进行缩放(\(s_{\mathrm{audio}}=4\))对于平衡各模态表现至关重要;3)基于波系数能量的非参数稀疏令牌选择是一种有效的跨模态分配信号;4)简单的加性元数据嵌入并非总是有益,其效果模态依赖且不一致。在匹配的连续潜在标量预算下,共享模型在图像和视频重建上优于独立模型。 然而,该工作明确被定位为早期实证研究,存在根本性局限:实验在极低分辨率和小数据集上进行,结果为单次运行;采用连续令牌而非离散化,因此无法评估真正的比特率或进行率失真比较;模型架构简单;完全缺乏下游生成任务的验证。论文支持统一波形令牌模式和稀疏接口的可行性,但尚未建立通用的离散词汇表。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用以下公开数据集,但未提供具体获取链接: Speech Commands (v0.02) EuroSAT RGB DAVIS 2017 Demo:论文中未提及。 复现材料:论文在附录A中提供了详细的实验配置,包括数据预处理方式、共享自编码器架构参数(token宽度32,潜在维度16,隐藏维度64)、优化器设置(AdamW,学习率\(10^{-3}\))、批量大小(2)、训练步数(300)以及评估细节。这些信息可用于复现实验,但论文中未提供预训练权重或完整代码。 论文中引用的开源项目:论文在相关工作和背景部分引用了多个开源项目(如Cosmos Tokenizer, VQ-VAE, VQGAN, OmniTokenizer, MAGVIT, SoundStream, EnCodec, WavTokenizer, JPEG 2000),但均未提供具体链接。 🏗️ 方法概述和架构 WAT框架的核心是定义一个跨模态(1D音频、2D图像、3D视频)的统一、结构化的小波系数令牌,并证明一个共享的神经网络可以处理这些令牌以实现信号重建。其方法可分解为以下关键组件和步骤: ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 437 words

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 598 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-19 · 26 min · 5337 words

A 1000-hour EEG-EMG-audio dataset of Japanese speech production

📄 A 1000-hour EEG-EMG-audio dataset of Japanese speech production 6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | arxiv 👥 作者与机构 作者:Motoshige Sato, Ilya Horiguchi, Masakazu Inoue, Kenichi Tomeoka, Eri Hatakeyama, Yuya Kita, Atsushi Yamamoto, Ippei Fujisawa, Shuntaro Sasai. 机构:Araya Inc., Tokyo, Japan; Department of Neurological Surgery, University of California, San Francisco, San Francisco, CA, USA; Weill Institute for Neuroscience, University of California, San Francisco, San Francisco, CA, USA. ...

2026-06-02 · 更新于 2026-06-19 · 4 min · 663 words

A Lightweight Slot-Attention Framework for Multi-Instrument Multi-Pitch Estimation

📄 A Lightweight Slot-Attention Framework for Multi-Instrument Multi-Pitch Estimation #自监督学习 #音乐信息检索 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.7/10 | 前50% | #音乐信息检索 | #自监督学习 | arxiv 👥 作者与机构 作者:Michael Taenzer。论文中未明确提及作者所属机构。 💡 毒舌点评 这篇论文提出了一个想法不错的轻量级框架,试图用槽注意力解决多乐器多音高估计这个老大难问题。作者在资源有限的条件下(CPU训练)进行探索,精神可嘉。然而,论文的“探索性”定位也暴露了其软肋:实验规模偏小,主要在两个小型数据集(URMP, mshoxxDB)上打转,对更复杂、更大规模的现实场景缺乏验证。音色和多音监督的引入看似巧妙,但实际效果不稳定,在mshoxxDB上的表现时好时坏,说明这种“模块化扩展”的鲁棒性存疑。最大的问题在于,源分配(stem assignment)这个核心挑战并未被真正解决,论文最终承认这只是“一个有希望的方向”,距离实用还有很长的路要走。整体是一篇扎实但略显初步的概念验证工作。 📌 核心摘要 本文针对多乐器多音高估计(MI-MPE)任务,提出了一种基于槽注意力的轻量级框架。该模型将混合音频的常数Q变换(CQT)映射为一组无序的、源级的音高激活图,每个“槽”代表一个潜在的声源假设。为避免固定输出顺序的限制,模型采用基于匈牙利匹配的排列不变监督进行训练。论文进一步研究了两个模块化扩展:一个是在孤立音轨上训练的自监督音色编码器,作为训练时的教师为槽级音色嵌入提供监督目标;另一个是多音分支,用于对混合和槽级的音高预测密度进行正则化。实验在URMP和mshoxxDB数据集上进行,结果表明匈牙利匹配能显著提升乐器族分解性能,而音色和多音监督在部分配置下有助于源分配,但并未一致性地解决问题。工作定位于探索性概念研究,强调模型的轻量级特性和对开放数据集的依赖。 🔗 开源详情 代码:论文中未提供代码仓库链接。 模型权重:论文中未提供模型权重下载链接。 数据集: URMP:论文提供官方链接 http://www2.ece.rochester.edu/~mcv/music.html。 mshoxxDB:论文提供链接 https://github.com/LCAV/mshoxxDB。 MusicNet:论文中引用的链接为 https://github.com/Lovork/mshoxxDB(注:此链接可能不正确,但按原文提取)。 Demo:论文中未提及。 复现材料:论文未提供独立的复现材料包或附录。第V节“Training & Evaluation Protocol”详细描述了训练参数(优化器、学习率、批大小、早停)、输入CQT配置、评估指标和流程,提供了足够的细节用于复现实验。 论文中引用的开源项目: Basic Pitch:论文明确引用其GitHub仓库 https://github.com/spotify/basic-pitch。 快速HCQT近似 (fast-HCQT):论文引用了相关方法的实现 https://github.com/csteinmetz1/hcqt。 🏗️ 方法概述和架构 本文提出的模型旨在从混合音频的CQT表示中预测一组无序的源级音高图。其核心是一个基于槽注意力的网络,并辅以可选的音色编码器和多音分支。整体架构包含共享的输入特征、标准的MPE头、槽头、音色头和多音头。 ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 611 words

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构:名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心,北京航空航天大学 (Beihang University) 生物与医学工程学院,TARVO, Inc.。通讯作者为 Ding Ma。 ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 598 words