A Cold Diffusion Approach for Percussive Dereverberation

📄 A Cold Diffusion Approach for Percussive Dereverberation #音频修复 #扩散模型 #音频增强 #打击乐 ✅ 6.2/10 | 前35% | #音频修复 | #扩散模型 | #音频增强 #打击乐 | arxiv 学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Dimos Makris(未说明机构) 通讯作者:未说明 作者列表:Dimos Makris(未说明机构),András Barják(未说明机构),Maximos Kaliakatsos-Papakostas(未说明机构) 💡 毒舌点评 本文首次将冷扩散框架应用于打击乐去混响这一垂直但重要的任务,并贴心地设计了一套瞬态感知的评估指标,填补了领域空白,实验显示其性能显著优于将语音模型生搬硬套的基线。然而,文中声称的“首次”虽未提供系统文献综述,但属于常见的声明方式。核心问题在于对比实验的公平性:最佳模型(UNet Δ-norm)仅用16步迭代就“吊打”了用30步和50步的基线。这种推理步数不匹配的对比,使得关于效率和性能的结论需要更多实验(如步数匹配对比、计算成本分析)来支撑。 📌 核心摘要 问题:现有音频去混响研究几乎都针对语音,而打击乐(鼓组)由于其快速瞬态和密集时域结构,其去混响面临独特挑战,且缺乏专门的学习型解决方案。 方法核心:提出一个冷扩散框架,将混响建模为一个确定性退化过程(将干声与湿声按特定时间表混合),并学习其逆过程。研究了两种反向过程参数化:直接预测下一状态(Direct)和预测归一化残差(Δ-normalized,速度风格),并分别用UNet和扩散Transformer(DiT)实现。 新意:首次尝试将学习型方案(冷扩散)应用于打击乐的盲去混响任务;通过确定性退化过程和迭代恢复来避免传统扩散模型的随机性;专门设计了一套针对打击乐的客观评估指标(如瞬态-尾部能量比TTER,起始点F值提升ONFi)。 实验结果:在内部测试集和完全外部的测试集上,所提方法(尤其是Cold UNet Δ-norm)在信号和感知指标上均显著优于强基线SGMSE+和CDiffuSE。例如,在外部测试集上,Cold UNet Δ-norm达到7.52 dB的SI-SDRi,而SGMSE+仅为2.01 dB,CDiffuSE接近0 dB。关键数据见下表。 表1:内部测试集核心指标对比 模型 mSTFTmag↓ ESR↓ SI-SDRi↑ ENV↑ TTER↓ SGMSE+ 0.12 1.35 4.06 0.62 5.90 CDiffuSE 0.12 1.37 2.77 0.59 6.03 Cold UNet Δ-norm 0.08 0.79 11.09 0.92 2.07 实际意义:为音乐制作中收紧鼓组混音、适应不同声学环境提供了新的自动化工具,潜力在于扩展到处理更复杂的人工混响效果。 局限性:数据集构建依赖手动筛选干声,规模(~38小时)和多样性受限;实验基线仅限两个源自语音的扩散模型,缺乏传统信号处理或其他音乐增强基线的对比;对生产环境中的复杂人工混响(非物理房间混响)的处理能力未验证。 🔗 开源详情 代码:https://github.com/dimakr169/drums_dereverb 模型权重:论文中未提及单独的模型权重下载链接(如HuggingFace/ModelScope)。代码仓库可能包含训练好的模型,但论文未明确说明。 数据集: MUSDB18-HQ:论文使用其鼓轨。论文未提供直接链接,但这是一个公开的音乐源分离数据集,可从其官方主页(https://sigsep.github.io/datasets/musdb.html)获取。 Groove MIDI Dataset (GMD):论文使用其渲染的电子鼓表演。论文未提供直接链接,可从其官方发布页面(https://magenta.tensorflow.org/datasets/groove)获取。 作者整理的数据集:由上述数据集的干声片段与合成/真实RIR卷积生成,共约38小时。论文指出该数据集“available upon request”(可申请获取)。 OpenAIR 数据库:用于获取真实的房间脉冲响应(RIRs)。论文未提供直接链接,但这是一个公开的RIR数据库,网址为 https://www.openairlib.net/。 Demo:论文中未提及在线演示链接(Demo)。仅说明音频示例可在代码仓库中找到。 复现材料:论文详细提供了训练配置信息(包括优化器Adam、学习率10^{-4}、EMA衰减0.995、训练/验证/测试集划分80%/10%/10%、STFT参数等)。但未提及是否提供预训练模型检查点、完整的训练脚本或详细的复现指南。这些可能包含在代码仓库中。 论文中引用的开源项目: audiomentations:用于数据增强。链接:https://github.com/iver56/audiomentations pyroomacoustics:用于合成人工RIRs。链接:https://github.com/LCAV/pyroomacoustics librosa:用于在评估指标中检测音符起始点(onsets)。链接:https://librosa.org/ ACE Challenge Workshop 数据:用于域外评估的测试集RIRs。链接:https://zenodo.org/records/6257551 MoisesDB:用于构建域外测试集。论文未提供直接链接,但这是一个公开的音乐源分离数据集,网址为 https://moises.ai/developer/。 Waves Clarity VX Dereverb:作为商业插件被提及作为对比,非开源项目。链接:https://www.waves.com/plugins/clarity-vx-dereverb 🏗️ 方法概述和架构 本系统是一个端到端的音频增强框架,旨在将立体声鼓组的混响信号(湿声)恢复为无混响信号(干声)。其核心流程为:输入的混响音频被转换为复数谱图表示,然后通过一个学习到的反向冷扩散过程进行迭代去混响,最终输出恢复的干音频谱图,并逆变换回时域波形。 ...

2026-05-12 · 更新于 2026-06-22 · 4 min · 708 words

AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

📄 AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State #音乐视频生成 #资源分配 #优化 #多模态模型 #评估指标 📝 4.8/10 | 前50% | #音乐视频生成 | #资源分配 | #优化 #多模态模型 | arxiv 学术质量 4.8/8 | 影响力 0.5/2 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Huimin Wang (小米) 通讯作者:未说明 作者列表:Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang。根据论文作者列表,所有作者均隶属于小米(Xiaomi)。 💡 毒舌点评 这篇论文将长音乐视频生成中的资源分配问题形式化为MCKP,并引入“结构化持久状态”概念,尝试系统性地解决成本与一致性权衡问题,其提出的新评估指标CQR也具有启发性。然而,论文的核心贡献在很大程度上停留在概念和框架层面。“结构化持久状态”作为关键创新点,其具体生成算法和如何与生成模型交互的细节在正文中严重缺失,仅依赖于对闭源商业模型(Seedream, Seedance)的调用。这使得工作看起来更像是一个针对特定商业工具链的系统集成演示,而非一个可复现、可独立验证的方法论贡献。其实验评估规模(5首歌)极小,严重削弱了结论的可信度和泛化能力。 📌 核心摘要 这篇论文旨在解决长音乐视频(MV)生成中计算成本高昂以及跨镜头一致性难以保持的问题。核心方法是将MV生成任务形式化为一个“多选择背包问题”(MCKP),并提出了一个名为AllocMV的层级框架。与以往采用均匀资源分配的方法不同,AllocMV的核心创新在于引入了一个“结构化持久状态”,并在生成前通过全局规划器估计片段显著性,然后通过一个两阶段的动态规划算法在预算约束下,将每个片段最优分配到高保真生成(High-Gen)、中等保真生成(Mid-Gen)或复用(Reuse)分支。实验在一个自建的5首歌曲基准上进行,主要结果如表1所示: 方法 BeatAlign ↑ CQR ↑ CLIP ↑ Motif ↑ Cost ↓ MuseV 0.0831±.021 0.2083±.028 0.2512±.019 0.8812±.024 3.04±.19 VideoComposer 0.1024±.024 0.2210±.031 0.2318±.022 0.8754±.026 3.15±.21 AutoMV 0.0960±.023 0.4697±.036 0.3222±.017 0.8521±.029 3.25±.22 AllocMV (Ours) 0.6679±.039 0.7586±.034 0.3014±.018 0.9984±.0008 1.69±.10 结果显示,AllocMV在节奏对齐(BeatAlign)和成本-质量比(CQR)上显著优于所有基线,同时大幅降低了成本(与最强基线AutoMV相比降低约48%)。其实际意义在于为结构化视频生成提供了一个资源优化调度的框架。主要局限是评估规模非常小(仅5首歌),且框架中多个关键组件(如持久状态的生成)高度依赖未开源的商业模型,限制了其可复现性和普适性验证。 ...

2026-05-12 · 更新于 2026-06-22 · 2 min · 418 words

APEX: Audio Prototype EXplanations for Classification Tasks

📄 APEX: Audio Prototype EXplanations for Classification Tasks #音频分类 #原型学习 #可解释性AI #后验解释 #特征解耦 ✅ 6.2/10 | 前25% | #音频分类 | #原型学习 | #可解释性AI #后验解释 | arxiv 学术质量 6.2/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Piotr Kawa (Wroclaw University of Science and Technology, Department of Artificial Intelligence) 通讯作者:未明确说明,但论文提供了 piotr.kawa@pwr.edu.pl 作为联系邮箱 作者列表:Piotr Kawa^1, Kornel Howil^4,5, Piotr Borycki^2, Miłosz Adamczyk^3, Przemysław Spurek^1, Piotr Syga^4 机构:1 Department of Artificial Intelligence, Wroclaw University of Science and Technology, Poland; 2 Resemble AI, USA; 3 IDEAS Research Institute, Poland; 4 Faculty of Mathematics and Computer Science, Jagiellonian University, Poland; 5 Doctoral School of Exact and Natural Sciences, Jagiellonian University, Poland 💡 毒舌点评 本文直击音频可解释性领域的一个核心痛点:如何在不损害现成高性能“黑箱”模型的前提下,为其赋予符合声学直觉的解释。APEX通过插入可逆线性变换解耦特征空间并严格保持输出不变的设计,思路清晰且数学上严谨,为这一目标提供了一个颇具吸引力的解决方案。其针对音频时频特性提出的四种原型提取方案也体现了领域洞察。然而,框架对骨干网络需含全局池化层和线性分类头的硬性要求,严重限制了其普适性,更像是一个专用工具。此外,所谓“通道纯度”优化是否真正得到了人类可理解的“声学概念”,缺乏直接的人工评估或语义对齐验证,这使得其“解释”的有效性打了一定折扣。 ...

2026-05-12 · 更新于 2026-06-22 · 4 min · 823 words

Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization

📄 Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization #语音识别 #说话人日志 #低资源 #数据增强 #迁移学习 📝 5.5/10 | 前50% | #语音识别 #说话人日志 | #迁移学习 #数据增强 | #语音识别 #说话人日志 | arxiv 学术质量 5.5/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Mohammed Aman Bhuiyan(North South University, Department of ECE) 通讯作者:论文中未明确指定 作者列表:Mohammed Aman Bhuiyan(North South University, Department of ECE),Md Sazzad Hossain Adib(North South University, Department of ECE),Samiul Basir Bhuiyan(North South University, Department of ECE),Amit Chakraborty(North South University, Department of ECE),Aritra Islam Saswato(North South University, Department of ECE),Ahmed Faizul Haque Dhrubo(North South University, Department of ECE),Mohammad Ashrafuzzaman Khan(North South University, Department of ECE) 💡 毒舌点评 亮点:本文作为一篇竞赛报告,系统性地整合了主流工具链(Whisper + PyAnnote),并针对孟加拉语这一低资源语言场景进行了细致的工程适配(如文本规范化、ASR引导的对齐、全面的数据增强),最终在特定竞赛集上取得了显著的性能提升,体现了较强的工程实践能力和问题解决导向。方法描述详尽,流程图清晰,代码开源。 短板:核心方法本质上是“在预训练模型上微调 + 设计数据增强流水线”,缺乏本质性的算法或理论创新。部分关键设计选择(如仅微调说话人日志的分段模型)虽经实验证明有效,但缺乏充分的消融实验支撑,使其贡献更偏向于特定场景的“配方优化”而非普适性方法论的突破。论文自身在局限性部分的表述存在前后矛盾(关于是否进行了全参数微调),且验证集过小的问题直接影响了结论的可靠性。 ...

2026-05-12 · 更新于 2026-06-22 · 3 min · 505 words

ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation

📄 ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation #音频生成 #图像分类 #实时系统 #物理建模 #注意力机制 #数据增强 ✅ 6.0/10 | 前50% | #音频生成 | #图像分类 | #实时系统 #物理建模 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.6/1 | 置信度 中 👥 作者与机构 第一作者:Yakun Liu(未说明机构) 通讯作者:未说明 作者列表:Yakun Liu, Hai Luan, Zhiyu Jin, Dong Liu(均未说明机构) 💡 毒舌点评 本文针对“Chladni图案声音化”这一高度垂直的艺术创作需求,提出了一套从物理建模到实时交互的完整工程原型。其核心价值在于将透明、基于物理公式的映射规则与轻量化识别模型结合,为特定艺术场景提供了降低技术门槛的解决方案。然而,该工作的主要短板也十分明显:所有验证完全依赖于自生成的合成数据集,其在真实世界复杂条件下的有效性未经检验,这使得其工程宣称的可靠性大打折扣。创新性本质上是对已有技术(薄板理论、CBAM、跨平台通信)的针对性整合与应用优化,而非方法学上的突破。作为一篇面向应用的短文,其贡献清晰但深度有限。 📌 核心摘要 解决的问题:新媒体艺术创作中Chladni图案声音化的三大痛点:1) 主观映射缺乏理论依据;2) 基于物理仿真的工具计算门槛高、离线计算无法满足实时交互;3) 通用图像声音化工具的映射规则为黑盒,不可控。 方法核心:提出ChladniSonify系统。首先,基于Kirchhoff-Love薄板振动理论,通过数值编程生成15种模式的Chladni图案-频率配对数据集,并使用ANSYS仿真校准频率系数。其次,设计了一个融合CBAM注意力机制的轻量化CNN模型(CNN_CBAM),专门用于识别这些图案的振动模式。最后,通过Python与Max/MSP基于UDP协议协作,构建了“图像输入→模式识别→频率映射→音频输出”的端到端实时系统。 与已有方法的创新:不同于主观映射或黑盒通用模型,本工作建立了完全由经典物理公式决定的、透明可复现的视觉-声学映射规则。针对Chladni图案细长节线的视觉特征,对CBAM空间注意力子模块的卷积核从7x7优化为5x5,以更精确地捕捉线特征,实现高精度低延迟识别。 主要实验结果: 基准频率一致性:在自建合成测试集(900张)上,正确识别样本的映射频率与理论频率相对偏差为0。 模式识别性能:CNN_CBAM模型准确率为99.33%,F1-score为0.9924,单图推理延迟7.03ms。详细对比如下表: 模型 准确率(%) F1-score 单图推理速度(ms) Basic_CNN 99.00 0.9945 6.42 CNN_CBAM (本研究) 99.33 0.9924 7.03 Improved AlexNet 99.67 0.9944 8.03 VGG16 100 1.0000 77 消融实验:优化CBAM(5x5核)相比无CBAM(99.00%)和原始CBAM(7x7核,98.50%),准确率更高(99.33%),延迟(7.03ms)也优于原始CBAM(7.10ms)。 全链路延迟:平均端到端延迟42.6ms,最大不超过48ms。 实际意义:为基于Chladni图案的新媒体艺术创作提供了一个可复现、物理一致的工程原型,允许艺术家在透明映射规则下进行声音定制,降低了创作的技术门槛。 主要局限性:系统仅适配一种特定边界条件(中心激励、四边自由方形不锈钢板);数据集仅包含15类模式;所有性能验证基于合成图像,缺乏真实拍摄数据的验证;基础音频输出仅为正弦波。 🔗 开源详情 代码:论文中未提及代码链接,未来计划中提及将开源系统代码。 模型权重:论文中未提及模型权重链接,未来计划中提及将开源模型架构。 数据集:论文中未提及公开数据集链接,未来计划中提及将开源数据集。论文描述的数据集是程序化生成的,包含15个振动模式,每个模式100张图像,共1500张原始图像。经数据增强后,训练集扩展为4500张图像(3600训练,900测试)。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提供可供下载的复现材料包。论文在实验部分详细描述了复现所需的环境与参数:硬件为Apple M4 (MacBook Air) CPU,16GB内存;深度学习框架为PyTorch 2.0;图像输入尺寸为224x224x3 RGB格式;训练超参数包括:批量大小32,Adam优化器,初始学习率1e-4,训练50个epoch,采用早停策略(验证集损失连续10个epoch不下降则停止)。模型推理延迟测试条件为:单图像推理,批量大小=1,在CPU上运行,取1000次测试的平均值。 论文中引用的开源项目/工具: PyTorch:论文中提及使用PyTorch 2.0作为深度学习框架。官方主页为 https://pytorch.org/。 ANSYS Workbench:论文中提及使用ANSYS Workbench进行有限元模拟验证。官方主页为 https://www.ansys.com/products/ansys-workbench。 Max/MSP:论文中提及使用Max/MSP进行实时音频渲染与系统交互。官方主页为 https://cycling74.com/products/max。 PixelPlayer:论文在相关工作中提及的开源图像声音化项目,非本论文直接使用。 🏗️ 方法概述和架构 ChladniSonify是一个面向新媒体艺术创作的端到端实时视觉-声学映射系统,其设计严格遵循“物理规律驱动”和“实时交互”原则。系统由三个核心模块组成,形成从物理建模到交互输出的完整流水线。 ...

2026-05-12 · 更新于 2026-06-22 · 2 min · 367 words

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

📄 CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings #脑机接口 #迁移学习 #预训练 #跨模态 #数据集 ✅ 6.5/10 | 前25% | #脑机接口 | #迁移学习 | #预训练 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 1.0/1 | 置信度 高 👥 作者与机构 第一作者:Liuyin Yang(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 通讯作者:Marc M. Van Hulle(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 作者列表:Liuyin Yang(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Qiang Sun(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Bob Van Dyck(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Eva Calvo Merino(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Marc M. Van Hulle(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 💡 毒舌点评 亮点在于首次系统性地研究了将头皮EEG预训练基础模型迁移到颅内ECoG解码的可行性,并在两个不同任务上验证了该框架的有效性。其设计的KNNSoftFourier适配器为解决电极几何差异提供了新颖的解决方案,LOO-FT策略为临床快速部署提供了实用路径。短板在于,其在公开基准任务(手指轨迹)上的性能提升统计上并不显著,且核心贡献更多是方法整合与验证,而非提出颠覆性的算法新范式。主要优势体现在低数据适配和私有任务上。 ...

2026-05-12 · 更新于 2026-06-22 · 4 min · 652 words

DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

📄 DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise #语音增强 #扩散模型 #回声消除 #语音质量评估 #单步扩散 ✅ 6.2/10 | 前30% | #语音增强 | #扩散模型 | #回声消除 #语音质量评估 | arxiv 学术质量 6.2/8 | 影响力 0.9/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者:未提及 作者列表:Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology), Ernst Seidel (Technische Universität Braunschweig, Institute for Communications Technology), Pejman Mowlaee (GN Advanced Science), Ziyue Zhao (GN Advanced Science), Tim Fingscheidt (Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评 这篇论文的核心贡献在于尝试将单步条件扩散模型应用于AEC任务,并给出了一个声称可复现的框架。其在部分语音质量指标上超越了重新训练的DeepVQE基线,且模型更轻量,这展示了生成模型在AEC领域的潜力。然而,论文的创新程度有限,其核心单步扩散框架直接借自EffDiffSE,真正的“新意”在于架构调整和数据适配。致命的缺陷在于缺乏关键的消融实验,无法证明Cond DNN、Score DNN以及单步策略各自必要性,使得结论说服力大打折扣。此外,尽管标题和摘要声称“excel”在“echo and noise control performance”,但实验数据显示其在回声抑制(Echo)指标上并未优于甚至略逊于DeepVQE,结论的表述存在过度推广之嫌。 ...

2026-05-12 · 更新于 2026-06-22 · 3 min · 612 words

Dolphin-CN-Dialect: Where Chinese Dialects Matter

📄 Dolphin-CN-Dialect: Where Chinese Dialects Matter #语音识别 #端到端 #多语言 #低资源 #数据增强 📝 5.5/10 | 前50% | #语音识别 | #端到端 | #多语言 #低资源 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yangyang Meng, Huihang Zhong, Guodong Lin, Guanbo Wang, Hu Du(论文中标注为共同第一作者,*) 通讯作者:Zhiming Shao, Wei-Qiang Zhang(论文中标注为通讯作者,†) 作者列表:Yangyang Meng (Dataocean AI), Huihang Zhong (Dataocean AI), Guodong Lin (Dataocean AI), Guanbo Wang (Dataocean AI), Hu Du (Dataocean AI), Zhiming Shao (Speech and Audio Technology Lab, Dept. EE, Tsinghua University), Yukai Huang (Dataocean AI), Ke Li (Dataocean AI), Wei-Qiang Zhang (Speech and Audio Technology Lab, Dept. EE, Tsinghua University) 💡 毒舌点评 亮点:工程实践导向明确,提出的温度采样策略有效缓解了方言数据长尾问题,且在小参数量模型上取得了有竞争力的结果,对工业部署友好。双路热词偏置框架的评估较为全面,包括了Oracle分析。 短板:核心贡献多为对已有技术的组合与工程调优,缺乏模型架构或训练范式上的根本性创新;关键超参数(如α)的选择和消融实验缺失,影响了方法深度;大量依赖未公开的内部数据集,使得对比实验的公平性和复现性存疑。 ...

2026-05-12 · 更新于 2026-06-22 · 4 min · 696 words

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

📄 Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs #音乐生成 #生成模型 #音频编码 📝 4.0/10 | 前50% | #音乐生成 | #生成模型 | #音频编码 | arxiv 学术质量 4.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 中 👥 作者与机构 第一作者:Konstantinos Soiledis(University of Ioannina, University of Patras) 通讯作者:未说明 作者列表:Konstantinos Soiledis(University of Ioannina, University of Patras)、Maximos Kaliakatsos-Papakostas(University of Ioannina)、Dimos Makris(University of Ioannina)、Konstantinos Tsamis(University of Ioannina, University of Patras) 💡 毒舌点评 本文系统性地比较了三种神经音频编解码器在鼓网格到音频生成任务中的表现,为后续工作选择目标表示提供了有价值的实证参考,这是其亮点。然而,论文主要贡献是将已有技术(神经编解码器+Transformer)进行组合应用,且核心实验发现(增大模型反而导致性能下降)未能给出深入分析或有效解决方案,显得方法部分的创新深度和工程鲁棒性有所不足。 📌 核心摘要 问题:如何从包含微时值和力度信息的鼓网格(Expressive Drum Grid)生成真实、富有表现力的鼓音频,以捕捉人类演奏的细微感觉(“groove”)。 方法核心:采用“编解码器token预测”范式。系统将鼓网格输入到一个非自回归Transformer编码器中,预测预训练神经音频编解码器(EnCodec, DAC, X-Codec)的离散token序列,然后使用固定的编解码器解码器将token序列转换为波形音频。 创新点:与现有方法相比,本文的主要创新在于: 提出了一个完整的从表达性鼓网格到音频的生成系统(DrumGrid2Audio)。 在一个受控的、统一的建模框架下,首次(原文描述为“one of the first”)对EnCodec、DAC和X-Codec三种主流神经音频编解码器作为中间表示的效能进行了系统比较。 在公开的大规模鼓数据集E-GMD上进行了多方面的客观评估。 主要实验结果: 在Base模型设置下,EnCodec在大多数指标上表现最优:token准确率最高(单套鼓42.7%,全套鼓43.4%),感知距离(FAD)最低(单套鼓0.281,全套鼓0.193)。 DAC在样本级误差(RMSE/MAE)上最低,但token预测难度极大(困惑度高达500+),感知质量最差(FAD最高,全套鼓0.405)。 X-Codec性能介于两者之间。 反常发现:将模型容量从Base增大到Large后,所有编解码器的性能均显著下降,表明训练过程不稳定。 实际意义:为音乐制作和音频生成领域提供了一种新的从符号化鼓谱(MIDI+表情信息)渲染逼真音频的途径,并为如何选择神经音频编解码器作为生成目标提供了实践指导。 主要局限性:论文明确承认缺乏主观听感评估和正式统计检验;Large模型训练不稳定,原因未深究;研究仅限于鼓音频,结论的泛化性未验证。 🔗 开源详情 代码:https://github.com/kostantinos-soiledis/midigroove_poc 模型权重: EnCodec: facebook/encodec_32khz (HuggingFace预训练检查点) DAC: descript/dac_44khz (HuggingFace预训练检查点) X-Codec: hf-audio/xcodec-hubert-general (HuggingFace预训练检查点,配置为2.0 kbps带宽) 数据集:Expanded Groove MIDI Dataset (E-GMD)。论文中未提供该数据集的具体下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 项目页面:https://github.com/kostantinos-soiledis/midigroove_poc(包含生成的音频示例和扩展结果/图表,如所有套件的完整评估细分)。 训练配置:Base模型 (d_model=768, L=6, H=8) 和 Large模型 (d_model=1536, L=10, H=12) 的详细架构参数;优化器为AdamW,学习率 6×10^{-5},全局梯度裁剪1.0,最大200,000步,早停5000步。 训练硬件:所有模型均在单个NVIDIA GeForce RTX 3080 GPU (10 GB VRAM)上训练。 评估协议:具体评估指标(NLL, PPL, Acc, RMSE, MAE, MR-STFT SC, Env RMS corr, TTER MAE, Onset P/R/F1, FAD)的定义和计算方法。 论文中引用的开源项目: EnCodec (神经音频编解码器): https://github.com/facebookresearch/encodec (论文引用 [4]) DAC (神经音频编解码器): https://github.com/descriptinc/descript-audio-codec (论文引用 [6]) X-Codec (神经音频编解码器): https://github.com/zhangzwfcn/xcodec (论文引用 [5]) AudioLM (基于编解码器令牌的语言模型): https://github.com/google-research/audioLM (论文引用 [1]) MusicLM (文本到音乐生成): https://github.com/google-research/musiclm (论文引用 [2]) SoundStream (神经音频编解码器): https://arxiv.org/abs/2107.10759 (论文引用 [11]) GrooVAE (表达性节奏建模): https://github.com/wayne391/beat-dance-datasets (论文引用 [8],数据集链接) CRASH (基于分数的扩散模型): https://github.com/hugoflorentino/CRASH (论文引用 [10]) MIDI-VALLE (符号到音频合成): https://github.com/yangdongchao/MIDI-VALLE (论文引用 [12]) STAGE (伴奏生成): https://github.com/facebookresearch/audiocraft (论文引用 [13]) DARC (鼓生成): https://github.com/DARG/darc (论文引用 [14]) TRIA (基于令牌的鼓合成): https://github.com/ZiyueXu77/TRIA (论文引用 [15]) madmom (用于起点检测): https://github.com/CPJKU/madmom (论文引用 [16],隐含) fadtk (用于计算FAD): https://github.com/AudioLDM/fadtk (论文引用 [17],隐含) 🏗️ 方法概述和架构 本文提出的方法(命名为DrumGrid2Audio)是一个条件生成系统,旨在将输入的表达性鼓网格转换为对应的鼓音频波形。整个系统可以看作一个两阶段流水线:首先是一个由Transformer构成的“网格到token”预测器,然后是一个固定的神经音频编解码器解码器。 ...

2026-05-12 · 更新于 2026-06-22 · 4 min · 663 words

EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing

📄 EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing #音频事件检测 #多模态模型 #跨模态 #弱监督学习 📝 5.8/10 | 前25% | #音频事件检测 | #多模态模型 | #跨模态 #弱监督学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Huilai Li(北京邮电大学智能工程与自动化学院) 通讯作者:Jianqin Yin(北京邮电大学智能工程与自动化学院) 作者列表: Huilai Li(北京邮电大学智能工程与自动化学院) Xiaomeng Di(国家电网有限公司) Ying Xing(北京邮电大学智能工程与自动化学院) Yonghao Dang(北京邮电大学人工智能学院) Yiming Wang(北京邮电大学智能工程与自动化学院) Jianqin Yin(北京邮电大学智能工程与自动化学院,通讯作者) 💡 毒舌点评 这篇论文精准地切中了现有弱监督音视频视频解析(AVVP)方法的一个痛点:在追求多模态融合时,反而可能损害了对单模态事件本身准确感知的能力。提出的EAR框架从伪标签生成器预训练和最终解析模型两个阶段入手,试图“补课”增强单模态表示,思路清晰且有实效。实验上确实在AVVP基准上取得了当前最佳结果,尤其是伪标签质量的提升令人印象深刻。然而,其核心的“基于相似性的标签迁移”本质上是一种依赖外部预训练模型(CLIP/CLAP)特征质量的启发式增强手段,阈值敏感且易引入噪声(尤其在视觉模态),其“创新”更偏向于针对特定数据集的精巧工程调优,而非对弱监督学习本身方法论的突破。整体看,这是一篇扎实、完整的系统性工作,但理论深度和方法的普适性有提升空间。 📌 核心摘要 要解决的问题:弱监督音视频视频解析(AVVP)任务中,现有方法主要沿着两个方向发展:生成高质量伪标签以提供更细粒度的跨模态监督,或设计更复杂的AVVP模型架构以增强多模态融合。然而,由于音频和视觉信号通常未对齐,准确解析视频根本上依赖于对单模态事件的精确感知。这些多模态聚焦的策略过度强调跨模态融合,而未能充分引导和保留单模态语义,导致生成的伪标签噪声较大,最终视频解析性能次优。 方法核心:提出增强单模态表示(EAR)框架,旨在同时优化伪标签生成器和AVVP模型。(1) 在伪标签生成器预训练阶段,引入基于单模态特征相似性的标签迁移方法,将大规模DAVE数据集上的音视频事件标注转化为伪单模态事件标注,为生成器提供显式的单模态监督;同时采用非对称时序建模架构以更好地聚焦于单模态事件的动态关系。(2) 在AVVP模型训练阶段,采用软约束方式,设计非对称音/视觉驱动融合模块和多事件关系建模模块,在融合过程中保护单模态语义信息。 与已有方法相比新在哪里:明确将“增强单模态表示”作为提升AVVP的核心目标,而非仅仅关注多模态融合或跨模态对齐。具体的实现手段——基于相似性的标签迁移和软约束模型架构——旨在更协调地平衡单模态与多模态事件的关注,这与以往主要关注对称融合或忽略单模态独立建模的方法有本质区别。 主要实验结果: 在AVVP基准LLP数据集上,EAR在伪标签生成和最终解析性能上均达到SOTA。 使用VGGish+ResNet特征时,整体平均性能(Event Level Avg.)比当前SOTA方法UWAV高0.9%,达到63.7%;使用CLIP+CLAP特征时,高1.2%,达到67.4%。 生成的伪标签质量(测试集平均性能)比VALOR和UWAV分别高出3.8%和2.9%。 大量的消融实验验证了标签迁移(LM)、非对称融合(AMDF)、多事件关系建模(ERM)以及各损失函数的有效性。 实际意义:为弱监督时序定位任务(如AVVP、动作定位)提供了一种新的视角,即通过显式增强单模态表示来提升整体性能。其生成的高质量伪标签具有公开共享的价值,可作为未来AVVP研究的强基线。 主要局限性:基于相似性的标签迁移是启发式的,其有效性高度依赖于预训练模型(CLIP/CLAP)的特征质量和相似度阈值的设定。特别是在视觉模态,相似的视觉片段可能包含不同事件,导致迁移的标签引入噪声,这解释了为何论文中视觉模态的性能提升不如音频模态明显。方法性能上限受上游预训练模型特征提取能力制约。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: UnAV-100:用于伪标签生成器预训练的密集音视频事件定位数据集。论文中未提供直接下载链接,但可通过其原始论文[13]中提供的项目页面获取信息。 LLP (Look, Listen, and Parse):用于评估音视频视频解析性能的基准数据集。论文中未提供直接下载链接,但该数据集为AVVP任务的标准评测集,可通过其原始论文[46]获取信息。 Demo:论文中未提及。 复现材料:论文的补充材料(Supplementary Material) 提供了训练配置、损失函数细节、参数消融实验结果等信息,可用于复现。论文中提到生成的细粒度伪标签将公开发布,但未提供发布时的具体链接。 论文中引用的开源项目: CLIP:用于提取视觉和文本特征的预训练模型。论文中给出了其GitHub仓库链接: https://github.com/openai/CLIP CLAP:用于提取音频和文本特征的预训练模型。论文中给出了其论文链接(作为其开源实现的间接指代): https://arxiv.org/abs/2206.04769 ResNet-152:用于提取视觉特征的预训练骨干网络。 3D ResNet:用于提取视觉特征的预训练骨干网络。 VGGish:用于提取音频特征的预训练骨干网络。 🏗️ 方法概述和架构 图2:EAR框架总览。Stage 1利用DAVE数据集进行伪标签生成器的预训练,Stage 2在目标数据集(LLP)上生成伪标签,Stage 3使用生成的伪标签和软约束模型进行AVVP训练。图中清晰展示了数据从原始视频到特征提取、标签迁移、伪标签生成、再到最终解析模型训练的完整流水线。 ...

2026-05-12 · 更新于 2026-06-22 · 3 min · 507 words