HarmoNet: Music Grounding by Short Video via Harmonic Resample and Dynamic Sparse Alignment

📄 HarmoNet: Music Grounding by Short Video via Harmonic Resample and Dynamic Sparse Alignment #音乐检索 #跨模态 #注意力机制 #对比学习 ✅ 7.0/10 | 前25% | #音乐检索 | #注意力机制 | #跨模态 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Yaomin Shen(浙江大学南昌研究院XR系统应用研究中心) 通讯作者:未明确说明,但第一作者Y. Shen提供了邮箱 coolshennf@gmail.com。 作者列表: Yaomin Shen(浙江大学南昌研究院XR系统应用研究中心) Wei Fan(独立研究员) Haichuan Hu(阿里云) Xinqi Liu(香港大学工程学院) Min Yang(浙江大学南昌研究院XR系统应用研究中心) Rui Jia(华东师范大学上海人工智能教育研究院) Junbiao Cai(独立研究员) 💡 毒舌点评 亮点:论文针对“短视频配乐”这一具体场景的痛点分析透彻,HRM的多尺度音乐重采样与DSA的动态稀疏注意力机制设计巧妙,且实验消融做得非常扎实,充分验证了每个组件的贡献。 短板:任务定义非常垂直,研究成果的普适性有待观察;更关键的是,作为一篇方法论论文,完全没有提供代码或模型开源计划,这在2026年的顶会上显得有些“古典”,严重制约了工作的影响力和可复现性。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:使用了公开的MGSV-EC基准,但未提及是否对数据进行了额外处理或提供处理后的数据。 Demo:未提供在线演示。 复现材料:论文给出了优化器、学习率、batch size、训练轮数、硬件配置等训练细节,以及关键超参数(如HRM尺度、DSA稀疏比例)。但缺少配置文件、训练脚本和模型定义代码。 论文中引用的开源项目:引用了CLIP(ViT-B/32)、AST作为特征提取器,以及MaDe作为基线。未说明这些项目是否为复现提供了代码支持。 总结:论文中未提及开源计划,可复现性信息不完整。 📌 核心摘要 问题:本文致力于解决“短视频音乐定位”(MGSV)任务,即给定一个短视频,自动从候选音乐库中不仅匹配最合适的音乐曲目,还要定位出该曲目中最适合做背景音乐的时间片段。现有方法忽略了音乐旋律的多尺度特性和节奏变化导致的序列重要性动态变化。 方法:提出了HarmoNet框架,包含两个核心模块:谐波重采样模块和动态稀疏对齐策略。 创新点:HRM将音乐信号在多个时间尺度上重采样为不同层级的表征,以捕捉全局旋律、片段结构和细粒度节奏,并与视频特征进行层级匹配。DSA策略结合可学习的高斯偏置和TopK稀疏选择,动态地强调重要的跨模态对应关系,抑制噪声,提升定位精度。 实验结果:在MGSV-EC基准上,HarmoNet在所有指标上超越了先前的SOTA方法MaDe。具体提升如下表所示: 模型 mIoU↑ R1↑ R5↑ R10↑ MoR1↑ MoR10↑ MoR100↑ MaDe (基线) 0.725 8.9 16.7 18.9 8.3 17.5 30.9 HarmoNet (Ours) 0.735 10.7 19.5 22.8 9.6 19.7 32.8 表:HarmoNet与基线方法MaDe在MGSV-EC基准上的关键结果对比。 消融实验(如表2所示)证明了HRM对音乐检索(MoR指标)至关重要,而DSA对片段定位(mIoU)有显著提升。 实际意义:该方法有望提升短视频创作平台的自动化配乐效率,增强内容表达力和观众参与度。 主要局限性:任务场景相对特定,对更广泛的音视频理解任务的迁移性未验证;未开源代码和模型,限制了其实际应用和学术复现。 🏗️ 模型架构 HarmoNet整体架构可分为三个阶段(参考图2): ...

2026-04-29

Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models

📄 Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models #音频检索 #图像检索 #预训练 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音频检索 #音频分类 | #预训练 | #音频检索 #图像检索 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表顺序为并列贡献) 通讯作者:未说明 作者列表:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France),Kawtar Zaher(INRIA, LIRMM, Université de Montpellier, France;Institut National de l’Audiovisuel, France),Lukas Rauch(University of Kassel, Germany),Alexis Joly(INRIA, LIRMM, Université de Montpellier, France) 💡 毒舌点评 亮点在于论文极其简洁地证明了“大力出奇迹”的道理:利用强大的预训练模型(如DINOv2、CLAP)的冻结嵌入,搭配几个无需训练的经典降维与二值化“零件”(PCA、随机正交投影),就能在图像和音频检索任务上达到与昂贵训练的深度哈希方法相竞争的性能,这为实际应用提供了一个极其简单且强大的基线。短板在于方法本身的创新性有限,本质上是现有技术的拼接,且虽然提出了音频哈希基准,但在更大规模、更贴近真实场景的跨域检索任务上的验证仍然不足。 ...

2026-04-29

HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection with Multichannel Audio and Multiscale Visual Cues

📄 HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection with Multichannel Audio and Multiscale Visual Cues #音频事件检测 #多模态模型 #端到端 #麦克风阵列 🔥 8.0/10 | 前25% | #音频事件检测 | #多模态模型 | #端到端 #麦克风阵列 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiwen Li(Scientific Computing and Imaging Institute, University of Utah) 通讯作者:Tolga Tasdizen(Scientific Computing and Imaging Institute, University of Utah; Department of Electrical and Computer Engineering, University of Utah) 作者列表:Xiwen Li(Scientific Computing and Imaging Institute, University of Utah)、Xiaoya Tang(Scientific Computing and Imaging Institute, University of Utah)、Tolga Tasdizen(Scientific Computing and Imaging Institute, University of Utah; Department of Electrical and Computer Engineering, University of Utah) 💡 毒舌点评 这篇论文的亮点在于其问题导向的系统设计,针对异质性模态融合、多尺度检测和训练不稳定这三个具体痛点,分别用Transformer、特征金字塔和解耦头给出了清晰的解决方案,实验增益显著。然而,其短板在于创新点的“组合”色彩较重,每个组件(如Transformer用于融合、FPN、解耦头)在其他视觉任务中已有广泛应用,论文的核心贡献更多是巧妙地将这些成熟模块应用于特定任务,而非提出根本性的新机制。 ...

2026-04-29

HCGAN: Harmonic-Coupled Generative Adversarial Network for Speech Super-Resolution in Low-Bandwidth Scenarios

📄 HCGAN: Harmonic-Coupled Generative Adversarial Network for Speech Super-Resolution in Low-Bandwidth Scenarios #语音增强 #生成模型 #端到端 #低资源 🔥 8.0/10 | 前50% | #语音增强 | #生成模型 | #端到端 #低资源 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xin Wang(河海大学信息科学与工程学院) 通讯作者:Yibin Tang(河海大学信息科学与工程学院) 作者列表:Xin Wang(河海大学信息科学与工程学院)、Yuan Gao(河海大学信息科学与工程学院)、Xiaotong Wang(河海大学信息科学与工程学院)、Yibin Tang(河海大学信息科学与工程学院)、Aimin Jiang(河海大学信息科学与工程学院)、Ying Chen(常州大学微电子与控制工程学院) 💡 毒舌点评 亮点:该工作的双分支设计思路清晰,将语音的谱特征与谐波结构显式解耦并分别建模,对于解决4kHz这类谐波严重丢失的极窄带问题确有针对性,消融实验也证明了谐波分支的贡献。短板:作为2026年发表在ICASSP的工作,其网络架构(U-Net + GAN + Mamba)的集成缺乏更深入的原理性创新,更像是一个工程上的有效组合;且Mamba模块在消融实验中对核心指标PESQ的提升并不显著,其必要性有待更强论证。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/BiolabHHU/HCGAN。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用VCTK公开数据集,论文中说明了数据集来源和处理方式,但未说明是否提供处理后的数据。 Demo:论文中未提及在线演示。 复现材料:提供了模型架构图、关键超参数(如损失权重、学习率、批次大小)、评估指标。代码仓库可能包含更多细节,但论文正文未说明。 引用的开源项目:在模型中引用了Mamba([18])和MelGAN([19])的判别器结构。 总结:论文中提及了代码仓库链接,但未说明开源计划的其他细节(如权重、详细配置文件)。 📌 核心摘要 问题:在低带宽场景(如采样率4kHz)下进行语音超分辨率时,输入信号的谐波信息严重丢失,现有方法难以恢复出自然清晰的高质量语音。 方法核心:提出谐波耦合生成对抗网络(HCGAN)。生成器采用双分支架构:谱分支通过U-Net和Mamba模块处理频谱图;谐波分支通过时谐模块从低频谐波矩阵估计高频谐波矩阵。两分支输出融合后生成最终频谱。 创新点:1)显式引入并建模语音的谐波结构,通过矩阵形式实现谐波从低频到高频的迁移;2)设计双分支架构,分别学习谱平滑性和谐波连续性,并进行特征融合;3)在U-Net瓶颈处集成轻量Mamba模块以降低计算复杂度。 主要结果:在8kHz->16kHz任务上,HCGAN的PESQ达到3.64,超越所有对比方法(最高为TUNet的3.50)。在更困难的4kHz->16kHz任务上,其PESQ为2.50,也优于AFiLM、NVSR等传统方法。消融实验证实了多尺度特征损失、Mamba模块和谐波提取(HE)模块的有效性。 表1:16 kHz高分辨率语音从8 kHz语音恢复对比 方法 LSD PESQ SNR (dB) Params (M) AFiLM [20] 0.74 3.02 20.0 134.7 NVSR [21] 0.78 3.09 17.4 99.0 TFiLM [12] 0.78 2.51 19.8 68.2 AERO [17] 0.77 3.01 22.5 36.3 Tramba [16] 0.82 3.23 23.2 5.2 TUNet [13] 1.36 3.50 17.4 2.9 HCGAN 0.78 3.64 19.8 4.7 表2:16 kHz高分辨率语音从4 kHz语音恢复对比 方法 LSD PESQ SNR (dB) Params (M) AFiLM [20] 1.00 1.88 15.4 134.7 NVSR [21] 0.95 2.03 11.7 99.0 TFiLM [12] 1.17 2.08 15.0 68.2 TFNet [11] 1.27 1.73 17.5 55.8 HCGAN 0.96 2.50 14.3 4.7 实际意义:HCGAN以仅4.7M的参数量,在关键的感知质量指标PESQ上表现优异,尤其适用于卫星通信、物联网等对模型大小敏感且带宽极度受限的语音通信增强场景。 局限性:当输入语音基频较高(>300Hz)时,低频谐波矩阵包含的信息不足,导致谐波分支的性能提升有限。此外,实验部分未提供语音增强后的MOS评分或主观听感测试,客观指标与主观感受的关联性有待进一步验证。 🏗️ 模型架构 HCGAN是一个在GAN框架下的双分支生成器模型,其整体架构如图1所示。其核心思想是分别建模语音的频谱特征和谐波结构,然后进行融合。 ...

2026-04-29

HD-PPT: Hierarchical Decoding of Content- and Prompt-Preference Tokens for Instruction-Based TTS

📄 HD-PPT: Hierarchical Decoding of Content- and Prompt-Preference Tokens for Instruction-Based TTS #语音合成 #大语言模型 #自回归模型 #对比学习 #模型评估 🔥 8.0/10 | 前25% | #语音合成 | #大语言模型 | #自回归模型 #对比学习 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sihang Nie(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Sihang Nie(华南理工大学)、Xiaofen Xing(华南理工大学)、Jingyuan Xing(华南理工大学)、Baiji Liu(华南理工大学,广州趣玩网络科技有限公司)、Xiangmin Xu(佛山大学,华南理工大学) 💡 毒舌点评 亮点: 论文将“精细控制”这个模糊的目标,拆解为可操作的、由两个专用token监督的分层生成步骤,这种“结构化解耦”的思路非常清晰且有效,实验数据也确实支撑了其优越性。 短板: 训练过程描述不够细致,例如文本指令的预处理、训练时的正则化细节(如何概率性地掩码隐藏状态和提示token)不够明确,且代码未开源,使得复现其“精妙”的工程实现颇具挑战。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:实验使用了公开数据集TextrolSpeech和EmoVoice-DB,但论文未提供获取方式的额外信息。 Demo:提供了音频样本的在线演示(https://xxh333.github.io/)。 复现材料:提供了一些关键训练细节(如GPU型号、学习率、epoch数、模型层数等),但缺乏数据预处理、代码框架、超参数搜索过程等完整复现所需的关键信息。 论文中引用的开源项目:CosyVoice/2(语音tokenizer和声码器)、Whisper-Small(ASR)、RoBERTa-base(文本嵌入)、Qwen2.5-0.5B(LLM主干)。 总结:论文中未提及开源计划,复现主要依赖公开的第三方模型和论文中提供的部分配置信息。 📌 核心摘要 问题: 现有基于大语言模型的指令TTS(Instruct-TTS)方法,试图将单层的文本指令直接映射到多层的语音token上,导致精细控制能力不足,存在“层级不匹配”问题。 方法核心: 提出HD-PPT框架,包含两个核心创新:a) 设计一个新的语音编解码器(Speech Token Codec),通过ASR和CLAP两个监督目标,将语音token解耦为“内容偏好token”(语义)和“提示偏好token”(风格);b) 设计分层解码策略,引导LLM按“内容基础 -> 风格渲染 -> 完整声学表征”的顺序生成token。 新意: 相比于直接建模单一语音token序列的方法,本文首次将语音token在生成过程中显式地结构化解耦,并分别用语义和风格目标进行监督,实现了从“隐式映射”到“显式分层生成”的范式转变。 主要结果: 在TextrolSpeech和EmoVoice-DB两个数据集上,HD-PPT在主观自然度(MOS-N)、风格一致性(MOS-S)和情感相似度(EMO-SIM)指标上均取得了最佳成绩(见表1)。消融实验证明,移除任一偏好token或改变解码策略都会导致性能下降。 实际意义: 为实现高保真、高可控的语音合成提供了有效框架,提升了LLM在语音生成任务中的指令遵循能力,对智能语音助手、有声内容创作等应用有推动作用。 主要局限: 多组件架构增加了模型复杂度和部署难度;训练细节部分缺失,不利于完全复现;论文中承认对低资源语言的适应性是一个挑战。 表1:在测试集上的主观与客观对比结果 ...

2026-04-29

HergNet: A Fast Neural Surrogate Model for Sound Field Predictions Via Superposition of Plane Waves

📄 HergNet: A Fast Neural Surrogate Model for Sound Field Predictions Via Superposition of Plane Waves #空间音频 #物理信息神经网络 #声学模拟 ✅ 7.0/10 | 前25% | #空间音频 | #物理信息神经网络 | #声学模拟 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Matteo Calafà(丹麦技术大学,电气与光子工程系,声学技术部门) 通讯作者:论文中未明确标注通讯作者 作者列表:Matteo Calafà(丹麦技术大学,电气与光子工程系,声学技术部门)、Yuanxin Xia(丹麦技术大学,电气与光子工程系,声学技术部门)、Cheol-Ho Jeong(丹麦技术大学,电气与光子工程系,声学技术部门) 💡 毒舌点评 这篇论文最聪明的地方在于把“物理定律”硬编码进了网络架构,让神经网络生来就是“正确”的,省去了经典PINNs在内部点计算损失的苦工,在中高频段算得又快又准。不过,为了追求“快速”和“物理正确”,它默认了声场就是平面波的叠加,导致在低频段(更像扩散问题时)表现拉胯,而且对比的主要是自己实现的解析解,没能和工业界常用的FEM、BEM等“老大哥”直接掰手腕,显得有点“偏科”。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开权重。 数据集:不适用,论文使用数值模拟和解析解进行验证,未使用公开声学数据集。 Demo:未提及在线演示。 复现材料:论文提供了详细的超参数、训练策略和硬件环境,复现信息较充分。 论文中引用的开源项目:主要依赖JAX(v0.7.0)深度学习框架。 📌 核心摘要 要解决什么问题:传统数值方法(如FEM)和经典物理信息神经网络(PINNs)在模拟中高频声场时计算成本高、收敛困难。本文旨在提出一种更高效、物理上精确的神经网络代理模型。 方法核心是什么:提出HergNet架构。其核心思想是基于Herglotz表示定理,将声场显式表示为可训练平面波(带方向s_j、相位d_j)的叠加。其中,每个平面波的复振幅由一个共享的、以入射方向为输入的神经网络˜h来预测。损失函数仅基于边界条件计算,网络输出自动满足齐次Helmholtz方程。 与已有方法相比新在哪里:与传统PINNs将物理定律作为软约束(损失函数项)不同,HergNet通过网络结构本身(平面波叠加)实现了物理定律的硬约束,使输出自动满足波动方程。因此,训练仅需边界数据,无需在计算域内部采样,极大提升了计算效率和内存优势。同时,通过神经网络学习˜h函数,保证了物理量在方向空间上的连续性。 主要实验结果如何: 在6000 Hz的3D鞋盒房间声场预测中,HergNet预测结果与解析解在实部、虚部上吻合良好,最大边界误差0.16 Pa,相对误差<10%。 训练时间仅124秒(RTX 5090),但内存消耗是瓶颈(24.07 GB)。 频率扫描(100 Hz - 6000 Hz)显示,在中高频段,预测的声压级(SPL)和相位与解析解匹配完美,SPL偏差低于1 dB的听觉差异阈值。但在低频段(<500 Hz)误差相对增大。 计算成本随频率平方增长(Nquad, Ntrain ∝ f^2),优于体积类方法(如PINNs、FEM)的立方增长。 实际意义是什么:为房间声学、电磁学、光学等领域的波场预测提供了一种快速、可扩展的深度学习工具,特别适合需要反复进行参数化仿真(如改变频率、边界条件)的场景,有望在虚拟现实、建筑声学设计中得到应用。 主要局限性是什么: 低频性能下降:在低频段(波动问题接近扩散问题时),平面波叠加表示变得低效,导致误差增大。 内存瓶颈:训练时,所有训练点需要与所有平面波参数交互,导致内存消耗以O(f^4)增长,成为高频下的主要限制。 对比基线有限:实验主要与自实现的解析解对比,未与其他主流数值方法(如FEM、BEM)或最新神经网络方法进行直接性能(速度、精度)对比。 🏗️ 模型架构 HergNet的整体架构如图1所示,其设计核心是将数学表示(Herglotz波函数)直接转化为神经网络结构。 ...

2026-04-29

HFSQVAE: Hierarchical Vector Quantization with Residuals for Frequency-Specific Embedding

📄 HFSQVAE: Hierarchical Vector Quantization with Residuals for Frequency-Specific Embedding #向量量化 #音频生成 #音频分类 #图像重建 #信号处理 ✅ 7.0/10 | 前25% | #音频生成 | #向量量化 | #音频分类 #图像重建 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Min Woo Kim(首尔大学电气与计算机工程系,INMC实验室) 通讯作者:未说明 作者列表:Min Woo Kim(首尔大学电气与计算机工程系,INMC实验室)、Seonji Park(首尔大学电气与计算机工程系,INMC实验室)、Nam Ik Cho(首尔大学电气与计算机工程系,INMC实验室) 💡 毒舌点评 亮点:将“频谱偏差”从模型缺陷转化为可利用的先验知识,用“分而治之”的思路设计分层码本,并用乘积量化高效编码高频残差,逻辑清晰且工程实现合理。 短板:作为一篇发表在ICASSP 2026的论文,未提供任何代码或模型权重,对于一个方法论文来说,这严重削弱了其可复现性和社区影响力;此外,对比的基线方法(VQVAE, SQVAE等)已非当前SOTA,说服力有待加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开的ImageNet和UrbanSound8K数据集,但论文未说明具体获取或预处理方式。 Demo:未提及。 复现材料:未提供训练细节(如优化器、学习率、batch size)、配置文件、检查点或附录补充说明。 论文中引用的开源项目:论文引用了多个开源工作(如VQVAE、RQVAE),但未明确说明其实现是否基于这些项目。 总结:论文中未提及开源计划,复现难度较高。 📌 核心摘要 这篇论文旨在解决卷积神经网络在向量量化变分自编码器中固有的“频谱偏差”问题,即模型倾向于优先编码低频信息而忽略高频细节。 核心方法是提出HFSQVAE,一个包含两个层次化码本的架构:第一个码本(C_L)利用网络的天然频谱偏差来编码低频成分;第二个码本(C_H)则通过乘积量化技术,专注于编码输入图像减去第一个码本重建结果后得到的高频残差信息。 与已有方法相比,其新意在于:1) 将频率分离作为显式设计目标;2) 在图像空间而非潜在空间处理残差;3) 引入乘积量化以高效扩展高频码本容量;4) 提出交替训练策略以稳定优化。 实验结果表明,HFSQVAE在ImageNet(图像)和UrbanSound8K(音频频谱)数据集上,以更少的码本参数量,取得了优于VQVAE、SQVAE、CVQVAE、RQVAE等基线的重建精度。例如,在ImageNet上PSNR达到29.703(基线最优为27.719),LPIPS降至0.139(基线最优为0.221)。 实际意义在于为图像和音频的离散表示学习提供了一种更高效、更保真的编码方案,可能有助于下游的生成或分析任务。 主要局限性包括:未在更复杂的生成任务(如图像生成)中验证;未与最新的基于扩散模型的生成方法进行比较;且未开源任何实现细节。 ...

2026-04-29

Hierarchical Activity Recognition and Captioning from Long-Form Audio

📄 Hierarchical Activity Recognition and Captioning from Long-Form Audio #音频事件检测 #音频分类 #多任务学习 #预训练 #统一音频模型 ✅ 7.5/10 | 前25% | #音频事件检测 | #多任务学习 | #音频分类 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Peng Zhang(萨里大学视觉、语音与信号处理中心 CVSSP) 通讯作者:未说明 作者列表:Peng Zhang(萨里大学CVSSP)、Qingyu Luo(萨里大学CVSSP)、Philip J.B. Jackson(萨里大学CVSSP)、Wenwu Wang(萨里大学CVSSP) 💡 毒舌点评 这篇论文的亮点在于它像一个严谨的“包工头”,为“长音频层级理解”这个新工地(MultiAct数据集)和一套标准施工流程(统一层级模型)打了样,实验全面且开源承诺明确。短板则是所用的砖瓦(模型组件)多为现有库存,施工方法(框架创新)更偏向于系统集成而非原创性突破,面对复杂长程依赖时,模型表现仍有明显瓶颈(如序列预测的误差随上下文增长)。 🔗 开源详情 代码:提供代码仓库链接 github.com/PennyZhang9/MultiAct。 模型权重:论文中未明确说明是否公开预训练模型权重,但提供了开源代码仓库,权重可能包含在其中或后续发布。 数据集:MultiAct数据集公开,遵循CC BY许可(音频部分受EPIC-KITCHENS非商业许可约束)。 Demo:论文中未提及。 复现材料:提供了主要模型架构图和实验设置描述,但关键训练超参数在正文中未详细列出,复现细节需参考代码仓库。 论文中引用的开源项目: Auditory SlowFast (ASF):音频特征提取骨干网络。 ActionFormer:用于音频活动检测的基线模型。 BART:用于字幕生成的预训练语言模型解码器。 Conformer:用于序列预测任务的编码器。 GPT-4o:用于辅助数据集标注的LLM。 📌 核心摘要 要解决的问题:现有音频理解研究大多局限于短片段和孤立事件,缺乏对真实世界长音频中具有层次化(活动-子活动-事件)和序列化结构的复杂人类活动的理解。 方法核心:提出MultiAct新数据集,包含带有多层级时间标注和双粒度文本描述的长音频;并设计一个统一的层级模型框架,联合处理层级分类、检测、序列预测和多分辨率字幕生成任务。 与已有方法相比新在哪里:主要新在任务定义和数据资源上。MultiAct是首个提供长时程、三层级语义标注及配对描述的音频数据集。模型框架旨在统一解决上述多个层级化任务,而非针对单一任务。 主要实验结果: 层级分类任务:在评估集上,活动分类Top-1准确率达83.3%,子活动分类最佳Top-1为51.3%。 检测任务:子活动检测的平均AP在IoU@0.5时为22.0%,事件检测为12.5%,揭示了边界定位的挑战。 序列预测任务:使用CTC的Conformer模型,在训练上下文长度为2时AER最低(验证集66.7%),随上下文变长误差上升。 字幕生成任务:层级模型在大多数指标上优于基于规则的基线,例如在评估集的高阶摘要任务中,ROUGE-L从20.7提升至28.3,CIDEr从2.2提升至11.1。 实际意义:为长音频的层级结构理解研究建立了基准,推动了从孤立事件识别到复杂活动理解的研究范式转变,其建模思路可应用于监控、智能家居等领域。 主要局限性:模型在处理长程依赖(如长序列预测)和精确边界定位(检测任务中高IoU性能下降)方面仍存在挑战;模型架构缺乏核心原创性;数据集规模(~9小时)和场景多样性(厨房)有待扩充。 🏗️ 模型架构 论文提出的统一层级框架(见图2)包含三个主要组件,协同工作以处理长音频的层级理解和生成任务。 ...

2026-04-29

Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech

📄 Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech #语音合成 #流匹配 #零样本 #音频生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文中列出了多位作者,未明确指出第一作者) 通讯作者:未说明(论文中未明确指出) 作者列表:Joun Yeop Lee(三星研究院,三星电子)、Heejin Choi(三星研究院,三星电子)、Min-Kyung Kim(三星研究院,三星电子)、Ji-Hyun Lee(三星研究院,三星电子)、Hoon-Young Cho(三星研究院,三星电子) 💡 毒舌点评 该论文巧妙地将RVQ编解码器的“由粗到细”先验知识,内化为流匹配模型的训练课程与推理调度,逻辑清晰且实验增益显著,这是其最亮眼的工程创新。然而,论文对训练细节的“黑箱化”处理(如模型具体大小、完整超参数列表、训练时长)和仅有演示页面而无代码公开的现状,让其学术严谨性和社区复现性大打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了LibriTTS和Emilia数据集,但未说明是否提供自定义处理版本。LibriTTS是公开数据集,Emilia数据集信息未说明。 Demo:提供了在线演示页面:https://srtts.github.io/hierarchical-dfm 复现材料:论文中给出了部分训练细节(如数据集、迭代步数、GPU型号),但缺失关键超参数(模型维度、完整优化器配置)和训练时长,复现材料不充分。 论文中引用的开源项目:依赖的开源项目/模型包括F5-TTS、HiFi-Codec、Whisper-large-v3、WavLM-large、UTMOS。 整体开源情况:论文中未提及全面的开源计划。 📌 核心摘要 要解决什么问题:现有将离散流匹配(DFM)应用于基于残差向量量化(RVQ)的文本到语音(TTS)时,通常将所有码本视为同等,忽略了浅层码本(捕获粗结构)与深层码本(细化细节)之间的层次依赖关系,导致性能受限。 方法核心是什么:提出分层离散流匹配(H-DFM)。核心包括两方面:训练阶段,采用随机粗细模式课程学习——粗模式下遮蔽细码本噪声样本,仅更新粗码本头;细模式下用真实粗码本条件化,仅更新细码本头。推理阶段,采用粗偏向的两阶段调度——先用大部分步骤(Bc步)稳定粗码本(全局结构),再用少量步骤(Bf步)细化细码本。 与已有方法相比新在哪里:首次系统性地将RVQ的层次结构显式对齐到DFM的训练与推理过程中。相比直接应用DFM(F5-DFM),H-DFM通过架构(多头)和策略(课程学习、偏向调度)强制模型学习码本间的依赖关系,而非独立预测。 主要实验结果如何: 在零样本TTS评估中(NFE=32,粗细比例1/16),H-DFM相比基线显著提升。 关键客观指标对比: 模型 WER (%) ↓ SECS ↑ UTMOS ↑ F5-TTS (连续FM基线) 4.559 0.605 3.853 F5-DFM (朴素离散FM) 4.434 0.564 4.013 F5-H-DFM (本文方法) 3.036 0.609 4.205 H-DFM在可懂度(WER)和说话人相似度(SECS)上均取得最优,并在自然度(UTMOS)上也有较大提升。 消融实验表明,粗细推理比例(rcf=1/16)优于更平衡的比例(1/8, 1/2),验证了粗偏向策略的有效性。 实际意义是什么:为基于RVQ的高质量、非自回归TTS提供了一种更高效的解码方案。通过尊重编解码器的设计原理,可以在固定计算预算下获得更好的合成质量,对追求低延迟和高质量语音合成的工业应用有直接价值。 主要局限性:方法依赖于特定编解码器(HiFi-Codec)的固定层次结构和预先定义的粗细划分;训练与推理调度中的超参数(如pc=0.7, rcf=1/16)需要手动调整;论文未详细公开所有训练细节和模型参数,限制了可复现性。 🏗️ 模型架构 H-DFM的模型架构基于F5-TTS的扩散Transformer(DiT)主干网络进行修改。 ...

2026-04-29

Hierarchical Tokenization of Multimodal Music Data for Generative Music Retrieval

📄 Hierarchical Tokenization of Multimodal Music Data for Generative Music Retrieval #音乐检索 #大语言模型 #多模态模型 #工业应用 #生成模型 ✅ 7.0/10 | 前25% | #音乐检索 | #大语言模型 | #多模态模型 #工业应用 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Wo Jae Lee(Amazon Music, San Francisco, USA) 通讯作者:未说明 作者列表:Wo Jae Lee(Amazon Music)、Rifat Joyee(Amazon Music)、Zhonghao Luo(Amazon Music)、Sudev Mukherjee(Amazon Music)、Emanuele Coviello(Amazon Music) 💡 毒舌点评 亮点: 论文提出的多模态分层tokenization框架思路清晰,将复杂的音乐元数据系统地转化为LLM可处理的离散序列,并在工业规模的数据集上验证了其有效性,为构建统一的多模态音乐推荐系统提供了一个不错的工程范例。 短板: 核心的RQ-VAE应用和LLM微调部分创新有限,更偏向于系统集成;而实验完全建立在无法公开的私有数据之上,如同“自说自话”,极大削弱了其学术价值和可复现性,使得其性能提升难以被外部独立验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:实验使用的Dc(160万歌曲元数据)、Dqt和Dr均为专有数据集,未公开。 Demo:未提及在线演示。 复现材料:给出了部分模型架构细节(如RQ-VAE编码器/解码器为4层FFN)、训练超参数(学习率、batch size、epoch数、GPU数量),但未提供完整的训练脚本、配置文件或检查点。对于关键组件(如九种模态的具体编码器网络结构、每个模态RQ-VAE的码本大小K_mod,l的精确值)描述不够详细。 论文中引用的开源项目:引用了Qwen2.5-1.5B-Instruct [23]作为基座LLM,Sentence-BERT [29]用于模态预测模型,CLAP [25]用于音频编码。但未说明是否基于这些项目的官方实现进行修改。 总结:论文中未提及开源计划。 📌 核心摘要 本文针对生成式音乐检索任务中如何让大语言模型(LLM)有效表示和理解多模态音乐数据的问题,提出了一种名为3MToken的多模态音乐分层离散化方法。该方法将音频、语义标签、艺术家传记等九种模态的音乐数据,通过模态特定的残差量化变分自编码器(RQ-VAE)转化为层次化的离散token序列。基于此,进一步提出了3MTokenRec,一个经过指令微调的LLM,它能够根据查询意图自适应地加权不同模态,并生成对应的3MToken序列来检索音乐。实验表明,3MToken在内容检索(CBR)任务上,Hit@5分别比最强多模态基线(K-means)高27%(CP数据集)和32%(CO数据集);在文本到音乐检索(T2MR)任务上,3MTokenRec(带模态选择)的平均Precision@K比不带模态选择的版本高10.8%。该研究为工业级音乐推荐系统提供了新的技术路径,但其主要局限在于所有实验均在未公开的专有数据集上进行,且未开源代码与模型,可复现性差。 ...

2026-04-29