CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

📄 CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook #多模态模型 #对比学习 #向量量化 #零样本 #模型评估 #解耦表示学习 🔥 8.6/10 | 前15% | #多模态模型 | #对比学习 | #向量量化 #零样本 | arxiv 学术质量 7/8 | 影响力 0.8/1 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Zeyu Chen(Visual AI Lab, The University of Hong Kong) 通讯作者:Kai Han(Visual AI Lab, The University of Hong Kong) 作者列表:Zeyu Chen(Visual AI Lab, The University of Hong Kong)、Jie Li(Visual AI Lab, The University of Hong Kong)、Kai Han(Visual AI Lab, The University of Hong Kong) 💡 毒舌点评 这篇论文在解决多模态对齐中的“硬对齐”信息损失和模态不平衡问题上,提出了一种工程上优雅且实验上非常扎实的方案。“共享-特定”解耦表示加上“组合码本”的设计,确实巧妙地平衡了对齐保真度与信息完整性。其实验覆盖之广(9种模态,17个数据集)令人印象深刻,堪称多模态领域的“暴力美学”。然而,其理论根基稍显薄弱:为何“均匀分布”与“正交性”假设是解耦的最优或必要约束?组合VQ在理论上为何优于其他容量扩展方案(如稀疏MoE)?这些更多依赖经验证据而非第一性原理。此外,论文声称“无需大规模完全配对数据”,但其训练仍高度依赖现有配对数据集,这一claim需审慎看待。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 456 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #音乐生成 #多任务学习 #扩散模型 #解耦表示学习 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 亮点:巧妙地将演奏渲染(EPR)和乐谱转录(APT)这两个互逆任务统一到一个解耦表示学习的框架中,不仅提升了两个任务的性能,还为可控的音乐表达(风格迁移、自动推荐)开辟了新路径,理论动机清晰,工程实现完整。 短板:模型本身规模较大(188M参数),且PSR模块需要单独训练和推理,增加了部署复杂性;实验数据主要局限于古典钢琴音乐,其在更广泛音乐流派(如爵士、流行)上的泛化能力未得到验证。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 577 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院) 通讯作者:Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 作者列表:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院)、Junchuan Zhao(新加坡国立大学,计算学院)、Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 💡 毒舌点评 亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路,巧妙地利用了EPR和APT的互逆性进行联合训练,并无需繁琐的音符级对齐数据,这在方法论上颇具启发性。短板是,虽然框架通用,但实验主要基于古典钢琴音乐,其对于更丰富多变的流行音乐等风格的泛化能力未被验证;此外,模型参数量(188M)显著高于一些基线,计算成本是一个需要考虑的实际问题。 🔗 开源详情 代码:论文明确表示“代码将在论文被接受后发布”,提供了项目主页链接(https://wei-zeng98.github.io/joint-apt-epr/),表明有开源计划。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的ASAP和ATEPP数据集,以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo:提供了在线演示页面(https://wei-zeng98.github.io/joint-apt-epr/),包含EPR渲染和风格迁移的示例。 复现材料:附录B提供了极其详细的模型实现细节(PyTorch Lightning、多任务训练设置、优化器、掩码策略等),是高质量的复现指南。 论文中引用的开源项目:提到了MidiTok(用于MIDI分词)、Aria-AMT(用于音频转MIDI)和Partitura(用于音乐处理)。 总体开源情况:论文有明确的开源承诺和详尽的复现材料,开源状态积极,但代码和权重尚未发布。 📌 核心摘要 这篇论文旨在解决钢琴演奏渲染(EPR)和自动钢琴转录(APT)两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列(Seq2Seq)框架,通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示,来联合学习这两个任务。与已有方法相比,其新意在于:1)首次将EPR和APT统一建模,实现双向监督;2)提出无需音符级对齐的Seq2Seq训练范式,降低了数据标注门槛;3)设计了一个独立的、基于扩散模型的演奏风格推荐(PSR)模块,能够仅从乐谱内容生成合适的风格嵌入。实验表明,该联合模型在ASAP数据集的APT任务上,达到了与最先进端到端模型(Beyer & Dai, 2024)可比的性能(例如,ScoreSimilarity平均误差Eavg从14.10降至12.48)。在EPR任务上,其客观指标(如速度MAE为0.37)和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模,并支持风格可控的演奏生成;主要局限性在于计算开销较大,且实验验证局限于古典钢琴音乐。 🏗️ 模型架构 本文提出一个统一的、模块化的框架,用于联合处理EPR和APT任务,并支持独立的风格推荐。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 417 words