解耦表示学习

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

📄 CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook #多模态模型 #对比学习 #向量量化 #零样本 #模型评估 #解耦表示学习 🔥 8.6/10 | 前15% | #多模态模型 | #对比学习 | #向量量化 #零样本 | arxiv 学术质量 7/8 | 影响力 0.8/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zeyu Chen（Visual AI Lab, The University of Hong Kong）通讯作者：Kai Han（Visual AI Lab, The University of Hong Kong）作者列表：Zeyu Chen（Visual AI Lab, The University of Hong Kong）、Jie Li（Visual AI Lab, The University of Hong Kong）、Kai Han（Visual AI Lab, The University of Hong Kong） 💡 毒舌点评这篇论文在解决多模态对齐中的“硬对齐”信息损失和模态不平衡问题上，提出了一种工程上优雅且实验上非常扎实的方案。“共享-特定”解耦表示加上“组合码本”的设计，确实巧妙地平衡了对齐保真度与信息完整性。其实验覆盖之广（9种模态，17个数据集）令人印象深刻，堪称多模态领域的“暴力美学”。然而，其理论根基稍显薄弱：为何“均匀分布”与“正交性”假设是解耦的最优或必要约束？组合VQ在理论上为何优于其他容量扩展方案（如稀疏MoE）？这些更多依赖经验证据而非第一性原理。此外，论文声称“无需大规模完全配对数据”，但其训练仍高度依赖现有配对数据集，这一claim需审慎看待。 ...

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #音乐生成 #多任务学习 #扩散模型 #解耦表示学习 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者：Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评亮点：巧妙地将演奏渲染（EPR）和乐谱转录（APT）这两个互逆任务统一到一个解耦表示学习的框架中，不仅提升了两个任务的性能，还为可控的音乐表达（风格迁移、自动推荐）开辟了新路径，理论动机清晰，工程实现完整。短板：模型本身规模较大（188M参数），且PSR模块需要单独训练和推理，增加了部署复杂性；实验数据主要局限于古典钢琴音乐，其在更广泛音乐流派（如爵士、流行）上的泛化能力未得到验证。 ...

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）通讯作者：Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院）作者列表：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）、Junchuan Zhao（新加坡国立大学，计算学院）、Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院） 💡 毒舌点评亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路，巧妙地利用了EPR和APT的互逆性进行联合训练，并无需繁琐的音符级对齐数据，这在方法论上颇具启发性。短板是，虽然框架通用，但实验主要基于古典钢琴音乐，其对于更丰富多变的流行音乐等风格的泛化能力未被验证；此外，模型参数量（188M）显著高于一些基线，计算成本是一个需要考虑的实际问题。 🔗 开源详情代码：论文明确表示“代码将在论文被接受后发布”，提供了项目主页链接（https://wei-zeng98.github.io/joint-apt-epr/），表明有开源计划。模型权重：未提及是否公开预训练模型权重。数据集：使用了公开的ASAP和ATEPP数据集，以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo：提供了在线演示页面（https://wei-zeng98.github.io/joint-apt-epr/），包含EPR渲染和风格迁移的示例。复现材料：附录B提供了极其详细的模型实现细节（PyTorch Lightning、多任务训练设置、优化器、掩码策略等），是高质量的复现指南。论文中引用的开源项目：提到了MidiTok（用于MIDI分词）、Aria-AMT（用于音频转MIDI）和Partitura（用于音乐处理）。总体开源情况：论文有明确的开源承诺和详尽的复现材料，开源状态积极，但代码和权重尚未发布。 📌 核心摘要这篇论文旨在解决钢琴演奏渲染（EPR）和自动钢琴转录（APT）两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列（Seq2Seq）框架，通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示，来联合学习这两个任务。与已有方法相比，其新意在于：1）首次将EPR和APT统一建模，实现双向监督；2）提出无需音符级对齐的Seq2Seq训练范式，降低了数据标注门槛；3）设计了一个独立的、基于扩散模型的演奏风格推荐（PSR）模块，能够仅从乐谱内容生成合适的风格嵌入。实验表明，该联合模型在ASAP数据集的APT任务上，达到了与最先进端到端模型（Beyer & Dai, 2024）可比的性能（例如，ScoreSimilarity平均误差Eavg从14.10降至12.48）。在EPR任务上，其客观指标（如速度MAE为0.37）和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模，并支持风格可控的演奏生成；主要局限性在于计算开销较大，且实验验证局限于古典钢琴音乐。 🏗️ 模型架构本文提出一个统一的、模块化的框架，用于联合处理EPR和APT任务，并支持独立的风格推荐。 ...