语音/音乐/音频论文速递 2026-06-22

共分析 1 篇论文


⚡ 今日概览

📥 抓取 1 篇 → 🔬 深度分析完成

🏷️ 热门方向

方向数量分布
#音乐生成1篇

📊 论文评分排行榜(1 篇,按分数降序)

排名论文总分分档主任务
🥇Co-policy: Responsive Human-Robot Co-Creation for Music8.5分前50%#音乐生成

📋 论文列表

🥇 Co-policy: Responsive Human-Robot Co-Creation for Musical Performances

8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5

🔥 8.5/10 | 前50% | #音乐生成 | #视觉-语言-动作模型 | #机器人 #多模态模型 | arxiv

👥 作者与机构

第一作者:Xuetao Li(武汉大学计算机科学学院)和 Wenke Huang(南洋理工大学计算与数据科学学院,联合第一作者) 其他作者:Mang Ye(武汉大学计算机科学学院),Zijian Liu(武汉理工大学自动化学院),Jinhua Xie(武汉大学测绘遥感信息工程国家重点实验室),Jifeng Xuan(武汉大学计算机科学学院,通讯作者),Miao Li(武汉大学计算机科学学院与机器人学系,通讯作者)。 机构:武汉大学(主要),南洋理工大学,武汉理工大学。

💡 毒舌点评

这篇论文试图解决一个非常具体且有趣的问题:让机器人从“播放者”升级为“共创者”。框架设计清晰,模块化思路值得肯定。然而,评估体系存在明显短板:音乐质量评估完全依赖10位专家的主观盲评,尽管声称保留所有分数,但艺术评价的方差和偏见并未通过任何统计检验来量化或控制。作者自谦的“有限验证范围”其实点出了一个硬伤:系统严重依赖预先构建的“语义锚点库”,其扩展性和泛化到未见过的音乐风格的能力存疑。GMP策略虽然在低延迟上表现出色,但其“多模态动作模式”在消融实验中贡献相对有限,且缺少与最新迭代式策略(如Consistency Policy)的直接对比。论文最大的问题在于,它巧妙地将音乐AI的创造性评估与机器人学的执行性能评估捆绑在一起,但未能证明这种捆绑评估的必要性或优越性。一个纯粹的音乐生成模型和一个低延迟控制器的简单级联,在特定指标上是否真不如这个紧密耦合的系统?结论下的过于肯定。

📌 核心摘要

本文提出了Co-policy框架,旨在将机器人音乐演奏从被动回放转变为主动协作创造。该框架是一个模块化的视觉-语言-动作(VLA)系统,包含三个核心部分:1)基于微调Qwen-vl(F-Qwen)的语义锚定模块,将语音、音符和视觉输入转化为结构化的协作计划;2)约束性音乐变化模块,在主题、和声、新颖性和可执行性等约束下生成互补的机器人音符响应;3)高斯混合视觉运动策略(GMP),通过单次前向传播直接映射目标音符和视觉上下文为多模态机器人动作,以实现低延迟响应。在真实钟琴敲击场景下的评估表明,Co-policy在协作质量评分和执行准确率上均优于扩散策略等基线,并通过专家盲评验证了其在意图对齐、创造性贡献和音乐连贯性方面的优势。

🔗 开源详情

  • 代码:论文中提供了明确的项目仓库链接,源代码、网页实现、提示模板和配置文件等均可获取:https://xtli12.github.io/Co-policy/docs/
  • 模型权重:论文中未提及模型权重(如微调后的F-Qwen、训练好的GMP)的公开下载链接(如HuggingFace/ModelScope)。
  • 数据集:论文中未提及独立公开的训练数据集链接。文中提到为训练收集了350条真实世界机器人演示轨迹,但其获取方式未在论文中公开。
  • Demo:项目主页包含演示视频等材料,可作为在线演示的入口:https://xtli12.github.io/Co-policy/
  • 复现材料:论文明确指出,项目仓库中提供了“处理后的机器人演示、生成的音符计划、匿名化的专家评分、评估脚本、提示模板、语义锚点模式和训练模型配置文件”。这些材料可用于复现。详情见:https://xtli12.github.io/Co-policy/docs/
  • 论文中引用的开源项目:
    1. Qwen-vl:论文中使用的基础视觉语言模型。其开源仓库地址为:https://github.com/QwenLM/Qwen-VL
    2. ManiSkill2:用于仿真验证的平台。其项目主页为:https://maniskill2.github.io/