Posts

Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation

📄 Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation #音乐生成 #自回归模型 #音频生成 #开源工具 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频生成 #开源工具学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Tongxi Wang（Southeast University，中国）通讯作者：Junlang Qian（Nanyang Technological University，新加坡）作者列表：Tongxi Wang（Southeast University）， Yang Yu（Southeast University）， Qing Wang（Southeast University）， Junlang Qian（Nanyang Technological University） 💡 毒舌点评这篇论文的“先乐谱后表演”范式巧妙地将复杂音频生成问题解耦为可解释的符号生成和相对成熟的音频渲染问题，在可控性和效率上取得了显著进步，是思路清晰的“曲线救国”方案。然而，其“演奏”阶段严重依赖商用歌声合成软件VOCALOID和通用MIDI合成器FluidSynth，这使得最终音频质量的上限被锁定在这些工具的能力上，论文的“端到端”生成能力并非完全自包含，这在一定程度上削弱了其作为完全自主生成系统的创新性说服力。 🔗 开源详情代码：提供代码仓库链接：https://github.com/WtxwNs/BACH。代码已开源。模型权重：论文中未提及公开BACH模型的预训练权重。数据集：论文提及所用数据集将在论文发表后开源，但当前未提供获取方式或详细说明。 Demo：论文中未提及在线演示链接。复现材料：提供了代码仓库，包含示例。但完整的训练细节、配置文件、检查点未在论文中提供，需查阅仓库。论文中引用的开源项目： Qwen3.0（用于歌词生成） FluidSynth（用于MIDI合成） ABC记谱法相关工具 YuE等基线模型（用于对比）总结：代码开源是主要亮点，但完整的模型复现（尤其是获得相似性能）可能因缺乏预训练权重、具体训练参数以及依赖商业VOCALOID而存在障碍。 📌 核心摘要问题：现有基于音频的歌曲生成方法存在可控性差、可解释性弱、计算开销大的问题。将歌曲生成视为同时学习音乐理论与演奏的“即兴表演”，任务过于复杂。方法核心：提出“先作曲后演奏”的新范式和BACH（Bar-level AI Composing Helper）框架。核心是使用小节（bar）作为语义单元进行符号乐谱生成，再将生成的乐谱渲染为音频。创新点：首次将小节级符号乐谱生成引入歌曲生成；提出小节流分块（bar-stream patching）和双流预测（Dual-NTP）方法，分别处理人声与伴奏；引入链式乐谱（Chain-of-Score）条件化以保持长程结构一致性。实验结果：自动评估（表1）：BACH在多个指标上达到SOTA，尤其是内容感知指标（CE、CU）和音频-文本对齐指标（CLaMP3）。其KL散度显著优于商业系统（如0.391 vs Suno的0.620）。人类评估（图4）：BACH在音乐性上超越所有开源基线（YuE、YuE-light等），并与Udio有竞争力，略逊于Suno。在可控性（图5）上，其节拍/节奏和人声伴奏平衡表现突出。效率：在RTX 4090上生成3分钟歌曲仅需约5分钟，远快于YuE等模型。实际意义：提供了一种高效、可控、可解释的AI歌曲生成路径，生成的乐谱可被人直接阅读和编辑，极大促进了人机协作创作。代码开源有助于推动该方向研究。主要局限性：最终音频渲染质量受限于外部工具（VOCALOID， FluidSynth），非端到端的纯AI生成；在风格和情感控制等可控性维度上仍有提升空间；论文未公开模型权重和完整训练细节。 🏗️ 模型架构 BACH是一个三阶段的系统流水线： ...

Vib2Sound: Separation Of Multimodal Sound Sources

📄 Vib2Sound: Separation Of Multimodal Sound Sources #语音分离 #生物声学 #麦克风阵列 #信号处理 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 | #生物声学 #信号处理学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics) 通讯作者：Richard H. R. Hahnloser (makahoshi@ethz.ch, {yuhang, zaia, rich}@ini.ethz.ch，从邮箱和星号标注判断，Hahnloser 和 Zai 为共同资深作者) 作者列表：Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics & Neuroscience Center Zurich), Yuhang Wang (同上), Longbiao Cheng (ETH Zurich and University of Zurich, Institute of Neuroinformatics), Anja T. Zai (同上), Richard H. R. Hahnloser (同上) 💡 毒舌点评亮点：论文巧妙地将动物佩戴的加速度计信号作为个体身份“锚点”，解决了同种动物发声高度相似导致麦克风阵列分离失效的核心难题，在生物声学领域思路清晰且有效。短板：模型架构是对现有VoiceFilter框架的简单适配与修改，创新深度有限；研究场景（斑胸草雀）和数据集较为垂直，对主流音频/语音处理社区的普适性启发可能不足。 ...

Vioptt: Violin Technique-Aware Transcription from Synthetic Data Augmentation

📄 Vioptt: Violin Technique-Aware Transcription from Synthetic Data Augmentation #音乐信息检索 #小提琴转录 #数据增强 #多任务学习 #领域适应 ✅ 6.5/10 | 前50% | #音乐信息检索 | #数据增强 | #小提琴转录 #多任务学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ting-Kang Wang (Sony Computer Science Laboratories, Inc., 国立台湾大学研究所) 通讯作者：未明确标注。从邮箱和贡献标注看，Ting-Kang Wang和Yueh-Po Peng可能共同负责。作者列表： Ting-Kang Wang（Sony Computer Science Laboratories, Inc.；国立台湾大学研究所；中央研究院信息研究所） Yueh-Po Peng（伽玛之星原创内容中心；中央研究院信息研究所） Li Su（中央研究院信息研究所） Vincent K.M. Cheung（Sony Computer Science Laboratories, Inc.）注：所有作者均标注了隶属于Sony CSL或台湾相关机构，且论文说明工作是在Sony CSL实习期间完成。 💡 毒舌点评亮点：通过VST虚拟乐器（DAWDreamer + Synchron Solo Violin）自动合成带技巧标注的大规模数据集（MOSA-VPT），巧妙地绕开了需要专家标注的瓶颈，并证明了合成数据训练的模型能有效泛化到真实录音。短板：核心的“转录模块”基本是钢琴转录模型的直接移植，创新有限；整体模型架构（CRNN + 简单特征融合）相对传统，未探索更前沿的序列建模或注意力机制，限制了性能上限。 ...

Virtual Consistency for Audio Editing

📄 Virtual Consistency for Audio Editing #音乐生成 #扩散模型 #音频处理 🔥 8.0/10 | 前25% | #音乐生成 | #扩散模型 | #音频处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Matthieu Cervera (Mila-Québec AI Institute, Laval University) 通讯作者：Cem Subakan (Concordia University, Mila-Québec AI Institute) 作者列表：Matthieu Cervera (Mila-Québec AI Institute, Laval University)、Francesco Paissan (Mila-Québec AI Institute, Laval University)、Mirco Ravanelli (Concordia University, University of Montreal, Mila-Québec AI Institute)、Cem Subakan (Concordia University, Laval University, Mila-Québec AI Institute) 💡 毒舌点评亮点：该工作巧妙地将虚拟一致性（Virtual Consistency）思想从图像编辑迁移到音频领域，并引入了控制编辑强度的超参数φ，成功地在编辑质量和保真度之间取得了更好的平衡，同时推理速度相较于主流基线有数量级的提升（如1.6秒 vs. 16-64秒）。短板：其核心创新“无需反转的虚拟一致性”本质上是迁移了InfEdit [20]的方法，并非原创理论突破；此外，用户研究的规模较小（16人），且缺乏对更长音频（>2分钟）和复杂编辑场景的深入讨论，实际应用的鲁棒性有待验证。 ...

Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation

📄 Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation #音乐生成 #扩散模型 #跨模态 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #跨模态 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Chiu Fai Ng（华为中央媒体技术研究院⋆，清华大学深圳国际研究生院†）通讯作者：未说明作者列表：Chiu Fai Ng（华为中央媒体技术研究院，清华大学深圳国际研究生院）， Karsper So（华为中央媒体技术研究院）， Jing Yang（华为中央媒体技术研究院）， Patricio Ovalle（华为中央媒体技术研究院）， Simon Lui（华为中央媒体技术研究院）， Fan Fan（华为中央媒体技术研究院）， Yuhan Dong（清华大学深圳国际研究生院） 💡 毒舌点评亮点在于将关键帧采样、多模态特征（视觉语义、情绪、光流）与DPO偏好学习结合，形成了一套逻辑自洽且实验验证较为完整的V2M生成管线，尤其在数据构建和节拍对齐上做了细致工作。短板在于核心生成模型高度依赖Stable Audio的DiT架构，原创性主要体现在“组装”和任务适配上，且评估指标（如KAD、Audiobox-Aesthetics）对于普通读者理解“好音乐”的直观性有限，缺乏更贴近人类音乐感知的主观评价分析。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开模型权重。数据集：论文提到构建了包含660小时视频-音乐对的数据集，但未提及是否公开及获取方式。 Demo：提供了在线演示页面链接：https://jasonng-glitch.github.io/v2m-demo/。复现材料：给出了模型架构、训练超参数（如学习率、batch size、优化器）、评估指标计算方法等细节。未提供训练配置、检查点或详细附录。论文中引用的开源项目：TransNet（镜头边界检测）、OpenCLIP（视觉特征）、NeuFlow v2（光流估计）、Stable Audio 2.0（DiT架构）、ImageBind（多模态相似度）、Audiobox-Aesthetics（质量评估）、Librosa（音频分析）、RAFT/MemFlow（光流对比基线）。总结：论文提供了用于理解与初步验证的Demo和较多技术细节，但未提及完整的开源计划（代码、模型、数据），复现门槛较高。 📌 核心摘要解决的问题：现有视频到音乐（V2M）生成方法在处理多场景视频时，难以同时保证全局连贯性、情感共鸣以及准确的节拍-视觉事件同步。方法核心：提出一个基于潜在扩散的V2M框架。首先设计了一个可扩展的数据过滤与重评分管道构建高质量视频-音乐对齐数据集。模型采用关键帧作为条件输入，提取视觉语义（OpenCLIP）、情绪标签和光流特征（NeuFlow v2）并进行融合，作为DiT模型的条件信号。最后，通过直接偏好优化（DPO）对模型进行微调，使其输出更符合人类对“高光时刻”音画同步的偏好。新颖之处：首次在V2M领域应用DPO进行微调；主张并验证了关键帧采样优于均匀采样；构建了一个包含节拍同步约束的高质量数据子集用于偏好学习；系统整合了多种视频特征（语义、情绪、运动）以指导音乐生成的不同方面（内容、情感、节奏）。主要实验结果：在多个指标上与现有方法对比（见表1）。DPO微调后的模型在ImageBind语义相似度（5.612）和提出的新指标“Beat Sync”（0.0489）上达到最优，同时Audiobox美学评分与基线模型相当或略优。消融实验表明，关键帧采样在语义和情感对齐上与1FPS采样相当，但计算成本更低（表2）；特征融合模型在PQ和ImageBind上优于单一特征模型（表3）。实际意义：为视频创作者提供了一种自动生成与其内容语义和情绪相符、节拍对齐良好的背景音乐的新工具，有望降低视频制作门槛并避免版权问题。主要局限性：生成模型的核心架构（DiT）并非原创；评估指标偏向于客观度量，缺乏大规模的人类主观偏好评分；数据集中视频类型和音乐流派可能仍有偏见；DPO微调的效果依赖于精心构建的正负样本对。 🏗️ 模型架构整体架构（图3）是一个条件潜在扩散模型，分为视频条件提取和音频生成两大部分。 ...

ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models

📄 ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models #音乐生成 #扩散模型 #可控生成 #多轨道 #数据集 ✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiaoyu Yi（北京大学信息科学与技术学院，MBZUAI 音乐实验室）通讯作者：未明确说明（论文中未使用“通讯作者”标识）作者列表：Xiaoyu Yi（北京大学信息科学与技术学院，MBZUAI 音乐实验室）、Qi He（MBZUAI 音乐实验室）、Gus Xia（MBZUAI 音乐实验室）、Ziyu Wang（纽约大学柯朗数学科学研究所，MBZUAI 音乐实验室） 💡 毒舌点评亮点：将“画图”这一直观操作引入多轨道音乐的“织体”控制，比提供抽象的潜在变量或文本描述更贴近人类作曲思维，解决了实际创作中的一个痛点。短板：ViTex的基于规则的织体特征提取（如静音比例阈值0.3）显得有些“手工匠气”，可能难以捕捉和表达更复杂、更主观的音乐织体，且离散化的视觉表示在表达连续性强弱变化时存在固有局限。 🔗 开源详情代码：提供链接 https://vitex2025.github.io/，论文中声明代码可在该页面获取。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用了公开的Lakh MIDI和Meta MIDI数据集，但提供了具体的筛选条件和最终规模（7175首）。论文未提及是否公开其筛选处理后的子集。 Demo：论文中声明提供了Demo页面，链接为 https://vitex2025.github.io/。复现材料：提供了详细的训练设置（优化器、学习率、batch size、调度策略）、数据处理工具（muspy）、硬件环境（4 H100 GPU）、以及关键的模型架构图和条件表示细节。论文中引用的开源项目：使用了muspy进行数据处理，引用了GETMusic[8]的吸收态离散扩散框架。总结：论文提供了较好的开源基础，代码和Demo链接明确，训练细节清晰。但模型权重和处理数据集的公开性未明确说明。 📌 核心摘要问题：现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式，无法让用户直接指定不同乐器在特定音区和时间点如何演奏。方法：提出ViTex，一种将乐器织体可视化的表示方法（颜色编码乐器，位置编码音高/时间，笔触属性编码局部纹理）。基于此，构建了一个以ViTex和和弦进行为条件的离散扩散模型，使用无分类器引导进行训练，以生成8小节多轨道音乐。创新点：首次将视觉化的织体表示用于多轨道音乐生成控制；该表示同时支持人类直观操作和作为模型条件；结合离散扩散模型实现了高质量、可控的生成。实验结果：在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验（表1）显示，在条件生成任务中，本方法在乐器控制准确率（IA=0.600 vs Q&A-1: 0.584）、和弦准确率（CA=0.875 vs Q&A-1: 0.607）及排列质量（DOA=0.296 vs Q&A-1: 0.188）上均优于基线。无条件生成（表2）在律动相似度（GPS）和排列质量（DOA）上也优于AMT和MMT基线。主观听音测试（图3）表明，在给定乐器的生成任务中，本方法在连贯性、音乐性和创造性评分上均高于基线。实际意义：为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐，有望成为音乐创作辅助工具的新范式。主要局限性：ViTex表示基于规则，可能无法涵盖所有织体类型；当前仅支持8小节的片段生成；控制维度（音色、音区、密度）虽比之前工作更细，但仍有限。 🏗️ 模型架构模型整体架构：采用标准的UNet结构（图2），以处理被噪声污染的多轨道钢琴卷帘（pianoroll）xt。模型接收两个额外条件输入：乐器织体特征y1（ViTex）和和弦进行y2。 ...

VividTalker: A Modular Framework for Expressive 3D Talking Avatars with Controllable Gaze and Blink

📄 VividTalker: A Modular Framework for Expressive 3D Talking Avatars with Controllable Gaze and Blink #语音合成 #音视频 #模块化架构 #扩散模型 #多语言 ✅ 7.5/10 | 前25% | #语音合成 | #模块化架构 | #音视频 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Hangyu Xiong（丹麦技术大学 (DTU), Denmark）通讯作者：Qingzheng Hu（INTI International University, Malaysia）作者列表： Hangyu Xiong（丹麦技术大学 (DTU), Denmark） Jinyi Zhang（加州大学洛杉矶分校 (UCLA), USA） Zheng Wang（清华大学, China） Tianlun Pan（西交利物浦大学, China） Qingzheng Hu（INTI International University, Malaysia） 💡 毒舌点评亮点：该论文直击3D数字人“死鱼眼”这一让用户体验崩盘的具体痛点，并提出了一套基于生理学原理、可即插即用（无需重训练）的眼部动态增强方案，效果量化显著（眨眼真实度MOS提升2.5分），这种“问题-方案-验证”的链条非常清晰且实用。短板：作为一篇方法框架论文，其核心的眼部增强模块是建立在现有开源工具（SadTalker, FaceVerse等）之上的“魔改”，更像是一个精巧的工程集成方案，缺乏在底层生成模型或表征上的原始创新；同时，论文对如何获取其构建的评估数据集（40个合成视频）语焉不详，且完全未开源核心代码，使得其宣称的“可复现性”大打折扣。 ...

VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by Higher-SNR Virtual Microphone Arrays

📄 VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by Higher-SNR Virtual Microphone Arrays #语音分离 #麦克风阵列 #无监督学习 ✅ 7.5/10 | 前25% | #语音分离 | #麦克风阵列 | #无监督学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Shulin He（南方科技大学计算机科学与工程系）通讯作者：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）作者列表：Shulin He（南方科技大学计算机科学与工程系），Zhong-Qiu Wang（南方科技大学计算机科学与工程系） 💡 毒舌点评亮点：方法巧妙地将传统盲源分离器（IVA/SC）的输出“废物利用”，包装成提供额外监督信号的“虚拟麦克风”，用极低的计算代价显著缓解了小阵列无监督训练崩溃的问题，工程思维值得学习。短板：实验仅在模拟数据（SMS-WSJ）上进行，在真实复杂声场（如强混响、非平稳噪声）下的鲁棒性未经验证，且虚拟麦克风的质量完全依赖于前端分离器的性能，形成了一个潜在的瓶颈。 🔗 开源详情代码：论文中未提及代码链接。文中提到的开源项目仅为依赖项：torchiva (https://github.com/fakufaku/torchiva) 和 pb_bss 中的CACGMM示例。模型权重：未提及。数据集：使用公开的SMS-WSJ数据集[29]。 Demo：未提及。复现材料：提供了非常详细的实验配置，包括数据集划分、STFT参数、损失函数权重（α, β, ξ）以及训练流程（沿用UNSSOR配方），但未提供训练脚本、配置文件或检查点。论文中引用的开源项目：torchiva（用于IVA），CACGMM实现（用于空间聚类）。开源计划：论文中未提及开源计划。 📌 核心摘要问题：无监督语音分离（USS）依赖混合一致性（MC）损失进行训练，但当训练所用的物理麦克风数量减少（特别是降至确定性配置时），MC约束变弱，导致分离性能急剧下降甚至训练失败。方法核心：提出VM-UNSSOR，利用线性空间分离器（如IVA或空间聚类）对原始多通道混合信号进行处理，生成一组高信噪比（SNR）的“虚拟麦克风”信号。这些虚拟信号作为原始混合信号的线性投影，满足相同的声学混合模型。将物理和虚拟麦克风信号一起输入神经网络分离器，并基于所有麦克风（物理+虚拟）计算加权的MC损失，从而增强训练约束。创新之处：与基础UNSSOR相比，VM-UNSSOR通过引入虚拟麦克风，人为增加了用于计算MC损失的“通道”数量，将确定或欠定的训练条件转变为伪过确定条件。这不仅提供了更强的训练约束，其高SNR特性还可能充当伪教师信号，帮助解决频率置换问题。主要实验结果：在SMS-WSJ数据集的6麦克风2说话人设置下，VM-UNSSOR达到17.1 dB SI-SDR，比UNSSOR基线（14.7 dB）提升2.4 dB，也优于参考的扩散模型方法ArrayDPS（16.2 dB）。在更具挑战性的2麦克风2说话人（确定性）设置中，UNSSOR训练失败（-2.7 dB SI-SDR），而VM-UNSSOR能达到10.7 dB SI-SDR。系统设置 SI-SDR (dB) UNSSOR 6麦，2说话人 14.7 VM-UNSSOR 6麦，2说话人 17.1 UNSSOR 2麦，2说话人 -2.7 VM-UNSSOR 2麦，2说话人 10.7 实际意义：该方法无需标注数据或额外硬件麦克风，可显著提升现实场景中（麦克风数量有限）的无监督语音分离性能，适用于智能设备、助听器等需要快速在目标环境自适应部署的场景。主要局限性：1）性能上限受限于所使用的线性分离器（IVA/SC）的质量；2）所有实验基于模拟数据（SMS-WSJ），缺乏真实场景验证；3）虚拟麦克风引入了额外的计算开销。 🏗️ 模型架构 VM-UNSSOR的系统架构（如图1所示）主要包含三个核心组件：虚拟麦克风生成器、神经网络分离器和基于混合一致性（MC）的训练框架。 ...

VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis

📄 VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis #音乐生成 #扩散模型 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Xin Gu（中国传媒大学信息与通信工程学院）通讯作者：Wei Jiang*（中国传媒大学信息与通信工程学院）作者列表：Xin Gu（中国传媒大学信息与通信工程学院）、Wei Jiang*（中国传媒大学信息与通信工程学院）、Yujian Jiang（中国传媒大学信息与通信工程学院）、Zhibin Su（中国传媒大学信息与通信工程学院）、Ming Yan（中国传媒大学信息与通信工程学院） 💡 毒舌点评论文的亮点在于其清晰的“先对齐中间表示，再生成”的两阶段框架设计，这有效缓解了端到端模型常忽略音乐结构的问题，逻辑自洽。但短板也明显：它严重依赖特定的、可能闭源的MLLM（Qwen2.5-VL, Qwen2-Audio）来生成感知描述，这增加了复现成本和不可控性，且论文未开源任何资源，让后续研究者“只能看，不能练”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：使用了公开数据集MVED， MuVi-Sync， V2M-bench，但论文未说明其自身的数据预处理脚本或额外数据是否公开。 Demo：未提供在线演示。复现材料：给出了部分训练细节（优化器、学习率调度、训练轮数、硬件）和模型架构参数（Transformer层数、维度），但关键组件的完整训练配置（如VAE-GAN）、MLLM的详细使用方式（Prompt、是否微调）、以及评估脚本未提供。论文中引用的开源项目：引用并依赖了MetaClip、CLAP、Qwen2.5-VL、Qwen2-Audio等模型/工具。开源计划：论文中未提及开源计划。 📌 核心摘要问题：现有的视频生成音乐（V2M）方法大多直接将视频特征映射到声学标记或波形，跳过了对音乐中间表示（如语义、结构）的建模，导致生成的音乐结构连贯性差、和声不丰富。方法核心：提出VMSP，一个基于分层条件映射的两阶段生成框架。第一阶段（跨模态映射）通过Transformer学习视频与音乐语义特征的段级对齐，并利用多模态大语言模型（MLLM）确保视频与音乐在感知层面的一致性。第二阶段（音乐生成）使用扩散Transformer（DiT），将上述对齐后的语义特征和感知信息作为分层条件，指导音乐波形的生成。与已有方法的新颖性：相比于直接映射或依赖文本中间描述的方法，VMSP显式地建模了音乐的“中间表示”（语义和感知），并设计了分层条件注入机制（全局感知条件+局部语义条件），旨在同时保证全局氛围一致和局部时间对齐。主要实验结果：在MVED和MuVi-Sync数据集上训练，在V2M-bench数据集上评估。定量对比显示VMSP在KL、FAD、Density和Coverage指标上均优于CMT、Video2Music、M2UGen和VidMuse等基线模型。消融实验表明两阶段框架和双重条件（语义+感知）缺一不可。用户研究也显示VMSP在音频质量、音乐性、对齐度和感知和谐度上具有优势。模型/方法 KL↓ FAD↓ Density↑ Coverage↑ GT 0.000 0.000 1.167 1.000 CMT[7] 1.220 8.637 0.080 0.070 Video2Music[9] 1.782 18.722 0.103 0.023 M2UGen[18] 0.997 5.104 0.608 0.433 VidMuse[6] 0.734 2.459 1.250 0.730 VMSP 0.607 2.580 1.280 0.870 表1: 客观定量对比结果（来自论文） ...

Vocalnet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction

📄 Vocalnet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction #语音对话系统 #多令牌预测 #多码本分词 #语音大模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #多令牌预测 | #多码本分词 #语音大模型学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhao Wang (上海交通大学，蚂蚁集团) 通讯作者：Yu Wang (上海交通大学) 作者列表：Yuhao Wang (上海交通大学，蚂蚁集团)、Ziyang Cheng (上海交通大学)、Heyang Liu (上海交通大学，蚂蚁集团)、Ronghua Wu (蚂蚁集团)、Qunshan Gu (蚂蚁集团)、Yanfeng Wang (上海交通大学)、Yu Wang (上海交通大学) 💡 毒舌点评论文直击当前语音大模型在实时交互中的“阿喀琉斯之踵”——延迟，并通过多码本直出和MTP策略给出了有效缓解方案，工程实用性值得肯定。然而，多码本学习的“高门槛”特性意味着它严重依赖高质量、大规规模的训练数据，这可能成为其在资源受限场景下落地的“新瓶颈”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：提到了使用Emilia、VoiceAssistant、Ultrachat等数据集以及自己合成的v1/v2数据，但未说明是否公开或如何获取合成部分。 Demo：未提及。复现材料：提供了部分训练细节（如数据来源、模型初始化、三阶段训练策略），但关键超参数（如学习率、batch size、优化器、训练步数）和硬件信息缺失，不足以支撑完整复现。论文中引用的开源项目：引用了Whisper、Qwen3-8B、CosyVoice2、Emilia等开源模型/数据集。 📌 核心摘要本文旨在解决当前端到端语音语言模型因自回归生成和依赖流匹配模型导致的响应延迟过高问题。方法核心是提出VocalNet-M2，一个采用“思考者-说话者”架构的低延迟模态对齐SLM。其创新在于：1）集成多码本分词器，直接生成包含丰富声学信息的8码本语音令牌，从而省去了高延迟的流匹配声学重建模型；2）设计了针对多码本生成的多令牌预测策略，在单次推理步骤中预测多个未来令牌，进一步提升效率并改善性能。主要实验结果表明，VocalNet-M2在保持与主流SLM竞争性的文本与语音质量（如AlpacaEval 7.29， WER 6.07）的同时，将首音频块延迟从基线系统的约725毫秒大幅降低至约349毫秒，实现了约2倍的推理加速。该工作的实际意义在于为构建低延迟、高响应的实时语音交互系统提供了有价值的架构设计和对比分析。主要局限性在于，学习多码本语音令牌比单码本令牌更困难，对训练数据的质量和数量要求更高。 ...