Icassp-2026

Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition

📄 Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition #语音识别 #领域适应 #多语言 #少样本 #低资源 ✅ 7.5/10 | 前50% | #语音识别 | #领域适应 | #多语言 #少样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Niclas Pokel（苏黎世大学/苏黎世联邦理工学院神经信息学研究所；慕尼黑工业大学计算机、信息与技术学院）通讯作者：未明确说明（论文中未单独列出通讯作者信息）作者列表：Niclas Pokel（苏黎世大学/苏黎世联邦理工学院神经信息学研究所；慕尼黑工业大学计算机、信息与技术学院），Pehuén Moure（苏黎世大学/苏黎世联邦理工学院神经信息学研究所），Roman Boehringer（苏黎世大学/苏黎世联邦理工学院神经信息学研究所），Shih-Chii Liu（苏黎世大学/苏黎世联邦理工学院神经信息学研究所），Yingqiang Gao（苏黎世大学计算语言学系） 💡 毒舌点评论文在解决一个具有社会意义的实际问题（受损语音识别）上方法扎实、实验设计相对全面，特别是在低资源设置下的性能提升和定性错误模式分析颇具亮点；但其核心方法——贝叶斯LoRA——并非全新思想，且新发布的数据集（BF-Sprache）仅包含单个说话人，这极大地限制了结论的泛化性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开经过VI LoRA微调的模型权重。数据集：已公开：德语BF-Sprache数据集。论文未说明具体获取方式，但提供了作者联系邮箱。UA-Speech和Common Voice为已有公开数据集。 Demo：未提及。复现材料：提供了核心方法框架描述、部分超参数（LoRA秩r=32， KL权重10%）、损失函数公式、以及数据集构成描述，但缺少完整的训练脚本、环境配置和详细超参数列表。论文中引用的开源项目：主要依赖 Whisper (OpenAI) 作为骨干模型。此外，引用了 Common Voice 数据集。 📌 核心摘要问题：患有先天性疾病（如脑瘫）或获得性脑损伤（如中风）导致的语音障碍，使得现有先进的ASR模型（如Whisper）识别性能严重下降。这主要是由于相关语音数据稀缺、声学变异性高，且数据收集与标注困难。方法核心：提出一种基于贝叶斯低秩适应（Variational Low-Rank Adaptation, VI LoRA）的个性化微调框架。该方法在标准LoRA的基础上引入变分推断，为低秩适配矩阵学习概率分布（高斯分布），并通过最小化负ELBO进行训练，以正则化微调过程并捕获不确定性。此外，论文提出一种数据驱动的先验估计方法，利用预训练权重标准差的双峰分布来为不同层设置合适的先验方差。与已有方法相比新在哪里：贝叶斯LoRA框架：不同于标准LoRA（确定性）或仅用于后验分析的贝叶斯LoRA，本方法将变分推断作为动态训练正则化器，旨在提升在低数据、高变异场景下的鲁棒性。数据驱动先验：通过对预训练权重标准差的分析，发现其呈双峰分布（如图1），据此为不同层设置不同的先验方差，比统一的先验更合理。应用与验证：将该方法应用于受损语音识别这一挑战性任务，并在新的德语数据集BF-Sprache和英文UA-Speech上进行跨语言验证。主要实验结果：在德语BF-Sprache数据集上，VI LoRA（双峰先验）在非规范语音上取得了最低的CER（20.09%）和WER（42.86%），同时在规范语音（Common Voice）上保持了最佳的性能（CER 2.15%，WER 6.05%），显著优于标准LoRA、MoRA和全参数微调（见表1）。在低资源设置下（训练数据减少至25%），VI LoRA的优势更为明显（见表3）。定性分析显示，全参数微调模型容易产生基于语法的“幻觉”转录，而VI LoRA的转录更贴近语音本身的音素（见表4）。实际意义：为沟通障碍人群提供了一种更精准、数据高效的语音识别个性化路径，有助于推动包容性语音技术的发展，特别是在低资源语言环境。主要局限性：方法依赖于对变分分布的简化假设（如均值场近似、矩阵元素独立），可能无法完全捕获参数间的复杂依赖。新发布的BF-Sprache数据集仅包含单个说话人，数据规模小，限制了方法泛化能力的评估。论文未提供完整的训练代码和模型权重，影响可复现性。 🏗️ 模型架构论文提出的方法是一个针对ASR模型微调的适配框架，而非一个独立的端到端ASR模型。 ...

VBx for End-to-End Neural and Clustering-Based Diarization

📄 VBx for End-to-End Neural and Clustering-Based Diarization #说话人分离 #聚类算法 #自监督学习 #端到端 🔥 8.5/10 | 前25% | #说话人分离 | #聚类算法 | #自监督学习 #端到端学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Petr Palka（布尔诺理工大学 Speech@FIT 实验室）通讯作者：未明确说明作者列表：Petr Palka（布尔诺理工大学 Speech@FIT 实验室）、Jiangyu Han（布尔诺理工大学 Speech@FIT 实验室）、Marc Delcroix（NTT公司）、Naohiro Tawara（NTT公司）、Lukáš Burget（布尔诺理工大学 Speech@FIT 实验室） 💡 毒舌点评这篇论文巧妙地将传统聚类算法VBx“降维”为GMM-VBx以适配现代EEND-VC框架，并通过过滤低质量嵌入解决了该框架下的一个具体痛点，实现了稳健的性能提升。不过，其核心改进局限于聚类后端，并未触及EEND模型本身的创新，且整体方案高度依赖于特定的DiariZen系统，独立价值稍显不足。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/BUTSpeechFIT/DiariZen。模型权重：论文中未提及公开本文实验所用的EEND模型（DiariZen-Large）或聚类模型的权重。DiariZen仓库可能提供，但论文未明确说明。数据集：所使用的8个数据集均为公开学术数据集（AMI, AISHELL-4, AliMeeting, NOTSOFAR-1, MSDWild, DIHARD3, RAMC, VoxConverse），可通过其原始出处获取。 Demo：论文中未提及在线演示。复现材料：提供了详细的实验设置（Section 4）、模型配置、超参数选择说明（如过滤阈值E）以及评估指标定义。引用了具体的工具包（pyannote, Wespeaker）和预训练模型（WavLM, ResNet34-LM）。论文中引用的开源项目： DiariZen (代码框架) pyannote.audio (基线流水线) Wespeaker (说话人嵌入工具包) WavLM (自监督预训练模型) VoxCeleb2 (训练数据集) 📌 核心摘要问题：端到端神经与向量聚类结合的说话人日志化框架（EEND-VC）中的聚类阶段（传统上使用层次聚类AHC）仍有改进空间，尤其是在说话人数量多、单人语音片段短的复杂场景下。方法核心：提出两种改进聚类阶段的技术：(1) 将基于贝叶斯隐马尔可夫模型的VBx聚类简化为基于高斯混合模型（GMM-VBx），以适配EEND-VC中不连续的嵌入序列；(2) 在聚类前过滤掉由极短语音片段提取的低质量嵌入，聚类后再重新分配这些嵌入。同时，修复了pyannote框架中约束重分配步骤的一个错误。创新点：这是首次将简化后的VBx算法有效地集成到主流的EEND-VC（如pyannote）框架中；提出了针对EEND-VC嵌入特点的短片段过滤策略；通过消融实验证明了每个改进组件的必要性和有效性。实验结果：在包含8个数据集的复合基准上进行评估。当与DiariZen-Large EEND模型结合时，所提方法（cVBx）的平均 DER 从基线系统的14.5%降低至13.0%，并在大多数数据集上超越了截至2025年6月的最新SOTA结果。具体改进在MSDWild、NOTSOFAR-1和VoxConverse等挑战性数据集上尤为明显。系统 AMI AISHELL-4 AliMeeting NOTSOFAR-1 MSDWild DIHARD3 full RAMC VoxConverse 平均 DiariZen Large (基线) 15.1 9.9 15.5 20.9 18.6 15.6 11.1 9.5 14.5 + cVBx (本文提出) 13.9 9.9 12.4 17.9 15.6 14.6 11.0 8.8 13.0 SOTA 06/2025 15.4 10.2 12.5 19.7 17.7 15.1 10.7 9.3 13.8 5. 实际意义：为现有强大的EEND-VC日志化系统（如pyannote）提供了一个即插即用的、性能更优的聚类后端，无需重新训练前端EEND模型即可提升系统性能，有利于实际应用部署。 6. 局限性：改进仅限于聚类阶段，未对EEND模型本身进行探索；过滤短片段的阈值E需要根据窗口大小选择，可能过于激进而丢失一些说话人信息；最终性能仍依赖于高质量的前端EEND模型（如DiariZen-Large）。 🏗️ 模型架构本文的模型架构是一个两阶段的EEND-VC流水线（如论文图1及描述所示）： ...

VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication

📄 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication #语音转换 #语音增强 #端到端 #流式处理 #实时处理 🔥 8.0/10 | 前25% | #语音转换 #语音增强 | #端到端 | #语音转换 #语音增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xusheng Yang (⋆†) (北京大学深圳研究生院，超高清沉浸式媒体技术广东省重点实验室；ADSPLAB，电子与计算机工程学院) 通讯作者：Yuexian Zou (⋆†B) (北京大学深圳研究生院，超高清沉浸式媒体技术广东省重点实验室；ADSPLAB，电子与计算机工程学院) 作者列表： Xusheng Yang (北京大学深圳研究生院，超高清沉浸式媒体技术广东省重点实验室；ADSPLAB，电子与计算机工程学院) Wei Xiao (⋄) (腾讯天籁音频实验室) Bang Yang (‡) (鹏城实验室) Shidong Shang (⋄) (腾讯天籁音频实验室) Yuexian Zou (⋆†B) (北京大学深圳研究生院，超高清沉浸式媒体技术广东省重点实验室；ADSPLAB，电子与计算机工程学院) 💡 毒舌点评本文提出的“编解码器内建变声器”架构确实是个聪明的集成创新，将语音转换从额外的级联模块变为编解码管道的一部分，从而将端到端延迟砍到了40ms，这对实时通信场景是实质性的提升。不过，论文在“超低复杂度”上做得更极致，但在“音质竞争力”和“变声效果竞争力”上更像是“足够好”而非“令人惊叹”，POLQA分数虽然不错但并未拉开与DAC等模型的差距，语音转换的自然度（N-MOS）也逊色于QuickVC。 ...

Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation

📄 Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation #音乐生成 #自回归模型 #音频生成 #开源工具 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频生成 #开源工具学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Tongxi Wang（Southeast University，中国）通讯作者：Junlang Qian（Nanyang Technological University，新加坡）作者列表：Tongxi Wang（Southeast University）， Yang Yu（Southeast University）， Qing Wang（Southeast University）， Junlang Qian（Nanyang Technological University） 💡 毒舌点评这篇论文的“先乐谱后表演”范式巧妙地将复杂音频生成问题解耦为可解释的符号生成和相对成熟的音频渲染问题，在可控性和效率上取得了显著进步，是思路清晰的“曲线救国”方案。然而，其“演奏”阶段严重依赖商用歌声合成软件VOCALOID和通用MIDI合成器FluidSynth，这使得最终音频质量的上限被锁定在这些工具的能力上，论文的“端到端”生成能力并非完全自包含，这在一定程度上削弱了其作为完全自主生成系统的创新性说服力。 🔗 开源详情代码：提供代码仓库链接：https://github.com/WtxwNs/BACH。代码已开源。模型权重：论文中未提及公开BACH模型的预训练权重。数据集：论文提及所用数据集将在论文发表后开源，但当前未提供获取方式或详细说明。 Demo：论文中未提及在线演示链接。复现材料：提供了代码仓库，包含示例。但完整的训练细节、配置文件、检查点未在论文中提供，需查阅仓库。论文中引用的开源项目： Qwen3.0（用于歌词生成） FluidSynth（用于MIDI合成） ABC记谱法相关工具 YuE等基线模型（用于对比）总结：代码开源是主要亮点，但完整的模型复现（尤其是获得相似性能）可能因缺乏预训练权重、具体训练参数以及依赖商业VOCALOID而存在障碍。 📌 核心摘要问题：现有基于音频的歌曲生成方法存在可控性差、可解释性弱、计算开销大的问题。将歌曲生成视为同时学习音乐理论与演奏的“即兴表演”，任务过于复杂。方法核心：提出“先作曲后演奏”的新范式和BACH（Bar-level AI Composing Helper）框架。核心是使用小节（bar）作为语义单元进行符号乐谱生成，再将生成的乐谱渲染为音频。创新点：首次将小节级符号乐谱生成引入歌曲生成；提出小节流分块（bar-stream patching）和双流预测（Dual-NTP）方法，分别处理人声与伴奏；引入链式乐谱（Chain-of-Score）条件化以保持长程结构一致性。实验结果：自动评估（表1）：BACH在多个指标上达到SOTA，尤其是内容感知指标（CE、CU）和音频-文本对齐指标（CLaMP3）。其KL散度显著优于商业系统（如0.391 vs Suno的0.620）。人类评估（图4）：BACH在音乐性上超越所有开源基线（YuE、YuE-light等），并与Udio有竞争力，略逊于Suno。在可控性（图5）上，其节拍/节奏和人声伴奏平衡表现突出。效率：在RTX 4090上生成3分钟歌曲仅需约5分钟，远快于YuE等模型。实际意义：提供了一种高效、可控、可解释的AI歌曲生成路径，生成的乐谱可被人直接阅读和编辑，极大促进了人机协作创作。代码开源有助于推动该方向研究。主要局限性：最终音频渲染质量受限于外部工具（VOCALOID， FluidSynth），非端到端的纯AI生成；在风格和情感控制等可控性维度上仍有提升空间；论文未公开模型权重和完整训练细节。 🏗️ 模型架构 BACH是一个三阶段的系统流水线： ...

Vib2Sound: Separation Of Multimodal Sound Sources

📄 Vib2Sound: Separation Of Multimodal Sound Sources #语音分离 #生物声学 #麦克风阵列 #信号处理 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 | #生物声学 #信号处理学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics) 通讯作者：Richard H. R. Hahnloser (makahoshi@ethz.ch, {yuhang, zaia, rich}@ini.ethz.ch，从邮箱和星号标注判断，Hahnloser 和 Zai 为共同资深作者) 作者列表：Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics & Neuroscience Center Zurich), Yuhang Wang (同上), Longbiao Cheng (ETH Zurich and University of Zurich, Institute of Neuroinformatics), Anja T. Zai (同上), Richard H. R. Hahnloser (同上) 💡 毒舌点评亮点：论文巧妙地将动物佩戴的加速度计信号作为个体身份“锚点”，解决了同种动物发声高度相似导致麦克风阵列分离失效的核心难题，在生物声学领域思路清晰且有效。短板：模型架构是对现有VoiceFilter框架的简单适配与修改，创新深度有限；研究场景（斑胸草雀）和数据集较为垂直，对主流音频/语音处理社区的普适性启发可能不足。 ...

Vioptt: Violin Technique-Aware Transcription from Synthetic Data Augmentation

📄 Vioptt: Violin Technique-Aware Transcription from Synthetic Data Augmentation #音乐信息检索 #小提琴转录 #数据增强 #多任务学习 #领域适应 ✅ 6.5/10 | 前50% | #音乐信息检索 | #数据增强 | #小提琴转录 #多任务学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ting-Kang Wang (Sony Computer Science Laboratories, Inc., 国立台湾大学研究所) 通讯作者：未明确标注。从邮箱和贡献标注看，Ting-Kang Wang和Yueh-Po Peng可能共同负责。作者列表： Ting-Kang Wang（Sony Computer Science Laboratories, Inc.；国立台湾大学研究所；中央研究院信息研究所） Yueh-Po Peng（伽玛之星原创内容中心；中央研究院信息研究所） Li Su（中央研究院信息研究所） Vincent K.M. Cheung（Sony Computer Science Laboratories, Inc.）注：所有作者均标注了隶属于Sony CSL或台湾相关机构，且论文说明工作是在Sony CSL实习期间完成。 💡 毒舌点评亮点：通过VST虚拟乐器（DAWDreamer + Synchron Solo Violin）自动合成带技巧标注的大规模数据集（MOSA-VPT），巧妙地绕开了需要专家标注的瓶颈，并证明了合成数据训练的模型能有效泛化到真实录音。短板：核心的“转录模块”基本是钢琴转录模型的直接移植，创新有限；整体模型架构（CRNN + 简单特征融合）相对传统，未探索更前沿的序列建模或注意力机制，限制了性能上限。 ...

Virtual Consistency for Audio Editing

📄 Virtual Consistency for Audio Editing #音乐生成 #扩散模型 #音频处理 🔥 8.0/10 | 前25% | #音乐生成 | #扩散模型 | #音频处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Matthieu Cervera (Mila-Québec AI Institute, Laval University) 通讯作者：Cem Subakan (Concordia University, Mila-Québec AI Institute) 作者列表：Matthieu Cervera (Mila-Québec AI Institute, Laval University)、Francesco Paissan (Mila-Québec AI Institute, Laval University)、Mirco Ravanelli (Concordia University, University of Montreal, Mila-Québec AI Institute)、Cem Subakan (Concordia University, Laval University, Mila-Québec AI Institute) 💡 毒舌点评亮点：该工作巧妙地将虚拟一致性（Virtual Consistency）思想从图像编辑迁移到音频领域，并引入了控制编辑强度的超参数φ，成功地在编辑质量和保真度之间取得了更好的平衡，同时推理速度相较于主流基线有数量级的提升（如1.6秒 vs. 16-64秒）。短板：其核心创新“无需反转的虚拟一致性”本质上是迁移了InfEdit [20]的方法，并非原创理论突破；此外，用户研究的规模较小（16人），且缺乏对更长音频（>2分钟）和复杂编辑场景的深入讨论，实际应用的鲁棒性有待验证。 ...

Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation

📄 Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation #音乐生成 #扩散模型 #跨模态 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #跨模态 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Chiu Fai Ng（华为中央媒体技术研究院⋆，清华大学深圳国际研究生院†）通讯作者：未说明作者列表：Chiu Fai Ng（华为中央媒体技术研究院，清华大学深圳国际研究生院）， Karsper So（华为中央媒体技术研究院）， Jing Yang（华为中央媒体技术研究院）， Patricio Ovalle（华为中央媒体技术研究院）， Simon Lui（华为中央媒体技术研究院）， Fan Fan（华为中央媒体技术研究院）， Yuhan Dong（清华大学深圳国际研究生院） 💡 毒舌点评亮点在于将关键帧采样、多模态特征（视觉语义、情绪、光流）与DPO偏好学习结合，形成了一套逻辑自洽且实验验证较为完整的V2M生成管线，尤其在数据构建和节拍对齐上做了细致工作。短板在于核心生成模型高度依赖Stable Audio的DiT架构，原创性主要体现在“组装”和任务适配上，且评估指标（如KAD、Audiobox-Aesthetics）对于普通读者理解“好音乐”的直观性有限，缺乏更贴近人类音乐感知的主观评价分析。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开模型权重。数据集：论文提到构建了包含660小时视频-音乐对的数据集，但未提及是否公开及获取方式。 Demo：提供了在线演示页面链接：https://jasonng-glitch.github.io/v2m-demo/。复现材料：给出了模型架构、训练超参数（如学习率、batch size、优化器）、评估指标计算方法等细节。未提供训练配置、检查点或详细附录。论文中引用的开源项目：TransNet（镜头边界检测）、OpenCLIP（视觉特征）、NeuFlow v2（光流估计）、Stable Audio 2.0（DiT架构）、ImageBind（多模态相似度）、Audiobox-Aesthetics（质量评估）、Librosa（音频分析）、RAFT/MemFlow（光流对比基线）。总结：论文提供了用于理解与初步验证的Demo和较多技术细节，但未提及完整的开源计划（代码、模型、数据），复现门槛较高。 📌 核心摘要解决的问题：现有视频到音乐（V2M）生成方法在处理多场景视频时，难以同时保证全局连贯性、情感共鸣以及准确的节拍-视觉事件同步。方法核心：提出一个基于潜在扩散的V2M框架。首先设计了一个可扩展的数据过滤与重评分管道构建高质量视频-音乐对齐数据集。模型采用关键帧作为条件输入，提取视觉语义（OpenCLIP）、情绪标签和光流特征（NeuFlow v2）并进行融合，作为DiT模型的条件信号。最后，通过直接偏好优化（DPO）对模型进行微调，使其输出更符合人类对“高光时刻”音画同步的偏好。新颖之处：首次在V2M领域应用DPO进行微调；主张并验证了关键帧采样优于均匀采样；构建了一个包含节拍同步约束的高质量数据子集用于偏好学习；系统整合了多种视频特征（语义、情绪、运动）以指导音乐生成的不同方面（内容、情感、节奏）。主要实验结果：在多个指标上与现有方法对比（见表1）。DPO微调后的模型在ImageBind语义相似度（5.612）和提出的新指标“Beat Sync”（0.0489）上达到最优，同时Audiobox美学评分与基线模型相当或略优。消融实验表明，关键帧采样在语义和情感对齐上与1FPS采样相当，但计算成本更低（表2）；特征融合模型在PQ和ImageBind上优于单一特征模型（表3）。实际意义：为视频创作者提供了一种自动生成与其内容语义和情绪相符、节拍对齐良好的背景音乐的新工具，有望降低视频制作门槛并避免版权问题。主要局限性：生成模型的核心架构（DiT）并非原创；评估指标偏向于客观度量，缺乏大规模的人类主观偏好评分；数据集中视频类型和音乐流派可能仍有偏见；DPO微调的效果依赖于精心构建的正负样本对。 🏗️ 模型架构整体架构（图3）是一个条件潜在扩散模型，分为视频条件提取和音频生成两大部分。 ...

ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models

📄 ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models #音乐生成 #扩散模型 #可控生成 #多轨道 #数据集 ✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiaoyu Yi（北京大学信息科学与技术学院，MBZUAI 音乐实验室）通讯作者：未明确说明（论文中未使用“通讯作者”标识）作者列表：Xiaoyu Yi（北京大学信息科学与技术学院，MBZUAI 音乐实验室）、Qi He（MBZUAI 音乐实验室）、Gus Xia（MBZUAI 音乐实验室）、Ziyu Wang（纽约大学柯朗数学科学研究所，MBZUAI 音乐实验室） 💡 毒舌点评亮点：将“画图”这一直观操作引入多轨道音乐的“织体”控制，比提供抽象的潜在变量或文本描述更贴近人类作曲思维，解决了实际创作中的一个痛点。短板：ViTex的基于规则的织体特征提取（如静音比例阈值0.3）显得有些“手工匠气”，可能难以捕捉和表达更复杂、更主观的音乐织体，且离散化的视觉表示在表达连续性强弱变化时存在固有局限。 🔗 开源详情代码：提供链接 https://vitex2025.github.io/，论文中声明代码可在该页面获取。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用了公开的Lakh MIDI和Meta MIDI数据集，但提供了具体的筛选条件和最终规模（7175首）。论文未提及是否公开其筛选处理后的子集。 Demo：论文中声明提供了Demo页面，链接为 https://vitex2025.github.io/。复现材料：提供了详细的训练设置（优化器、学习率、batch size、调度策略）、数据处理工具（muspy）、硬件环境（4 H100 GPU）、以及关键的模型架构图和条件表示细节。论文中引用的开源项目：使用了muspy进行数据处理，引用了GETMusic[8]的吸收态离散扩散框架。总结：论文提供了较好的开源基础，代码和Demo链接明确，训练细节清晰。但模型权重和处理数据集的公开性未明确说明。 📌 核心摘要问题：现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式，无法让用户直接指定不同乐器在特定音区和时间点如何演奏。方法：提出ViTex，一种将乐器织体可视化的表示方法（颜色编码乐器，位置编码音高/时间，笔触属性编码局部纹理）。基于此，构建了一个以ViTex和和弦进行为条件的离散扩散模型，使用无分类器引导进行训练，以生成8小节多轨道音乐。创新点：首次将视觉化的织体表示用于多轨道音乐生成控制；该表示同时支持人类直观操作和作为模型条件；结合离散扩散模型实现了高质量、可控的生成。实验结果：在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验（表1）显示，在条件生成任务中，本方法在乐器控制准确率（IA=0.600 vs Q&A-1: 0.584）、和弦准确率（CA=0.875 vs Q&A-1: 0.607）及排列质量（DOA=0.296 vs Q&A-1: 0.188）上均优于基线。无条件生成（表2）在律动相似度（GPS）和排列质量（DOA）上也优于AMT和MMT基线。主观听音测试（图3）表明，在给定乐器的生成任务中，本方法在连贯性、音乐性和创造性评分上均高于基线。实际意义：为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐，有望成为音乐创作辅助工具的新范式。主要局限性：ViTex表示基于规则，可能无法涵盖所有织体类型；当前仅支持8小节的片段生成；控制维度（音色、音区、密度）虽比之前工作更细，但仍有限。 🏗️ 模型架构模型整体架构：采用标准的UNet结构（图2），以处理被噪声污染的多轨道钢琴卷帘（pianoroll）xt。模型接收两个额外条件输入：乐器织体特征y1（ViTex）和和弦进行y2。 ...

VividTalker: A Modular Framework for Expressive 3D Talking Avatars with Controllable Gaze and Blink

📄 VividTalker: A Modular Framework for Expressive 3D Talking Avatars with Controllable Gaze and Blink #语音合成 #音视频 #模块化架构 #扩散模型 #多语言 ✅ 7.5/10 | 前25% | #语音合成 | #模块化架构 | #音视频 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Hangyu Xiong（丹麦技术大学 (DTU), Denmark）通讯作者：Qingzheng Hu（INTI International University, Malaysia）作者列表： Hangyu Xiong（丹麦技术大学 (DTU), Denmark） Jinyi Zhang（加州大学洛杉矶分校 (UCLA), USA） Zheng Wang（清华大学, China） Tianlun Pan（西交利物浦大学, China） Qingzheng Hu（INTI International University, Malaysia） 💡 毒舌点评亮点：该论文直击3D数字人“死鱼眼”这一让用户体验崩盘的具体痛点，并提出了一套基于生理学原理、可即插即用（无需重训练）的眼部动态增强方案，效果量化显著（眨眼真实度MOS提升2.5分），这种“问题-方案-验证”的链条非常清晰且实用。短板：作为一篇方法框架论文，其核心的眼部增强模块是建立在现有开源工具（SadTalker, FaceVerse等）之上的“魔改”，更像是一个精巧的工程集成方案，缺乏在底层生成模型或表征上的原始创新；同时，论文对如何获取其构建的评估数据集（40个合成视频）语焉不详，且完全未开源核心代码，使得其宣称的“可复现性”大打折扣。 ...