AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

📄 AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification #音频分类 #多模态模型 #混合架构 #医疗音频 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 #混合架构 | #多模态模型 #混合架构 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系) 通讯作者:未说明 作者列表:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系),Utsab Saha(BRAC大学计算机科学与工程系) 💡 毒舌点评 亮点:论文非常清晰地抓住了“心音分析中频谱与波形信息互补”这一核心矛盾,并设计了一个轻量级双分支架构来同时利用两者,实验也证实了该思路的有效性,尤其是在抵抗域偏移方面表现出色。 短板:所谓的“创新”更多是工程设计上的巧妙组合,后期融合策略(拼接)本身毫无新意,论文也未深入探讨更复杂融合机制(如跨注意力)在此场景下失效的原因,使其理论贡献稍显薄弱。 📌 核心摘要 问题:传统心音(PCG)分类方法要么使用2D频谱图(丢失相位和时间精度),要么使用1D波形(难以学习频率关系),二者各有局限。 方法:提出AudioFuse,一个轻量级双分支架构。一个分支是定制的“宽而浅”的Vision Transformer (ViT),用于从2D log-Mel频谱图中提取全局频谱特征;另一个分支是紧凑的1D CNN,用于从原始波形中提取精确的时序特征。两个分支提取的特征向量在最后通过拼接进行后期融合。 创新点:a) 针对PCG信号特性,设计了一个双分支、双模态的表示学习框架;b) 为平衡性能和过拟合风险,对ViT和CNN分支都进行了轻量化设计;c) 通过实验证明了简单拼接融合在该任务上优于更复杂的门控或交叉注意力融合。 实验结果:在PhysioNet 2016数据集上,AudioFuse(拼接融合)从头训练取得了0.8608的ROC-AUC,显著优于单模态基线(频谱图0.8066,波形0.8223)。在具有显著域偏移的PASCAL数据集上,AudioFuse(ROC-AUC 0.7181)的性能远优于频谱图基线(0.4873),展现了强大的泛化能力。具体结果见表1和表2。 ...

2026-04-29

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Le Wang(中国矿业大学,徐州) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Le Wang(中国矿业大学)、Jun Wang(快手科技,Kling AI)、Chunyu Qiang(快手科技,Kling AI)、Feng Deng(快手科技,Kling AI)、Chen Zhang(快手科技,Kling AI)、Kun Gai(快手科技,Kling AI) 💡 毒舌点评 亮点:这篇论文的野心很大,试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成,并且通过全面的实验确实做到了在多个任务上刷榜,证明了其架构设计的有效性。 短板:然而,论文对视频输入的强依赖像一根“拐杖”,限制了其在无视频场景下的应用,而号称的“统一”框架在代码和模型完全黑箱的情况下,其宣称的优越性和可复现性都要打上一个问号。 📌 核心摘要 解决的问题:现有视频到音频(包括音效、语音、音乐)的生成方法大多任务特定、模型碎片化,且跨模态(如唇音同步)对齐效果不佳,限制了通用性和生成质量。 方法核心:提出AudioGen-Omni,一个基于多模态扩散变换器(MM-DiT)的统一框架。其核心是引入了“歌词-转录编码器”,将音素/字素映射为帧级稠密表示;并设计了“相位对齐各向异性位置注入(PAAPI)”,在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码,以实现精细的跨模态同步。 创新点:a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架;b) 提出了无需音素时长监督的歌词转录编码模块;c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同,它解冻了所有模态并采用掩码输入策略,增强了灵活性。 主要实验结果:在VGGSound音频生成测试集上,其FD指标(PaSST 58.77, PANNs 6.29)优于MMAudio等基线(见表1)。在LRS3/LRS2语音生成测试中,其UTMOS(3.982/3.842)和DNSMOS(3.782/3.767)得分甚至超过真实语音,WER也大幅降低(17.56%/17.75%)(见表2)。在说话人相似度(SECS)评估中,其GE2E和VoxSim分数均高于其他方法(见表3)。模型能在1.91秒内生成8秒音频。 实际意义:为多媒体内容创作提供了一个高效、高质量的统一音频生成工具,有望简化视频后期制作流程,增强虚拟人物、游戏、社交媒体的音频沉浸感。 主要局限性:模型依赖视频输入,当无视觉信息时应用受限;论文未开源代码和模型,限制了社区复现和二次开发;虽能生成歌曲,但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器,旨在根据可选的视频和文本输入,生成同步的音频、语音或歌曲。 ...

2026-04-29

AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

📄 AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning #音频问答 #音频场景理解 #多智能体 #迭代优化 #大语言模型 ✅ 7.0/10 | 前25% | #音频问答 | #多智能体 | #音频场景理解 #迭代优化 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写“未说明” 明确标注通讯作者(如论文可判断),否则写“未说明” 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写“未说明” 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Yan Rong(香港科技大学(广州)) 通讯作者:Li Liu(香港科技大学(广州)) 作者列表:Yan Rong(香港科技大学(广州))、Chenxing Li(腾讯AI Lab)、Dong Yu(腾讯AI Lab)、Li Liu(香港科技大学(广州)) 💡 毒舌点评 用 2-3 句话做有信息量的点评,必须同时包含至少 1 个亮点和 1 个短板。可以犀利,但不要空泛嘲讽,不要只喊“很强”或“很水”。 ...

2026-04-29

Auditory Illusion Benchmark for Large Audio Language Models

📄 Auditory Illusion Benchmark for Large Audio Language Models #模型评估 #基准测试 #音频大模型 #听觉认知 ✅ 7.0/10 | 前50% | #模型评估 | #基准测试 | #音频大模型 #听觉认知 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系) 通讯作者:Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI) 作者列表:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Eunice Hong(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI) 💡 毒舌点评 亮点:论文首次将认知科学中的“听觉错觉”概念系统化为评估大型音频语言模型(LALMs)的基准,方法严谨(包含对照组和人类基线),指出了模型在“感知”层面与人类的关键差距,角度新颖且具有启发性。短板:所有评估任务被压缩为简单的二选一或三选一,这种简化可能无法充分捕捉复杂听觉错觉的微妙体验和动态过程;对模型内部为何产生差异的分析停留在表面,缺乏更深入的机理解释。 📌 核心摘要 要解决什么问题:当前对大型音频语言模型(LALMs)的评估主要集中在识别准确性等客观任务上,缺乏评估其是否内化了人类特有的感知偏差(如对听觉错觉的易感性)的方法。本文旨在填补这一空白。 方法核心是什么:提出了首个听觉错觉基准(AIB),包含10种代表性听觉错觉(分为基于物理和基于物理+知识两类),涵盖音乐、声音和语音领域。将每个错觉的感知判断转化为多项选择题,并与控制刺激一起,对多款LALMs和人类被试(20名绝对音感者)进行平行测试。 与已有方法相比新在哪里:AIB是首个专门为LALMs设计的听觉错觉评估基准。与主要关注准确率或推理的现有音频基准不同,AIB的核心目标是衡量模型的“人类感知对齐度”(通过ISI等指标),即模型是否像人类一样“犯错”。 主要实验结果如何:人类被试在各类错觉上均表现出极高的易感性(ISI≈0.8-0.9)。LALMs的表现则系统性地分化:在“基音缺失”等低级声学错觉上,Qwen2-Audio表现出近人类易感性(ISI>0.9);在需要结合知识的错觉(如谢泼德音调)上,大模型(如MuLLaMa)显示出部分对齐,但整体仍弱于人类;在语音相关错觉(语音转歌曲、音素恢复)上差距最大,仅Qwen2-Audio在音素恢复上达到完美人类对齐,但所有模型在语音转歌曲上均失败。详细结果见下表。 实际意义是什么:为评估和开发更具“人感”的音频AI模型提供了新的诊断维度和工具。有助于推动模型从追求信号保真度向模拟人类认知特性发展,并为认知科学提供对比人类与机器感知的实验平台。 主要局限性是什么:评估任务被简化为固定的多项选择题,可能无法全面评估错觉感知的丰富性。许多模型在控制条件下性能也不稳定,表明其基础音频理解能力仍有不足。论文未深入探讨模型架构或训练方式导致差异的具体原因。 实验结果表格: 模型 参数量 Physics (幻觉) HLA/RA/ISI Physics (控制) HLA/RA/ISI Physics+Knowledge (幻觉) HLA/RA/ISI Physics+Knowledge (控制) HLA/RA/ISI 总体平均 HLA/RA/ISI Human - 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 Pengi 323M 0.677/0.323/0.355 0.333/0.389/-0.056 0.715/0.285/0.430 0.083/0.224/0.141 0.408/0.296/0.112 Audio Flamingo Chat 2.2B 0.925/0.075/0.875 0.120/0.139/-0.019 0.963/0.037/0.926 0.245/0.217/0.028 0.901/0.056/0.845 MuLLaMa 7B 0.535/0.465/0.070 0.155/0.167/-0.012 0.856/0.144/0.711 0.084/0.217/0.133 0.519/0.240/0.279 Qwen-Audio-Chat 8.4B 0.305/0.695/-0.389 0.267/0.222/0.045 0.567/0.433/0.133 0.083/0.217/0.134 -0.023/0.512/-0.535 Qwen2-Audio 8.4B 0.985/0.015/0.971 0.015/0.111/-0.096 0.744/0.256/0.489 0.083/0.217/0.134 0.633/0.183/0.450 Qwen2-Audio-Instruct 8.4B 0.182/0.818/-0.636 0.314/0.222/0.092 0.470/0.530/-0.059 0.088/0.217/0.129 -0.232/0.616/-0.848 图1展示了AIB中三个错觉刺激(基音缺失、Zwicker音调、Tartini音调)及其对照刺激的示例,以及用于查询人类和AI模型的提示格式。这直观地说明了如何将听觉错觉感知转化为可评估的任务。 ...

2026-04-29

Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation

📄 Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation #语音增强 #端到端 #空间音频 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #端到端 | #空间音频 #多通道 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sirawitch Laichatkul(朱拉隆功大学计算机工程系) 通讯作者:未说明 作者列表:Sirawitch Laichatkul(朱拉隆功大学计算机工程系)、Waradon Phokhinanan(巴黎高等师范学校感知系统实验室)、Thanapat Trachu(朱拉隆功大学计算机工程系)、Ekapol Chuangsuwanich(朱拉隆功大学计算机工程系) 💡 毒舌点评 这篇论文最大的亮点在于将听觉皮层的频率选择性(tonotopy)和自上而下注意力这一神经科学概念,成功地转化为了一个有效的计算模块(修改的ViT编码器和频率受限注意力掩码),为解决双耳增强中的空间线索失真问题提供了一个新颖且合理的切入点。但短板同样明显:模型对最具挑战性的相位线索(IPD)保持效果提升有限(∆IPD仅从1.12/1.13微降至1.09),实验仅基于合成数据,其在真实复杂声学环境下的表现和泛化能力有待验证,且缺乏开源代码,让这份“灵感”稍显难以触摸。 📌 核心摘要 问题:双耳语音增强不仅要在频谱上抑制噪声,更关键的是要保持双耳线索(如耳间时间差ITD和耳间强度差ILD),否则会破坏空间听觉,影响助听器和增强现实等应用效果。现有方法在这一挑战上表现不足。 方法:提出了BinauralViT,一个受听觉神经科学启发的Transformer架构。其核心是引入两个听觉启发层:一个能实现“自上而下”注意力的频率选择性表示层(通过修改ViT编码器和添加频率注意力掩码实现),以及一个用于捕捉时序连贯性的语音处理层。 创新:与已有方法相比,新在:1)受皮层频率拓扑组织启发,设计了允许同一时间帧内频率间注意力但限制跨帧注意力的机制;2)提出了一种双层Transformer结构,第一层进行特征选择与融合,第二层建模时序依赖以保持空间线索。 结果:在合成的非平稳噪声数据集上,BinauralViT在PESQ(2.78 vs 2.54/2.30)、SI-SNR(17.43 vs 16.92/15.30)上优于BiTasNet和BCCTN基线,并在ILD保持(∆ILD 4.20 vs 6.03/5.85)上显著提升,IPD保持(∆IPD 1.09 vs 1.13/1.12)略有改善。MBSTOI(~0.98)在所有模型中已接近饱和。消融实验验证了修改ViT编码器、第二层编码器及IPD/ILD特征的必要性。 意义:为双耳语音处理提供了一种新的、受生物启发的模型设计思路,证明了模拟听觉机制对提升空间线索保持能力的有效性,对助听技术发展有积极参考价值。 局限:实验在模拟数据上进行,可能无法完全反映真实场景的复杂性;对IPD的提升幅度有限;模型计算复杂度和实时性未作讨论。 🏗️ 模型架构 BinauralViT的完整架构如图1所示,是一个端到端的双耳语音增强模型,其目标是从带噪的双耳语音信号中估计出相位敏感掩码(PSM),进而重构出干净语音。整体流程可分为四个主要阶段: ...

2026-04-29

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 亮点: 论文直面了现有音频水印方法在应对“极端”攻击(如剧烈变速、高损压缩、录音回放)时崩溃的痛点,并用一套设计周密的实验(包括真实环境下的手机录音回放)令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性,其性能提升是数量级的。短板: 论文引以为傲的“首个缩放定律研究”,其核心结论(如“宽深”模型最优)缺乏足够的理论支撑和普适性验证,目前更像是一次基于小规模网格搜索的经验性观察。此外,人类评估仅用24人测试40个样本,其统计显著性和代表性存疑,难以为“水印不可感知”的结论提供强有力背书。 ...

2026-04-29

Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting

📄 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting #音频检索 #视频检索 #跨模态 ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Hongjie Chen (Dolby Laboratories) 通讯作者:未说明 作者列表:Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 亮点:框架设计巧妙,通过独立控制音频和视觉距离参数(τ_a, τ_v),为用户提供了在“平滑”与“创意对比”之间灵活调节的杠杆,这是对现有单一模态方法的一个有意义扩展。 短板:评估方法过于依赖主观打分(人类和LLM),缺乏如剪切点帧级精确度、跨视频语义连贯性等客观、可量化的指标,使得“超过60%平滑”的结论说服力打折扣;且整个系统严重依赖所选编码器(CLAP/CLIP)的性能,未探讨其边界与失效情况。 ...

2026-04-29

Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

📄 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing #音频分类 #信号处理 #数字健康 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #信号处理 | #数字健康 #生物声学 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Jade Chng(Jacobs School of Engineering, University of California San Diego; Department of Biomedical Engineering, Duke University)(论文中标注了*,且名字在首位) 通讯作者:未明确指定。论文中标注Andrew Yousef和Philip A Weissbrod为“Equal Senior Authors”(†)。 作者列表: Jade Chng(加州大学圣地亚哥分校 Jacobs 工程学院;杜克大学生物医学工程系) Rong Xing(加州大学圣地亚哥分校 Jacobs 工程学院) Yunfei Luo(加州大学圣地亚哥分校 Halıcıoğlu 数据科学研究所) Kristen Linnemeyer-Risser(加州大学圣地亚哥分校 耳鼻喉头颈外科系) Tauhidur Rahman(加州大学圣地亚哥分校 Jacobs 工程学院;Halıcıoğlu 数据科学研究所) Andrew Yousef(加州大学圣地亚哥分校 耳鼻喉头颈外科系)(平等资深作者) Philip A Weissbrod(加州大学圣地亚哥分校 耳鼻喉头颈外科系)(平等资深作者) 💡 毒舌点评 亮点:这篇论文的最大亮点在于其扎实的临床数据采集流程——将声学传感与吞咽评估的“金标准”FEES实时同步进行,确保了标签的准确性,这为医疗声学研究树立了良好的数据基础。短板:然而,其核心模型(随机森林)和自动分割算法(固定参数/滑动窗口)显得相对传统和保守,在模型创新性上略显不足;更重要的是,未提供任何代码或数据,对于一项旨在推动“实用工具”的工作而言,这极大地限制了其快速验证和应用转化的可能性。 ...

2026-04-29

Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability

📄 Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability #说话人分离 #说话人日志 #模型评估 #语音活动检测 #聚类 ✅ 7.5/10 | 前25% | #说话人分离 | #说话人日志 | #模型评估 #语音活动检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kenkichi Ishizuka (RevComm Inc.) 通讯作者:未说明 作者列表:Kenkichi Ishizuka (RevComm Inc., Tokyo, Japan), Chang Zeng (RevComm Inc., Tokyo, Japan), Masaki Ono (RevComm Inc., Tokyo, Japan), Taiichi Hashimoto (RevComm Inc., Tokyo, Japan) 💡 毒舌点评 本文的亮点在于它精准地识别并填补了“说话人日志误差率(DER)自动估计”这一实用但被忽视的研究空白,并设计了一个逻辑自洽、实验充分的框架来证明其可行性。其短板则在于方法创新性略显不足,核心贡献是启发式地组合了现有特征(VAD差异、DNSMOS、聚类指标)和回归模型,更像一个精心设计的工程解决方案,而非在理论或模型上有深层突破。 ...

2026-04-29

Automatic Music Mixing Using a Generative Model of Effect Embeddings

📄 Automatic Music Mixing Using a Generative Model of Effect Embeddings #音乐生成 #扩散模型 #领域适应 #音乐信息检索 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #领域适应 #音乐信息检索 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eloi Moliner(Aalto大学,DICE声学实验室) 通讯作者:未说明 作者列表:Eloi Moliner(Aalto大学,DICE声学实验室)、Marco A. Mart´ınez-Ram´ırez(Sony AI)、Junghyun Koo(Sony AI)、Wei-Hsiang Liao(Sony AI)、Kin Wai Cheuk(Sony AI)、Joan Serr`a(Sony AI)、Vesa V¨alim¨aki(Aalto大学,DICE声学实验室)、Yuki Mitsufuji(Sony AI, Sony Group Corporation) 💡 毒舌点评 MEGAMI的核心亮点在于巧妙地将扩散模型应用于效应嵌入空间,解决了自动混音中“一对多”的根本难题,同时其领域适应策略为利用海量无配对湿录音数据提供了优雅的解决方案,架构设计完整且有深度。然而,论文的评估严重依赖内部数据集,缺乏在大型公开基准上的可复现比较,且其“接近人类水平”的结论在部分主观测试结果中略显主观,实际泛化能力与可落地性仍有疑问。 📌 核心摘要 这篇论文旨在解决自动音乐混音中的核心挑战:专业混音本质上是主观的,同一组干录音存在多种同样有效的混音方案,而现有的确定性回归方法无法捕捉这种多样性。论文提出了MEGAMI(Multitrack Embedding Generative Auto MIxing),一个生成式框架,它使用条件扩散模型在效应嵌入空间中建模给定干音轨的专业混音的条件分布。其核心方法是将混音决策(由效应嵌入表示)与音乐内容分离,并设计了一个排列等变的Transformer架构以处理任意数量和顺序的音轨。与已有方法相比,MEGAMI的创新在于:(1)首次将生成模型(扩散模型)用于自动混音;(2)提出了一种效应嵌入因式分解;(3)通过领域适应策略,使模型能利用大量仅有湿录音的公开数据集进行训练。实验表明,在客观分布性指标(KAD)上,MEGAMI优于所有基线;主观听力测试显示其性能接近人类混音师,在部分曲目上甚至超越了人类参考混音。这项工作为自动音乐生成开辟了新方向,其框架可用于合成混音数据集。主要局限性在于评估数据集大部分为内部数据,且模型性能依赖于CLAP和FxEncoder++等预训练嵌入模型的质量。 ...

2026-04-29