Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音频效果估计 #音乐信息检索 #深度神经网络 #优化算法 #音频效果移除 ✅ 7.0/10 | 前25% | #音频效果估计 | #深度神经网络 #优化算法 | #音乐信息检索 #深度神经网络 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Youichi Okita(关西学院大学 理工学研究科) 通讯作者:Haruhiro Katayose(关西学院大学 工学部) 作者列表:Youichi Okita(关西学院大学 理工学研究科)、Haruhiro Katayose(关西学院大学 工学部) 💡 毒舌点评 这篇论文的亮点在于它优雅地模拟了人类音频工程师“先猜后调”的工作流程,将数据驱动的预测与基于信号相似度的搜索有机结合,实验证明这种“两阶段法”确实优于纯预测方法。短板在于其研究的问题场景(吉他效果链)相对垂直窄众,虽然方法论扎实,但能否推广到更复杂、更多样的现实音频处理场景(如流行音乐、混音工程)还有待验证,且未与该领域所有可能的最新方法进行对比。 📌 核心摘要 解决的问题:解决“音频效果估计”任务,即从经过效果处理的湿信号中,推断出所应用的效果器类型、顺序及其参数设置。 方法核心:提出一种两阶段方法。第一阶段,使用DNN预测干信号和/或效果配置的部分信息(如类型组合);第二阶段,以预测的干信号为基础,通过优化算法(如CMA-ES)搜索最佳参数,使得应用预测效果链后重建的信号与原始湿信号的相似度最大化。 与已有方法相比新在何处:突破了现有方法要么纯预测(依赖大量标注数据,可能不准)、要么纯搜索(需要已知干信号)的局限。通过先预测干信号,为搜索阶段提供了关键输入,从而能够利用重建相似度这一客观目标来优化预测结果,实现了两类方法的互补。 主要实验结果:在吉他效果链数据集上,该两阶段方法在湿信号重建任务上显著优于纯预测基线(例如,SI-SDR从18.18提升至23.07)。同时,研究发现将“预测效果类型组合”与“搜索估计顺序和参数”结合的任务划分策略,在多项指标(类型分类F1、重建SI-SDR等)上表现最佳。关键结果表格如下: 任务 方法 核心指标 数值 单效果类型分类 Bypass-Type-Iter Macro F1 0.919 Bypass-Config-Iter Macro F1 0.917 效果链类型分类 Dry-Type-Direct + Search Macro F1 0.958 Bypass-Type-Iter Macro F1 0.949 Bypass-Config-Iter Macro F1 0.942 单效果移除 Bypass-Type-Iter SI-SDR 26.32 效果链移除 Dry-Type-Direct SI-SDR 13.96 Bypass-Type-Iter SI-SDR 14.95 湿信号重建 Bypass-Config-Iter (基线) SI-SDR 18.18 Dry-Type-Direct + Search SI-SDR 23.07 Bypass-Type-Iter + Search SI-SDR 22.68 实际意义:为自动化音频效果复制与分析提供了新思路,有望帮助音乐初学者学习音色设计,或辅助音频工程师快速复现复杂效果。 主要局限性:实验仅覆盖三种吉他效果(合唱、失真、混响)和较短的效果链,未涉及更多样化的效果类型和更长的链,其实用性和泛化能力有待进一步验证。 🏗️ 模型架构 论文的核心模型架构(预测阶段)如图2所示,其整体是一个包含“效果移除器”和“效果配置估计器”的深度神经网络。 ...

2026-04-29

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing #语音识别 #扩散模型 #语音大模型 #预训练 ✅ 7.0/10 | 前50% | #语音识别 | #扩散模型 | #语音大模型 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Mengqi Wang (University of Illinois at Urbana-Champaign) 与 Zhan Liu (Tsinghua University) 共同贡献 通讯作者:未说明 作者列表:Mengqi Wang (University of Illinois at Urbana-Champaign), Zhan Liu (Tsinghua University), Zengrui Jin (Tsinghua University), Guangzhi Sun (University of Cambridge), Chao Zhang (Tsinghua University), Philip C. Woodland (University of Cambridge) 💡 毒舌点评 亮点:论文系统性地将新兴的扩散LLM(LLaDA)引入语音识别的“审思”环节和直接解码,证明了在引入音频条件后,扩散模型的双向注意力能有效修正自回归模型的错误,且部分配置下推理速度更快。短板:所有实验仅在LibriSpeech上进行,与最强的Whisper-Large v3基线相比仍有明显性能差距,且关键复现细节(如训练GPU型号、总时长)和开源材料均未提供,限制了工作的说服力和可验证性。 ...

2026-04-29

Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection

📄 Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection #说话人检测 #多模态模型 #对比学习 #预训练 ✅ 7.5/10 | 前25% | #说话人检测 | #多模态模型 | #对比学习 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongkang Yin(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 通讯作者:Yuexian Zou(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 作者列表:Yongkang Yin(同上),Yukun Zhuang(同上),Zeyu Xie(同上;腾讯AI Lab),Chenxing Li(腾讯AI Lab),Le Xu(腾讯AI Lab),Yuexian Zou(同上) 💡 毒舌点评 亮点在于巧妙地利用预训练的语音活动检测(VAD)和说话人编码器提供的外部监督信号,来构建更精细的边界标签并引导视觉特征对齐,这为解决ASD数据集标注粗糙问题提供了可行的思路。短板是创新点较为分散,边界建模网络(滑动窗口+差分)的设计略显拼凑,且整体框架的“音频引导”更多体现在引入预训练特征,而非在融合架构上有根本性革新。 📌 核心摘要 本文针对主动说话人检测(ASD)任务中现有方法存在的音频-视觉语义对齐不精细、缺乏对语音和说话人转换边界显式建模的问题,提出了一种音频引导的多模态方法。该方法首先利用预训练的VAD和说话人模型为AVA数据集生成更精确的语音活动标签,解决了原有视觉标签不准确的问题;其次,通过监督对比学习策略,实现视觉特征与预训练语音活动特征之间的帧级语义对齐;最后,设计了一个边界建模网络,融合语音、说话人和视觉特征,并采用滑动窗口和帧差分策略捕捉语音起止和说话人转换的动态变化。在AVA-Active Speaker数据集上,该方法在单参与者建模方法中取得了最优的mAP(94.9%),显著提升了在语义边界处的预测准确率(边界帧准确率提升至80.6%),并在Columbia ASD数据集上展现了良好的泛化能力(平均F1-Score达82.0%)。该工作的实际意义在于提升了ASD系统在复杂多说话人场景下的准确性和鲁棒性。主要局限性在于模型创新点相对分散,且依赖多个外部预训练模型。 🏗️ 模型架构 整体架构(如图1所示)包含三个主要模块:音视觉特征提取、说话人边界建模和多模态融合与分类。 ...

2026-04-29

Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness

📄 Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness #音频安全 #对抗样本 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #跨模态 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 通讯作者:Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院,邮箱:wangjianhua02@tyut.edu.cn) 作者列表:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jiabao Zhang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Yan Chen(太原工业大学计算机科学与技术学院)、Zhihui Zhao(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 💡 毒舌点评 亮点在于首次开辟了“音频+文本”联合优化的多模态越狱攻击赛道,并在实验上取得了90%以上的攻击成功率,有力证明了当前LALM在多模态融合下的脆弱性,为安全研究提供了新方向。短板是论文对“隐身性”的论证略显单薄,仅通过提升成功率来间接证明,并未深入评估攻击音频在人类听觉或音频检测系统中的隐蔽程度,削弱了“Stealthiness”这一主张的力度。 📌 核心摘要 问题:现有的针对大型音频语言模型(LALM)的越狱攻击多局限于单模态(纯文本或纯音频),且通用性和隐蔽性不足。 方法核心:提出“音频-文本越狱攻击”(Audio-Text Jailbreak),首次联合优化微小的对抗音频扰动和恶意的文本后缀,共同诱导模型生成有害回应。同时设计了环境噪声添加和语速调整等隐身策略。 与已有方法相比新在哪里:a) 首次实现音频和文本模态的深度融合攻击;b) 设计的单个对抗音频/文本后缀可泛化应用于不同用户指令;c) 引入针对性的音频层隐身策略。 主要实验结果:在Qwen2-Audio和Qwen2.5-Omni两个模型上,攻击成功率(ASR)分别达到91.00% 和 92.73%,显著优于GCG、VoiceJailbreak、SpeechGuard等基线方法。关键实验结果如下表所示: 方法 非法活动 仇恨言论 人身伤害 欺诈 色情 隐私侵犯 平均 Base (无攻击) 0 0 0 0 0 0 0 GCG (文本攻击) 0.67 0.72 0.73 0.79 0.80 0.75 0.74 VoiceJailbreak 0 0.40 0.20 0.20 0.30 0 0.21 SpeechGuard 0.20 0.40 0.40 0.20 0.30 0 0.25 Audio-Text JailBreak (本文) 0.95 0.90 0.90 0.88 0.90 0.90 0.91 模型 Noise Rate Rate + Noise Ours Qwen2-Audio 84.00 83.30 86.61 91.00 Qwen2.5-Omni 82.50 85.65 73.91 92.73 平均 83.25 84.48 80.26 91.86 实际意义:揭示了当前LALM在处理跨模态输入时存在的严重安全漏洞,为模型安全加固(如多模态对齐安全训练)提供了明确的攻击测试基准和方向。 主要局限性:通用性验证实验仅在一个条件(K=10)下进行,泛化能力论证不够充分;隐身策略的实际效果(如是否易于被人耳察觉或被音频检测器识别)未通过直接的用户研究或客观度量进行评估。 🏗️ 模型架构 本文并未提出一个新的端到端语音大模型架构,而是针对现有的LALM(如Qwen2-Audio, Qwen2.5-Omni)设计了一个攻击框架。其核心是音频-文本联合越狱攻击流程。 ...

2026-04-29

Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver

📄 Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver #音乐信息检索 #爵士乐 #音频转录 #端到端 #节奏感知 ✅ 7.5/10 | 前25% | #音乐信息检索 | #端到端 | #爵士乐 #音频转录 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:未说明(论文标题页列出三位作者,但未明确标注第一作者) 通讯作者:未说明 作者列表:Ivan Shanin(Queen Mary University of London, Centre for Digital Music), Xavier Riley(Sound Patrol Inc.), Simon Dixon(Queen Mary University of London, Centre for Digital Music) 💡 毒舌点评 论文巧妙地将爵士乐转录问题拆解为“节奏优先,音高后补”的二阶段任务,并用一个统一的Transformer架构优雅地实现,这确实是模仿人类专家工作流程的聪明做法,在特定数据集上也取得了显著进步。然而,这种高度垂直的“爵士萨克斯独奏”任务定位,加上对高质量标注数据(如Omnibook)的强依赖,使其通用性和影响力打了个折扣;论文里对模型为何能有效泛化到节奏风格更复杂的帕克作品解释得也不够深入。 📌 核心摘要 这篇论文旨在解决即兴爵士独奏的音频到乐谱自动转录任务,特别是克服传统模块化流水线中错误累积的问题。其核心方法是提出一个名为“节奏感知器”(Rhythm Perceiver)的端到端神经网络模型。与先前方法不同,它逆向了处理逻辑:首先,模型预测每个小节中每个拍子的节奏结构(称为“节拍特征”),然后基于预测的节奏结构,在指定的起始点预测音高。模型采用了一种带有跨注意力机制的感知器(Perceiver)风格Transformer架构,将音频帧特征与节拍同步的节奏嵌入进行联合对齐。主要实验结果在极具挑战性的Charlie Parker“Omnibook”数据集上显示,该方法在多项指标上(如钢琴卷帘准确率、节奏准确率)显著优于现有的基线系统(CRNN+qparse),证明了显式建模节拍级节奏单元的有效性。其实际意义在于能为音乐分析和教育提供更准确的乐谱标注工具。主要局限性在于模型针对主流爵士乐节奏范式(如Bebop)进行训练,可能难以完美处理更复杂或前卫的节奏风格,且存在训练数据(Filosax)与测试数据(Omnibook)之间的领域差距。 ...

2026-04-29

Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

📄 Audio-Visual Deepfake Generation and Detection: An Exploratory Survey #音频深度伪造检测 #语音伪造检测 #对比学习 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn) 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所) 💡 毒舌点评 这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。 📌 核心摘要 这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。 与已有综述相比,本文新在首次专注于“音视频”这一具体伪造类型,并提供了针对该类型检测器的系统性可靠性评估。主要实验结果显示,大多数检测器泛化能力不足(表1),例如LIPINC在LAV-DF数据集上AUC仅为50.55%;同时抗干扰能力较弱(图3),高斯噪声和时间拉伸对多数检测器性能有显著破坏。本文的实际意义在于明确了当前检测技术的瓶颈,并为未来研究指明了方向,如发展基于内容相关性的检测策略、构建更具挑战性的测试基准等。主要局限性在于其评估覆盖的检测器和数据集有限,且未提供可直接复现的代码或模型。 主要实验结果表格: 表1. 泛化性实验结果 (AUC, %) 检测器 FakeAVCeleb IDForge AVLips LAV-DF Yu et al. [17] 99.12* 83.46 88.07 65.13 LIPINC [30] 71.27 78.82 70.54 50.55 LipFD [14] 72.42 69.97 84.98* 41.95 VFD [31] 76.43* 43.34 65.10 55.94 SpeechForensics [32] 99.29 95.67 99.46 85.37 Feng et al. [33] 80.86 75.49 74.39 57.53 AVH-Align [34] 95.29* 14.72 86.61 88.70 注:星号()表示该结果基于监督学习设置(测试集与训练集有重叠),不反映泛化能力。* ...

2026-04-29

Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval

📄 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval #视频片段检索 #晚期融合 #重评分 #音视频 #多任务学习 ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Takehiro Imamura(名古屋大学,LY Corporation) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Takehiro Imamura(名古屋大学, LY Corporation)、Tatsuya Komatsu(LY Corporation)、Hokuto Munakata(LY Corporation)、Tomoki Toda(名古屋大学) 💡 毒舌点评 这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点,提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而,其短板也相当明显:作为一项融合工作,创新性略显平淡(本质是一个轻量级的重评分网络),且未能与近年来可能更强的SOTA基线(如基于大型视频-语言模型的方法)进行对比,削弱了结论的冲击力。 📌 核心摘要 要解决什么问题:现有的DETR类视频片段检索(VMR)模型存在两个主要问题:(1)突变的视觉场景容易导致片段边界误检;(2)由于DETR的条件独立输出和sigmoid分数校准问题,模型输出的片段相关性分数不可靠,导致排序不佳。 方法核心是什么:提出“晚期融合重评分模块”(LARS)。它在VMR模型(如QD-DETR)输出候选片段后介入,提取每个候选片段对应的音视觉融合特征,计算这些特征与文本查询的对齐分数(基于余弦相似度),然后将该分数与VMR模型原始的前景/背景分类分数拼接,通过一个MLP进行最终的分数重校准。 与已有方法相比新在哪里:传统方法多采用“早期特征融合”(EFF),在模型输入阶段就拼接音视觉特征,这有助于改善片段定位,但无法解决DETR固有的分数校准问题。LARS则是一种“晚期特征融合”策略,在输出端对分数进行精炼,与EFF作用于模型的不同阶段,互为补充。 主要实验结果如何: 在QVHighlights、HiREST和Charades-Audiomatter三个基准上,单独使用LARS或单独使用EFF均能提升性能(如mAP avg.和R1@0.7)。 两者结合(EFF+LARS)能取得最佳性能,证实了互补性。例如在QVHighlights上,CLIP+Slowfast+PANNs特征下,仅EFF的mAP avg.为41.83,仅LARS为42.44,结合后为42.57。 消融实验显示,即使不使用音频特征,LARS也能提升性能,证明其对DETR分数的校准能力。 定性分析表明,EFF主要改进了定位精度(图2),而LARS主要提升了分数可靠性(图3)。 实际意义是什么:为VMR系统提供了一个即插即用的后处理模块,能有效利用音频信息来提升检索结果的排序质量,对于构建更精准的视频搜索、推荐和编辑工具有实用价值。 主要局限性是什么:创新相对有限,是一个针对性很强的工程化改进。实验中未与当前最前沿(如基于大型多模态语言模型)的VMR方法进行对比。LARS的计算开销和其带来的性能提升之间的权衡未被充分讨论。 🏗️ 模型架构 整体架构包含两个主要阶段:基线VMR模型和提出的LARS模块。基线模型通常采用带有早期特征融合(EFF)的QD-DETR。 ...

2026-04-29

AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design

📄 AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design #音频检索 #对比学习 #音频分类 #数据集 ✅ 7.5/10 | 前50% | #音频检索 | #对比学习 | #音频分类 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sripathi Sridhar(新泽西理工学院,Adobe Research) 通讯作者:未说明 作者列表:Sripathi Sridhar(新泽西理工学院,Adobe Research)、Prem Seetharaman(Adobe Research)、Oriol Nieto(Adobe Research)、Mark Cartwright(新泽西理工学院)、Justin Salamon(Adobe Research) 💡 毒舌点评 论文核心亮点是精准定位声音设计师的实际工作流,将通用大语言模型的知识“蒸馏”成针对性极强的结构化音频描述(AUDIOCARDS),而非追求通用的音频理解。短板在于其创新主要是任务适配与工程化整合,在模型架构和核心算法上缺乏根本性突破,且严重依赖一个未公开的、可能包含专有数据的大型内部数据集。 📌 核心摘要 解决的问题:专业音效库的元数据(如声音类别、声学属性、使用场景)通常缺失或不完整,而现有音频描述模型生成的单句描述无法满足声音设计师的精确检索需求。 方法核心:提出“音频卡”(AUDIOCARDS),一种结构化的多字段音频元数据。利用大语言模型(LLM)的世界知识,以音频的声学描述符(响度、音高等)和少量元数据为输入,通过少样本提示生成包含名词、动词、UCS分类、视觉上下文、描述性标题等字段的JSON格式输出。 与已有方法的新颖之处:不同于训练通用的单句音频描述模型,AUDIOCARDS首先设计了一种面向特定领域(声音设计)的、细粒度的结构化描述格式。随后,将音频描述和检索任务重新定义为基于这种结构化表示的生成和对比学习任务,使模型训练与下游应用更匹配。 主要实验结果:在自行构建的专业音效评估集(ASFx eval)和通用数据集(Clotho)上进行了实验。关键结果包括: 结构化元数据生成:在生成音频卡字段任务上,所训练的Whisper-Cards模型全面优于作为基线的Audio Flamingo 3(AF3)模型。 描述生成:在ASFx eval上,Whisper-Cards生成的描述在SPIDEr和FENSE指标上显著优于基线模型和AF3等大型音频语言模型(如SPIDEr为19.36 vs. 9.61)。 检索:Cards-CLAP模型在零样本检索任务上,在内部专业数据集(ID)和Clotho上的R@10均优于仅使用描述性标题训练的Captions-CLAP模型(如ID上为75.40 vs. 73.45)。 表 1. 音频描述生成评估结果 ...

2026-04-29

AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

📄 AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification #音频分类 #多模态模型 #混合架构 #医疗音频 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 #混合架构 | #多模态模型 #混合架构 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系) 通讯作者:未说明 作者列表:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系),Utsab Saha(BRAC大学计算机科学与工程系) 💡 毒舌点评 亮点:论文非常清晰地抓住了“心音分析中频谱与波形信息互补”这一核心矛盾,并设计了一个轻量级双分支架构来同时利用两者,实验也证实了该思路的有效性,尤其是在抵抗域偏移方面表现出色。 短板:所谓的“创新”更多是工程设计上的巧妙组合,后期融合策略(拼接)本身毫无新意,论文也未深入探讨更复杂融合机制(如跨注意力)在此场景下失效的原因,使其理论贡献稍显薄弱。 📌 核心摘要 问题:传统心音(PCG)分类方法要么使用2D频谱图(丢失相位和时间精度),要么使用1D波形(难以学习频率关系),二者各有局限。 方法:提出AudioFuse,一个轻量级双分支架构。一个分支是定制的“宽而浅”的Vision Transformer (ViT),用于从2D log-Mel频谱图中提取全局频谱特征;另一个分支是紧凑的1D CNN,用于从原始波形中提取精确的时序特征。两个分支提取的特征向量在最后通过拼接进行后期融合。 创新点:a) 针对PCG信号特性,设计了一个双分支、双模态的表示学习框架;b) 为平衡性能和过拟合风险,对ViT和CNN分支都进行了轻量化设计;c) 通过实验证明了简单拼接融合在该任务上优于更复杂的门控或交叉注意力融合。 实验结果:在PhysioNet 2016数据集上,AudioFuse(拼接融合)从头训练取得了0.8608的ROC-AUC,显著优于单模态基线(频谱图0.8066,波形0.8223)。在具有显著域偏移的PASCAL数据集上,AudioFuse(ROC-AUC 0.7181)的性能远优于频谱图基线(0.4873),展现了强大的泛化能力。具体结果见表1和表2。 ...

2026-04-29

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Le Wang(中国矿业大学,徐州) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Le Wang(中国矿业大学)、Jun Wang(快手科技,Kling AI)、Chunyu Qiang(快手科技,Kling AI)、Feng Deng(快手科技,Kling AI)、Chen Zhang(快手科技,Kling AI)、Kun Gai(快手科技,Kling AI) 💡 毒舌点评 亮点:这篇论文的野心很大,试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成,并且通过全面的实验确实做到了在多个任务上刷榜,证明了其架构设计的有效性。 短板:然而,论文对视频输入的强依赖像一根“拐杖”,限制了其在无视频场景下的应用,而号称的“统一”框架在代码和模型完全黑箱的情况下,其宣称的优越性和可复现性都要打上一个问号。 📌 核心摘要 解决的问题:现有视频到音频(包括音效、语音、音乐)的生成方法大多任务特定、模型碎片化,且跨模态(如唇音同步)对齐效果不佳,限制了通用性和生成质量。 方法核心:提出AudioGen-Omni,一个基于多模态扩散变换器(MM-DiT)的统一框架。其核心是引入了“歌词-转录编码器”,将音素/字素映射为帧级稠密表示;并设计了“相位对齐各向异性位置注入(PAAPI)”,在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码,以实现精细的跨模态同步。 创新点:a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架;b) 提出了无需音素时长监督的歌词转录编码模块;c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同,它解冻了所有模态并采用掩码输入策略,增强了灵活性。 主要实验结果:在VGGSound音频生成测试集上,其FD指标(PaSST 58.77, PANNs 6.29)优于MMAudio等基线(见表1)。在LRS3/LRS2语音生成测试中,其UTMOS(3.982/3.842)和DNSMOS(3.782/3.767)得分甚至超过真实语音,WER也大幅降低(17.56%/17.75%)(见表2)。在说话人相似度(SECS)评估中,其GE2E和VoxSim分数均高于其他方法(见表3)。模型能在1.91秒内生成8秒音频。 实际意义:为多媒体内容创作提供了一个高效、高质量的统一音频生成工具,有望简化视频后期制作流程,增强虚拟人物、游戏、社交媒体的音频沉浸感。 主要局限性:模型依赖视频输入,当无视觉信息时应用受限;论文未开源代码和模型,限制了社区复现和二次开发;虽能生成歌曲,但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器,旨在根据可选的视频和文本输入,生成同步的音频、语音或歌曲。 ...

2026-04-29