Posts

Attentive Masked Self-Distillation for Respiratory Sound Classification

📄 Attentive Masked Self-Distillation for Respiratory Sound Classification #音频分类 #知识蒸馏 #数据增强 #医学音频 ✅ 7.5/10 | 前25% | #音频分类 | #知识蒸馏 | #数据增强 #医学音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Nuo Chen（浙江大学集成电路学院）通讯作者：Mingsheng Xu（浙江大学集成电路学院）作者列表：Nuo Chen（浙江大学集成电路学院）、Mingsheng Xu（浙江大学集成电路学院） 💡 毒舌点评亮点：论文针对呼吸声分类中数据预处理（循环填充）引入的捷径学习问题，设计了一个巧妙的“注意力掩码”机制，能动态地屏蔽模型容易过度依赖的声谱图区域，这比随机掩码更具针对性，且可视化结果令人信服。短板：尽管在ICBHI上取得了SOTA级别的性能，但实验仅在一个中等规模的数据集上进行，且模型骨架（AST）的参数量巨大（~90M），对于实际的医疗边缘部署可能并不友好，论文对此的讨论不足。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/CcnNnn/AMS-D。模型权重：论文中未提及是否公开预训练或训练好的模型权重。数据集：使用公开的ICBHI 2017数据集，但未在论文中说明具体获取方式（通常需自行申请）。 Demo：论文中未提及在线演示。复现材料：论文给出了主要训练细节：优化器（Adam）、学习率（5e-5及衰减策略）、Batch size（24）、训练轮数（50）、损失函数权重（α=1.0, β=0.03, γ=0.3）、掩码比例（39%）。但未提供完整的配置文件、检查点或环境依赖说明。论文中引用的开源项目：核心骨干模型：Audio Spectrogram Transformer (AST) [3]。数据集：ICBHI 2017呼吸声数据库 [17]。对比方法：Patch-Mix [4], LungAdapter [18], MVST [20], Gap-Aug [6] 等。训练工具：Adam优化器 [19]。 📌 核心摘要这篇论文旨在解决基于Transformer的呼吸声分类模型因参数量大、训练数据少而导致的过拟合，以及因音频预处理（循环填充）引入的冗余信息导致的捷径学习问题。方法核心是提出一个名为“注意力掩码自蒸馏”的框架，它结合了渐进式自蒸馏（将前一epoch模型作为教师，用KL散度对齐logits）和一种创新的注意力掩码策略：利用教师模型的特征通过Token权重模块计算每个token的重要性，并在当前epoch的学生模型中掩蔽掉最显著（即最可能成为捷径特征）的token。此外，模型还引入了一个重建任务，以掩蔽的token为目标进行重建，作为正则化项增强表示的鲁棒性。与已有方法相比，其新意在于将知识蒸馏、针对捷径特征的主动掩蔽以及重建正则化三者有机结合。在ICBHI数据集上的实验表明，该方法取得了具有竞争力的结果，敏感性达到60.92%，ICBHI综合得分为67.54%，优于Gap-Aug等强基线。消融实验和可视化分析证实了各组件的有效性以及模型关注临床相关声学区域的能力。该工作的实际意义在于为医疗音频分析提供了一种更鲁棒、泛化能力更强的建模思路，但其局限性在于主要验证集中在一个公开数据集，且使用了参数量庞大的预训练模型，计算效率未做深入探讨。 ...

Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding

📄 Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding #语音编码器 #说话人识别 #副语言理解 #多任务学习 #语音大模型 ✅ 7.5/10 | 前25% | #语音编码器 | #多任务学习 | #说话人识别 #副语言理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingyue Huo（University of Illinois Urbana-Champaign）通讯作者：未说明（论文作者列表为三位，未明确标注通讯作者）作者列表：Mingyue Huo（University of Illinois Urbana-Champaign）、Wei-Cheng Tseng（University of Texas at Austin）、Yiwen Shao（Tencent AI Lab, USA）、Hao Zhang（Tencent AI Lab, USA）、Dong Yu（Tencent AI Lab, USA） 💡 毒舌点评这篇论文的亮点在于其系统性的消融研究，像做实验一样把ASR初始化、单任务监督、多任务学习、CLAP微调挨个试了一遍，用翔实的数据揭示了“多任务学习在平衡性上优于CLAP”这一实用结论，为后续设计指明了方向。但其短板也明显：多任务学习与CLAP的简单叠加（Enc 2.4）在多数任务上性能反而下降，说明二者存在冲突或优化目标不兼容，论文对此的分析和解决方案略显不足；此外，在LLM-QA上的验证较为初级，未能充分展现该编码器在驱动复杂推理方面的潜力。 ...

Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens

📄 Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens #跨模态 #扩散模型 #多模态模型 #音频生成 🔥 8.0/10 | 前50% | #音频生成 | #扩散模型 | #跨模态 #多模态模型学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huan-Yu Chen (台湾新竹清华大学电机系) 通讯作者：Chi-Chun Lee (台湾新竹清华大学电机系) 作者列表：Huan-Yu Chen (台湾新竹清华大学电机系), Woan-Shiuan Chien (台湾新竹交通大学电机与计算机工程研究所), Chi-Chun Lee (台湾新竹清华大学电机系) 💡 毒舌点评这篇论文的亮点在于其问题重构的视角——将公共演讲手势生成从“单向语音到手势”的映射，转变为包含观众预期的“互动式”生成，这为该领域注入了新的思考维度。然而，其短板也较为明显：一是性能提升主要体现在FGD和BC上，但牺牲了手势多样性（Diversity指标下降），且面部表情生成效果改善有限；二是作为一篇顶会论文，完全没有提供任何代码或模型资源，这在强调可复现性的今天，无疑削弱了其学术贡献的落地价值和社区影响力。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开权重。数据集：论文描述了如何从公开来源（TED Talks, The Daily Show）构建数据集，但未提及是否会发布处理后的、带有笑声锚点标注和特征提取的专用数据集。 Demo：未提供在线演示。复现材料：论文提供了较为详细的训练细节，包括：数据集规模、视频帧率（15fps）、片段长度（5秒：1秒前缀+4秒预测）、笑声检测阈值（0.5）、优化步数（400k）、batch size（64）、学习率（1e-4）、硬件（单卡A100 80GB，训练2天）。这些信息对复现有较大帮助。论文中引用的开源项目：主要依赖预训练模型WavLM（未指明具体版本或链接）、身体/面部姿态估计工具PyMAF-X和SmoothNet、以及笑声检测器（引用[9]但未具体说明）。开源计划：论文中未提及任何开源计划。 📌 核心摘要问题：现有的协同语音手势生成方法大多将公共演讲视为单说话人任务，忽略了观众的存在及其与演讲者之间的动态交互。这种简化视图无法捕捉公共演讲中演讲者主动预期并引发观众反应的关键特征。方法核心：提出一个观众感知的协同语音手势生成框架。核心是引入“观众响应预期令牌”，该令牌编码了即将发生的观众反应（如笑声）的符号化信息。该令牌与语音特征在预训练的语音编码器中进行早期融合，融合后的条件嵌入通过跨注意力机制指导一个基于扩散的生成器合成手势。新意：与已有方法相比，新在三个方面：(1) 理论上，将单说话人手势生成重新定义为演讲者与观众预期的联合建模问题；(2) 方法上，通过符号化的预期令牌和早期融合策略，显式地建模了演讲者的“预期”心理状态；(3) 实验上，构建了一个包含正负样本（反应前/非反应）的对比数据集用于训练预期令牌。实验结果：在TED Talks和The Daily Show两个数据集上的实验表明，该方法在手势真实度（FGD）和语音-手势同步性（BC）指标上优于多数基线方法。消融实验表明，将预期令牌在语音表征阶段进行早期融合或作为控制信号的中期融合，效果优于在扩散生成阶段进行后期融合。具体数值见下表：模型数据集 FGD ↓ BC ↑ Diversity ↑ MSE ↓ LVD ↓ DiP (最强基线) TED Talks 0.646 0.613 62.35 11.58 10.77 本文方法 TED Talks 0.633 0.617 61.29 11.85 10.55 DiffSHEG (最强基线) The Daily Show 0.726 0.633 60.24 10.25 9.256 本文方法 The Daily Show 0.721 0.662 60.12 10.56 9.741 实际意义：为公共演讲、在线教育、虚拟主播等场景下的手势生成提供了更符合社交互动本质的建模思路，有望提升虚拟人或机器人的表现力和自然度。主要局限：模型在提升真实度和同步性的同时，可能限制了生成手势的多样性；对更细微的面部表情生成效果提升有限；实验仅基于观众笑声这一种预期信号，且依赖预先检测，未在闭环或更动态的交互中验证。 🏗️ 模型架构模型整体架构（如图1所示）是一个基于扩散的、条件生成的框架，主要包含三个部分：语音与预期编码器、条件融合模块、扩散手势生成器。 ...

Audio Classification Models are Vulnerable to Filter Perturbations

📄 Audio Classification Models are Vulnerable to Filter Perturbations #音频分类 #对抗样本 #鲁棒性 #信号处理 ✅ 7.5/10 | 前25% | #音频分类 | #对抗样本 | #鲁棒性 #信号处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Justin Dettmer（RWTH Aachen University, Chair for Artificial Intelligence Methodology）通讯作者：未说明作者列表： Justin Dettmer（RWTH Aachen University, Chair for Artificial Intelligence Methodology） Annelot Bosman（Leiden University, Leiden Institute of Advanced Computer Science） Igor Vatolkin（RWTH Aachen University, Chair for Artificial Intelligence Methodology） Holger Hoos（RWTH Aachen University, Chair for Artificial Intelligence Methodology; Leiden University, Leiden Institute of Advanced Computer Science） 💡 毒舌点评本文最大的亮点在于将对抗扰动从“像素/采样点级噪声”升维到更具物理和语义意义的“频域滤波器”，使得攻击更贴近真实世界中录音设备差异造成的频谱失真，这种更现实的威胁建模思路值得肯定。然而，论文虽然证明了当前模型对此脆弱，但提出的对抗训练解决方案计算成本高达10倍，且缺乏与现有多样性音频增强（如FilterAugment）方法的直接鲁棒性对比，使得“防御有效性”的结论稍显单薄。 ...

Audio Deepfake Detection at the First Greeting: "Hi!"

📄 Audio Deepfake Detection at the First Greeting: “Hi!” #音频深度伪造检测 #时频分析 #端到端 #鲁棒性 #实时处理 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #时频分析 | #端到端 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haohan Shi（拉夫堡大学伦敦分校数字技术研究所）通讯作者：Yunxiao Zhang（埃克塞特大学计算机科学系）作者列表：Haohan Shi（拉夫堡大学伦敦分校数字技术研究所）、Xiyu Shi（拉夫堡大学伦敦分校数字技术研究所）、Safak Dogan（拉夫堡大学伦敦分校数字技术研究所）、Tianjin Huang（埃克塞特大学计算机科学系）、Yunxiao Zhang（埃克塞特大学计算机科学系） 💡 毒舌点评这篇论文精准地切入了音频伪造检测中一个极具现实意义的细分场景——“第一句话”检测，并为此设计了针对性的轻量化框架，实验对比充分且结果显著，工程化考量（效率、部署）也值得肯定。不过，其核心模块（PCEM， FCEM）的命名虽显“豪华”，但内部算子（如卷积、池化、GELU）的组合更像是一个精心调优的“乐高”拼装，原创的理论洞察稍显薄弱，更像是一个扎实的工程优化案例。 🔗 开源详情代码：论文在结论部分声明“Codes are available.”，表明代码已公开，但未在文中提供具体的仓库链接（如GitHub URL）。模型权重：未提及是否公开预训练模型权重。数据集：训练数据集Dcom由多个公开数据集构建，论文未提供独立的下载链接，但指明了来源语料库。评测数据集ADD-C也已公开使用。 Demo：未提供在线演示。复现材料：提供了较为详细的训练配置信息（损失函数、优化器、调度策略、Batch Size、早停设置等），以及模型架构的主要组件和关键超参数。未提及是否提供配置文件、环境依赖或更详细的附录。论文中引用的开源项目：提到了依赖的基线模型实现（LCNN， RawNet2， AASIST等）和数据集（Fake-or-Real， Wavefake， ASVspoof等）。论文中未提及开源计划：除了声明代码可用外，未提及是否在特定平台维护、是否持续更新或提供issue支持等详细开源计划。 📌 核心摘要本文旨在解决在真实世界通信降质（如编解码、丢包）条件下，对超短音频（0.5-2秒）进行深度伪造检测的挑战，典型场景是通话开头的“Hi”。作者提出了S-MGAA框架，这是对MGAA的轻量化扩展。其核心方法包括两个新模块：像素-通道增强模块（PCEM）和频率补偿增强模块（FCEM），前者从时频像素和通道维度增强伪造线索的显著性，后者通过多尺度频率分析来补偿时间信息的不足。与已有方法相比，本文首次联合关注了超短输入和通信降质鲁棒性两个方面，并设计了轻量高效的模型。主要实验结果表明：在ADD-C测试集上，S-MGAA-MFCC在0.5秒输入下的平均等错误率（EER）为3.44%，相比次优基线（RawGAT-ST）的4.52%降低了23.89%；在所有时长和降质条件下均取得最优或次优性能；同时，模型在实时因子（RTF）、浮点运算量（GFLOPs）和训练时间上展现出显著优势。该研究为实时部署在资源受限设备（如智能手机）上的早期语音欺骗检测提供了可行方案。主要局限性在于，实验评估均在合成降质数据集上进行，未在真实部署的实时通信系统中验证其端到端性能。 ...

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音频效果估计 #音乐信息检索 #深度神经网络 #优化算法 #音频效果移除 ✅ 7.0/10 | 前25% | #音频效果估计 | #深度神经网络 #优化算法 | #音乐信息检索 #深度神经网络学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Youichi Okita（关西学院大学理工学研究科）通讯作者：Haruhiro Katayose（关西学院大学工学部）作者列表：Youichi Okita（关西学院大学理工学研究科）、Haruhiro Katayose（关西学院大学工学部） 💡 毒舌点评这篇论文的亮点在于它优雅地模拟了人类音频工程师“先猜后调”的工作流程，将数据驱动的预测与基于信号相似度的搜索有机结合，实验证明这种“两阶段法”确实优于纯预测方法。短板在于其研究的问题场景（吉他效果链）相对垂直窄众，虽然方法论扎实，但能否推广到更复杂、更多样的现实音频处理场景（如流行音乐、混音工程）还有待验证，且未与该领域所有可能的最新方法进行对比。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：论文中提及使用了公开的吉他数据集（IDMT-SMT-Guitar， GuitarSet， EGDB， Guitar-TECHS），但用于生成湿信号的效果参数和生成脚本未提及是否公开。 Demo：提供了一个在线演示网站：https://okitayouichi.github.io/afx-pred-sch-demo/ 复现材料：论文提供了较为详细的训练超参数、网络架构描述和损失函数公式，但缺乏硬件配置、训练时长、以及完整的配置文件或检查点信息。论文中引用的开源项目：使用了pedalboard库（由Spotify开源）来生成数据，使用了Optuna框架来进行搜索算法实现。 📌 核心摘要解决的问题：解决“音频效果估计”任务，即从经过效果处理的湿信号中，推断出所应用的效果器类型、顺序及其参数设置。方法核心：提出一种两阶段方法。第一阶段，使用DNN预测干信号和/或效果配置的部分信息（如类型组合）；第二阶段，以预测的干信号为基础，通过优化算法（如CMA-ES）搜索最佳参数，使得应用预测效果链后重建的信号与原始湿信号的相似度最大化。与已有方法相比新在何处：突破了现有方法要么纯预测（依赖大量标注数据，可能不准）、要么纯搜索（需要已知干信号）的局限。通过先预测干信号，为搜索阶段提供了关键输入，从而能够利用重建相似度这一客观目标来优化预测结果，实现了两类方法的互补。主要实验结果：在吉他效果链数据集上，该两阶段方法在湿信号重建任务上显著优于纯预测基线（例如，SI-SDR从18.18提升至23.07）。同时，研究发现将“预测效果类型组合”与“搜索估计顺序和参数”结合的任务划分策略，在多项指标（类型分类F1、重建SI-SDR等）上表现最佳。关键结果表格如下：任务方法核心指标数值单效果类型分类 Bypass-Type-Iter Macro F1 0.919 Bypass-Config-Iter Macro F1 0.917 效果链类型分类 Dry-Type-Direct + Search Macro F1 0.958 Bypass-Type-Iter Macro F1 0.949 Bypass-Config-Iter Macro F1 0.942 单效果移除 Bypass-Type-Iter SI-SDR 26.32 效果链移除 Dry-Type-Direct SI-SDR 13.96 Bypass-Type-Iter SI-SDR 14.95 湿信号重建 Bypass-Config-Iter (基线) SI-SDR 18.18 Dry-Type-Direct + Search SI-SDR 23.07 Bypass-Type-Iter + Search SI-SDR 22.68 实际意义：为自动化音频效果复制与分析提供了新思路，有望帮助音乐初学者学习音色设计，或辅助音频工程师快速复现复杂效果。主要局限性：实验仅覆盖三种吉他效果（合唱、失真、混响）和较短的效果链，未涉及更多样化的效果类型和更长的链，其实用性和泛化能力有待进一步验证。 🏗️ 模型架构论文的核心模型架构（预测阶段）如图2所示，其整体是一个包含“效果移除器”和“效果配置估计器”的深度神经网络。 ...

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing #语音识别 #扩散模型 #语音大模型 #预训练 ✅ 7.0/10 | 前50% | #语音识别 | #扩散模型 | #语音大模型 #预训练学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Mengqi Wang (University of Illinois at Urbana-Champaign) 与 Zhan Liu (Tsinghua University) 共同贡献通讯作者：未说明作者列表：Mengqi Wang (University of Illinois at Urbana-Champaign), Zhan Liu (Tsinghua University), Zengrui Jin (Tsinghua University), Guangzhi Sun (University of Cambridge), Chao Zhang (Tsinghua University), Philip C. Woodland (University of Cambridge) 💡 毒舌点评亮点：论文系统性地将新兴的扩散LLM（LLaDA）引入语音识别的“审思”环节和直接解码，证明了在引入音频条件后，扩散模型的双向注意力能有效修正自回归模型的错误，且部分配置下推理速度更快。短板：所有实验仅在LibriSpeech上进行，与最强的Whisper-Large v3基线相比仍有明显性能差距，且关键复现细节（如训练GPU型号、总时长）和开源材料均未提供，限制了工作的说服力和可验证性。 ...

Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection

📄 Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection #说话人检测 #多模态模型 #对比学习 #预训练 ✅ 7.5/10 | 前25% | #说话人检测 | #多模态模型 | #对比学习 #预训练学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongkang Yin（北京大学深圳研究生院，广东省超高沉浸感媒体技术重点实验室；ADSPLAB，北京大学电子与计算机工程学院）通讯作者：Yuexian Zou（北京大学深圳研究生院，广东省超高沉浸感媒体技术重点实验室；ADSPLAB，北京大学电子与计算机工程学院）作者列表：Yongkang Yin（同上），Yukun Zhuang（同上），Zeyu Xie（同上；腾讯AI Lab），Chenxing Li（腾讯AI Lab），Le Xu（腾讯AI Lab），Yuexian Zou（同上） 💡 毒舌点评亮点在于巧妙地利用预训练的语音活动检测（VAD）和说话人编码器提供的外部监督信号，来构建更精细的边界标签并引导视觉特征对齐，这为解决ASD数据集标注粗糙问题提供了可行的思路。短板是创新点较为分散，边界建模网络（滑动窗口+差分）的设计略显拼凑，且整体框架的“音频引导”更多体现在引入预训练特征，而非在融合架构上有根本性革新。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文提及基于AVA数据集增强了语音活动标签，但未说明是否公开发布此增强数据集。 Demo：未提及。复现材料：提供了较为详细的训练细节（优化器、学习率、轮数、损失权重等），有助于复现。论文中引用的开源项目：引用了Silero VAD、ECAPA-TDNN（来自WeSpeaker）以及TalkNet的视觉编码器结构。论文中未提及开源计划。 📌 核心摘要本文针对主动说话人检测（ASD）任务中现有方法存在的音频-视觉语义对齐不精细、缺乏对语音和说话人转换边界显式建模的问题，提出了一种音频引导的多模态方法。该方法首先利用预训练的VAD和说话人模型为AVA数据集生成更精确的语音活动标签，解决了原有视觉标签不准确的问题；其次，通过监督对比学习策略，实现视觉特征与预训练语音活动特征之间的帧级语义对齐；最后，设计了一个边界建模网络，融合语音、说话人和视觉特征，并采用滑动窗口和帧差分策略捕捉语音起止和说话人转换的动态变化。在AVA-Active Speaker数据集上，该方法在单参与者建模方法中取得了最优的mAP（94.9%），显著提升了在语义边界处的预测准确率（边界帧准确率提升至80.6%），并在Columbia ASD数据集上展现了良好的泛化能力（平均F1-Score达82.0%）。该工作的实际意义在于提升了ASD系统在复杂多说话人场景下的准确性和鲁棒性。主要局限性在于模型创新点相对分散，且依赖多个外部预训练模型。 ...

Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness

📄 Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness #音频安全 #对抗样本 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #跨模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhong Li（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）通讯作者：Jianhua Wang（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院，邮箱：wangjianhua02@tyut.edu.cn）作者列表：Yuhong Li（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）、Jiabao Zhang（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）、Yan Chen（太原工业大学计算机科学与技术学院）、Zhihui Zhao（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）、Jianhua Wang（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院） 💡 毒舌点评亮点在于首次开辟了“音频+文本”联合优化的多模态越狱攻击赛道，并在实验上取得了90%以上的攻击成功率，有力证明了当前LALM在多模态融合下的脆弱性，为安全研究提供了新方向。短板是论文对“隐身性”的论证略显单薄，仅通过提升成功率来间接证明，并未深入评估攻击音频在人类听觉或音频检测系统中的隐蔽程度，削弱了“Stealthiness”这一主张的力度。 🔗 开源详情代码：是，论文提供了GitHub仓库链接：https://github.com/SKLIIS-AIS/AudioTextJailbreak。模型权重：未提及。论文未说明是否公开攻击者使用的模型或攻击目标模型的权重获取方式。数据集：是，但获取方式不明确。论文提到使用TTS技术创建了音频版AdvBench数据集，但未提供公开下载链接或详细生成脚本。 Demo：未提及。复现材料：论文中提及了代码，但未提供完整的训练配置、检查点或附录说明。对于攻击优化中的关键超参数细节未充分披露。论文中引用的开源项目：TTS工具 Coqui；目标模型 Qwen2-Audio-7B-Instruct, Qwen2.5-Omni-3B；文本攻击基线 GCG；数据集 AdvBench。 📌 核心摘要问题：现有的针对大型音频语言模型（LALM）的越狱攻击多局限于单模态（纯文本或纯音频），且通用性和隐蔽性不足。方法核心：提出“音频-文本越狱攻击”（Audio-Text Jailbreak），首次联合优化微小的对抗音频扰动和恶意的文本后缀，共同诱导模型生成有害回应。同时设计了环境噪声添加和语速调整等隐身策略。与已有方法相比新在哪里：a) 首次实现音频和文本模态的深度融合攻击；b) 设计的单个对抗音频/文本后缀可泛化应用于不同用户指令；c) 引入针对性的音频层隐身策略。主要实验结果：在Qwen2-Audio和Qwen2.5-Omni两个模型上，攻击成功率（ASR）分别达到91.00% 和 92.73%，显著优于GCG、VoiceJailbreak、SpeechGuard等基线方法。关键实验结果如下表所示：方法非法活动仇恨言论人身伤害欺诈色情隐私侵犯平均 Base (无攻击) 0 0 0 0 0 0 0 GCG (文本攻击) 0.67 0.72 0.73 0.79 0.80 0.75 0.74 VoiceJailbreak 0 0.40 0.20 0.20 0.30 0 0.21 SpeechGuard 0.20 0.40 0.40 0.20 0.30 0 0.25 Audio-Text JailBreak (本文) 0.95 0.90 0.90 0.88 0.90 0.90 0.91 模型 Noise Rate Rate + Noise Ours Qwen2-Audio 84.00 83.30 86.61 91.00 Qwen2.5-Omni 82.50 85.65 73.91 92.73 平均 83.25 84.48 80.26 91.86 实际意义：揭示了当前LALM在处理跨模态输入时存在的严重安全漏洞，为模型安全加固（如多模态对齐安全训练）提供了明确的攻击测试基准和方向。主要局限性：通用性验证实验仅在一个条件（K=10）下进行，泛化能力论证不够充分；隐身策略的实际效果（如是否易于被人耳察觉或被音频检测器识别）未通过直接的用户研究或客观度量进行评估。 🏗️ 模型架构本文并未提出一个新的端到端语音大模型架构，而是针对现有的LALM（如Qwen2-Audio, Qwen2.5-Omni）设计了一个攻击框架。其核心是音频-文本联合越狱攻击流程。 ...

Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver

📄 Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver #音乐信息检索 #爵士乐 #音频转录 #端到端 #节奏感知 ✅ 7.5/10 | 前25% | #音乐信息检索 | #端到端 | #爵士乐 #音频转录学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：未说明（论文标题页列出三位作者，但未明确标注第一作者）通讯作者：未说明作者列表：Ivan Shanin（Queen Mary University of London, Centre for Digital Music）， Xavier Riley（Sound Patrol Inc.）， Simon Dixon（Queen Mary University of London, Centre for Digital Music） 💡 毒舌点评论文巧妙地将爵士乐转录问题拆解为“节奏优先，音高后补”的二阶段任务，并用一个统一的Transformer架构优雅地实现，这确实是模仿人类专家工作流程的聪明做法，在特定数据集上也取得了显著进步。然而，这种高度垂直的“爵士萨克斯独奏”任务定位，加上对高质量标注数据（如Omnibook）的强依赖，使其通用性和影响力打了个折扣；论文里对模型为何能有效泛化到节奏风格更复杂的帕克作品解释得也不够深入。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：Filosax和Omnibook是公开数据集（论文引用了相关文献），WJD部分音轨似乎也被使用。但论文未提供处理后的数据或特定子集的直接下载链接。 Demo：未提供在线演示。复现材料：提供了详细的模型架构描述、数据集划分、部分训练超参数（嵌入维度、层数、学习率、dropout）和损失函数。未提供完整的训练脚本或配置文件。论文中引用的开源项目：引用了Ultimate Vocal Remover (UVR) [19]用于声源分离， Madmom [20]用于节拍跟踪， music21 [21]用于将预测序列转换为MusicXML格式。总结：论文中未提及开源计划。 📌 核心摘要这篇论文旨在解决即兴爵士独奏的音频到乐谱自动转录任务，特别是克服传统模块化流水线中错误累积的问题。其核心方法是提出一个名为“节奏感知器”（Rhythm Perceiver）的端到端神经网络模型。与先前方法不同，它逆向了处理逻辑：首先，模型预测每个小节中每个拍子的节奏结构（称为“节拍特征”），然后基于预测的节奏结构，在指定的起始点预测音高。模型采用了一种带有跨注意力机制的感知器（Perceiver）风格Transformer架构，将音频帧特征与节拍同步的节奏嵌入进行联合对齐。主要实验结果在极具挑战性的Charlie Parker“Omnibook”数据集上显示，该方法在多项指标上（如钢琴卷帘准确率、节奏准确率）显著优于现有的基线系统（CRNN+qparse），证明了显式建模节拍级节奏单元的有效性。其实际意义在于能为音乐分析和教育提供更准确的乐谱标注工具。主要局限性在于模型针对主流爵士乐节奏范式（如Bebop）进行训练，可能难以完美处理更复杂或前卫的节奏风格，且存在训练数据（Filosax）与测试数据（Omnibook）之间的领域差距。 ...