Precise and Simple Audio-to-Score Alignment

📄 Precise and Simple Audio-to-Score Alignment #音乐信息检索 #动态规划 #信号处理 #开源工具 ✅ 6.2/10 | 前50% | #音乐信息检索 | #动态规划 | #信号处理 #开源工具 | arxiv 学术质量 4.8/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度 中 👥 作者与机构 第一作者:Silvan Peter(Johannes Kepler University, Institute of Computational Perception; LIT AI Lab) 通讯作者:未说明 作者列表:Silvan Peter(Johannes Kepler University, Institute of Computational Perception; LIT AI Lab)、Patricia Hu(Johannes Kepler University, Institute of Computational Perception)、Gerhard Widmer(Johannes Kepler University, Institute of Computational Perception; LIT AI Lab) 💡 毒舌点评 该工作提出了一种将信号处理与符号对齐相结合的混合范式,用以直接进行音频到乐谱的对齐,思路清晰且实用。其优势在于避免了复杂的转录步骤,并在线性时间内实现了较高的对齐精度。然而,论文的“简单”声明可能掩盖了实际调参的复杂性,且实验评估存在明显短板,如完全缺乏消融实验,这使得其方法有效性的归因和泛化性评估大打折扣。仅在钢琴音乐上的验证也限制了其宣称的普适性。 ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 358 words

Sparse Fluid Antenna Arrays: Continuous Position Design Beyond Classical DOF Limits

📄 Sparse Fluid Antenna Arrays: Continuous Position Design Beyond Classical DOF Limits #声源定位 #信号处理 #麦克风阵列 #波束成形 #阵列信号处理 ✅ 7/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #波束成形 | arxiv 学术质量 6.3/8 | 影响力 0.5/1 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Tuo Wu(华南理工大学电子与信息学院) 通讯作者:Jie Tang(华南理工大学电子与信息学院) 作者列表:Tuo Wu(华南理工大学电子与信息学院)、Jie Tang(华南理工大学电子与信息学院)、Ye Tian(宁波大学电气工程与计算机科学学院)、Cheng Zeng(南京理工大学电子与光学工程学院)、Matthew C. Valenti(西弗吉尼亚大学Lane计算机科学与电气工程系)、Hing Cheung So(香港城市大学电气工程系) 💡 毒舌点评 亮点: 论文提出了一个极具洞察力的范式转变:将阵列信号处理的设计域从离散网格扩展到连续实数域,从根本上解耦了物理孔径与天线数量的刚性关系。理论框架构建严谨,从自由度双界、克拉美-罗界(CRB)的主导性到D-最优设计的全局最优性,形成了一个完整的理论闭环。所提出的两阶段FAS-MUSIC算法巧妙解决了大孔径带来的栅瓣模糊问题。短板: 整个方法高度依赖于“连续可移动天线”这一理想化硬件假设,论文虽然讨论了位置误差、互耦等鲁棒性,但所有结论均基于仿真,缺乏在任何真实物理原型上的实验验证,这使得从理论到工程实践的跨越显得苍白,是顶会论文的一个显著缺陷。 📌 核心摘要 解决的问题: 传统稀疏阵列(如嵌套、互质、MRA)受限于半波长网格,其自由度(DOF)和测角精度(CRB)的上界由天线数量 N 决定(O(N²) 和 O(1/(N²d₀)²ᴸ)),无法利用更大的部署区域 D 来提升性能。 方法核心: 提出基于流体天线系统(FAS)的稀疏阵列设计,允许天线在连续区间 [0, D] 内自由移动。核心是建立一套完整的理论框架,证明其相对于传统网格阵列在自由度和CRB上的渐近优势,并提出两阶段FAS-MUSIC算法以利用大孔径无模糊测角。 新在何处: 与经典网格阵列相比,FAS解耦了物理孔径与天线数量的关系。理论证明:a) DOF上界随 D/λ 线性增长;b) CRB随 1/D²ᴸ 衰减(L为源数);c) 位置优化从NP-hard离散问题变为可高效求解的连续优化问题。 主要实验结果: 仿真表明,在 N=6, D=40d₀ 场景下,FAS-MUSIC的RMSE比ULA MUSIC低17.5倍;仅用4个天线的FAS性能超越8个天线的MRA。关键数据见图5(RMSE vs SNR, SNR=25dB时FAS-MUSIC RMSE为0.0009°)和图7(RMSE vs 天线数, N=4的FAS-MUSIC优于N=8的MRA)。 实际意义: 为下一代智能反射表面(RIS)、可重构智能表面等需要动态调整天线位置的硬件提供了新的阵列信号处理范式,有望在感知与通信一体化(ISAC)中提升测角性能。 主要局限性: 方法高度依赖天线位置精确可控的硬件假设;信号模型假设窄带、远场、静态源,未考虑实际中的宽带、近场和动态场景;所有实验均为仿真,缺乏硬件验证;自适应算法的收敛性缺乏理论证明。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 图1 展示了传统网格阵列(ULA, 嵌套, 互质, MRA)的物理位置与差分共阵。该图直观对比了传统设计在固定孔径下的共阵结构(存在孔洞),为后文引出FAS突破网格限制的动机提供了视觉对比。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 460 words

Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs

📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs #社交智能体 #大语言模型 #多模态生成 #信任校准 #性别公平性 📝 5.9/10 | 前50% | #社交智能体 | #大语言模型 | #多模态生成 #信任校准 | arxiv 学术质量 4.8/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Lucie Galland(LIS Laboratory, Aix-Marseille University) 通讯作者:未在论文中明确标注。 作者列表:Lucie Galland(LIS Laboratory, Aix-Marseille University),Chloé Clavel(Inria Paris),Magalie Ochs(LIS Laboratory, Aix-Marseille University) 💡 毒舌点评 这篇论文触及了一个至关重要且亟待探索的交叉点:利用LLM生成多模态行为以校准用户信任。其价值在于将经典的心理学信任理论与前沿的LLM生成能力进行了系统性嫁接,并通过大规模数据分析,犀利地揭示了LLM内嵌的“默认自信”与“性别刻板印象”两大行为偏见。然而,其核心贡献更接近于一次深刻的“现象学诊断”与“概念验证”,而非一个鲁棒的方法论突破。最致命的弱点在于其生成管线完全依赖一个未公开细节的闭源商业模型(GPT-5.4),这使得整个工作的科学基础和可复现性大打折扣。用户研究设计过于理想化(单一任务、固定模型),生态效度有限,未能解决生成行为中信任维度相互干扰这一关键问题。论文诚实地暴露了问题,但解决方案的缺失使其更像一篇优秀的“问题报告”,而非一篇完整的“方法论文”。 📌 核心摘要 要解决的问题:随着社会交互代理(SIA)进入敏感领域,校准用户信任至代理的实际能力至关重要。论文探索利用大语言模型(LLM)生成能反映不同“能力”和“善意”水平(信任的关键维度)的多模态行为(语言、语调、手势、表情)的可能性。 方法核心:提出了一种基于LLM的“带标签转录”生成方法。通过精心设计的、包含理论定义、任务场景和行为标签库的系统提示词,引导LLM(GPT-5.4)生成嵌入了特定手势、面部表情和语调标签的对话脚本。这些脚本随后可被渲染为多模态代理行为。 与已有方法相比新在哪里:与以往依赖专家标注数据集或规则驱动的方法不同,本方法利用LLM的零样本生成能力,以理论驱动的提示词为中介,自动化地生成反映抽象心理特质的多模态行为序列。这是首次系统性地评估LLM生成信任校准行为的能力,并深入分析其生成行为中固有的偏见。 主要实验结果: ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 335 words

When Vision Speaks for Sound

📄 When Vision Speaks for Sound #音视频 #偏好优化 #多模态模型 #鲁棒性 #诊断框架 ✅ 7.7/10 | 前25% | #音视频 | #偏好优化 | #多模态模型 #鲁棒性 | arxiv 学术质量 6/8 | 影响力 0.9/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Xiaofei Wen(University of California, Davis) 通讯作者:论文未明确标注通讯作者。 作者列表:Xiaofei Wen(University of California, Davis)、Wenjie Jacky Mo(University of California, Davis)、Xingyu Fu(Princeton University)、Rui Cai(University of California, Davis)、Tinghui Zhu(University of California, Davis)、Wendi Li(University of Wisconsin–Madison)、Yanan Xie(Uniphore)、Muhao Chen(University of California, Davis)、Peng Qi(Uniphore)。注:Xiaofei Wen与Wenjie Jacky Mo标注为共同第一作者(d)。 💡 毒舌点评 这篇论文敏锐地抓住了当前视频多模态模型“重看轻听”的要害,用一个精巧的Thud诊断框架把“聪明汉斯效应”量化得明明白白。提出的两阶段对齐配方(SFT+DPO+混合数据)在解决特定问题上取得了显著的数值提升,尤其是时间同步任务。然而,论文的核心结论“28%平均提升”主要建立在自建的Thud诊断集上,其泛化性存疑。更关键的是,对Mute和Swap两种干预的对齐训练探索极为初步,远未达到时间同步任务的深度,这使得论文关于“干预训练可扩展”的论断显得根基不稳。实验主要基于单一基座模型(Qwen3-Omni-30B),在更广泛模型上的有效性未经验证,限制了工作的普适性。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 567 words

语音/音乐/音频论文速递 2026-05-20

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分 前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分 前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分 前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分 前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分 前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分 前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分 前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分 前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分 前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分 前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分 前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分 前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分 前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分 前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分 前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分 前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分 前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分 前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...

2026-05-20 · 更新于 2026-06-19 · 15 min · 2985 words

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #损失函数设计 #分布匹配 📝 5.5/10 | 前50% | #音乐转录 | #最优传输 | #损失函数设计 #分布匹配 | arxiv 学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Weixing Wei (未说明机构)、Raynaldi Lalang (未说明机构)、Dichucheng Li (未说明机构)、Kazuyoshi Yoshii (未说明机构) 💡 毒舌点评 论文的核心贡献是概念性的:将钢琴转录重新定义为最优传输问题,并设计了一个精巧的损失函数。这为解决时间刚性问题提供了新思路。然而,这一亮点被平庸的模型架构(SFT-CRNN是现有模块的组合)和单薄的实验验证所拖累。论文在关键指标上未能全面超越最强基线(Transkun),却声称获得了“state-of-the-art performance”,这种选择性声明有误导性。整体而言,这是一个有启发性的想法,但包装和验证远未达到顶会水准。 📌 核心摘要 本文提出了一种基于最优传输(OT)理论的自动钢琴转录(APT)新范式,以解决传统逐帧二值分类(BCE损失)对时间偏移过度敏感的核心问题。其核心思想是将音符事件视为时频平面上的点质量分布,将模型预测的质量分布通过OT损失对齐到真实分布,从而在优化过程中自然地容忍时间错位。为此,论文设计了一个包含时间代价封顶和频率禁运的定制化成本函数(公式1),并采用了非平衡OT(UOT)以适应音符密度变化。同时,论文提出了一个名为SFT-CRNN的端到端模型,其特色是包含谐波感知注意力机制的注意力块和频率分组LSTM(FG-LSTM)。在MAESTRO数据集上的实验表明,使用OT损失训练的SFT-CRNN在onset检测F1分数上达到了98.36%,优于所有对比基线。然而,在同时评估onset和offset的F1分数(90.78%)上,该方法略低于Transkun(93.48%)。消融实验证实OT损失在SFT-CRNN和HPPNet上有效,但在Onsets & Frames模型上无效。论文的主要局限在于未建模延音踏板,这限制了offset的预测精度,且仅在一个数据集上进行验证,代码未开源。 模型 参数量 Onset P (%) Onset R (%) Onset F1 (%) Onset & Offset P (%) Onset & Offset R (%) Onset & Offset F1 (%) Onsets & Frames [11] 26M 98.27 92.61 95.32 82.95 78.24 80.50 HPPNet-sp [24] 1.2M 98.45 95.95 97.18 84.88 82.76 83.80 hFT-Transformer [20] 5.5M 99.64 95.44 97.44 92.52 88.69 90.53 Transkun [29] 12.9M 99.53 97.16 98.32 94.61 92.39 93.48 SFT-CRNN (Proposed) 15M 99.16 97.46 98.36 91.56 90.02 90.78 表 1:与基线方法的比较。本方法在Onset F1上取得最佳,但Onset & Offset F1低于Transkun和hFT-Transformer。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 508 words

A Fast Robust Adaptive filter using Improved Data-Reuse Method

📄 A Fast Robust Adaptive filter using Improved Data-Reuse Method #声学回声消除 #自适应滤波 #信号处理 #鲁棒性 #EIV模型 ✅ 6.2/10 | 前50% | #声学回声消除 | #自适应滤波 | #信号处理 #鲁棒性 | arxiv 学术质量 5.3/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Yi Peng(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 通讯作者:Haiquan Zhao(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 作者列表:Yi Peng, Haiquan Zhao, Jinhui Hu(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 💡 毒舌点评 这篇论文的核心工作是将若干已知技术(TLS框架、灵活的成本函数、数据重用、在线 censoring)进行“搭积木”式的组合,以应对EIV模型下的复杂噪声环境。其宣称的“改进数据重用”(IDR)和“实值域在线 censoring”阈值是两个具体的工程改进点。然而,RTGA成本函数本身并非一个深刻的新理论,而是一个参数可调的“框架”,其灵活性带来的代价是超参数激增(a, b, c, L_reused, P_ce),且缺乏自动调参机制,这在实际应用中是致命伤。所谓的“快速收敛”也主要依赖于数据重用,而对比实验中并未充分剥离IDR本身的贡献,使得性能提升的归因不够清晰。整体工作显得扎实但创新深度有限。 📌 核心摘要 问题:现有自适应滤波算法在处理误差变量(EIV)模型(输入和输出均含噪声)时,往往只对特定类型噪声(如脉冲噪声)鲁棒,当噪声环境变为广义高斯噪声时性能下降;同时,为提升收敛速度而采用的传统数据重用方法会限制算法性能上限并增加计算复杂度。 方法核心:提出RTGA-IDROC算法。核心是构建一个灵活的“鲁棒总广义自适应”(RTGA)成本函数,通过参数a, b调节其形式,以统一多种现有鲁棒成本函数(如M-估计、log、MTGC)。为加速收敛,提出了“改进数据重用”(IDR)方法,通过从历史数据中均匀分段选择低相关数据点进行复用。为控制因数据重用增加的计算复杂度,引入了“在线 censoring”(OC)策略,并首次推导了适用于实值域算法的阈值公式。 创新:与之前方法相比,该工作的创新在于:1) 提出了一种基于低相关历史数据点选择的IDR策略,旨在突破传统数据重用的性能上限;2) 为实值域自适应滤波器提出了新的OC阈值计算公式;3) 通过参数化的RTGA函数统一了多种EIV模型下的鲁棒算法。 主要结果:在系统辨识和声学回声消除(AEC)场景下,通过多个仿真实验验证了算法的优越性。例如,在Case 1(高斯噪声)下,使用-25dB NMSD为基准,RTGA-IDROC (30%) 达到收敛仅需1310次迭代,而其他TLS基线算法需超过2000次迭代。在多种复杂噪声环境(脉冲、拉普拉斯、均匀、二值混合噪声)下,其NMSD性能均显著优于对比算法(如GDTLS, MTC, MTGC等)。 实际意义:该算法为实际应用(如AEC)中需要在复杂多变噪声环境下同时实现快速收敛、低计算复杂度和强鲁棒性的自适应滤波需求,提供了一种潜在的解决方案。 主要局限性:算法涉及a, b, c, L_reused等多个关键超参数,其最优选择高度依赖于具体的噪声环境和应用场景,调参难度大,论文未提供自适应调整机制。此外,IDR方法在系统突变时(如图5b)需限制历史数据长度,其有效性可能受限。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出RTGA-IDROC算法,是一个完整的自适应滤波框架,旨在同时解决EIV模型下的输入噪声偏差、多变输出噪声的鲁棒性以及收敛速度与计算复杂度的权衡问题。其整体流程为:在每个迭代步i,算法首先根据历史数据执行L_reused次IDR更新(利用多个低相关历史数据点),然后基于当前数据(d̃(i), ̃x(i))计算梯度,最后结合OC策略决定是否进行最终的权值更新。 ...

2026-05-19 · 更新于 2026-06-19 · 2 min · 401 words

A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models

📄 A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models #音频修复 #综述 #扩散模型 #流匹配 🔥 8.1/10 | 前25% | #音频修复 | #综述 | #扩散模型 #流匹配 | arxiv 学术质量 6.7/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Ningyuan Yang (Stony Brook University) 通讯作者:根据邮箱推断,可能为 Andrew C. Singer (Stony Brook University) 作者列表:Ningyuan Yang (Stony Brook University)、Yize Li (Northeastern University)、Diego A. Cuji (Stony Brook University)、Ryan M. Corey (University of Illinois Chicago & Discovery Partners Institute)、Pu Zhao (Northeastern University)、Xue Lin (Northeastern University)、Andrew C. Singer (Stony Brook University) (注:原文作者列表下所有脚注标记为“Equal contribution”,表示所有作者贡献均等,机构如上所列。) 💡 毒舌点评 这篇综述的核心价值在于,它构建了一个清晰、系统的框架,用以理解音频超分辨率(SR)与带宽扩展(BWE)领域从判别式模型到生成式模型的完整演进图谱。其贡献并非提出新算法,而是首次明确、统一地阐述了这一“范式转变”,并为不同的生成式方法(GAN、扩散、流、桥)在BWE/SR任务中的权衡提供了极具洞察力的分析。这为领域内研究者提供了宝贵的“路线图”。然而,作为一篇旨在指导未来方向的综述,其最大的遗憾在于完全依赖定性讨论和文献引用,缺乏对关键方法的统一基准或系统性定量指标汇总。因此,文中关于“何种范式在何种场景下更优”的结论,更多源于作者的学识与判断,而非可直接复现的、控制变量的实验证据,这在一定程度上削弱了其结论的普适性和说服力。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 431 words

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yanyun Wang 通讯作者:未在论文中明确指定 作者列表:Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu(所有作者所属机构信息未在论文正文中提供,仅在作者姓名下方列出,未明确给出具体机构名称) 💡 毒舌点评 本文的核心亮点是提出了一个范式级别的创新——“声学干扰”,巧妙地将攻击载荷从“恶意音频内容”解耦,利用生成模型先验中的良性声学特征作为通用触发器,这思路极具启发性且实验验证充分。然而,一个必须严肃质疑的根本问题是:整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么,AIA对目标LALM的“通用性”是否隐含了一个关键假设,即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性?如果目标LALM的音频处理架构与Bark差异巨大,这种“声学干扰”的迁移性还能成立吗?论文对此核心假设缺乏深入的理论或实验讨论,使得“通用性”的宣称打了折扣。此外,所有评估严重依赖GPT-4o作为裁判,尽管引入了外部模型验证,但“运动员兼裁判”的风险依然存在。 📌 核心摘要 问题:现有针对大音频语言模型(LALM)的越狱攻击范式(优化语义、控制声学参数、添加扰动)都将恶意音频内容作为攻击载荷,存在效率低、耦合性强等根本局限。本文挑战了这种必要性。 方法核心:提出“声学干扰”新范式和“声学干扰攻击”(AIA)。核心是利用特定的“声学潜在语义”(ALS)——从生成模型(Bark)先验中挖掘的、内容良性的内在副语言特征——作为通用触发器,干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现,无需实例特定优化。两阶段攻击流程:先尝试纯文本越狱,若失败则从ALS库中依次选取音频与文本组合查询。 创新点:首次发现并定义“声学干扰”现象;提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA;通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制;构建了可解释的12维ALS索引系统。 实验结果:在10个LALM(7开源,3闭源)和5个数据集上验证了AIA的有效性。以表2为例,在JBB数据集上,AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%,对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中(表3),AIA在多个模型上取得了SOTA或接近SOTA的攻击效果,且查询开销相对较低。 实际意义:揭示了当前LALM跨模态安全对齐的根本性脆弱性,即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。 局限性:攻击有效性高度依赖于作为代理模型的Bark;未探讨防御策略;部分基线对比数据来自不同评测标准(JALMBench的宽松评分)。 🔗 开源详情 代码:https://flaai.github.io/AIA_page 模型权重:论文中未提及 数据集: JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为:https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为:https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为:https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/HarmBench。 Demo:论文中未提及在线演示链接,但提供了项目主页 https://flaai.github.io/AIA_page。 复现材料:论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。 论文中引用的开源项目: Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名,链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型,无开源链接。 🏗️ 方法概述和架构 整体流程概述:本文提出的声学干扰攻击(AIA)是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示(text jailbreak)和目标LALM。第一阶段(文本测试),系统先用原始文本多次查询LALM;若文本本身未能成功越狱,则进入第二阶段(音频干扰),从预构建并排序的通用声学干扰音频库(ALS武器库)中依次选取音频,与文本组合成多模态查询,直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 615 words

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

📄 Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades 📝 5.6/10 | 前50% | #语音问答 | #错误传播分析 | arxiv 学术质量 4.6/8 | 影响力 0.4/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Donghyuk Jung(Korea Institute of Culture Technology, Republic of Korea) 通讯作者:Youngwon Choi(Maum AI Inc., Republic of Korea) 作者列表:Donghyuk Jung(Korea Institute of Culture Technology, Republic of Korea)、Youngwon Choi(Maum AI Inc., Republic of Korea) 💡 毒舌点评 这篇论文像一份严谨的“故障诊断报告”,清晰地量化了ASR-LLM级联系统中韩语错误传播的严重性,并创新性地识别了“单字符错误”这一独特的语义灾难点。其扎实的实验设计和对比分析是其亮点。然而,论文主要停留在问题发现和现象描述层面,对于“为何”会出现如此高的单字符语义失败率、以及如何从理论或模型设计上系统性解决等问题缺乏更深入的探讨和方法论创新,使其贡献略显有限。 📌 核心摘要 解决什么问题:研究在韩语语音问答(SQA)中,ASR-LLM级联系统的性能如何受ASR转录错误的影响,以及这种影响如何在不同LLM和提示策略下表现。 方法核心:构建了一个受控的实验流水线:从文本数据集合成语音,在不同信噪比(SNR)下添加噪声生成不同错误率的音频,用Whisper进行转录,再将转录结果输入多个指令微调的LLM进行问答评估。实验设计了Oracle(原始文本)、Normal(ASR转录)和Disclaimer(附加免责声明)三种条件进行对比。 新在哪里:a) 系统分析了韩语语音问答中ASR错误向下游传播的规律;b) 发现了下游性能的“相对下降”与LLM绝对能力无关,表明瓶颈在ASR阶段;c) 专门识别并量化了“单字符ASR错误”导致的完全语义失败这一韩语特有问题;d) 初步比较了直接音频输入模型(LALM)与级联管道在韩语SQA中的表现。 主要实验结果: 错误传播规律:在所有LLM上,随着CER增加(从clean到SNR=-10dB),F1分数从约0.85下降至约0.52,但各模型在相同SNR下的相对性能下降比例高度一致(例如在-10dB时,相对F1恢复率均在67%左右)。 单字符错误影响:在1,206个单字符错误案例中,151个(12.5%)导致语义完全失败(金答案未出现)。 LALM vs 级联:在匹配语言骨干(7B)下,LALM(Qwen2.5-Omni-7B)在所有SNR条件下F1均高于级联系统,平均差距+0.058,在-10dB时差距达+0.112。 免责声明提示:Table 4显示,添加免责声明提示对不同LLM效果不一,对SOLAR-10.7B有显著负面影响(F1 -0.037),总体未带来一致改善。 实际意义:揭示了构建鲁棒韩语语音助手的关键瓶颈在于ASR鲁棒性,而非单纯提升下游LLM能力;指出了单字符错误是韩语特有的高风险点;并提示直接处理音频可能是比依赖转录更优的路径。 主要局限性:研究局限于TTS合成的语音和特定的问答任务;ASR和LALM模型选择有限;未探讨如何从模型结构或训练方法上根本性地解决所发现的问题。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重的具体链接 数据集:论文中未提及获取链接 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目: KorQuAD v1 (论文中未提供具体链接) Google Cloud TTS (论文中未提供具体链接) MUSAN (论文中未提供具体链接) Whisper (论文中未提供具体链接) vLLM (论文中未提供具体链接) PyTorch (论文中未提供具体链接) 🏗️ 方法概述和架构 本文的研究方法是一个多阶段的评估与分析流水线,旨在系统性地量化ASR错误在韩语语音问答(SQA)级联系统中的传播效应。其核心并非提出一个新颖的端到端模型,而是设计了一套控制变量的实验方法来诊断问题。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 634 words