Codec-Robust Attacks on Audio LLMs

📄 Codec-Robust Attacks on Audio LLMs #音频安全 #对抗样本 #语音大模型 #音频编码 #模型评估 #神经音频编解码器 🔥 8.3/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #音频编码 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Jaechul Roh(University of Massachusetts Amherst) 通讯作者:Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research) 作者列表:Jaechul Roh(University of Massachusetts Amherst),Jean-Philippe Monteuuis(Qualcomm Research),Jonathan Petit(Qualcomm Research),Amir Houmansdar(University of Massachusetts Amherst) 💡 毒舌点评 本文洞察非常漂亮:与其在被编解码器抛弃的波形空间里做无用功,不如直接在编解码器自己的“心窝子”(潜在空间)里做手脚,让压缩过程反而成了攻击的帮凶。但“白盒访问编解码器和模型”的威胁模型假设很强,现实中大多数攻击者未必有这种权限,论文对此的辩护略显不足,其宣称的“实用威胁”可能被高估。 📌 核心摘要 解决问题:现有针对音频大语言模型的对抗攻击在经过现实中的有损编解码器(如Opus, MP3)压缩后会失效,而有损压缩曾被认为是有效的防御机制。本文旨在证明这种防御并不可靠,并提出一种能抵抗压缩的攻击方法。 方法核心:提出CodecAttack,核心在于将对抗扰动直接优化在神经音频编解码器(如EnCodec)的连续潜在空间中,而非波形空间。因为该空间正是编解码器设计上要保留的部分,所以扰动能自然地“穿过”压缩通道。同时,采用多比特率的Straight-through Expectation-over-Transformation(EoT)训练策略,使扰动能抵抗各种比特率的压缩。 与已有方法相比新在哪里:这是首个同时满足“外部攻击”(不修改受害者模型)和“编解码器鲁棒”这两个关键条件的攻击方法。已有波形攻击无法抵抗压缩,而内部表示攻击(如修改编码器状态)则要求修改模型本身。本文通过改变扰动空间,将“防御通道”转化为“攻击通道”。 主要实验结果:在三个部署场景(金融、面试筛选、音乐版权)和三个目标模型上,使用Opus在64-192kbps下评估,平均攻击成功率(ASR)达到85.5%。而使用相同EoT策略训练的波形基线攻击在任何比特率下ASR均不超过26%。攻击还能迁移到未见过的编解码器,在MP3上达到最高100% ASR,在AAC-LC上最高84% ASR。关键对比数据见下表(摘自论文表2,场景S1,模型Qwen2-Audio, SNR≈5.8dB): 比特率 潜在空间攻击 (ASR%) 波形基线攻击 (ASR%) Opus 64 kbps 80.0 24.0 Opus 128 kbps 88.0 26.0 MP3 128 kbps (held-out) 88.0 24.0 实际意义:揭示了被广泛视为安全防御的音频有损压缩,实际上可以被针对性的攻击利用。这直接威胁到所有通过编解码器管道传输音频的语音助手、内容审核系统等部署。 主要局限性:1)攻击需要针对特定目标模型优化,跨模型迁移性未展示;2)威胁模型假设攻击者拥有白盒访问权限;3)主要评估数字音频通道,未考虑物理声学(扬声器-麦克风)通道。 🔗 开源详情 代码:论文中未提及代码链接。论文在结论部分提到“代码和检查点将在未来发布”,但未提供具体URL。 模型权重:论文中未提及具体链接。论文攻击了三个开源模型:Qwen2-Audio-7B-Instruct, Audio Flamingo 3 (AF3), 和 Qwen2.5-Omni。这些模型通常可在Hugging Face等平台找到,但论文本身未提供直接获取链接。 数据集:论文中未提及数据集公开链接。论文构建了三个评估场景(金融语音代理、面试筛选、音乐行业检测)的自有评估数据集,但未说明其公开获取方式或开源协议。 Demo:论文中未提及。 复现材料:论文中未提及独立的复现材料(如训练配置、检查点下载)。论文正文和附录(如Algorithm 1, Appendix I)详细描述了实验设置和算法细节,构成了复现的理论依据。 论文中引用的开源项目: EnCodec: https://github.com/facebookresearch/encodec Mimi: https://github.com/kyutai-labs/mimi DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec PyTorch: https://github.com/pytorch/pytorch (论文中作为深度学习框架使用) Adam优化器: 是PyTorch等框架中的标准优化器,未单独列出链接。 🏗️ 方法概述和架构 本文提出的CodecAttack是一个在神经音频编解码器潜在空间中优化对抗扰动的攻击框架,旨在生成能抵抗有损压缩的对抗性音频。其核心流程如图1所示。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 429 words

DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis

📄 DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis #音频安全 #对比学习 #多域学习 #优化方法 #鲁棒性 ✅ 7.4/10 | 前25% | #音频隐写分析 | #对比学习 | #音频安全 #多域学习 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:Pengcheng Zhou†, Pianran Guo†(共同贡献) 通讯作者:Zhongliang Yang, Linna Zhou 作者列表: Pengcheng Zhou(新加坡国立大学电气与计算机工程系) Pianran Guo(北京邮电大学网络空间安全学院) Shuhua Chen(北京邮电大学网络空间安全学院) Mengqin Zhao(吉林大学通信工程学院) Zhongliang Yang(北京邮电大学网络空间安全学院) Linna Zhou(北京邮电大学网络空间安全学院) 💡 毒舌点评 本文针对VoIP隐写分析这一垂直领域,提出了一个从诊断(Hessian分析)到治疗(DASM优化器)的完整方案,思路清晰,动机明确。其核心贡献在于为“微小且不均衡”的域差异问题,定制了包含域监督对比和自适应调制的锐度感知优化框架,实验效果显著。然而,这项工作的“可复现性”和“可比性”存在严重缺陷:自建数据集未公开且缺乏标准基准对比,关键网络架构细节缺失,代码链接失效。这使得其优异的实验结果更像是在一个封闭环境下的“特调”结果,严重削弱了其作为社区可验证基准的潜力,也引发了对方法泛化能力的合理质疑。 📌 核心摘要 本文针对多域语音流隐写分析(VoIP steganalysis)中,模型因非同源数据分布(不同隐写算法)导致泛化性能下降的问题,提出了一种新的优化器——域感知锐度最小化(DASM)。其核心是通过Hessian分析发现主流模型在损失景观中易陷入鞍点和尖锐最小值,因此设计DASM来寻找更平坦的最小值。DASM包含两个关键组件:1)域监督对比学习(DSCL),旨在显式扩大不同域(Cover与各种隐写算法Stego)的特征分离;2)自适应域间隙调制(ADGM),动态感知并加权优化不同域的损失,以平衡不均匀的检测难度。主要实验结果显示,在包含QIM、PMS、LSB、AHCM四种算法的数据集上,DASM在嵌入率0.5时的平均检测精度达到93.06%,比最强基线DAEF-VS高出7.52%,尤其在最具挑战性的PMS域上提升显著(9.07%)。该方法为VoIP流媒体安全检测提供了新的优化框架,但其性能高度依赖于对域标签的监督和特定构建的数据集。 🔗 开源详情 代码:论文中未提及具体代码链接。论文在摘要末尾声明“Our codes are available at”,但未提供完整URL。 模型权重:论文中未提及。 数据集:论文中未提及数据集下载链接或开源协议。文中描述了构建的数据集构成,但未给出获取方式。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验设置(如超参数、硬件环境),但未提供预训练模型检查点或具体复现材料包链接。 论文中引用的开源项目:论文引用了多种方法(如SAM、DISAM、DGSAM、FSAM、SAGM等)作为对比,但未提供其具体的开源代码或项目仓库链接。 🏗️ 方法概述和架构 DASM是一个端到端的优化框架,旨在替代标准的ERM或SAM优化器,以提升语音隐写分析模型在多域设置下的泛化能力。其核心流程如图2所示:输入音频片段(Cover或Stego)经过一个共享的特征提取器(实验中基于Transformer)生成特征表示。随后,该特征被用于计算包含三个部分的复合损失ℒ_total = ℒ_CE + ℒ_DSCL + ℒ_ADGM,并基于这个复合损失进行锐度感知的两步优化,最终更新模型参数。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 439 words

DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis

📄 DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis #语音伪造检测 #音频隐写分析 #对比学习 #领域适应 #音频安全 ✅ 7/10 | 前25% | #语音伪造检测 | #对比学习 | #音频隐写分析 #领域适应 | arxiv 学术质量 5.8/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Pengcheng Zhou(新加坡国立大学电气与计算机工程系) 通讯作者:Zhongliang Yang(北京邮电大学网络空间安全学院),Linna Zhou(北京邮电大学网络空间安全学院) 作者列表: Pengcheng Zhou†(新加坡国立大学电气与计算机工程系) Pianran Guo†(北京邮电大学网络空间安全学院) Shuhua Chen(北京邮电大学网络空间安全学院) Mengqin Zhao(吉林大学通信工程学院) Zhongliang Yang(北京邮电大学网络空间安全学院) Linna Zhou(北京邮电大学网络空间安全学院) 💡 毒舌点评 这篇论文在解决“多域语音隐写分析”这个具体且小众的问题上做得扎实,提出的DASM优化器针对性地解决了域间特征差异微小且不平衡的核心痛点,实验效果提升显著且分析深入。然而,其核心是现有技术(锐度感知最小化、对比学习)的针对性组合,理论突破有限,且对所依赖的Transformer骨干网络和“特征提取器”本身的讨论缺失,使得贡献更偏向于一个“优化策略”而非端到端的系统性解决方案。 📌 核心摘要 要解决什么问题:现有的深度学习语音流隐写分析方法在面对来自不同隐写算法(QIM, PMS, LSB, AHCM)的非同构数据分布时,泛化能力显著下降。论文通过Hessian分析揭示,这是由于模型损失曲面被大量鞍点和尖锐极小值主导,导致模型对分布变化极为敏感。 方法核心是什么:提出了一个名为域感知锐度最小化(DASM)的优化框架。它在标准锐度感知最小化(SAM)的两步优化过程中,集成了两个核心组件:域监督对比学习(DSCL) 和自适应域间差距调制(ADGM)。DSCL旨在显式拉大不同域特征间的微小差异;ADGM则动态调整优化权重,使模型更关注那些特征差异最小、最难检测的域(如PMS)。 与已有方法相比新在哪里:与通用SAM方法(如SAM, DISAM, DGSAM)相比,DASM的创新在于其“域感知”特性:1)在扰动步骤中引入对比学习以增强域间可分性,而非仅优化分类损失;2)通过实时监测域间差距来动态分配优化资源,避免了对所有域一视同仁导致的“简单域主导”问题。这专门针对隐写分析中“微弱且不平衡”的域间差距特点。 主要实验结果如何:在包含四种隐写算法的数据集上,DASM在嵌入率0.5时平均检测准确率达到93.06%,显著超越了最佳基线方法DAEF-VS(85.54%)和SAM(87.96%)。在最具挑战性的PMS域和低嵌入率(0.1)场景下,优势尤为明显。详细的消融实验证明了DSCL和ADGM模块的各自贡献及协同效应。下表总结了ER=0.5时的主要对比结果: 方法 QIM PMS LSB AHCM 平均 Transformer (ERM) 88.18 70.14 92.49 93.72 86.13 + SAM 92.09 71.76 94.76 93.24 87.96 DAEF-VS (SOTA) 89.91 73.31 89.68 89.24 85.54 DASM (本文) 93.72 82.38 96.68 99.44 93.06 实际意义是什么:为应对VoIP等网络语音流中日益复杂和隐蔽的信息隐藏威胁,提供了一种更鲁棒、泛化能力更强的检测模型训练范式。它能有效提升对多种隐写算法,尤其是低嵌入率、高隐蔽性算法的检测能力。 主要局限性是什么:论文明确承认:1)两步优化过程增加了训练计算开销;2)当前方法需要域标签进行监督学习,限制了在无监督或开放集场景的应用。此外,论文未讨论其作为优化器对特征提取骨干网络架构的依赖性。 🔗 开源详情 代码:论文中提供了代码可用声明(“Our codes are available at”),但未给出具体仓库链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中描述了所构建的数据集(包含QIM, PMS, LSB, AHCM四种算法,五种嵌入率),但未提供具体下载链接或开源协议。 Demo:论文中未提及。 复现材料:论文提供了详细的实验设置(V-A节),包括训练配置(硬件、批量大小、学习率、优化器、扰动半径ρ、温度τ、EMA动量μ等)、评估指标、基线模型(多种VoIP隐写分析深度学习模型及多种锐度感知优化器)、算法伪代码(算法1)以及详细的消融实验和超参数敏感性分析(附录-F、-G),可用于复现。 论文中引用的开源项目:论文在引言、相关工作和实验部分引用了大量第三方方法作为基线或相关工作,但未在正文中提供其具体的开源项目链接。这些项目主要包括以下几类: VoIP隐写分析模型:CCN [18], SS-QCCN [17], SFFN [10], KFEF [25], FS-MDP [27], LStegT [35], DVSF [39], DAEF-VS [8]。 锐度感知优化器:SAM [9], ESAM [7], FSAM [38], SAGM [26], DISAM [37], DGSAM [23]。 其他:Proxy A-Distance [1], 中心特征学习相关工作 [28], 在线原型聚类相关工作 [3]。 (注:上述项目链接需通过其引用编号查阅对应论文获取,本论文本身未提供直接链接。) 🏗️ 方法概述和架构 DASM是一个针对多域隐写分析任务的优化器框架,其核心流程是:给定一个包含多个隐写域(QIM, PMS, LSB, AHCM)的语音数据集,DASM通过改造标准的Sharpness-Aware Minimization (SAM)优化过程,引导模型找到一个损失曲面平坦且不同域特征分离清晰、平衡的参数解。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 535 words

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yanyun Wang 通讯作者:未在论文中明确指定 作者列表:Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu(所有作者所属机构信息未在论文正文中提供,仅在作者姓名下方列出,未明确给出具体机构名称) 💡 毒舌点评 本文的核心亮点是提出了一个范式级别的创新——“声学干扰”,巧妙地将攻击载荷从“恶意音频内容”解耦,利用生成模型先验中的良性声学特征作为通用触发器,这思路极具启发性且实验验证充分。然而,一个必须严肃质疑的根本问题是:整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么,AIA对目标LALM的“通用性”是否隐含了一个关键假设,即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性?如果目标LALM的音频处理架构与Bark差异巨大,这种“声学干扰”的迁移性还能成立吗?论文对此核心假设缺乏深入的理论或实验讨论,使得“通用性”的宣称打了折扣。此外,所有评估严重依赖GPT-4o作为裁判,尽管引入了外部模型验证,但“运动员兼裁判”的风险依然存在。 📌 核心摘要 问题:现有针对大音频语言模型(LALM)的越狱攻击范式(优化语义、控制声学参数、添加扰动)都将恶意音频内容作为攻击载荷,存在效率低、耦合性强等根本局限。本文挑战了这种必要性。 方法核心:提出“声学干扰”新范式和“声学干扰攻击”(AIA)。核心是利用特定的“声学潜在语义”(ALS)——从生成模型(Bark)先验中挖掘的、内容良性的内在副语言特征——作为通用触发器,干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现,无需实例特定优化。两阶段攻击流程:先尝试纯文本越狱,若失败则从ALS库中依次选取音频与文本组合查询。 创新点:首次发现并定义“声学干扰”现象;提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA;通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制;构建了可解释的12维ALS索引系统。 实验结果:在10个LALM(7开源,3闭源)和5个数据集上验证了AIA的有效性。以表2为例,在JBB数据集上,AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%,对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中(表3),AIA在多个模型上取得了SOTA或接近SOTA的攻击效果,且查询开销相对较低。 实际意义:揭示了当前LALM跨模态安全对齐的根本性脆弱性,即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。 局限性:攻击有效性高度依赖于作为代理模型的Bark;未探讨防御策略;部分基线对比数据来自不同评测标准(JALMBench的宽松评分)。 🔗 开源详情 代码:https://flaai.github.io/AIA_page 模型权重:论文中未提及 数据集: JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为:https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为:https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为:https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为:https://github.com/centerforaisafety/HarmBench。 Demo:论文中未提及在线演示链接,但提供了项目主页 https://flaai.github.io/AIA_page。 复现材料:论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。 论文中引用的开源项目: Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名,链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型,无开源链接。 🏗️ 方法概述和架构 整体流程概述:本文提出的声学干扰攻击(AIA)是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示(text jailbreak)和目标LALM。第一阶段(文本测试),系统先用原始文本多次查询LALM;若文本本身未能成功越狱,则进入第二阶段(音频干扰),从预构建并排序的通用声学干扰音频库(ALS武器库)中依次选取音频,与文本组合成多模态查询,直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 615 words

Asymmetric Phase Coding Audio Watermarking

📄 Asymmetric Phase Coding Audio Watermarking #音频水印 #音频安全 #信号处理 #鲁棒性 ✅ 7.0/10 | #音频水印 #音频安全 | arxiv 👥 作者与机构 第一作者:Guang Yang (University of California, Los Angeles) 通讯作者:未说明 作者列表:Guang Yang (University of California, Los Angeles), Amir Ghasemian (University of California, Los Angeles), Ninareh Mehrabi (Meta), Homa Hosseinmardi (University of California, Los Angeles) 💡 毒舌点评 亮点:该工作成功地将公钥密码学(Ed25519签名)与信号处理(相位编码、QIM)结合,提出了一种无需训练、可解释且具有不可否认性的音频水印方案,填补了传统信号水印缺乏认证能力和神经网络水印需训练且易伪造的空白。短板:其核心方法“相位编码”并非全新,与已有相位编码水印(论文也承认了)的区分度主要体现在结合了公钥签名和更精细的鲁棒性设计上,且为获得鲁棒性牺牲了相当可观的主观音质(PESQ下降约0.5),在“不可感知”这一水印关键指标上存在明显妥协。 📌 核心摘要 问题:深度伪造音频威胁语音认证,被动检测器易受生成模型演化和信道失真影响。现有音频水印方案要么缺乏密码学不可否认性(如经典方法),要么需要大量数据训练且验证长度短(如神经网络方法)。 方法核心:提出非对称相位编码(APC)方案。它是一个免训练的密码学签名层,通过伪随机选择STFT相位频点(相位通道)和相邻对数幅度差量化(幅度-QIM通道)并行嵌入同一个经Ed25519签名、Reed-Solomon编码的1160比特负载(包含64字节签名)。提取时利用公钥重新生成频点并解码,任一通道验证通过即认证成功。 与已有方法区别:相较于经典信号处理水印,APC通过集成公钥签名实现了密码学级别的非否认性。相较于神经网络水印(AudioSeal, WavMark),APC免训练、无模型依赖、行为确定性,并支持完整的非对称签名(64字节 vs 16-32位),但牺牲了部分音质和绝对鲁棒性。 主要实验结果:在1000条LibriSpeech测试集上,经MP3/OGG 128kbps等8种攻击后,混合编码器的密码验证率保持在97.5%-98.3%(详见下表)。主观质量(PESQ)平均为3.02,低于神经网络基线约1.2-1.5点。白盒擦除攻击表明,验证率在相位随机化强度α≥0.5时才崩溃,此时PESQ已下降1.3点。 攻击类型 验证率 (%) PESQ 无处理 98.3 3.02 MP3 128kbps 97.5 3.02 OGG 128kbps 97.5 3.03 FLAC 98.0 3.02 重采样16kHz 97.7 3.02 8kHz低通 97.7 3.03 截断10% 98.3 2.28 截断20% 98.1 1.80 实际意义:为C2PA等媒体来源标准提供了信号层面的可审计实现,尤其适用于捕获时签名、后续可能经历有损压缩的场景。它可作为神经网络水印的补充层,为其添加密码学签名。 主要局限性:1) 为鲁棒性妥协了音质(PESQ 3.02)。2) 目前仅在单一数据集(LibriSpeech)上评估,且未考虑更复杂的攻击链(如模拟空洞、完整平台转码)。3) 未与所有最强神经网络水印在完全相同的测试条件下进行端到端的签名负载对比。 🔗 开源详情 代码:论文中明确表示将为用于论文的混合相位+幅度量化索引调制(QIM)编码器发布所有代码、密钥和元数据,但未提供具体的 GitHub 等代码仓库链接。 模型权重:论文中未提及。该方法为“无训练”方法,不涉及模型权重发布。 数据集:使用 LibriSpeech test-clean 数据集。论文未直接提供数据集链接,但该数据集为公开的常用语音数据集,常见获取地址为:https://huggingface.co/datasets/openslr/librispeech_asr 。 Demo:论文中未提及在线演示链接。 复现材料:论文中明确表示发布的归档文件包含两个编码器(相位编码器和混合编码器)、负载管理器、八攻击基准测试驱动器、白盒擦除攻击、绘图脚本、精确的测试集文件路径列表(seed=42)、负载哈希、公钥、所有 STFT/QIM 参数、FFmpeg 调用命令、库版本以及每个样本的失败阶段标签,并以三个 JSON 信封形式发布。但未提供该归档文件的具体下载链接。 论文中引用的开源项目: C2PA (Coalition for Content Provenance and Authenticity):论文引用了其实施指南[3],并将其作为 APC 方法的目标应用场景。C2PA 项目主页为:https://c2pa.org/,其 GitHub 仓库为:https://github.com/contentauth 。 论文还引用了 WavMark [5]、AudioSeal [22]、SilentCipher [24] 等作为神经网络水印基线方法,但论文中未提供这些项目或代码的具体链接。 🏗️ 方法概述和架构 该论文提出了一个名为非对称相位编码(Asymmetric Phase Coding, APC)的免训练音频水印框架。其核心是一个端到端的混合信号处理流水线,旨在将完整的公钥密码学签名不可感知地嵌入音频波形中,实现内容认证。 ...

2026-05-11 · 更新于 2026-06-12 · 3 min · 429 words

Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features

📄 Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features #音频深度伪造检测 #量子内核 #时频分析 #低资源 #音频安全 ✅ 6.5/10 | 前50% | #音频深度伪造检测 | #量子内核 | #时频分析 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Lisan Al Amin(论文原文上标“1”指示其所属机构) 通讯作者:未说明 作者列表:Lisan Al Amin^1, Rakib Hossain^1, Mahbubul Islam^2, Faisal Quader^3, Thanh Thi Nguyen^4^5 注意:原文中作者姓名后附有上标数字(如^1, ^2等),通常对应于文末或首页脚注的机构列表,表明每位作者的所属单位。但所提供的论文原文片段未包含具体的机构列表,因此无法明确各作者的具体机构信息。 💡 毒舌点评 本文提出了一种将量子内核与音频频谱图的局部时频补丁结构相结合的新颖框架,其设计动机清晰,且为在NISQ时代构建硬件高效的量子电路提供了务实的思路。然而,其核心论证建立在一个规模极小(仅100个样本)、伪造生成方式极为简单(高斯噪声与频谱失真)且完全基于理想模拟的受控实验之上。这使得其声称的性能提升和实用价值显得非常初步,更像一个在严格控制条件下的概念验证,距离解决真实世界音频伪造检测的复杂性和鲁棒性挑战还非常遥远。 📌 核心摘要 解决的问题:现有的音频深度伪造检测方法常将频谱图视为通用图像,忽略了其独特的时间-频率结构。此外,在数据有限、新攻击频发的低资源场景下,现有检测器的泛化能力面临挑战。 方法核心:提出了Q-Patch框架。该方法首先从音频生成对数梅尔频谱图,然后将其划分为4×4的非重叠“补丁”,每个补丁被压缩为一个四维声学描述向量(平均激活、频谱质心、带宽、帧间相干性)。基于能量(平均激活)选择最显著的两个补丁,其8维特征被直接用作量子电路的旋转角度,通过一个浅层(深度≤3)、具有邻域纠缠的量子电路编码为量子态。最终,通过计算量子态的保真度作为量子内核,输入到量子支持向量机(QSVM)中进行分类。 与已有方法相比新在哪里: 表示层面:首次为量子内核学习设计了明确针对音频频谱图时间-频率结构的“补丁”表示,而非将其视为通用图像。 量子电路层面:设计了轻量级、硬件高效的量子特征映射,限制了量子比特数(8个)和电路深度(≤3层),并引入了模拟空间邻接性的纠缠结构,更适合近期的NISQ设备。 框架层面:提出了一种在低资源音频安全任务中应用量子内核的端到端框架,并系统地与规模匹配的基线进行对比分析。 主要实验结果:在从LJ Speech数据集构建的100个样本的平衡子集(训练集80个样本,开发集20个样本)上,Q-Patch在开发集取得了0.87的AUROC和14.8%的EER,优于使用相同补丁特征的RBF-SVM(0.82 AUROC, 18.2% EER)和一个参数量≤100k(具体为98.4k)的微型CNN(0.85 AUROC, 16.3% EER)。内核分析显示,同类样本间相似度(约0.62-0.68)高于跨类相似度(约0.61-0.62),表明量子内核能捕捉与真实/伪造相关的结构。 方法 AUROC EER (%) 复杂度 RBF-SVM 0.82 18.2 支持向量机 Tiny CNN 0.85 16.3 98.4K参数 Q-Patch 0.87 14.8 8量子比特 图4展示了开发集上量子内核的相似度矩阵。图中样本按类别排序,可见同一类别内(对角线附近块)颜色更亮(相似度更高),不同类别间颜色较暗(相似度更低),直观证实了量子内核能诱导出与真实/伪造类别一致的相似性结构。 ...

2026-05-08 · 更新于 2026-06-12 · 2 min · 399 words

SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue

📄 SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue #信号处理 #自监督学习 #对比学习 #鲁棒性 #音频安全 ✅ 7.5/10 | 前25% | #信号处理 | #对比学习 | #自监督学习 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhang(东南大学仪器科学与工程学院) 通讯作者:Xuanpeng Li(东南大学仪器科学与工程学院) 作者列表:Ruixiang Zhang(东南大学仪器科学与工程学院),Zinan Zhou(东南大学仪器科学与工程学院),Yezhuo Zhang(东南大学仪器科学与工程学院),Guangyu Li(南京理工大学计算机科学与工程学院),Xuanpeng Li(东南大学仪器科学与工程学院) 💡 毒舌点评 这篇论文的亮点在于其“解耦”思想设计得很漂亮,用自监督学习为噪声检测建立了一个不受污染的“纯净”特征空间,逻辑链条完整且实验验证扎实。但短板也很明显:迭代救援机制在类别数少时效果不稳定(POWDER数据集上高噪声率反而变差),且训练开销显著增加(约10倍),虽然作者辩称训练可离线,但这仍是实际部署时需要权衡的成本。 📌 核心摘要 问题:深度学习在特定辐射源识别(SEI)中应用广泛,但实际非合作环境中存在的标签噪声(源于信道模糊、标注错误、恶意攻击)会严重破坏模型可靠性。现有方法依赖有噪声的监督信号进行样本选择,导致确认偏差和特征空间污染。 方法核心:提出SEI-SHIELD框架,其核心是“解耦”范式。首先使用带有射频定制化增强的Momentum Contrast(MoCo)进行自监督对比预训练,从原始I/Q信号中提取与标签无关的、鲁棒的射频指纹表征。随后,在学到的特征空间中,基于KNN的邻域标签一致性分析来识别噪声样本。最后,通过一个迭代救援机制,联合使用分类器预测置信度和特征空间原型相似度,逐步恢复在初步过滤中被错误丢弃的硬样本。 新意:与依赖有噪监督信号的现有范式不同,SEI-SHIELD首次将表征学习(通过自监督)与噪声检测严格解耦,从根本上避免了确认偏差。此外,其迭代救援机制是对一次性过滤方法的改进,能更好地利用训练数据。 实验结果:在POWDER和ORACLE两个真实射频数据集上进行了全面实验。结果显示,SEI-SHIELD在各种对称标签噪声率下均达到了最先进的识别准确率。例如,在POWDER数据集上,当噪声率(η)为60%时,SEI-SHIELD的准确率为78.62%,显著高于最强基线SSR的57.37%;在ORACLE数据集上,η=60%时,SEI-SHIELD(55.44%)优于GCE(51.02%)。消融实验证明迭代救援模块至关重要,特别是在类别数多的情况下。 实际意义:为物联网和无线通信中的物理层安全提供了一种更鲁棒的设备认证方案,能够有效抵御标签污染攻击和真实世界中的标注错误。 主要局限性:迭代救援机制在类别数较少的POWDER数据集高噪声场景下效果不稳定(可能错误救援噪声样本);训练时间显著高于基线;KNN模块的阈值等超参数对性能有一定影响。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集,具体信息如下: ORACLE Dataset: 由16个USRP X310 SDR采集的WiFi帧原始I/Q信号。具体获取方式需参考其原始出处:Sankhe et al., “ORACLE: Optimized Radio clAssification for Low-cost Empirical devices”,在论文中通过引用 [25] 标识。 POWDER Dataset: 由4个USRP X310 SDR采集的WiFi、4G和5G帧原始I/Q信号。具体获取方式需参考其原始出处,在论文中通过引用 [24] 标识。 Demo:论文中未提及。 复现材料:论文提供了详细的训练配置,包括: 实施细节:使用 PyTorch 1.8.1,在 Ubuntu 20.04.3 LTS 系统,配备 Intel Xeon Gold 6330 CPU 和一块 NVIDIA GeForce RTX 3080 GPU 上实现。 超参数设置:论文在 Table I 中详细列出了所有阶段的超参数。 算法伪代码:论文在 Algorithm 1 中提供了完整的SEI-SHIELD训练流程。 论文中引用的开源项目: Momentum Contrast (MoCo):论文中采用的对比学习框架。未提供具体项目链接。 Complex-Valued Neural Networks (CVNN):论文中使用的骨干网络架构。未提供具体项目链接。 K-Nearest Neighbors (KNN):论文中使用的噪声识别算法。未提供具体项目链接。 论文未提供这些引用项目的具体GitHub等代码仓库链接。 🏗️ 模型架构 SEI-SHIELD是一个分阶段的框架,其整体流程如图2所示。主要包含四个模块: ...

2026-05-07 · 更新于 2026-06-12 · 3 min · 492 words

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确区分第一作者) 通讯作者:未说明(论文未明确标注) 作者列表:Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge(论文中未提供任何作者的所属机构信息) 💡 毒舌点评 这篇论文的亮点在于通过一个巧妙的观察(梯度能量高度集中于少数token),将看似复杂的音频波形优化问题简化成了“抓关键”,提出了高效的稀疏攻击方法TAGO。但其短板也很明显:研究聚焦于“如何更高效地破坏安全”,视角相对负面;且方法的成功严重依赖于特定的超参数(如token保留率ζ)和早停策略,在真实场景的泛化能力上论证稍显不足。 📌 核心摘要 解决的问题:针对音频语言模型(ALM)的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法,这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。 方法核心:提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中,梯度能量在音频token层面上的分布,发现其高度非均匀,仅一小部分token贡献了大部分梯度能量。因此,在每次迭代中,TAGO只对梯度能量最高的前ζ比例token所对应的音频区域(receptive field)进行梯度更新,而将其他区域的梯度置零,实现稀疏优化。 创新之处:与已有方法(如SpeechGuard、AdvWave)的密集更新不同,TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别,并利用梯度的稀疏性进行自适应、token选择性的更新。此外,TAGO还设计了模型兼容的前缀模板和EOS抑制策略。 实验结果:在Qwen3-Omni, Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明,TAGO在攻击成功率上优于基线。即使将token保留率降至0.25(仅更新25%的token对应区域),在Qwen3-Omni上仍能保持86%的ASR_l(LLM判别成功率),仅比全量更新的87%下降1个百分点。同时,实验否定了“先密集优化再稀疏化”的后处理方法。 实际意义:证明了针对ALM的越狱攻击存在大量冗余更新,揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点(梯度信号分布不均)。这为攻击者提供了更高效的攻击思路,也为防御者指出了需要关注的脆弱区域(关键音频token),推动了对音频模型安全机制的深入理解。 主要局限性:攻击效果对超参数(如token保留率ζ和早停置信度ρ)较为敏感;虽然构造了模型兼容前缀,但仍属于基于特定文本前缀的约束优化,可能无法覆盖所有拒绝场景;主要评估了白盒攻击,对黑盒场景的迁移性未做探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中评估的三个模型均提供了HuggingFace链接: Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集:论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50(基于 Chao et al. (2025) 的有害指令集)和 HarmBench(Mazeika et al. (2024))。需参考相应原始论文获取。 Demo:论文中未提及。 复现材料:论文提供了详细的复现信息,包括: 对话模板(见论文附录A表5)。 拒绝词列表(见论文附录A表6)。 模型兼容的目标前缀(见论文附录A表7)。 优化超参数(如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1)。 评判模型及提示(见论文附录A中“Judge models and judge prompts”部分,包含SorryBench评判器及Gemini提示)。 论文中引用的开源项目: Whisper (语音编码器):https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频):https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406):https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型):未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型,而是一种针对已有ALM的优化攻击算法。其整体架构(流程)如图1所示: ...

2026-05-07 · 更新于 2026-06-12 · 2 min · 417 words

DECKER: Domain-invariant Embedding for Cross-Keyboard Extraction and Recognition

📄 DECKER: Domain-invariant Embedding for Cross-Keyboard Extraction and Recognition #音频安全 #领域适应 #对比学习 #数据集 #大语言模型 ✅ 7.5/10 | 前25% | #音频安全 | #领域适应 | #对比学习 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Bikrant Bikram Pratap Maurya (IIIT-Delhi, India) 通讯作者:论文中未明确标注通讯作者,根据署名位置和邮箱,Arun Balaji Buduru (IIIT-Delhi) 可能为导师。 作者列表:Bikrant Bikram Pratap Maurya (IIIT-Delhi, India)、Nitin Choudhury (IIIT-Delhi, India)、Daksh Agarwal (Guru Gobind Singh Indraprastha University, Delhi, India)、Arun Balaji Buduru (IIIT-Delhi, India) 💡 毒舌点评 本文提出的DECKER框架在构建“领域不变”键盘声学表示上做到了教科书级别的全面——KSN、对抗、对比、随机化四件套一个不少,并配套了一个前所未有的大规模真实场景数据集HEAR,实验设计严谨。但论文的立足点——“键盘声学侧信道攻击是重大现实威胁”本身在安全社区就存在争议,且其最犀利的武器“LLM辅助解码”在对抗高熵随机密码时几乎失效,这使其对“增强型攻击”的宣称打了折扣。 ...

2026-05-06 · 更新于 2026-06-12 · 3 min · 485 words

Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework

📄 Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework #说话头伪造检测 #音频安全 #自监督学习 #多模态模型 #免训练推理 ✅ 7.5/10 | 前25% | #说话头伪造检测 | #自监督学习 | #音频安全 #多模态模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Ke Liu(电子科技大学) 通讯作者:未说明 作者列表:Ke Liu(电子科技大学),Jiwei Wei(电子科技大学),Shuchang Zhou(电子科技大学),Yutong Xiao(电子科技大学),Ruikun Chai(电子科技大学),Yitong Qin(电子科技大学),Yuyang Zhou(海南大学),Yang Yang(电子科技大学) 💡 毒舌点评 论文最大的亮点在于其巧妙的系统设计:将“不确定样本路由”与“大型多模态模型的免训练精细推理”解耦,既保留了原检测器的泛化性,又利用了基础模型的强理解能力来攻坚克难,思路清晰且具启发性。然而,短板也很明显:推理阶段依赖Qwen-7B这样的大型模型,计算开销和部署成本极高,这使得其宣称的“训练免费”优势在实际应用中可能大打折扣;此外,整个系统的复杂度(文本原型生成、帧/patch选择策略、提示工程)也带来了新的调优负担。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的特定存储库链接(如Hugging Face或ModelScope)。论文中使用了预训练的第三方模型,但未提供其具体权重文件链接。 数据集: AVLips:论文中称其为“publicly available”(公开可用),但未提供具体URL。请通过检索论文引用(Liu et al., 2024)获取。 FakeAVCeleb (FKAV):论文中提及(Khalid et al., 2021),但未提供具体URL。请通过检索论文引用获取。 TalkingHeadBench (THB):论文中提及(Xiong et al., 2026),但未提供具体URL。请通过检索论文引用获取。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及包含训练配置、检查点、附录等在内的具体复现材料链接。 论文中引用的开源项目: CLIP:论文中使用了“frozen CLIP (Radford et al., 2021)”作为证据挖掘工具。项目主页通常为:https://github.com/openai/CLIP。 Qwen:论文中使用了“Qwen (Wang et al., 2024a)”进行视觉语言推理。项目主页通常为:https://github.com/QwenLM/Qwen2-VL。 BGE-Reranker-Large:论文中使用了“a text reranker (Rachidy et al., 2025)”进行排名分数估计。项目主页通常为:https://github.com/FlagOpen/FlagEmbedding。 AVH-Align:论文中的基础检测器,但未提供其官方代码仓库链接。请通过检索论文引用(Smeu et al., 2025)获取。 (注:以上链接为通用开源项目主页,论文本身未提供具体链接。) 补充信息 [作者与机构] 补充:论文作者列表中,Yang Yang 同样来自电子科技大学,根据学术惯例,其作为最后一位作者可能承担通讯或资深作者的角色,尽管原文未明确标注。 [模型架构] 补充:论文在介绍系统-2时明确指出,引入它的目的不是重复基检测器已建模的音视频对齐,而是为重新审视不确定样本提供一个互补的视觉-语言视角。这一动机更清晰地解释了系统-2与系统-1(音视频检测器)在分析维度上的区别。 [核心摘要/创新点] 补充:在“与已有方法相比新在哪里”部分,论文强调了一种范式转变:即不再仅仅致力于设计更强的检测器(“模型竞赛”),而是转向挖掘和释放现有检测器在困难样本上剩余的判别潜力。这一视角的提出是其核心贡献之一。 [实验结果] 补充: 在表1中,AVH-Align*+TFDS 在AVLips数据集上的AP提升幅度为+13.2个百分点(从74.3%到87.5%),这是一个非常显著的性能增益,分析中提到了AP提升13.2%但未明确列出基线数值。 在表2关于不确定子集的分析中,AVLips数据集上不确定子集的AUC从基线的31.6% 提升至67.1%,绝对提升达35.5个百分点,该数据直接量化了TFDS在困难样本上的强大修正能力。 [消融实验] 补充:表4的消融实验结果中,“w/o CLIP”(移除CLIP证据挖掘)和“w/o Qwen”(移除Qwen推理)两项消融在THB和AVLips上均导致了显著的性能下降(如AVLips上AP分别从87.5降至81.3和75.7),这定量证实了视觉证据挖掘模块和语义推理阶段均为系统不可或缺的关键组件。 [评分理由/毒舌点评] 补充:论文在其结论中再次总结,TFDS的核心价值在于通过显式精炼(refine)其不确定预测,从一个固定的(fixed) 自监督检测器中获得了显著增益,而无需重新训练新检测器。这一陈述强化了其“免训练增强”的定位和实践意义。 [细节详述] 补充:论文在4.1.1节说明,用于估计系统-1路由阈值τ的验证集数据,与用于重训练基检测器AVH-Align*的验证集数据是同一份(来自AVLips的6:1:3划分中的“1”部分)。 📌 核心摘要 要解决的问题:现有的自监督说话头伪造检测器虽然泛化性较好,但在面对生成器不断进化、伪造痕迹越来越微弱时,对“困难样本”(不确定子集)的判别能力不足,导致整体性能瓶颈。 方法核心:提出免训练双系统框架(TFDS)。系统-1:基于现有自监督检测器(如AVH-Align)的原始分数,通过验证集学习一个阈值,将测试样本快速路由为“置信子集”和“不确定子集”。系统-2:仅对不确定子集激活,利用冻结的CLIP模型挖掘可疑的视觉证据(帧和局部patch),将证据输入Qwen生成精细文本描述,再通过文本重排器转化为排名分数,最终通过“槽位保持重排”仅修正不确定子集内的样本相对排序。 与已有方法相比新在哪里:不同于以往“设计更强检测器”的思路,本文转向“挖掘现有检测器的剩余潜力”。新在:1) 双系统分工:模仿人类认知,让快速直觉判断(系统-1)和精细分析(系统-2)各司其职。2) 免训练集成:将大型多模态模型作为即插即用的推理模块,而非训练目标的一部分。3) 槽位保持精修:严格限制系统-2的输出仅用于局部重排,保护原检测器的全局决策结构。 主要实验结果:在AVLips、FKAV、THB三个数据集上,TFDS能稳定提升基检测器(AVH-Align*)的性能。例如,在AVLips上AP提升13.2%,在THB上AP提升12.2%。提升主要集中在不确定子集(AVLips不确定子集AP提升17.1%,AUC提升35.5%)。在噪声、模糊、压缩等扰动下,性能提升依然显著(如反转扰动下AP提升25.6%)。消融实验表明,系统-1路由、CLIP证据挖掘、Qwen推理和槽位保持重排均为关键组件。 实际意义:提供了一种“模型插件”式的新范式,无需重新训练检测器即可提升其性能上限,对快速响应新型生成器有一定实用价值。它强调了在模型性能已较高的情况下,精细化处理“难例”可能是更具性价比的优化方向。 主要局限性:1) 推理开销大:系统-2依赖大型视觉语言模型(Qwen-7B),导致推理速度慢、资源消耗高,难以满足实时或大规模检测需求。2) 模块复杂度高:涉及多个子模块(帧选择、patch选择、文本原型、重排器),整体流程复杂,每个环节的超参数都可能影响最终效果。3) 对基检测器的依赖:性能提升依赖于基检测器(AVH-Align)提供有效的粗排,若基检测器本身很差,路由和精修的基础可能不牢固。 🏗️ 模型架构 整体架构是一个串行的两阶段流程,核心设计思想是“先粗筛,后精修”。 ...

2026-05-06 · 更新于 2026-06-12 · 3 min · 428 words