DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis

📄 DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis #音频安全 #对比学习 #多域学习 #优化方法 #鲁棒性 ✅ 7.4/10 | 前25% | #音频隐写分析 | #对比学习 | #音频安全 #多域学习 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:Pengcheng Zhou†, Pianran Guo†(共同贡献) 通讯作者:Zhongliang Yang, Linna Zhou 作者列表: Pengcheng Zhou(新加坡国立大学电气与计算机工程系) Pianran Guo(北京邮电大学网络空间安全学院) Shuhua Chen(北京邮电大学网络空间安全学院) Mengqin Zhao(吉林大学通信工程学院) Zhongliang Yang(北京邮电大学网络空间安全学院) Linna Zhou(北京邮电大学网络空间安全学院) 💡 毒舌点评 本文针对VoIP隐写分析这一垂直领域,提出了一个从诊断(Hessian分析)到治疗(DASM优化器)的完整方案,思路清晰,动机明确。其核心贡献在于为“微小且不均衡”的域差异问题,定制了包含域监督对比和自适应调制的锐度感知优化框架,实验效果显著。然而,这项工作的“可复现性”和“可比性”存在严重缺陷:自建数据集未公开且缺乏标准基准对比,关键网络架构细节缺失,代码链接失效。这使得其优异的实验结果更像是在一个封闭环境下的“特调”结果,严重削弱了其作为社区可验证基准的潜力,也引发了对方法泛化能力的合理质疑。 📌 核心摘要 本文针对多域语音流隐写分析(VoIP steganalysis)中,模型因非同源数据分布(不同隐写算法)导致泛化性能下降的问题,提出了一种新的优化器——域感知锐度最小化(DASM)。其核心是通过Hessian分析发现主流模型在损失景观中易陷入鞍点和尖锐最小值,因此设计DASM来寻找更平坦的最小值。DASM包含两个关键组件:1)域监督对比学习(DSCL),旨在显式扩大不同域(Cover与各种隐写算法Stego)的特征分离;2)自适应域间隙调制(ADGM),动态感知并加权优化不同域的损失,以平衡不均匀的检测难度。主要实验结果显示,在包含QIM、PMS、LSB、AHCM四种算法的数据集上,DASM在嵌入率0.5时的平均检测精度达到93.06%,比最强基线DAEF-VS高出7.52%,尤其在最具挑战性的PMS域上提升显著(9.07%)。该方法为VoIP流媒体安全检测提供了新的优化框架,但其性能高度依赖于对域标签的监督和特定构建的数据集。 🔗 开源详情 代码:论文中未提及具体代码链接。论文在摘要末尾声明“Our codes are available at”,但未提供完整URL。 模型权重:论文中未提及。 数据集:论文中未提及数据集下载链接或开源协议。文中描述了构建的数据集构成,但未给出获取方式。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验设置(如超参数、硬件环境),但未提供预训练模型检查点或具体复现材料包链接。 论文中引用的开源项目:论文引用了多种方法(如SAM、DISAM、DGSAM、FSAM、SAGM等)作为对比,但未提供其具体的开源代码或项目仓库链接。 🏗️ 方法概述和架构 DASM是一个端到端的优化框架,旨在替代标准的ERM或SAM优化器,以提升语音隐写分析模型在多域设置下的泛化能力。其核心流程如图2所示:输入音频片段(Cover或Stego)经过一个共享的特征提取器(实验中基于Transformer)生成特征表示。随后,该特征被用于计算包含三个部分的复合损失ℒ_total = ℒ_CE + ℒ_DSCL + ℒ_ADGM,并基于这个复合损失进行锐度感知的两步优化,最终更新模型参数。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 439 words

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分 前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分 前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分 前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分 前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分 前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分 前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分 前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分 前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分 前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分 前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分 前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分 前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分 前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分 前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分 前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分 前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分 前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分 前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分 前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分 前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分 前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分 前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分 前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分 前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分 前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分 前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分 前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分 前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分 前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分 前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分 前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分 前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分 前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分 前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分 前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分 后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分 后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分 前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分 后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

2026-05-21 · 更新于 2026-06-12 · 26 min · 5389 words