优化方法 | 语音/音乐/音频论文速递

📄 DASM: Domain-Aware Sharpness Minimization for Multi-Domain Voice Stream Steganalysis #音频安全 #对比学习 #多域学习 #优化方法 #鲁棒性 ✅ 7.4/10 | 前25% | #音频隐写分析 | #对比学习 | #音频安全 #多域学习 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：Pengcheng Zhou†， Pianran Guo†（共同贡献）通讯作者：Zhongliang Yang， Linna Zhou 作者列表： Pengcheng Zhou（新加坡国立大学电气与计算机工程系） Pianran Guo（北京邮电大学网络空间安全学院） Shuhua Chen（北京邮电大学网络空间安全学院） Mengqin Zhao（吉林大学通信工程学院） Zhongliang Yang（北京邮电大学网络空间安全学院） Linna Zhou（北京邮电大学网络空间安全学院） 💡 毒舌点评本文针对VoIP隐写分析这一垂直领域，提出了一个从诊断（Hessian分析）到治疗（DASM优化器）的完整方案，思路清晰，动机明确。其核心贡献在于为“微小且不均衡”的域差异问题，定制了包含域监督对比和自适应调制的锐度感知优化框架，实验效果显著。然而，这项工作的“可复现性”和“可比性”存在严重缺陷：自建数据集未公开且缺乏标准基准对比，关键网络架构细节缺失，代码链接失效。这使得其优异的实验结果更像是在一个封闭环境下的“特调”结果，严重削弱了其作为社区可验证基准的潜力，也引发了对方法泛化能力的合理质疑。 📌 核心摘要本文针对多域语音流隐写分析（VoIP steganalysis）中，模型因非同源数据分布（不同隐写算法）导致泛化性能下降的问题，提出了一种新的优化器——域感知锐度最小化（DASM）。其核心是通过Hessian分析发现主流模型在损失景观中易陷入鞍点和尖锐最小值，因此设计DASM来寻找更平坦的最小值。DASM包含两个关键组件：1）域监督对比学习（DSCL），旨在显式扩大不同域（Cover与各种隐写算法Stego）的特征分离；2）自适应域间隙调制（ADGM），动态感知并加权优化不同域的损失，以平衡不均匀的检测难度。主要实验结果显示，在包含QIM、PMS、LSB、AHCM四种算法的数据集上，DASM在嵌入率0.5时的平均检测精度达到93.06%，比最强基线DAEF-VS高出7.52%，尤其在最具挑战性的PMS域上提升显著（9.07%）。该方法为VoIP流媒体安全检测提供了新的优化框架，但其性能高度依赖于对域标签的监督和特定构建的数据集。 🔗 开源详情代码：论文中未提及具体代码链接。论文在摘要末尾声明“Our codes are available at”，但未提供完整URL。模型权重：论文中未提及。数据集：论文中未提及数据集下载链接或开源协议。文中描述了构建的数据集构成，但未给出获取方式。 Demo：论文中未提及。复现材料：论文中提供了详细的实验设置（如超参数、硬件环境），但未提供预训练模型检查点或具体复现材料包链接。论文中引用的开源项目：论文引用了多种方法（如SAM、DISAM、DGSAM、FSAM、SAGM等）作为对比，但未提供其具体的开源代码或项目仓库链接。 🏗️ 方法概述和架构 DASM是一个端到端的优化框架，旨在替代标准的ERM或SAM优化器，以提升语音隐写分析模型在多域设置下的泛化能力。其核心流程如图2所示：输入音频片段（Cover或Stego）经过一个共享的特征提取器（实验中基于Transformer）生成特征表示。随后，该特征被用于计算包含三个部分的复合损失ℒ_total = ℒ_CE + ℒ_DSCL + ℒ_ADGM，并基于这个复合损失进行锐度感知的两步优化，最终更新模型参数。 ...

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文评分分档主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...