FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention

📄 FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention #音频分类 #多模态模型 #恶意软件检测 #双曲神经网络 #跨模态融合 ✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 | #恶意软件检测 #双曲神经网络 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nitin Choudhury (印度信息技术学院德里分校, IIIT-Delhi), Bikrant Bikram Pratap Maurya (印度信息技术学院德里分校, IIIT-Delhi) (论文指出两位作者贡献相等,共同作为第一作者) 通讯作者:Orchid Chetia Phukan (orchidp@iiitd.ac.in) (印度信息技术学院德里分校, IIIT-Delhi) 作者列表:Nitin Choudhury (IIIT-Delhi), Bikrant Bikram Pratap Maurya (IIIT-Delhi), Orchid Chetia Phukan (IIIT-Delhi), Arun Balaji Buduru (IIIT-Delhi) 💡 毒舌点评 亮点:首次将双曲空间和双曲交叉注意力机制引入多模态恶意软件分类,为融合具有潜在层次关系的模态数据提供了新颖且理论优雅的解决方案,实验结果也确实证明了其有效性。短板:论文虽展示了性能提升,但对于“音频模态编码细粒度字节特征,视觉模态捕获高层空间结构”这一层次假设的实证分析不足,且双曲计算带来的额外开销与性能收益的权衡讨论缺失。 ...

2026-04-29

Prosody as Supervision: Bridging the Non-Verbal--Verbal for Multilingual Speech Emotion Recognition

📄 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition #语音情感识别 #领域适应 #双曲神经网络 #自监督学习 #多语言 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Girish (UPES, India), Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) (论文注明两人贡献相等) 通讯作者:Muskaan Singh (Ulster University, UK) 作者列表:Girish (UPES, India)、Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India)、Muskaan Singh (Ulster University, UK) 💡 毒舌点评 亮点:论文最巧妙之处在于将低资源多语言SER问题重新定义为“非语音到语音”的无监督域适应,这个视角跳出了传统“语音到语音”迁移的框架,为利用丰富但未被充分利用的非语音情感数据开辟了新路径。短板:整个框架(双曲几何、VQ、最优传输)的复杂性较高,虽然消融实验证明了各模块必要性,但这种“组合式创新”是否带来了根本性的理论突破,或者只是工程上的有效堆砌,值得进一步思考。 ...

2026-04-24

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24