Anisotropic Modality Align

📄 Anisotropic Modality Align #跨模态 #几何分析 #对比学习 #预训练 #无监督学习 ✅ 7.5/10 | #跨模态 #几何分析 | arxiv 👥 作者与机构 第一作者:未说明(论文标题页首位作者为 Xiaomin Yu,但未明确标注“第一作者”) 通讯作者:Yue Song, Xiaobin Hu, Chengwei Qin(论文中明确标注“correspondence”) 作者列表:Xiaomin Yu (1, 2, 3, 4, 5), Yijiang Li (1), Yuhui Zhang (1), Hanzhen Zhao (1), Yue Yang (1), Hao Tang (1), Yue Song (6), Xiaobin Hu (1), Chengwei Qin (1), Shuicheng Yan (1, 5), Hui Xiong (1)。其中机构编号对应:1]HKUST(GZ), 2]NUS, 3]UCSD, 4]Stanford, 5]PKU, 6]THU(具体实验室或部门未说明)。 💡 毒舌点评 论文对“模态间隙”这一经验现象进行了非常细致且深刻的几何再分析,其“各向异性残差结构”的洞察超越了简单的质心偏移或全局统计匹配,为无监督对齐提供了坚实的理论动机。然而,方法实现过于繁复(涉及两阶段训练、周期先验、多变量有界校正),其复杂性是否必要,以及在缺乏大量计算资源和调参技巧下能否稳定复现,值得怀疑;同时,所有实验均依赖于一个固定的预训练编码器(LLM2CLIP),这严重限制了结论的普适性。 ...

2026-05-11 · 更新于 2026-05-19 · 3 min · 585 words

语音/音频论文速递 2026-05-11

语音/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜(12 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分 前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分 前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分 前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分 前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分 前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分 前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分 前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分 前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分 前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分 后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分 前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分 后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

2026-05-11 · 更新于 2026-05-19 · 9 min · 1723 words