Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals
📄 Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals #多模态模型 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.2/1.5 📝 5.4/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 作者:Shenghao Ding 机构:Yet Another AI 💡 毒舌点评 这是一篇典型的“想法很有趣,但离实用还很远”的初步探索论文。作者试图为音频、图像、视频这三种模态寻找一个基于小波的统一令牌语法,这个动机本身是有价值的。然而,论文的局限性过于明显,以至于其核心贡献被实验的玩具性质所削弱。使用\(64\times64\)的图像和\(8\)帧视频,在极小的数据集上只做自编码重建,然后声称看到了“跨模态的希望”,这说服力不足。更关键的是,作为一个“令牌化”方案,它完全没有进行离散化、熵编码,也没有任何下游生成任务的验证,这使其本质上只是一篇关于“共享小波系数表示”的技术报告,而非一个完整的令牌化解决方案。写作清晰,自我定位诚实(自称“初步结果”),但这也意味着它离顶会要求的完整贡献和扎实验证相去甚远。 📌 核心摘要 本文提出了一个称为“Wavelet as Tokenizer (WAT)”的框架,旨在探索能否为音频、图像和视频定义一种基于小波系数的统一令牌语法。论文采用了一级Haar离散小波变换(DWT)作为前端,将不同模态信号转换为系数令牌,每个令牌包含值和显式元数据(模态、等级、尺度、子带、位置)。模型使用一个共享的、无注意力机制的令牌级连续潜在编码器/解码器(仅含LayerNorm-MLP)进行处理,并通过模态特定的逆变换重建信号。 主要实验发现包括:1)在小型自编码任务中,共享的波系数令牌方案对三种模态均可行;2)对音频系数进行缩放(\(s_{\mathrm{audio}}=4\))对于平衡各模态表现至关重要;3)基于波系数能量的非参数稀疏令牌选择是一种有效的跨模态分配信号;4)简单的加性元数据嵌入并非总是有益,其效果模态依赖且不一致。在匹配的连续潜在标量预算下,共享模型在图像和视频重建上优于独立模型。 然而,该工作明确被定位为早期实证研究,存在根本性局限:实验在极低分辨率和小数据集上进行,结果为单次运行;采用连续令牌而非离散化,因此无法评估真正的比特率或进行率失真比较;模型架构简单;完全缺乏下游生成任务的验证。论文支持统一波形令牌模式和稀疏接口的可行性,但尚未建立通用的离散词汇表。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用以下公开数据集,但未提供具体获取链接: Speech Commands (v0.02) EuroSAT RGB DAVIS 2017 Demo:论文中未提及。 复现材料:论文在附录A中提供了详细的实验配置,包括数据预处理方式、共享自编码器架构参数(token宽度32,潜在维度16,隐藏维度64)、优化器设置(AdamW,学习率\(10^{-3}\))、批量大小(2)、训练步数(300)以及评估细节。这些信息可用于复现实验,但论文中未提供预训练权重或完整代码。 论文中引用的开源项目:论文在相关工作和背景部分引用了多个开源项目(如Cosmos Tokenizer, VQ-VAE, VQGAN, OmniTokenizer, MAGVIT, SoundStream, EnCodec, WavTokenizer, JPEG 2000),但均未提供具体链接。 🏗️ 方法概述和架构 WAT框架的核心是定义一个跨模态(1D音频、2D图像、3D视频)的统一、结构化的小波系数令牌,并证明一个共享的神经网络可以处理这些令牌以实现信号重建。其方法可分解为以下关键组件和步骤: ...