Posts

Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals

📄 Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals #多模态模型 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.2/1.5 📝 5.4/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构作者：Shenghao Ding 机构：Yet Another AI 💡 毒舌点评这是一篇典型的“想法很有趣，但离实用还很远”的初步探索论文。作者试图为音频、图像、视频这三种模态寻找一个基于小波的统一令牌语法，这个动机本身是有价值的。然而，论文的局限性过于明显，以至于其核心贡献被实验的玩具性质所削弱。使用\(64\times64\)的图像和\(8\)帧视频，在极小的数据集上只做自编码重建，然后声称看到了“跨模态的希望”，这说服力不足。更关键的是，作为一个“令牌化”方案，它完全没有进行离散化、熵编码，也没有任何下游生成任务的验证，这使其本质上只是一篇关于“共享小波系数表示”的技术报告，而非一个完整的令牌化解决方案。写作清晰，自我定位诚实（自称“初步结果”），但这也意味着它离顶会要求的完整贡献和扎实验证相去甚远。 📌 核心摘要本文提出了一个称为“Wavelet as Tokenizer (WAT)”的框架，旨在探索能否为音频、图像和视频定义一种基于小波系数的统一令牌语法。论文采用了一级Haar离散小波变换（DWT）作为前端，将不同模态信号转换为系数令牌，每个令牌包含值和显式元数据（模态、等级、尺度、子带、位置）。模型使用一个共享的、无注意力机制的令牌级连续潜在编码器/解码器（仅含LayerNorm-MLP）进行处理，并通过模态特定的逆变换重建信号。主要实验发现包括：1）在小型自编码任务中，共享的波系数令牌方案对三种模态均可行；2）对音频系数进行缩放（\(s_{\mathrm{audio}}=4\)）对于平衡各模态表现至关重要；3）基于波系数能量的非参数稀疏令牌选择是一种有效的跨模态分配信号；4）简单的加性元数据嵌入并非总是有益，其效果模态依赖且不一致。在匹配的连续潜在标量预算下，共享模型在图像和视频重建上优于独立模型。然而，该工作明确被定位为早期实证研究，存在根本性局限：实验在极低分辨率和小数据集上进行，结果为单次运行；采用连续令牌而非离散化，因此无法评估真正的比特率或进行率失真比较；模型架构简单；完全缺乏下游生成任务的验证。论文支持统一波形令牌模式和稀疏接口的可行性，但尚未建立通用的离散词汇表。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及使用以下公开数据集，但未提供具体获取链接： Speech Commands (v0.02) EuroSAT RGB DAVIS 2017 Demo：论文中未提及。复现材料：论文在附录A中提供了详细的实验配置，包括数据预处理方式、共享自编码器架构参数（token宽度32，潜在维度16，隐藏维度64）、优化器设置（AdamW，学习率\(10^{-3}\)）、批量大小（2）、训练步数（300）以及评估细节。这些信息可用于复现实验，但论文中未提供预训练权重或完整代码。论文中引用的开源项目：论文在相关工作和背景部分引用了多个开源项目（如Cosmos Tokenizer, VQ-VAE, VQGAN, OmniTokenizer, MAGVIT, SoundStream, EnCodec, WavTokenizer, JPEG 2000），但均未提供具体链接。 🏗️ 方法概述和架构 WAT框架的核心是定义一个跨模态（1D音频、2D图像、3D视频）的统一、结构化的小波系数令牌，并证明一个共享的神经网络可以处理这些令牌以实现信号重建。其方法可分解为以下关键组件和步骤： ...

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

A 1000-hour EEG-EMG-audio dataset of Japanese speech production

📄 A 1000-hour EEG-EMG-audio dataset of Japanese speech production 6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | arxiv 👥 作者与机构作者：Motoshige Sato, Ilya Horiguchi, Masakazu Inoue, Kenichi Tomeoka, Eri Hatakeyama, Yuya Kita, Atsushi Yamamoto, Ippei Fujisawa, Shuntaro Sasai. 机构：Araya Inc., Tokyo, Japan; Department of Neurological Surgery, University of California, San Francisco, San Francisco, CA, USA; Weill Institute for Neuroscience, University of California, San Francisco, San Francisco, CA, USA. ...

A Lightweight Slot-Attention Framework for Multi-Instrument Multi-Pitch Estimation

📄 A Lightweight Slot-Attention Framework for Multi-Instrument Multi-Pitch Estimation #自监督学习 #音乐信息检索 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.7/10 | 前50% | #音乐信息检索 | #自监督学习 | arxiv 👥 作者与机构作者：Michael Taenzer。论文中未明确提及作者所属机构。 💡 毒舌点评这篇论文提出了一个想法不错的轻量级框架，试图用槽注意力解决多乐器多音高估计这个老大难问题。作者在资源有限的条件下（CPU训练）进行探索，精神可嘉。然而，论文的“探索性”定位也暴露了其软肋：实验规模偏小，主要在两个小型数据集（URMP， mshoxxDB）上打转，对更复杂、更大规模的现实场景缺乏验证。音色和多音监督的引入看似巧妙，但实际效果不稳定，在mshoxxDB上的表现时好时坏，说明这种“模块化扩展”的鲁棒性存疑。最大的问题在于，源分配（stem assignment）这个核心挑战并未被真正解决，论文最终承认这只是“一个有希望的方向”，距离实用还有很长的路要走。整体是一篇扎实但略显初步的概念验证工作。 📌 核心摘要本文针对多乐器多音高估计（MI-MPE）任务，提出了一种基于槽注意力的轻量级框架。该模型将混合音频的常数Q变换（CQT）映射为一组无序的、源级的音高激活图，每个“槽”代表一个潜在的声源假设。为避免固定输出顺序的限制，模型采用基于匈牙利匹配的排列不变监督进行训练。论文进一步研究了两个模块化扩展：一个是在孤立音轨上训练的自监督音色编码器，作为训练时的教师为槽级音色嵌入提供监督目标；另一个是多音分支，用于对混合和槽级的音高预测密度进行正则化。实验在URMP和mshoxxDB数据集上进行，结果表明匈牙利匹配能显著提升乐器族分解性能，而音色和多音监督在部分配置下有助于源分配，但并未一致性地解决问题。工作定位于探索性概念研究，强调模型的轻量级特性和对开放数据集的依赖。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供模型权重下载链接。数据集： URMP：论文提供官方链接 http://www2.ece.rochester.edu/~mcv/music.html。 mshoxxDB：论文提供链接 https://github.com/LCAV/mshoxxDB。 MusicNet：论文中引用的链接为 https://github.com/Lovork/mshoxxDB（注：此链接可能不正确，但按原文提取）。 Demo：论文中未提及。复现材料：论文未提供独立的复现材料包或附录。第V节“Training & Evaluation Protocol”详细描述了训练参数（优化器、学习率、批大小、早停）、输入CQT配置、评估指标和流程，提供了足够的细节用于复现实验。论文中引用的开源项目： Basic Pitch：论文明确引用其GitHub仓库 https://github.com/spotify/basic-pitch。快速HCQT近似 (fast-HCQT)：论文引用了相关方法的实现 https://github.com/csteinmetz1/hcqt。 🏗️ 方法概述和架构本文提出的模型旨在从混合音频的CQT表示中预测一组无序的源级音高图。其核心是一个基于槽注意力的网络，并辅以可选的音色编码器和多音分支。整体架构包含共享的输入特征、标准的MPE头、槽头、音色头和多音头。 ...

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构：名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心，北京航空航天大学 (Beihang University) 生物与医学工程学院，TARVO, Inc.。通讯作者为 Ding Ma。 ...

AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course

📄 AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course 3.7/10 | 创新 0.8/2 | 严谨 0.6/1.5 | 实验 0.4/1.5 | 清晰 0.8/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.1/0.5 | 工程 0.5/1.5 📝 3.7/10 | 后50% | arxiv 👥 作者与机构第一作者：David James Woo，Everwrite Limited（香港），中学教师，研究兴趣为AI、自然语言处理、数字素养与教育技术创新。通讯作者：Deliang Wang，香港大学教育学院（即将赴加拿大多伦多大学信息学院任博士后研究员），研究聚焦AI在教育中的应用。作者三：Kai Guo，香港中文大学教育学院课程与教学系，RGC初级研究员及研究助理教授，研究兴趣为技术增强的语言学习与第二语言写作。 💡 毒舌点评定位偏差：论文题目极具挑衅性（“AI Slop or AI-enhancement?”），但内容是一篇非常具体的、小规模的创新实践报告，而非严谨的实证研究。它更像是一个教学案例分享，理论应用和数据分析都比较浅显。因果推断的脆弱性：全文最核心的“发现”——如“视频偏好与成绩正相关”——仅仅基于38份问卷的相关性分析。在缺乏对照组、未控制大量混淆变量（如学生原有英语水平、学习动机、课外投入等）的情况下，这种相关性几乎无法支撑任何因果结论。作者在讨论中也承认了方向不确定（“the direction of this relationship cannot be determined”）。样本与代表性的硬伤：有效问卷仅38份，访谈仅3人，且来自同一所香港社区学院的同一门课程、同一位教师。这样的样本根本谈不上任何“推广性”，结论最多只能说“在这个特定情境下观察到了某些现象”。将其包装为对“AI生成材料”的普遍性洞察是过度解读。理论框架的装饰性使用：引用了TAM、CLT和多媒体学习理论，但更多是作为标签贴在发现上，而非指导严谨的研究设计。例如，测量认知负荷的问卷条目设计是否经过严格的心理测量检验？如何区分外在负荷、内在负荷和关联负荷？论文均未交代。 “AI生成”的模糊性：论文核心工具是Google NotebookLM，但具体如何“提示”生成不同类型的材料（视频、报告、信息图），提示词的设计和迭代过程完全缺失。这使得研究的关键环节——“教师引导的生成”——变成了黑箱，极大削弱了可复现性和方法价值。评分与影响力的矛盾：给5.0分是因为它确实提出了一个及时的教育问题并提供了初步的、基于实践的观察数据。但因其研究方法的薄弱性、结论的初步性以及领域局限性（纯教育技术应用，与AI核心算法或语音/音乐领域几乎无关），其学术影响力非常有限。 📌 核心摘要本文是一篇创新实践报告，探讨了在香港一所社区学院的英语学术写作（EAP）课程中，教师利用免费检索增强生成工具（主要是Google NotebookLM）为106名非英语母语学生生成多媒体补充材料（视频、播客、信息图、个性化反馈报告）的效果。采用解释性顺序混合方法，通过问卷调查（有效样本38人）和访谈（3人），结合与学业成绩的相关性分析，研究学生的偏好和感知。结果显示，学生整体上认为材料有用（感知有用性均值3.91/5）且易用（均值3.75/5）。他们强烈偏好与评估任务直接相关的材料（如Assignment 1的材料）以及视觉与文本结合的格式（信息图、报告），对纯音频的播客兴趣最低。对“视频”格式的偏好与总学业成绩呈显著正相关（\(r=0.283\)）。然而，学生感受到的中等认知负荷（均值2.96/5）与所有学业成绩指标呈负相关，表明材料的认知复杂性需要精心校准。此外，部分CA1成绩较差的学生自主利用作业反馈材料进行补救学习。研究认为，当材料与学习目标对齐并遵循认知原则时，基于RAG的AI生成材料可以成为有效的教学增强工具，而非产生“AI垃圾”，其核心优势在于实现大规模个性化反馈的能力。 ...

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling #多模态模型 #自回归模型 #数据增强 7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv 👥 作者与机构作者：Yiheng Li (中国科学院计算技术研究所, 中国科学院大学)，Zhuo Li (独立作者)，Ruibing Hou (中国科学院计算技术研究所)，Yingjie Chen (北京大学)，Hong Chang (中国科学院计算技术研究所, 中国科学院大学)，Hao Liu (独立作者)，Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学) 通讯作者：Hao Liu (lewes6369@gmail.com) 💡 毒舌点评这篇论文试图解决运动生成领域的一个“贪心”问题：想要一个模型吃下所有条件（文本、语音、音乐、轨迹），还想要数据足够大、模型能缩放。野心不小，也确实做出了些东西。数据集OmniHuMo规模号称最大，这算是个实在的工程贡献，对社区后续研究有价值。AnyMo框架的设计思路清晰，把R-FSQ和并行掩码建模结合起来处理多流token，算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势，尤其是文本任务上FID的显著下降，验证了 scaling law 在这个任务上的有效性。 ...

Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty

📄 Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty #多模态模型 #语音识别 #鲁棒性 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 5.5/10 | 前50% | #语音识别 | #多模态模型 | #鲁棒性 | arxiv 👥 作者与机构 Zhou Yang: Faculty of Education and Psychology, University of Oulu, Finland Yueyi Yang: Center for Machine Vision and Signal Analysis, University of Oulu, Finland ...

Context-aware child-directed speech detection from long-form recordings

📄 Context-aware child-directed speech detection from long-form recordings #自监督学习 #多语言 #领域适应 #模型评估 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #多语言 #领域适应 | arxiv 👥 作者与机构论文作者包括 Théo Charlot, Tarek Kunze, Kaveri K. Sheth, Alejandrina Cristia, 和 Marvin Lavechin。机构包括 LSCP, DEC, ENS, EHESS, CNRS, PSL University, France 和 Laboratoire d’Informatique et Systèmes, Université Aix-Marseille, CNRS, France。 ...