多模态模型

OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination

📄 OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination #多模态模型 #模型评估 7.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #模型评估 | arxiv 👥 作者与机构 Zixuan Dong, Jiafu Tang, Zhide Lei, Zhe Cao, Zijie Zhang, Yanghai Wang, Shihao Li, Xiaodong Wang, Baoyun Peng, Jiaheng Liu. 作者来自国防科技大学和南京大学。 ...

SegTune: Structured and Fine-Grained Control for Song Generation

📄 SegTune: Structured and Fine-Grained Control for Song Generation #音乐生成 #生成模型 #多模态模型 #数据增强 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前25% | #音乐生成 | #数据增强 | #生成模型 #多模态模型 | arxiv 👥 作者与机构 Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan。机构为Kling Team, Kuaishou Technology；University of Science and Technology of China；Peking University。论文在Kuaishou Technology的Kling Team实习期间完成。 ...

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构论文作者：Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构：腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者：Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点：宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰，且能互补。实验设计比较扎实，消融研究有力地支撑了各自组件的贡献。然而，方法的工程实现存在明显的“补丁”感，尤其是第二阶段多轨道模型却沿用第一阶段（或基线）为混合信号训练的伴奏解码器，这就像声称做了精细分轨烹饪，最后却用同一个大锅炒在一起，严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点，但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练（如DPO、对齐优化）的开源系统相比，本系统在部分主观指标上仍有差距，这进一步说明了其“潜力”与“现状”的差距。总体而言，这是一篇扎实的系统性工作，但缺乏一个令人惊艳的、完全自洽的闭环。 ...

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký （论文未在摘要中提供具体机构，通常包括布拉格捷克技术大学、小米、OPPO等） ...

SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models #语音识别 #多模态模型 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构作者：Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构：KAIST 💡 毒舌点评这篇论文填补了一个明显但重要的空白：当前的音频-视觉幻觉基准大多盯着狗叫警笛，而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而，作为一个基准测试论文，它的“方法”本质上是一套精心设计的问卷和数据构建流水线，技术深度有上限。最大的槽点在于数据集完全依赖YouCook2，这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上，对现实世界中多变的语音风格（对话、旁白、嘈杂环境）和视频内容的泛化能力存疑。所有任务都用选择题，这更像是在测“辨别力”而非真正的“生成式幻觉”，可能高估了模型在实际对话场景中的可靠性。尽管如此，它系统性地揭示了开源模型在语音-视觉对齐上的无能，以及与商业模型的巨大鸿沟，这点功劳必须认可。 📌 核心摘要本文指出，现有的音频-视觉大语言模型（AV-LLMs）幻觉基准主要评估环境声音（如狗叫）引发的幻觉，忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此，作者提出了SVHalluc，这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断，并分别为每个维度设计了三个由粗到细的任务（共六个）。在六个开源及商业AV-LLMs上的零样本评估表明，开源模型在多个任务上表现接近随机猜测，而Gemini 2.5 Pro显著优于所有开源模型，揭示了巨大差距。深入分析表明，模型失败的根源在于有限的跨模态信息整合与推理能力，而非单模态感知（如语音识别）的不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及具体模型权重的下载链接。论文评估了多个开源模型（Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2）和商业模型（Gemini 2.5 Pro），但未提供它们的HuggingFace或ModelScope链接。数据集：论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建，使用了其验证集，并通过自动化流程（使用Whisper模型进行语音转写，GPT模型辅助生成负样本）进行增强。论文中未提供SVHalluc数据集本身的直接下载链接，但提供了项目主页：https://chenshuang-zhang.github.io/projects/svhalluc/，可能包含获取信息。 Demo：论文中未提及。复现材料：数据集构建细节：论文详细描述了SVHalluc数据集的自动构建流程，包括使用GPT模型提取动作和对象的提示词（见附录B）、数据集质量控制策略（见附录C）。评估指标：对于二分类任务，报告了准确率、精确率、召回率和F1分数；对于多分类任务，报告了准确率。实验设置：论文明确指出所有评估均在零样本（zero-shot）设置下进行，无需额外训练。论文中引用的开源项目： YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。 Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接：https://github.com/openai/whisper Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签，以评估模型的时间定位能力。项目链接：https://github.com/snakers4/silero-vad 🏗️ 方法概述和架构本文提出的方法是构建名为SVHalluc的基准测试，用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分：基准任务设计和数据集构建流水线。 ...

The DeepSpeak-Agentic Dataset

📄 The DeepSpeak-Agentic Dataset #语音合成 #语音识别 #多模态模型 8.7/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Sarah Barrington (University of California, Berkeley), Maty Bohacek (Stanford University), Hany Farid (University of California, Berkeley). *表示共同第一作者。 💡 毒舌点评这篇论文做了一件重要且及时的事：为快速兴起的实时交互式AI代理建立一个大规模、多模态的数据集。数据集本身（37小时视听对话）和为构建它而设计的自动化系统是主要贡献。然而，审稿人必须指出几个显著的短板。首先，论文的核心技术挑战——代理的响应延迟（平均3.79秒）——只是被报告了，却没有进行任何优化尝试或深入分析其对交互质量和检测的影响，这使其“基准”意义打折扣。其次，实验评估部分虽全面，但对数据集特性的挖掘不够深入。例如，论文提到了人类判断的线索，但未深入分析不同线索（如视觉、听觉、对话模式）在不同代理配置或场景下的出现频率差异。再者，论文自称解决了“实时交互”的记录问题，但方法概述部分对系统架构的描述过于简略，缺乏关键组件（如会话同步、错误处理、延迟补偿）的细节，使得“可扩展自动化系统”的 claim 缺乏足够的技术支撑。最后，关于隐私、伦理的讨论仅停留在“IRB批准”和“内容审核”层面，对于公开发布包含人脸、声音的对话数据可能引发的长期风险（如声音克隆、行为模仿）的深入探讨缺失。总体而言，这是一个好的资源论文，但在技术深度和反思性上仍有不足。 📌 核心摘要本文介绍了DeepSpeak-Agentic数据集，这是一个包含200个、超过37小时实时交互式人机对话的视听数据集，旨在为研究快速发展的具身AI代理提供一个基准。作者构建了一个可扩展的自动化数据采集系统，该系统能随机组合不同的LLM（如Llama-4, GPT-4o）、合成语音（ElevenLabs等）和视觉形象（Tavus, HeyGen）来创建AI代理，并与通过Prolific招募的人类参与者进行随机配对对话。对话内容涵盖四种场景。基于该数据集的分析表明：1）人类能快速识别AI代理（80.5%在10秒内），主要线索是不自然的动作和声音；2）现有取证检测器表现不佳，最佳音频和视频检测器的等错误率（EER）分别高达23%和33%，仅文本检测器（Desklib）表现良好（EER 8%）。该数据集公开发布，可用于多模态取证评估、人机交互研究以及未来AI代理的基准测试。 ...

Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals

📄 Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals #多模态模型 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.2/1.5 📝 5.4/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构作者：Shenghao Ding 机构：Yet Another AI 💡 毒舌点评这是一篇典型的“想法很有趣，但离实用还很远”的初步探索论文。作者试图为音频、图像、视频这三种模态寻找一个基于小波的统一令牌语法，这个动机本身是有价值的。然而，论文的局限性过于明显，以至于其核心贡献被实验的玩具性质所削弱。使用\(64\times64\)的图像和\(8\)帧视频，在极小的数据集上只做自编码重建，然后声称看到了“跨模态的希望”，这说服力不足。更关键的是，作为一个“令牌化”方案，它完全没有进行离散化、熵编码，也没有任何下游生成任务的验证，这使其本质上只是一篇关于“共享小波系数表示”的技术报告，而非一个完整的令牌化解决方案。写作清晰，自我定位诚实（自称“初步结果”），但这也意味着它离顶会要求的完整贡献和扎实验证相去甚远。 📌 核心摘要本文提出了一个称为“Wavelet as Tokenizer (WAT)”的框架，旨在探索能否为音频、图像和视频定义一种基于小波系数的统一令牌语法。论文采用了一级Haar离散小波变换（DWT）作为前端，将不同模态信号转换为系数令牌，每个令牌包含值和显式元数据（模态、等级、尺度、子带、位置）。模型使用一个共享的、无注意力机制的令牌级连续潜在编码器/解码器（仅含LayerNorm-MLP）进行处理，并通过模态特定的逆变换重建信号。主要实验发现包括：1）在小型自编码任务中，共享的波系数令牌方案对三种模态均可行；2）对音频系数进行缩放（\(s_{\mathrm{audio}}=4\)）对于平衡各模态表现至关重要；3）基于波系数能量的非参数稀疏令牌选择是一种有效的跨模态分配信号；4）简单的加性元数据嵌入并非总是有益，其效果模态依赖且不一致。在匹配的连续潜在标量预算下，共享模型在图像和视频重建上优于独立模型。然而，该工作明确被定位为早期实证研究，存在根本性局限：实验在极低分辨率和小数据集上进行，结果为单次运行；采用连续令牌而非离散化，因此无法评估真正的比特率或进行率失真比较；模型架构简单；完全缺乏下游生成任务的验证。论文支持统一波形令牌模式和稀疏接口的可行性，但尚未建立通用的离散词汇表。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及使用以下公开数据集，但未提供具体获取链接： Speech Commands (v0.02) EuroSAT RGB DAVIS 2017 Demo：论文中未提及。复现材料：论文在附录A中提供了详细的实验配置，包括数据预处理方式、共享自编码器架构参数（token宽度32，潜在维度16，隐藏维度64）、优化器设置（AdamW，学习率\(10^{-3}\)）、批量大小（2）、训练步数（300）以及评估细节。这些信息可用于复现实验，但论文中未提供预训练权重或完整代码。论文中引用的开源项目：论文在相关工作和背景部分引用了多个开源项目（如Cosmos Tokenizer, VQ-VAE, VQGAN, OmniTokenizer, MAGVIT, SoundStream, EnCodec, WavTokenizer, JPEG 2000），但均未提供具体链接。 🏗️ 方法概述和架构 WAT框架的核心是定义一个跨模态（1D音频、2D图像、3D视频）的统一、结构化的小波系数令牌，并证明一个共享的神经网络可以处理这些令牌以实现信号重建。其方法可分解为以下关键组件和步骤： ...

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构：名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心，北京航空航天大学 (Beihang University) 生物与医学工程学院，TARVO, Inc.。通讯作者为 Ding Ma。 ...