论文速递 | 语音/音乐/音频论文速递

Phonetic and semantic analyses of spoken corpora of Beijing and Taiwan Mandarin indicate that the neutral tone is a lexical tone

📄 Phonetic and semantic analyses of spoken corpora of Beijing and Taiwan Mandarin indicate that the neutral tone is a lexical tone arxiv 🔗 开源详情 The request was rejected because it was considered high risk 📷 论文图片 ← 返回 2026-06-26 语音/音乐/音频论文速递

RedVox: Safety and Fairness Gaps in Speech Models Across Languages

📄 RedVox: Safety and Fairness Gaps in Speech Models Across Languages #基准测试 #模型评估 6.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #基准测试 | #模型评估 | arxiv 👥 作者与机构 Beatrice Savoldi, Sara Papi, Wafa Aissa, Matteo Negri, Luisa Bentivogli。单位：Fondazione Bruno Kessler, Italy。 💡 毒舌点评这篇论文像是一个“社区驱动的体检报告”，为语音模型的安全与公平性提供了急需的跨国体检数据。它最大的优点是“真实”——真实的人声、真实的研究者作为数据贡献者，以及真实暴露出的、令人不安的漏洞。特别是那个参与者问卷，简直是给所有想搞语音红队的人上了一堂生动的“伦理课”，告诉你收集这些数据有多折磨人。但问题也很明显：五种语言虽然覆盖广，但全是欧洲亲戚（印欧语系高资源语言），模型们对远房亲戚（如亚洲语言）的表现还是个谜。评估框架依赖LLM判官，这个判官自己有没有跨文化偏见，论文没深究。单轮对话的设置也过于“温和”了，现实中的恶意用户可不会只问一回合。总的来说，它把“问题有多严重”说得很清楚，但“如何系统性地解决”或者“如何更全面地诊断”，留下的思考空间比给出的答案更多。它是一份扎实的、揭露问题的报告，但还远非一份解决问题的蓝图。 📌 核心摘要本文指出，当前语音模型的安全与公平性评估在多语言和自然语音条件下存在严重空白。为应对此问题，作者构建了RedVox，一个基于真实人声、覆盖英法意西德五种语言的多模态安全与公平基准。通过对八款最先进语音模型的评估，研究发现：1）安全漏洞在非英语语言中显著恶化（不安全率翻倍）；2）语音输入（相比文本）会加剧模型的不安全响应倾向；3）刻板印象类请求最易引发争议性响应。此外，通过参与者问卷，论文首次记录了语音数据收集过程中独特的隐私与心理负担问题。研究证实了语音安全问题的紧迫性，并强调了跨语言、跨模态评估的重要性。 🔗 开源详情代码：https://github.com/hlt-mt/redvox 模型权重：论文中未提供。RedVox本身是一个评估基准。论文评估的开源模型权重来自第三方（如HuggingFace上的Qwen2-Audio, Phi4-Multimodal, Voxtral等），并非本文贡献。数据集：RedVox数据集，获取链接：https://huggingface.co/datasets/FBK-MT/RedVox（需通过审核访问）。 Demo：未提及。复现材料：论文提及代码仓库可能包含指南（附录B），但未单独提供复现材料链接。评估脚本和输出承诺在论文接收后开源。论文中引用的开源项目： Whisper (语音转录)：https://hf.co/openai/whisper-large-v3-turbo Qwen3Guard (安全护栏)：https://huggingface.co/Qwen/Qwen3Guard-Gen-8B MUSAN corpus (背景噪声)：论文未提供具体链接。 Silero VAD (语音活动检测)：论文未提供具体链接。 SHADES (刻板印象数据集)：论文未提供具体链接。 M-ALERT (安全基准数据集)：论文未提供具体链接。 🏗️ 方法概述和架构本文的方法主要分为两个核心部分：RedVox基准构建与基于该基准的模型评估。 ...

SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages

📄 SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages #语音识别 #对比学习 #参数高效微调 #多语言 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #对比学习 | #参数高效微调 #多语言 | arxiv 👥 作者与机构作者：Subham Kumar, Prakrithi Shivaprakash, Abhishek Manoharan, Astut Kurariya, Diptadhi Mukherjee, Prabhat Chand, Pratima Murthy, Koustav Rudra, Lekhansh Shukla, Animesh Mukherjee 机构：印度理工学院卡拉格普尔分校（IIT Kharagpur），国家心理健康与神经科学研究所（NIMHANS, Bangalore），卢加德·邦迪亚拉地区精神病学研究所（LGBRIMH, Tezpur） ...

Soroll-IA: A Weakly Labeled Audio Dataset for Real-World Industrial Port Monitoring

📄 Soroll-IA: A Weakly Labeled Audio Dataset for Real-World Industrial Port Monitoring #数据集 #工业应用 8.3/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.3/10 | 前25% | 音频事件检测 | #数据集 | #工业应用 | arxiv 👥 作者与机构作者：Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Marta Garcia-Ballesteros, Pedro Zuccarello 机构：未说明 💡 毒舌点评这论文就像一个精心包装的“工业风”数据集开箱视频。动机很实在——港口确实缺这类数据，干得也不错，收集、标注、发布一条龙。但要说它能让顶会审稿人眼前一亮？恐怕难。它的创新点就在于“我做了第一个”，而不是“我做得多精妙”。主动学习流程直接沿用之前的工作，基准模型也是业界“标配”，缺乏让人眼前一亮的针对性设计或深度消融。分析部分点出了标注偏差和泛化性问题，算是戳到了痛处。总的来说，这是一篇合格的资源型论文，适合发在应用导向的会议或期刊上，但距离NeurIPS/ICML/ICLR的“方法创新”标杆，还差着那么点意思。不过，作为一个公开的基准，它的实用价值是实打实的。 📌 核心摘要本文介绍了Soroll-IA，一个专门针对真实工业港口环境的弱标签音频数据集。该数据集在西班牙瓦伦西亚的一个工业港口通过两个固定户外传感节点采集，包含约22小时、7396个10秒片段的音频，涵盖26个与港口活动相关的声音事件类别（如起重机警报、火车声、交通噪声等）。标注过程采用了一种基于主动学习的迭代流程，由5名领域专家进行多轮标注，并发布了两种真值配置：Non-CV（至少一人标注即视为存在）和CV（需至少三分之二标注者同意）。论文提供了基于CNN14和MobileNetV2的基准测试结果，表明数据集具有挑战性，模型性能依赖于事件的声学特性及标注的严格性。Soroll-IA旨在填补工业港口音频分析领域的数据空白，支持音频标签、弱监督声音事件检测等研究，并为边缘计算场景下的实时监控提供参考。 🔗 开源详情代码：数据集仓库：https://github.com/anp-iti/soroll-ia 基准测试代码仓库：https://github.com/anp-iti/sorollia_baseline 模型权重：论文中未提供自行训练模型的权重下载链接。基准中使用的预训练CNN14模型来自PANNs项目，其官方权重可从以下仓库获取：https://github.com/qiuqiangkong/audioset_tagging_cnn 数据集：名称：Soroll-IA 获取链接：https://www.kaggle.com/datasets/itiresearch/soroll-ia-weakly-labeled-audio-port-monitoring/ 开源协议：Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) Demo：论文中未提及在线演示链接。复现材料：论文未提供预训练的模型检查点。但提供了完整的训练配置（详见“方法概述和架构”部分）和基准测试代码，足以支持复现论文中报告的所有实验结果。论文中引用的开源项目： BAT (Basic Annotation Tool)：音频标注工具。链接：https://github.com/BlaiMelendezCatalan/BAT PANNs (Pre-trained Audio Neural Networks)：提供AudioSet预训练模型。链接：https://github.com/qiuqiangkong/audioset_tagging_cnn 🏗️ 方法概述和架构本文的核心贡献是构建并发布了Soroll-IA数据集，其“方法”主要围绕数据采集、标注和基准测试流程展开。 ...

Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents

📄 Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents #知识蒸馏 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #知识蒸馏 | #知识蒸馏 | arxiv 👥 作者与机构 Vidya Srinivas†，Zachary Englhardt†，Maximus Powers，Shwetak Patel，Vikram Iyer Paul G. Allen School of Computer Science & Engineering † equal contribution 💡 毒舌点评这篇工作想法挺直接：让小模型先说话，大模型在后台思考，然后小模型把大模型的结果“塞”进自己的话里。概念上不错，解决了云模型推理慢的问题。但问题在于，你这个“塞”的效率太低了！在NaturalQuestions上，小模型从10%提升到46%听起来不错，但和大模型69%-80%的准确率一比，就知道这个“知识转移”丢了大量信息。更关键的是，你们的核心评估指标——轮级蕴含分析——结果显示大部分生成结果（约60%）被NLI模型判为“中立”。作者在讨论里拼命解释说“中立”可能是“可接受的对话润色”，但作为审稿人，我必须指出这恰恰暴露了当前评估框架的根本缺陷和系统潜在的“事实漂移”风险。论文提出的“对话填充”任务定义本身有价值，但证明其有效性的证据链（特别是从流式知识到最终生成文本的保真度）是不充分、不令人信服的。代码、模型、数据集全部未开源，在这个强调可复现性的时代，这严重削弱了工作的影响力。 ...

UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

📄 UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating #扩散模型 #多模态模型 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.9/10 | 前25% | #扩散模型 | #多模态模型 | arxiv 👥 作者与机构第一作者Jiehui Huang来自香港科技大学（†表示该工作在快手技术Kling团队实习期间完成），通讯作者Jiaya Jia同样来自香港科技大学。合作机构包括香港中文大学、清华大学、中山大学以及快手技术Kling团队。论文为作者列表提供了机构归属上标和脚注。 💡 毒舌点评这篇论文在解决一个真实且重要的问题：如何在长序列中保持身份和场景的一致性。双存储器槽（LTM/STM）加边界感知门控的思路直观且有效，工程实现也颇为扎实，特别是发布的多文化基准测试集很有价值。然而，审稿人（也就是我）必须指出几点：第一，这篇工作的核心贡献（记忆驱动的视频生成）并非语音/音乐/音频领域的直接突破，其“音频”部分主要是一个固定的说话人锚点注入，缺乏对音频内容动态生成的深入建模，因此对纯音频读者的吸引力有限。第二，部分技术细节的阐述流于表面，例如门控函数的具体形式为何选择线性？Strata-RoPE的自动衰减效果有无可视化验证？这些关键设计选择缺乏令人信服的理论或实验支撑。第三，消融实验存在明显缺口，未能单独验证“边界条件门控”（尤其是音频信号融合）的必要性。最后，将Gemini-2.5-Pro作为唯一的“裁判”来评估所有多模态一致性指标，这种做法的鲁棒性和公平性值得怀疑。总体来说，这是一篇工程做得不错、想法也靠谱的音视频生成论文，但若想冲击顶级会议，还需要在技术深度的挖掘和评估方法的严谨性上再下功夫。 📌 核心摘要 UnityShots是一个基于双流扩散Transformer（LTX-2.3）的、由记忆驱动的多镜头音视频生成系统。其核心设计是引入了两个固定大小的视频记忆槽：一个长期记忆（LTM）槽锚定于初始镜头，用于保持全局身份一致；一个短期记忆（STM）槽保存前一镜头的尾帧，用于维持局部连续性。这两个记忆槽在每次镜头切换时，通过一个边界条件门控机制进行更新，该机制融合了视觉切割概率和音频节拍信号。音频方面，系统在每个镜头注入一个固定的参考说话人令牌以保持音色一致性，而非使用滑动的音频记忆窗口。论文还构建了一个包含200个序列、覆盖六大文化区域的多文化多镜头评估基准。实验表明，在I2V、T2V、R2V三种条件下，UnityShots在跨镜头一致性指标（如NC， Story， Char）上领先所有开源基线，并与强大的闭源系统Kling相当。 🔗 开源详情代码：https://github.com/JIA-Lab-research/UnityShots (已提供) 模型权重：论文中未提供模型权重的直接下载链接。论文基于LTX-2.3模型进行构建。数据集：论文中提及发布了一个包含200个多文化多镜头序列的评估基准测试集，但未在论文中提供具体下载链接。训练数据集（146,000个标注镜头）的构建流程在附录C中详细描述，但未提供独立的数据集下载链接。 Demo：论文中未提及在线演示链接。复现材料：训练配置：详细的阶段2训练超参数列于附录A的表1中。数据集构建流程：训练数据和基准测试集的构建流水线在附录C中详细描述。推理伪代码：完整的内存更新和推理循环伪代码在附录F中提供（算法1和算法2）。模型检查点：论文中提到会发布模型检查点，但未提供具体下载地址。论文中引用的开源项目： LTX-2.3：核心基础模型。 TransNetv2：用于镜头分割和视觉剪切概率计算。 WhisperX：用于转录和说话人分割。 DEMUCS：用于音频源分离。 Qwen3-VL：用于初始的多模态标注。 Gemini3-Pro：用于细粒度叙述性字幕生成。 ElevenLabs eleven_multilingual_v2：用于生成基准测试集中的参考音频。 DeepSpeed：用于分布式训练优化。 DDIM：用于推理的去噪方法。 VBench， ViCLIP：用于文本-视频对齐评估。 DINOv2：用于计算镜头间相似度（TSIM）。 Audiobox：用于音频美学评估。 CLAP：用于音频-字幕相似度评估。（注：上述项目均为论文中明确提及或使用的工具/模型，但论文文本中未提供它们的独立开源链接。） 🏗️ 方法概述和架构 UnityShots旨在生成内容连贯、身份一致的多镜头音视频序列。其整体架构基于预训练的22B参数双流扩散Transformer（LTX-2.3），该模型能够同时去噪视频和音频潜变量。系统的核心创新在于引入了显式的、结构化的跨镜头记忆机制，该机制主要由以下组件构成： ...

VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinforcement Learning-Based Test-Time Adaptation

📄 VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinforcement Learning-Based Test-Time Adaptation #语音合成 #强化学习 #风格迁移 7.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.6/10 | 前50% | #语音合成 | #强化学习 | #风格迁移 | arxiv 👥 作者与机构 Tianxin Chenxing， Xie， Li， Yu， Liu (顺序未明确说明)。作者单位为香港科技大学（广州）和腾讯。通讯作者为 avrillliu@hkust-gz.edu.cn。 💡 毒舌点评这篇论文瞄准了一个真实且有价值的痛点：现有零样本TTS模型在处理不常见说话风格（如方言、口音）时的乏力。作者提出的VoiceTTA框架，将强化学习引入测试时自适应，思路新颖且针对性强。实验设计基本合理，覆盖了多种罕见风格场景，并与多个SOTA基线进行了比较。然而，论文在方法描述上存在一些模糊和可改进之处。例如，奖励权重的具体选择缺乏充分的理论或消融依据，仅提到由消融研究“演示”，但未在消融表中明确展示权重调整的影响。此外，尽管声称方法“轻量”，但未提供具体的推理时间开销与纯基线模型的对比数据，使得“高效”的声明略显单薄。论文最大的软肋在于开源和复现性几乎为零，所有数据集均为私有，代码和模型权重均未提供，仅有一个演示页面，这极大地限制了其可验证性和社区影响力。总体而言，这是一篇在特定问题上思路不错的技术探索，但因其封闭性而难以被广泛验证和采纳。 📌 核心摘要本文提出了VoiceTTA，一种基于强化学习的测试时自适应方法，旨在增强预训练零样本TTS模型在面对不常见语音提示（如方言、口音、含糊不清的语音）时的声音模仿能力。该方法的核心是在推理时通过组相对策略优化算法，优化预先添加到TTS模型输入层的轻量级可学习前缀。优化过程由多重奖励引导，包括衡量生成语音与参考语音在音高动态（F0变异系数差）和能量动态（能量变异系数差）上相似性的风格奖励、说话人相似度奖励以及基于词错误率的可懂度奖励。在五个不常见语音场景（含口音、儿童声、含糊不清、中文小品、中文方言）上的实验表明，VoiceTTA在保持自然度与可懂度的同时，显著提升了说话人相似度，性能优于F5-TTS、CosyVoice、MaskGCT和Vevo等先进基线。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：内部数据集：论文中提到“我们收集了一个内部数据集，包含200个具有罕见说话风格的语音样本（90个带口音的，40个儿童的，30个含糊不清的，40个中文小品的）”，但未提供公开下载链接。 KeSpeech 数据集：论文中引用了[tang2021kespeech]用于评估方言适应性，但未提供直接下载链接或表明已公开共享其使用的子集。 Demo：https://voicetta.pages.dev/ 复现材料：论文中未提及训练配置、检查点、超参数文件或附录等具体的复现材料。论文中引用的开源项目：F5-TTS, CosyVoice, MaskGCT, Vevo, Flow matching 模型, Vocos 声码器, Whisper 模型, 说话人嵌入模型, GRPO 算法。论文均未提供这些项目的具体链接。 🏗️ 方法概述和架构 VoiceTTA的核心思想是在预训练的基于流匹配的零样本TTS模型（如F5-TTS）推理阶段，引入轻量级参数自适应，以更好地模仿不常见语音提示的风格。其整体流程如下： ...

voxmap-studio: An open-source speaker diarization annotation tool with built-in cost instrumentation

📄 voxmap-studio: An open-source speaker diarization annotation tool with built-in cost instrumentation #说话人日志 6.5/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #说话人日志 | #说话人日志 | arxiv 👥 作者与机构作者：Fumiaki Yamaguchi 机构：未在论文中明确说明 💡 毒舌点评这篇论文像一个精心打磨的“瑞士军刀”工具报告，而不是一篇理论突破的论文。它的优点在于极其务实地解决了一个被长期忽视的痛点：如何量化标注成本。作者没有空谈成本重要，而是直接把计算器嵌进了工具里，这种“计量为先”的思路值得肯定。工作流设计（自动初始化+确认门控）也合理，抓住了标注场景的核心需求。然而，作为一篇旨在发表在顶级会议上的论文，其“刀刃”不够锋利：创新性更多体现在工具整合与工程实现上，缺乏方法论上的新颖性；那个“初步研究”样本小到令人发指，更像是工具的调试日志而非严谨的科学实验，虽然作者诚实地承认了这一点，但这也极大地削弱了其结论的说服力。论文最大的价值或许在于为社区提供了一个可用的工具和一个思考标注成本的框架，但距离“改变领域实践”还差得远。 📌 核心摘要本文介绍了voxmap-studio，一个开源的、基于Web的说话人日志标注工具。其核心特点是将标注成本（编辑操作类型和时间）记录为一等输出。该工具集成了一个快速的自动说话人日志引擎，用于初始化标注画布，从而将标注员的工作从“从零创建”转变为“修正假设”。为确保数据质量，工具设计了基于逐段人类确认和注入“幻象”注意力检查的导出流程。一项在9个AMI文件上的初步研究表明，无辅助手动标注成本最高、质量最差；自动初始化显著改变了工作性质；而在小样本中，仅提供不确定性高亮的辅助方式（C2）比更复杂的辅助（C3）取得了更低的成本和更高的准确性。 🔗 开源详情代码：https://github.com/panchorange/voxmap 模型权重：论文中未提及提供新的模型权重，仅集成了现有的pyannote模型。数据集：论文中未提供数据集下载链接，但提及在初步研究中使用了AMI会议数据集（ES2004， IS1009， TS3003， Mix-Headset）。 Demo：论文中未提及。复现材料：论文中未提及提供训练配置、检查点等专门的复现材料，但工具本身开源。论文中引用的开源项目：pyannote， pyannote.metrics， gryannote。标签 #说话人日志 #工具与平台 #数据标注 #开源软件主任务标签：#说话人日志主方法标签：#工具与平台补充标签：#数据标注 #开源软件 ...

wav2tok 2.0: Scalable Audio Tokenization Maintaining Explicit Pairwise Token Alignment for Efficient Audio Retrieval

📄 wav2tok 2.0: Scalable Audio Tokenization Maintaining Explicit Pairwise Token Alignment for Efficient Audio Retrieval #音频检索 #自监督学习 6.4/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #语音检索 | #对比学习 | #音频检索 #自监督学习 | arxiv 👥 作者与机构 Adhiraj Banerjee (印度理工学院坎普尔分校电气工程系, adhirajbanerjee35@gmail.com) Vipul Arora (印度理工学院坎普尔分校电气工程系, vipular@iitk.ac.in; 鲁汶大学电气工程系, vipul.arora@kuleuven.be) 💡 毒舌点评这篇论文是典型的“站在巨人肩上做微创新”的工作。它巧妙地将BEST-STD的稳健骨架与wav2tok的显式对齐思想缝合在一起，形成了一个看似更完整的方案。核心卖点——那个DTW对齐的帧级预测损失——确实有点巧思，弥补了CTC损失过于粗糙的短板。然而，整个工作的创新边界相当模糊：它更像是BEST-STD的一个特定领域适配插件，而非一个开创性框架。实验设置扎实，结论也自洽，但“显著优于”的宣称在某些指标上的提升幅度（例如，MTWV从0.61到0.66）是否足以支撑“scalable”和“maintaining explicit pairwise alignment”这两个宏大标题，需要打个问号。本质上，这是一篇工程优化大于科学突破的论文，适合作为语音检索工具箱里的一件新工具，但离顶会“改变范式”的期待还有距离。 📌 核心摘要本文提出了wav2tok 2.0，一种用于查询-示例语音关键词检测（QbE-STD）的可扩展、对齐感知的语音分词器。它继承了BEST-STD的双向Mamba编码器和向量量化框架，在第一阶段通过对比学习预训练获得判别性表示。第二阶段是其核心创新：在保留BEST-STD对比损失和承诺损失的基础上，引入两个显式的token对齐监督信号：1）沿用wav2tok的CTC序列对齐损失，但通过自适应加权策略稳定其训练；2）提出一种新颖的DTW对齐帧级token预测损失，为每个帧提供来自对齐正样本的细粒度目标。在LibriSpeech和未见TIMIT数据集上的实验表明，wav2tok 2.0在token一致性（Jaccard相似度）和QbE-STD检索性能（MAP、MRR、MTWV）上均优于基线BEST-STD、原始wav2tok以及多种通用语音分词器，证明了显式对齐目标对检索任务的有效性。 ...

What We are Missing in Multimodal LLM Evaluation?

📄 What We are Missing in Multimodal LLM Evaluation? 7.0/10 | 复现未提供/0.5 ✅ 7.0/10 | 前50% | arxiv 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重链接数据集：论文中未提及数据集链接 Demo：论文中未提及Demo链接复现材料：论文中未提及复现材料论文中引用的开源项目： LMArena：论文中提及相关工作（Chiang et al., 2024），但未提供项目具体链接。 VLABench：论文中提及相关工作（Zhang et al., 2025），但未提供项目具体链接。 📷 论文图片 ← 返回 2026-06-26 语音/音乐/音频论文速递