数据集 | 语音/音频论文速递

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Youliang Zhang（清华大学，邮箱：zhangyou24@mails.tsinghua.edu.cn）通讯作者：Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) （论文中标注了†和‡，通常表示通讯作者）作者列表： Youliang Zhang（清华大学） Zhaoyang Li（StepFun） Duomin Wang†（StepFun） Jiahe Zhang（未说明） Deyu Zhou（StepFun；香港科技大学（广州）） Zixin Yin（StepFun；香港科技大学） Xili Dai（StepFun；香港科技大学） Gang Yu（StepFun） Xiu Li‡（清华大学（深圳）） 💡 毒舌点评本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白，以工业级的系统性和透明度构建了一个规模（520万片段）和质量（1080P+）俱佳的专用数据集，为后续研究铺平了道路。然而，其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新，且在绝对视频生成质量上并未超越更庞大的级联扩散模型（如Hallo3），其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #多模态模型 #数据集 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音识别 | #多模态模型 | #数据集 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh (1 AXXX, Moscow, Russia; 2 MTUCI, Moscow, Russia) 通讯作者：未说明作者列表： Dmitrii Korzh (AXXX, MTUCI) Dmitrii Tarasov (FusionBrain Lab, AXXX; HSE University) Artyom Iudin (AXXX, MTUCI) Elvir Karimov (AXXX, MTUCI; Applied AI Institute) Matvey Skripkin (FusionBrain Lab, AXXX; Applied AI Institute) Nikita Kuzmin (AXXX, MTUCI; Applied AI Institute) Andrey Kuznetsov (FusionBrain Lab, AXXX; Innopolis University) Oleg Y. Rogov (AXXX, MTUCI; Applied AI Institute) Ivan Oseledets (AXXX, MTUCI; Applied AI Institute; Moscow State University) 💡 毒舌点评这篇论文的最大亮点在于“基建狂魔”式的工作——用超过63万个人工/合成音频样本，硬生生为一个垂直领域（语音转LaTeX）打造了首个大规模开源数据集和完整的方法论基准，其数据构建的严谨性和开源精神值得称赞。但短板也很明显：号称“端到端”的SALMONN模型（图1b）其实只是在现有音频LLM上微调，且其对复杂数学语句（Table 3）的预测仍显示模型对深层语义理解有限，多数时候只是在做更精准的“符号匹配”。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未说明作者列表：Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University) 💡 毒舌点评这篇论文精准地抓住了现有深度伪造检测数据集在多语言（尤其是阿拉伯语-英语语码转换）场景下的巨大空白，并提供了一个规模空前的数据集（387k视频），填补了这一重要缺口。然而，其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑，虽然保证了多样性，但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成，其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力，而非论文提出的统一框架。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文明确表示将公开数据集，并提供了获取所需的EULA表单（图7）。访问需通过机构IRB批准和签署EULA。 Demo：未提及在线演示。复现材料：论文提供了数据生成管道的详细描述、关键工具（Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync）以及评估脚本的开源承诺。附录中提供了详细的文本操作提示（图6）、数据分布、扰动列表和身份重叠分析等复现相关信息。论文中引用的开源项目：Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。 📌 核心摘要问题：现有的深度伪造检测研究主要针对单语内容，忽略了全球普遍存在的多语言，特别是阿拉伯语-英语语码转换（CSW）场景下的检测挑战。方法核心：提出了ArEnAV，首个大规模阿拉伯-英语音视频深度伪造数据集，并设计了一个三阶段数据生成流程：利用GPT-4.1-mini进行受控的文本（语码转换）操纵，使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。创新点：数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容；生成流程专门针对阿拉伯语-英语混合内容设计；提供了多维度的基准测试，包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。主要实验结果：数据集对比：ArEnAV是目前最大的多语言音视频深度伪造数据集（387k视频，765小时），远超PolyGlotFake（15k）和Illusion（1.37M但非重点CSW）。伪造片段更长，检测更难。检测性能：现有SOTA模型（如BA-TFD+）在ArEnAV上性能大幅下降。在测试集上，BA-TFD+（AV-1M预训练）的AP@0.5仅为3.74，而微调后AUC可达79.97%。跨数据集泛化：在DFDC, FF++, CelebDF上表现良好的模型（如Face-X-Ray, LipForensics），在ArEnAV上AUC接近随机猜测（~50%）。用户研究：人类参与者的检测准确率仅为60.00%，定位精度（AP@0.5）仅0.79，证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。实际意义：为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准，推动了该领域向全球化、多样化方向发展。主要局限性：生成管道复杂，依赖外部模型（Whisper, GPT-4, TTS，唇同步模型），其质量和特性直接影响数据集质量；“含义+翻译”模式下，LLM有时未能充分改变语义；数据集目前仅限于阿拉伯语和英语。 🏗️ 模型架构本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道，其架构如图1所示：整个流程分为三个主要阶段： ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #视频摘要 #多模态模型 #自适应融合 #基准测试 #数据集 🔥 8.0/10 | 前25% | #视频摘要 | #多模态模型 | #自适应融合 #基准测试学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔国立大学）[论文中注明与Hyemin Jeong, Mingu Kang并列第一作者] 通讯作者：Yoori Oh, Joonseok Lee（首尔国立大学）作者列表：Sumin Kim（首尔国立大学）、Hyemin Jeong（首尔国立大学）、Mingu Kang（首尔国立大学）、Yejin Kim（首尔国立大学）、Yoori Oh（首尔国立大学）、Joonseok Lee（首尔国立大学） 💡 毒舌点评亮点在于直击了现有视频摘要模型“静态融合”或“忽视音频/文本”的痛点，并用一个设计巧妙的“融合令牌”自适应地解决了这个问题，效果立竿见影，同时构建了首个大规模三模态数据集，功在千秋。短板是其核心框架（时间窗口注意力+跨模态注意力）并未跳出Transformer的范畴，创新更多是组合与适配，且“先打分再选段”的两阶段范式本身限制了端到端优化的可能，论文也在结论中坦承了这一局限。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：未在论文正文中明确提及是否公开预训练模型权重。数据集：论文明确介绍了新数据集MoSu，并提供了数据获取信息（基于YouTube-8M，遵循特定筛选标准），论文中未明确给出直接下载链接，但提供了获取方法。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的超参数表（表I）、训练硬件、数据预处理流程（附录B.4）、评估协议（附录B.5）以及完整的消融研究，复现信息非常充分。引用的开源项目：依赖的主要预训练模型和库包括：CLIP (视觉编码器), RoBERTa (文本编码器), Audio Spectrogram Transformer (AST，音频编码器), Qwen2.5-VL-7B-Instruct (用于外部数据集生成文本描述), SwiGLU (FFN层), KTS (视频分割)。 📌 核心摘要本文针对视频摘要任务中现有方法无法动态、自适应地融合视觉、文本和音频模态信息的问题，提出了TripleSumm模型。该模型通过多尺度时间块（MST）在每一模态内部进行时序建模，并通过跨模态融合块（CMF）利用一个“融合令牌”作为中立查询，在每一帧动态选择和加权最相关的模态信息。与以往方法相比，其核心创新在于实现了帧级别的、自适应的模态重要性评估。为解决多模态训练数据稀缺的问题，论文还引入了首个大规模三模态视频摘要数据集MoSu，包含52,678个视频及其观看回放统计作为ground-truth。主要实验结果显示，TripleSumm在MoSu、Mr. HiSum、SumMe和TVSum四个基准上均显著超越了现有方法，例如在MoSu上，其Kendall‘s τ（0.351）和Spearman‘s ρ（0.472）大幅领先于此前最优的CFSum（0.277， 0.374）。该工作的实际意义在于提供了一个高效且可扩展的多模态视频摘要解决方案，并为未来研究奠定了可靠的大规模数据基础。主要局限性在于其摘要生成仍遵循“帧评分-片段选择”的传统两阶段流程，而非直接生成摘要片段，且模型架构的创新性主要体现在模块组合而非底层机制。 ...

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #自回归模型 #大语言模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音翻译 | #自回归模型 | #大语言模型 #数据集学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sitong Cheng（香港科技大学）通讯作者：Yike Guo（香港科技大学），Wei Xue（香港科技大学）作者列表：Sitong Cheng（香港科技大学）、Weizhen Bian（香港科技大学）、Xinsheng Wang（Soul AI Lab）、Ruibin Yuan（香港科技大学）、Jianyi Chen（香港科技大学）、Shunshun Yin（Soul AI Lab）、Yike Guo（香港科技大学，通讯作者）、Wei Xue（香港科技大学，通讯作者） 💡 毒舌点评本文最大的亮点在于“化繁为简”，通过精巧的token设计和提示策略，将复杂的多模态语音翻译任务“降维”成了预训练大语言模型熟悉的序列生成问题，并取得了SOTA级的性能，证明了这条路径的可行性。短板在于其高度依赖特定的、非原创的语音tokenizer（BiCodec, GLM-4）和合成数据集（UniST），这虽然是一种聪明的工程集成，但也意味着其核心创新更多体现在系统集成与训练范式上，而非底层表示学习的突破。 🔗 开源详情代码：论文中未提及代码开源计划或提供代码仓库链接。模型权重：未提及是否公开预训练或微调后的UniSS模型权重。数据集：论文明确贡献了UniST数据集（44.8k小时），并提供了项目主页链接（https://cmots.github.io/uniss-demo），其中可能包含数据获取或申请方式（论文未详细说明获取途径）。 Demo：提供了在线演示网站（https://cmots.github.io/uniss-demo/）。复现材料：在附录B.1中提供了非常详细的训练配置（三阶段数据、超参数、硬件、优化器设置），并声称遵循可复现原则。引用了使用的开源框架（Megatron-LM）和基础模型（Qwen2.5）。论文中引用的开源项目：Megatron-LM（训练框架），vLLM（推理部署），Transformers库（评估），webMUSHRA（主观评估）。 📌 核心摘要要解决什么问题：现有语音到语音翻译（S2ST）系统存在架构复杂（级联或两阶段）、难以保留说话人音色/情感风格、以及未能充分利用大型语言模型（LLM）预训练翻译能力三大挑战。方法核心是什么：提出UniSS，一个基于预训练LLM（Qwen2.5-1.5B）的单阶段统一S2ST框架。它采用三类离散语音token（说话人token、语言token、语义token）分别建模风格、内容和生成目标，并通过跨模态思维链（CoT）提示（Listen-Translate-Speak）将LLM的文本翻译能力迁移到语音领域。与已有方法相比新在哪里：（1）架构更简单：采用单阶段自回归模型，无需级联或多模态转换器。（2）能力迁移更直接：通过设计的提示格式，显式激活并利用LLM内部的翻译知识，而非将其仅视为黑盒序列转换器。（3）性能更全面：在翻译质量、说话人相似度、情感保持和时长一致性上全面超越现有方法。主要实验结果：在CVSS-T基准上，UniSS (Q) 的英文到中文和中文到英文的Speech-BLEU分别达到32.20和24.28，显著超过基线（如Seamless-Ex的24.45/15.84）。其说话人相似度MOS达4.42，情感相似度MOS达4.51，时长一致性（SLC 0.4）接近完美（0.99/0.97）。关键消融实验证明，去除跨模态CoT提示会导致翻译质量暴跌约15个BLEU点。实际意义是什么：为构建下一代更简单、高效、高质量的语音翻译系统提供了新范式。其发布的UniST大规模数据集（44.8k小时）也极大缓解了该领域高质量平行数据稀缺的问题。主要局限性是什么：（1）模型和方法目前仅验证了中英双向翻译。（2）核心语音tokenizer并非本文原创，词汇表扩展较大。（3）数据集依赖于合成语音，其上限受合成模型质量制约。 🏗️ 模型架构 UniSS是一个端到端的自回归语言模型，其整体架构可概括为“统一tokenization -> LLM自回归生成 -> detokenization合成”。 ...

语音/音频论文速递 2026-05-02

语音/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜（4 篇，按分数降序）排名论文评分分档主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #数据集 #鲁棒性 #英语变体 ✅ 6.5/10 | 前25% | #语音识别 | #基准测试 | #数据集 #鲁棒性 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eugen Beck（AppTek.ai）通讯作者：未说明作者列表：Eugen Beck（AppTek.ai）、Sarah Beranek（AppTek.ai）、Uma Moothiringote（AppTek.ai）、Daniel Mann（AppTek.ai）、Wilfried Michel（AppTek.ai）、Katie Nguyen（AppTek.ai）、Taylor Tragemann（AppTek.ai） 💡 毒舌点评亮点：这篇论文精准地指出了当前ASR评测的一个核心痛点（用短读音、无口音标注的基准来评估需要处理长对话、多口音的系统），并花大力气构建了一个规模空前、针对性极强的“考卷”，其14种英语变体和128.6小时的体量本身就是一个重要贡献。短板：评测对象完全是“角色扮演”的对话，这虽然比朗读录音更真实，但与真实呼叫中心场景中用户可能存在的高度紧张、方言极重、信号更差等情况仍有差距，其生态效度可以打个问号。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的具体链接。论文评估了多个开源ASR模型，但未提供其下载地址，仅在参考文献中引用了相关工作。数据集：AppTek Call-Center Dialogues 数据集。获取链接：https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议：Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)。协议链接：https://creativecommons.org/licenses/by-sa/4.0/ Demo：论文中未提及。复现材料：论文中未提及具体的训练配置或检查点。但提到了以下评估与归一化材料：论文提供了一个数据集专用的归一化脚本（normalization script），用于在评估前统一处理模型输出，但未提供该脚本的直接链接。论文引用了 Hugging Face OpenASR leaderboard 的评估协议。论文中引用的开源项目： Silero VAD：用于音频分割。链接：https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard：用于定义评分协议。链接：https://huggingface.co/spaces/open_asr_leaderboard OpenAI GPT5.2：用于论文校对。论文引用为 [singh2025openaigpt5card]，未提供直接链接。 gpt-oss-120B：本地用于生成评分归一化映射文件和验证拼写。论文引用为 [openai2025gptoss120bgptoss20bmodel]，未提供直接链接。补充信息模型架构补充：分析结果中提到“未提出新的模型架构”，这是正确的，但遗漏了论文对所评测的各类ASR系统架构的简要归类与共性说明。论文在引言和基准测试部分指出，所评测的系统（如Parakeet, Canary, Qwen3-ASR, Whisper, Granite等）多为自回归或端到端模型，并严重依赖外部语音活动检测（VAD）或固定分割进行预处理。这一共性是理解为何“分割策略”成为核心评测变量的模型基础，也是论文评估框架设计的动机之一。 ...

HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics

📄 HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics #语音识别 #模型评估 #数据集 #法语 ✅ 7.0/10 | 前50% | #语音识别 | #模型评估 | #数据集 #法语 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Thibault Bañeras Roux（Nantes University, LS2N）通讯作者：未说明作者列表：Thibault Bañeras Roux（Nantes University, LS2N）、Jane Wottawa（Le Mans University, LIUM）、Mickael Rouvier（Avignon University, LIA）、Teva Merlin（Avignon University, LIA）、Richard Dufour（Nantes University, LS2N） 💡 毒舌点评亮点：论文构建了一个稀缺的、专注于人类感知的法语ASR错误转录数据集（HATS），并通过精心设计的“困难选择”实验协议，系统性地评估了多种现有指标（从WER到BERTScore）与人类判断的相关性，为该领域提供了宝贵的基准和洞见。短板：研究结论严重受限于单一语言（法语）和特定数据集（REPERE），其发现能否泛化到其他语言或错误类型存疑；此外，数据集规模（1000个三元组）对于建立普适性结论可能稍显不足。 ...

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Mingchen Shao（西北工业大学）通讯作者：Lei Xie（西北工业大学）作者列表：Mingchen Shao（西北工业大学）、Hang Su（独立研究者）、Wenjie Tian（西北工业大学）、Bingshen Mu（西北工业大学）、Zhennan Lin（西北工业大学）、Lichun Fan（独立研究者）、Zhenbo Luo（独立研究者，清华大学相关）、Jian Luan（独立研究者）、Lei Xie（西北工业大学） 💡 毒舌点评这篇论文的亮点在于其“庖丁解牛”式的系统设计：面对长音频时间感知这一老大难问题，没有硬磕模型本身，而是从数据、评测、推理范式三个层面给出了一套“组合拳”，尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而，其短板也很明显：框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战，且最终性能的天花板依然受限于所采用的骨干模型（Qwen3-Omni）的基础能力。 🔗 开源详情代码：论文承诺开源，并提供了GitHub仓库链接：https://github.com/alanshaoTT/LAT-Audio-Repo。模型权重：论文提及基于Qwen3-Omni-30B进行训练，但未明确说明最终模型权重是否开源。根据仓库名推测，模型权重可能也会开源。数据集：LAT-Chronicle数据集和LAT-Bench基准承诺开源，但未说明具体获取方式（如需申请或直接下载）。 Demo：论文中未提及提供在线演示。复现材料：论文提供了详细的三阶段训练策略、关键超参数（学习率、批大小、组大小）、奖励函数设计以及数据集的构成统计，复现材料较为充分。引用的开源项目/工具：骨干模型：Qwen3-Omni-30B-A3B-Instruct (Team, 2025c) 训练框架：Swift (Zhao et al., 2025) 对比模型/工具：Audio-Flamingo3 (Goel et al., 2025)、Gemini系列 (Team, 2025a)、Step-Audio-R1.1 (Tian et al., 2025)、Time-Audio (Wang et al., 2026) 评估指标：FENSE (Zhou et al., 2022; Dinkel et al., 2025) 原子标注中使用的模型：Gemini-2.5-Pro、LLM-ForceAligner (Mu et al., 2026) 强化学习算法：Group Relative Policy Optimization (Shao et al., 2024) 📌 核心摘要本文针对大型音频语言模型在长音频理解任务（尤其是需要精确时间感知的任务）中性能显著下降的问题，提出了一套综合解决方案。 ...

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition

📄 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition #语音识别 #数据集 #基准测试 #鲁棒性 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Doyeop Kwak（韩国高等科技院 KAIST）通讯作者：未明确标注，根据惯例和论文末位，可能为 Joon Son Chung（韩国高等科技院 KAIST）作者列表：Doyeop Kwak（韩国高等科技院 KAIST）、Jeongsoo Choi（韩国高等科技院 KAIST）、Suyeon Lee（韩国高等科技院 KAIST）、Joon Son Chung（韩国高等科技院 KAIST） 💡 毒舌点评亮点：精准地切中了当前AVSR评测体系的一个真实痛点——现有主流基准过于“干净”和饱和，难以评估视觉信息的真正价值，并为此提供了从构建协议到失真测试集的一整套标准化解决方案，实用性极强。短板：作为一项数据集/基准工作，其学术贡献主要在于“整合”和“定义”，在模型或算法层面并无直接创新；对基准难度的分析虽充分，但最终仍依赖现有模型来展示，未能提出新的分析范式。 🔗 开源详情代码：https://github.com/kaistmm/VoxMM 模型权重：论文中提及使用了官方公开发布的 AV-HuBERT、Auto-AVSR 和 Llama-AVSR 检查点，但未提供这些检查点的具体获取链接。数据集：VoxMM 官方项目主页（包含 LRS-VoxMM 下载说明）：https://mm.kaist.ac.kr/projects/voxmm Demo：论文中未提及复现材料：论文中提及复现了 Auto-AVSR 模型 (Auto-AVSR*)，但未提供具体的训练配置文件、复现检查点或详细附录的链接。论文中引用的开源项目： VoxMM 预处理工具：https://github.com/kaistmm/VoxMM DEMAND 噪声数据库：论文中提及用于加性噪声合成，但未提供具体链接。 Wav2vec 2.0 LARGE 模型：论文中提及用于词级时间戳的强制对齐，但未提供具体链接。 SyncNet：论文中提及用于同步性置信度评分，但未提供具体链接。 LRS2/LRS3 数据集：论文中多次提及并比较，但未提供其原始数据集链接。 The request was rejected because it was considered high risk ...