TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #多模态模型 #音视频 #自注意力 #端到端 #基准测试 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学)(表示同等贡献) 通讯作者:Yoori Oh†(首尔大学), Joonseok Lee†(首尔大学)(†表示通讯作者) 作者列表:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学), Yejin Kim(首尔大学), Yoori Oh(首尔大学), Joonseok Lee(首尔大学) 💡 毒舌点评 论文提出了一个设计精巧的多模态视频摘要模型TripleSumm,其自适应帧级融合机制和引入的大规模三模态数据集MoSu是扎实的贡献,显著推动了视频摘要领域的多模态研究。然而,其核心创新点(自适应注意力融合)在多模态学习中并非前所未见,且在标准小数据集(SumMe/TVSum)上的绝对性能提升幅度有限,新数据集的“Most Replayed”监督信号本身的普适性也有待更广泛验证。 🔗 开源详情 代码:论文提供了GitHub代码仓库链接:https://github.com/smkim37/TripleSumm。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:MoSu数据集已公开,论文提供了获取方式。 Demo:论文中未提及在线演示。 复现材料:论文在附录中提供了非常详细的超参数设置(表I)、摘要生成算法、数据预处理细节、评估协议说明以及各种消融实验的配置,复现信息充分。 论文中引用的开源项目:依赖了预训练模型CLIP、RoBERTa、AST以及用于生成文本描述的Qwen2.5-VL。 📌 核心摘要 要解决什么问题? 现有视频摘要方法通常采用静态或模态无关的融合策略,无法动态捕捉不同视频帧中视觉、文本和音频模态重要性的变化,导致理解复杂视频能力不足。同时,缺乏包含三模态特征的大规模基准数据集也阻碍了该领域的发展。 方法核心是什么? 论文提出了TripleSumm架构,其核心包括:a) 多尺度时间块,采用层次化的滑动窗口自注意力,从局部到全局捕捉视频的时序模式;b) 跨模态融合块,使用一个中性的“融合令牌”作为查询,动态地对三种模态的特征进行加权聚合,实现帧级别的自适应融合。 与已有方法相比新在哪里? 相比于现有模态静态或简单融合的方法,TripleSumm在帧级别动态地学习并分配各模态的权重。此外,论文首次提出了大规模、三模态的视频摘要基准数据集MoSu。 主要实验结果如何? TripleSumm在四个基准测试上均达到了SOTA性能。在提出的MoSu数据集上,其Kendall‘s τ和Spearman’s ρ分别达到0.351和0.472,大幅超越次优方法CFSum(0.277/0.374)。在Mr. HiSum,SumMe(TVT)和TVSum(TVT)数据集上,其全模型版本也均取得最优或并列最优的相关性指标。消融实验证实了三模态输入、层次化窗口和自适应融合机制的有效性。 实际意义是什么? 该工作推动了视频摘要向更符合人类多模态感知的方向发展,提出的MoSu数据集和TripleSumm模型为未来研究提供了可靠的基础和强大的基线,有助于从海量视频中高效提取关键信息。 主要局限性是什么? 论文指出,当前遵循的“帧重要性评分-分割-选择”流程并非端到端可训练,未来可探索直接学习选择连贯摘要片段的端到端模型。此外,数据集的监督信号基于聚合的“Most Replayed”数据,可能无法完全反映个体或多样化的用户需求。 🏗️ 模型架构 TripleSumm是一个用于视频摘要的端到端多模态模型,其整体架构如图2所示。其设计核心是将时序建模与跨模态融合解耦,并逐层进行“精炼-融合”的迭代处理。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 332 words

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。 🔗 开源详情 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。 Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 解决的问题:现代文本转语音(TTS)系统已能生成以假乱真的语音,导致传统主观评估(如MOS)难以跨研究对比,而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。 方法核心:提出TTSDS2,一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离,综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。 与已有的方法相比新在哪里: 特征集升级:相较于TTSDS,替换了表现不佳的特征(如用Whisper和wav2vec 2.0的ASR激活替代WER),并为多语言场景引入了mHuBERT-147和XLSR-53等模型。 跨域鲁棒性验证:在CLEAN(干净朗读)、NOISY(噪声)、WILD(野生/对话)、KIDS(儿童语音)四个不同域上验证了指标与人类评分的相关性。 自动化多语言基准:发布了一个可重复运行的流水线,用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名,覆盖14种语言。 主要实验结果: 在20个开源TTS系统、16个客观指标的对比中,TTSDS2是唯一一个在所有4个域、3种主观评分(MOS, CMOS, SMOS)上均取得Spearman相关系数ρ > 0.50的指标,平均ρ ≈ 0.67。 与次优的说话人相似度指标(RawNet3, X-Vector)平均相关性0.6相比,TTSDS2更具一致性和连续性。 消融实验表明,简单的因子平均策略比学习权重策略在未见域上泛化更好。 多语言TTSDS2分数与语言学距离(Uriel+)相关性(ρ = -0.51)高于原版TTSDS(ρ = -0.39)。 Metric Clean (MOS) Clean (CMOS) Clean (SMOS) Noisy (MOS) Noisy (CMOS) Noisy (SMOS) Wild (MOS) Wild (CMOS) Wild (SMOS) Kids (MOS) Kids (CMOS) Kids (SMOS) TTSDS2 (Ours) 0.75 0.69 0.73 0.59 0.54 0.71 0.75 0.71 0.75 0.61 0.50 0.70 TTSDS (Original) 0.60 0.62 0.52 0.49 0.61 0.66 0.67 0.57 0.67 0.70 0.52 0.60 RawNet3 0.36 0.26 0.52 0.44 0.37 0.82 0.85 0.80 0.64 0.73 0.61 0.77 X-Vector 0.46 0.42 0.56 0.40 0.29 0.77 0.82 0.82 0.62 0.70 0.57 0.75 SQUIM 0.68 0.46 0.37 0.48 0.48 0.60 0.62 0.75 0.79 0.57 0.55 0.45 表:主要客观指标与主观评分的Spearman相关系数对比(节选)。TTSDS2在所有条件下均保持高于0.50的强相关。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 365 words

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #探针评估 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #音频分类 | #探针评估 | #自监督学习 #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lukas Rauch (卡塞尔大学) 通讯作者:未说明 作者列表:Lukas Rauch (卡塞尔大学), René Heinrich (卡塞尔大学, 弗劳恩霍夫IEE), Houtan Ghaffari (根特大学), Lukas Miklautz (MPI of Biochemistry), Ilyass Moummad (INRIA Montpellier), Bernhard Sick (卡塞尔大学), Christoph Scholz (卡塞尔大学, 弗劳恩霍夫IEE) 💡 毒舌点评 亮点:这篇论文做了一件“对”且“必要”的事——它系统性地指出并验证了音频SSL领域普遍存在的“用线性探针评估却不靠���”的核心症结(池化瓶颈),并给出了一个简洁有效的解决方案,让探针评估重获可信度。实验规模和设计的严谨性也值得称赞。 短板:其提出的“二值化原型探针”本质上是现有原型网络的变体和简化,在方法创新深度上稍显不足,更像是一个工程上优化得很好的“修补”方案。研究完全基于冻结的声谱图编码器,其结论在更广泛的音频表示(如波形、离散token)上的普适性有待验证。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 300 words

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #基准测试 #多模态模型 #数学推理 #视频理解 ✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed(MBZUAI) 通讯作者:未明确说明(论文未明确指出通讯作者) 作者列表:Hanoona Rasheed(MBZUAI), Abdelrahman Shaker(MBZUAI), Anqi Tang(MBZUAI), Muhammad Maaz(MBZUAI), Ming-Hsuan Yang(University of California Merced, Google Research), Salman Khan(Australian National University), Fahad Shahbaz Khan(Linköping University) 💡 毒舌点评 亮点:数据集构建过程堪称“教科书级别”的严谨,从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准,为后续研究立下了标杆。短板:作为一篇“Benchmarking”论文,其提出的评估框架(如CoT评分使用Qwen-3-4B作为Judge)虽然验证了鲁棒性,但可能引入新的偏见或被未来更强的模型“规避”,且评估结果仍高度依赖现有模型的能力天花板。 🔗 开源详情 代码:提供。论文明确给出了代码仓库链接:https://mbzuai-oryx.github.io/VideoMathQA,并说明已将VideoMathQA的实现集成到lmms-eval框架中。 模型权重:未提供。本文是基准测试论文,不涉及提出新的模型。 数据集:提供。论文声明数据集公开,可通过上述GitHub页面获取。 Demo:未提及在线演示。 复现材料:提供了充分的复现细节,包括:完整的模型评估配置(输入帧数、解码参数)、所有使用的提示词模板(CoT、后处理、步骤评估、错误分析等)、评估硬件环境说明。 论文中引用的开源项目/工具:主要引用了 lmms-eval 作为评估框架,vLLM 用于语言模型推理,以及多个被评估的开源模型(如Qwen2.5-VL, InternVL系列等)。 📌 核心摘要 本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准,包含420个经过专家标注的视频问答对,覆盖10个数学领域,视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注(共2,945步),并设计了三种核心推理类型:直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比,VideoMathQA的创新在于其专注于需要综合视觉、文本(字幕/板书)和音频(讲解)信息,并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型,包括闭源(如GPT-o4-mini)和开源模型(如Qwen2.5-VL-72B),结果发现:1) 当前模型性能与人类水平(80.7%)存在巨大差距,最强的GPT-o4-mini在多二进制评估(CoT+Sub)下仅达44.8%;2) 模型性能随规模提升而提高,但新架构的小模型可超越旧架构的大模型;3) 字幕对具备推理能力的大模型增益显著;4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小,且构建过程人力成本极高。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 220 words

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #模型评估 #基准测试 #语音大模型 #数据集 #开源工具 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳)) 通讯作者:未明确说明(根据惯例和贡献推断,Zhizheng Wu可能性较大) 作者列表:Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学(深圳) ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.(星尘智能科技有限公司) 💡 毒舌点评 这篇论文精准地刺中了当前语音大模型(SLM)在走向多用户共享场景时一个被严重忽视的“阿喀琉斯之踵”——交互隐私。其最大亮点在于不仅诊断了“病症”(模型无法将语音身份与隐私规则关联),更通过精心设计的三层评估体系“量化了病情”,并指出了“病理”(是上下文推理能力不足,而非基础对话能力问题)。短板在于,目前提出的“药方”(监督微调)虽有效但相对传统,未来如何让模型在更复杂的社交场景中自主、灵活地做出符合伦理的隐私决策,而非仅机械遵循规则,仍是开放挑战。 🔗 开源详情 代码:论文中未提及代码仓库链接。但根据论文末尾的声明“we are releasing the VoxPrivacy benchmark, the large-scale training set, and the fine-tuned model”,预计相关资源会通过项目页面(https://myflashbarry.github.io/VoxPrivacy.github.io/)或代码托管平台发布。 模型权重:是。论文明确声明将公开其微调后的模型(Ours: Kimi-Audio-sft)。 数据集:是。论文明确声明将公开VoxPrivacy基准测试(32小时数据)和4000小时的大规模训练集。 Demo:是。提供了在线演示页面:https://myflashbarry.github.io/VoxPrivacy.github.io/ 复现材料:论文提供了丰富的复现信息,包括:完整的数据构建流程(附录A给出了生成提示词)、评估标准与LLM评委提示词(附录F、G)、训练超参数(8xA800 GPU,lr=1e-5等)、以及详细的实验设置。 论文中引用的开源项目: 模型:Kimi-Audio, Qwen2.5-Omni, MiniCPM2.6-o, Gemini系列, Deepseek系列, Qwen2Audio, Voxtral3B, Baichuan-Omni-1.5, GLM4Voice。 工具/数据集:CosyVoice2 (TTS), Whisper-large-v3 (ASR), AISHELL-2, WenetSpeech, LibriSpeech, CommonVoice, Fleurs, SAVEE, IEMOCAP, ESD, RAVDESS, MELD, CREMA-D, ESC50, AudioSet, FSD50K, VocalSound, UrbanSound8K, ClothoAQA, MusicAVQA, AVQA等。 📌 核心摘要 解决的问题:本文针对语音语言模型(SLM)从个人设备走向智能家居、车载等共享多用户环境时面临的新挑战——“交互隐私”问题,即模型需要区分不同用户,防止将一个用户的私人信息泄露给另一个用户。现有基准测试忽略了这种基于说话人身份的条件隐私保护能力评估。 方法核心:提出首个评估交互隐私的基准测试VoxPrivacy。它设计了三个难度递增的层级:Tier 1(直接命令保密)、Tier 2(基于说话人验证的保密)、Tier 3(主动隐私保护)。基于此构建了一个包含7107个样本、32.86小时的双语(中/英)合成数据集,并包含一个由18人录制的真实语音验证子集(Real-VoxPrivacy)。 创新点:首次系统定义和评估SLM的“交互隐私”能力;设计了分层的评估任务以衡量从指令跟随到自主推理的完整能力谱;通过合成数据与真实语音的对齐验证,证明了评估结论的可靠性。 主要实验结果:对9个SLM的评估显示,大多数开源模型在Tier 2/3任务上的准确率接近随机猜测(~50%),表明其根本无法将说话人声音与隐私规则关联。即使是强大的闭源模型(如Gemini-2.5-Pro)在Tier 3(主动推断)上也有明显性能下降。通过对比实验,证明失败根源是“对话上下文处理能力的缺失”,而非基础对话能力。通过微调,本文提出的模型在所有层级上显著优于其他开源模型,达到了与顶级闭源模型相当的水平。关键性能数据对比见下表: Tier 1 任务准确率(%) ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 292 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #基准测试 #多通道 #语音大模型 #音频问答 🔥 8.0/10 | 前25% | #基准测试 | #麦克风阵列 | #多通道 #语音大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta),Yong Xu(Meta),Kai Sun(Meta)(论文明确标注三位为共同第一作者:Joint first author) 通讯作者:未明确说明(但Zhaojiang Lin提供了联系邮箱zhaojiang@meta.com) 作者列表:Zhaojiang Lin(Meta),Yong Xu(Meta),Kai Sun(Meta),Jing Zheng(Meta),Yin Huang(Meta),Surya Teja Appini(Meta),Krish Narang(Meta),Renjie Tao(Meta),Ishan Kapil Jain(Meta),Siddhant Arora(Carnegie Mellon University,标注工作在Meta完成),Ruizhi Li(Meta),Yiteng Huang(Meta),Kaushik Patnaik(Meta),Wenfang Xu(Meta),Suwon Shon(Meta),Yue Liu(Meta),Ahmed A Aly(Meta),Anuj Kumar(Meta),Florian Metze(Meta),Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于首次针对可穿戴场景定义了多通道、自我中心语音助手评测标准,数据基于真实AI眼镜采集,任务设计紧贴现实痛点(如侧向对话拒绝)。短板是数据集规模相对有限(3.8k样本),且评估的大部分现有SLLM只能基于波束成形后的单通道音频输入,未能充分验证多通道架构的潜力,论文中提出的MC WearLlama也仅是案例研究,非核心贡献。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 327 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解 学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书公司) 通讯作者:Weidi Xie(上海交通大学) 作者列表:Jack Hong(小红书公司)、Shilin Yan(小红书公司)、Jiayin Cai(小红书公司)、Xiaolong Jiang(小红书公司)、Yao Hu(小红书公司)、Weidi Xie(上海交通大学) 💡 毒舌点评 这篇论文最大的亮点在于它指出了一个残酷的现实:现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中,表现最好的也只达到了65.1%的准确率,离可靠应用还差得远。然而,它的短板也同样明显:作为一个评测基准论文,它更像是为其他研究者“立规矩”和“出考卷”,本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:公开。论文明确说明WorldSense数据集已公开发布,可在其项目主页和GitHub/HuggingFace获取。 Demo:未提供在线演示链接。 复现材料:提供了详细的评估设置(如帧采样方法、API使用)、评估Prompt模板(附录A.4)和数据集统计信息,足以复现其评估实验。 论文中引用的开源项目:引用了多个被评估的开源模型,如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等,以及数据集来源FineVideo和MusicAVQA。 开源计划:论文中未提及除数据集之外的额外开源计划。 📌 核心摘要 该论文旨在解决当前多模态大语言模型(MLLM)评估中忽略音频模态、场景简单、任务单一的问题。为此,作者提出了WorldSense,这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务,使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频,以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对,确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明,现有模型在真实世界场景下面临巨大挑战,最佳模型Gemini 2.5 Pro的准确率仅为65.1%,而许多开源音视频模型的表现甚至接近随机猜测(约25%)。消融研究证实了原始音频信号比文本转录包含更多信息(如韵律、情感),对提升理解至关重要。该基准旨在推动更全面的多模态理解研究,为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构 本文未提出一个新的模型架构,而是设计了一个用于评估现有模型的基准框架。其核心是评估流程,如下: ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 240 words

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #音频问答 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音频问答 #跨模态 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Xingrui Wang (1. Advanced Micro Devices, 2. Johns Hopkins University) 通讯作者:Jiang Liu (Advanced Micro Devices) 作者列表:Xingrui Wang (Advanced Micro Devices, Johns Hopkins University), Jiang Liu (Advanced Micro Devices), Chao Huang (Advanced Micro Devices, University of Rochester), Xiaodong Yu (Advanced Micro Devices), Ze Wang (Advanced Micro Devices), Ximeng Sun (Advanced Micro Devices), Jialian Wu (Advanced Micro Devices), Alan Yuille (Johns Hopkins University), Emad Barsoum (Advanced Micro Devices), Zicheng Liu (Advanced Micro Devices) 💡 毒舌点评 亮点: 基准设计极其系统且具有诊断性,通过“模态平衡”的六种排列组合,像精密仪器一样能测量出模型对不同模态的“偏科”程度,这是超越简单平均分的深度评测。 短板: 论文将最强的闭源模型(Gemini)作为标杆,但自身并未提出新的模型或算法,因此更像一份详尽的“体检报告”而非“治疗方案”;同时,尽管承诺开源,但评测完全依赖现有模型,缺乏对新模型训练的直接指导细节。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 269 words

语音/音乐/音频论文速递 2026-05-04

语音/音乐/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜(14 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分 前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分 前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分 前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分 前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分 前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分 前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分 前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分 前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分 前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分 前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分 前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分 前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分 前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分 前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

2026-05-04 · 更新于 2026-06-15 · 9 min · 1720 words

语音/音乐/音频论文速递 2026-05-03

语音/音乐/音频论文速递 2026-05-03 共分析 13 篇语音/AI 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 音乐信息检索(2篇) 语音识别(2篇) 音频生成(1篇) 发音错误检测(1篇) 说话人识别(1篇) 音乐理解(1篇) 音频场景理解(1篇) 语音质量评估(1篇) 语音对话系统(1篇) 音频问答(1篇) 音频事件检测(1篇) ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-05-03 · 更新于 2026-06-15 · 8 min · 1688 words