AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #基准测试 | #基准测试 | #模型评估 #音频大模型 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Li(论文中标注为共同第一作者,其机构为清华大学计算机系) 通讯作者:Xinfeng Li(论文中标注为†,其机构为南洋理工大学) 作者列表: Kai Li(清华大学计算机系, Institute for AI, BNRist) Can Shen(北京师范大学-香港浸会大学联合国际学院,BNBU) Yile Liu(早稻田大学,Waseda University) Jirui Han(独立研究者) Kelong Zheng(华中科技大学,HUST) Xuechao Zou(北京交通大学,BJTU) Lionel Z. Wang(未说明具体机构,作者列表归属南洋理工大学) Shun Zhang(清华大学) Xingjian Du(罗切斯特大学) Hanjun Luo(浙江大学) Yingbin Jin(香港理工大学) Xinxin Xing(独立研究者) Ziyang Ma(上海交通大学,及12号单位) Yue Liu(新加坡国立大学) Yifan Zhang(中国科学院,CAS) Junfeng Fang(新加坡国立大学) Kun Wang(南洋理工大学) Yibo Yan(香港科技大学(广州)) Gelei Deng(南洋理工大学) Haoyang Li(香港理工大学) Yiming Li(南洋理工大学) Xiaobin Zhuang(字节跳动) Tianlong Chen(北卡罗来纳大学教堂山分校) Qingsong Wen(松鼠AI学习) Tianwei Zhang(南洋理工大学) Yang Liu(南洋理工大学) Haibo Hu(香港理工大学) Zhizheng Wu(香港中文大学(深圳)) Xiaolin Hu(清华大学计算机系, Institute for AI, BNRist) Eng-Siong Chng(南洋理工大学) Wenyuan Xu(浙江大学) XiaoFeng Wang(南洋理工大学) Wei Dong(南洋理工大学) Xinfeng Li(南洋理工大学) 💡 毒舌点评 本文最大的亮点在于其雄心和系统性:它是第一个为ALLM量身定做可信度评估框架的工作,直指音频模态引入的“非语义”攻击面,如情绪操纵、口音偏见和环境声伪造,这比单纯评估文本安全要深刻得多。然而,其短板也相当明显:作为一个“评估”工作,它严重依赖GPT-4o和Qwen3作为评估器,这本质上是用一个黑箱模型去评判另一个黑箱模型的可信度,其评估结果本身的“可信度”值得打个问号;此外,部分实验(如隐私推断)的自动化评估结果与常识或直觉可能存在偏差(如论文所示,所有模型在隐私推断上几乎全部失败),需要更深入的人类评估来验证。 ...

2026-05-04 · 更新于 2026-05-20 · 3 min · 440 words

Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe

📄 Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe #模型评估 #回归分析 #说话人识别 #特征分析 ✅ 7.5/10 | 前25% | #模型评估 | #回归分析 | #说话人识别 #特征分析 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Gaofei Shen (Tilburg University) 通讯作者:未明确说明(论文提供了所有作者邮箱,但未指定通讯作者。根据惯例,Grzegorz Chrupała 可能为责任作者,但需标注为“未说明”) 作者列表: Gaofei Shen (Tilburg University) Martijn Bentum (Radboud University) Tom Lentz (Tilburg University) Afra Alishahi (Tilburg University) Grzegorz Chrupała (Tilburg University) 💡 毒舌点评 亮点:这篇论文最大的价值在于提供了一个清晰、易用且有统计学支撑的“反向”分析框架(编码探针),巧妙地将特征贡献量化和相关性控制这两个难题捆绑解决,比传统解码探针更能揭示模型内部的“表征预算分配”。 短板:线性回归的假设可能过于简单,难以捕捉Transformer内部复杂的非线性关系,且结论高度依赖于预先定义好的特征集,如果特征集设计有偏,整个分析可能“瞎子摸象”。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 258 words

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音对话系统 #模型评估 #语音情感识别 #音频大模型 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #语音对话系统 #语音情感识别 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Li Zhou(香港中文大学(深圳)) 通讯作者:Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院),Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 作者列表:Li Zhou(香港中文大学(深圳))、Lutong Yu(香港中文大学(深圳))、You Lyu(香港中文大学(深圳))、Yihang Lin(香港中文大学(深圳))、Zefeng Zhao(香港中文大学(深圳))、Junyi Ao(香港中文大学(深圳))、Yuhao Zhang(香港中文大学(深圳))、Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院)、Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 💡 毒舌点评 这篇论文系统性地构建了首个面向语音大模型共情能力的多层级评估基准,设计框架清晰(理解-推理-对话),并通过控制变量的脚本设计(语义中性+语音风格变化)巧妙隔离了文本与声学信息的贡献,实验全面(覆盖12个主流模型)。然而,作为一项纯评估工作,其核心贡献在于“发现差距”而非“提供解决方案”,且基准本身的构建依赖于现成的语音合成工具(如Doubao TTS、GPT-4o)和人工标注,通用性和抗偏倚能力有待更广泛的验证。 🔗 开源详情 代码:论文中提及项目网站 https://hlt-cuhksz.github.io/EchoMind/,并承诺将提供代码,但未给出具体代码仓库链接。 模型权重:不适用。本论文是评估基准,不提出新模型。 数据集:论文明确表示将公开所有构建的数据(音频文件、元数据、标注协议)。获取方式预计通过上述项目网站。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供复现所需的数据、代码和实验配置。附录(A-C)详细描述了数据集构建、任务设计、评估指标、实验设置(提示模板、人工评估流程)等细节,为复现提供了充分信息。 论文中引用的开源项目:主要依赖以下开源工具/模型进行评估:Audio Flamingo 3 (Goel et al., 2025), DeSTA2.5-Audio (Lu et al., 2025), VITA-Audio (Long et al., 2025), LLaMA-Omni2 (Fang et al., 2025), Baichuan-Omni-1.5 (Li et al., 2025), GLM-4-voice (Zeng et al., 2024), OpenS2S (Wang et al., 2025c), Qwen2.5-Omni-7B (Xu et al., 2025), Kimi-Audio (KimiTeam et al., 2025), Step-Audio (Huang et al., 2025b), EchoX (Zhang et al., 2025), GPT-4o-Audio (OpenAI, 2024)。以及用于评估的指标模型:Qwen3-Embedding-0.6B, emotion2vec, Gemini-2.5-Pro。 📌 核心摘要 要解决的问题:现有的语音大模型(SLM)基准测试往往孤立地评估语言理解、声学识别或对话能力,缺乏对模型整合非词汇声学线索(如韵律、情绪、生理信号)以实现共情对话能力的系统性评估。 方法核心:提出了EchoMind基准,这是一个模拟人类共情对话认知过程的层次化评估框架,包含三个相互关联的任务层级:(1)内容与语音理解;(2)整合推理;(3)共情对话生成。所有任务共享语义中性、无情感线索的对话脚本,并通过控制不同的语音风格(目标、替代、中性)来隔离语音表达本身的影响。 与已有方法相比新在哪里:EchoMind是首个专注于评估SLM共情能力、且任务间具有关联性的多层级基准。其创新点在于:(a) 构建了覆盖3大维度、12个细分类别、39种声学属性的共情导向评估框架;(b) 设计了从感知到推理再到生成的递进式任务链,并确保任务共享上下文以支持跨层级相关性分析;(c) 引入了针对对话生成响应的多维度(文本和音频)评估指标。 主要实验结果:对12个先进SLM的测试表明,即使是SOTA模型(如GPT-4o-Audio)也难以在生成响应中有效利用高表现力的声学线索。例如,在依赖声学线索的文本评估维度“语音信息相关性”(CSpeechRel)上,没有任何模型的平均分超过4分(满分5分)。音频层面的“声乐共情得分”(VES)也普遍较低。模型在“语音风格检测”和“背景声音检测”等理解任务,以及“先行事件推断”和“共情响应选择”等推理任务上表现尤其薄弱。 实际意义:该基准为评估和推动SLM向具备真正情感智能的对话系统发展提供了标准化工具,揭示了当前模型在指令遵循、对自然语音变体的鲁棒性以及有效利用声学线索方面的普遍短板,指明了未来研究方向。 主要局限性:a) 基准构建高度依赖TTS合成语音,虽然提供了人工录制子集进行对比,但合成语音的自然度和表现力可能存在上限;b) 评估主要依赖自动化指标(包括用大模型评分),虽然进行了人工评估验证,但主观评估成本高,难以大规模进行;c) 作为评估工作,其本身并不提出解决模型共情能力不足的新方法。 🏗️ 模型架构 本文提出的EchoMind并非一个AI模型,而是一个评估基准框架。其核心是设计一个模拟人类共情对话认知过程的评估流水线。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 261 words

Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding

📄 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding #多模态模型 #音频分类 #音视频 #预训练 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Keane Ong(MIT;National University of Singapore) 通讯作者:未说明 作者列表:Keane Ong(MIT;National University of Singapore)、Wei Dai(MIT)、Carol Li(MIT)、Dewei Feng(MIT)、Hengzhi Li(MIT;Imperial College London)、Jingyao Wu(MIT)、Jiaee Cheong(Harvard University)、Rui Mao(Nanyang Technological University)、Gianmarco Mengaldo(National University of Singapore)、Erik Cambria(Nanyang Technological University)、Paul Pu Liang(MIT) 💡 毒舌点评 亮点:在行为理解领域,该工作首次系统性地将分散在情感、认知、病理和社会过程等多个维度的异构数据集、任务和评估指标统一成一个标准化基准,为构建行为基础模型提供了至关重要的“数据-任务-评估”三位一体的基础设施。短板:论文更像是一个扎实的工程整合工作,其核心创新在于“统一”而非提出解决行为理解某一具体子任务(如深度讽刺识别或复杂社交推理)的新算法或架构,对于寻求领域内技术深度突破的读者来说,可能略显“广而不深”。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 384 words

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 通讯作者:Jiale Han(香港科技大学) 作者列表:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院),Jiabao Gao(香港中文大学(深圳)),Sipei Lin(香港中文大学(深圳)),Xuan Zhou(香港中文大学(深圳)),Chi Zhang(香港中文大学(深圳)),Bo Cheng(北京邮电大学网络与交换技术国家重点实验室),Jiale Han(香港科技大学),Benyou Wang(深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 💡 毒舌点评 亮点是首次对语音到语音系统进行了图灵测试,并构建了一个包含18个细粒度维度的诊断框架,不仅指出了“通过/失败”,更深入剖析了“为何失败”,将瓶颈精准定位在非语义层面。短板在于,作为开创性工作,其评估的S2S系统数量和对话场景多样性仍有限,且伪人对话的脚本部分由GPT-4o生成,可能引入了额外的偏差。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Carbohydrate1001/Turing-Test。 模型权重:论文中明确提到公开了模型(“Our code, dataset, and model are publicly available”),但未直接提供权重下载链接,需从上述GitHub仓库获取。 数据集:论文中明确提到公开了数据集,同样需从上述GitHub仓库获取。 Demo:论文中提到了部署了一个游戏化的在线评测平台,但未提供公开的在线演示链接。 复现材料:提供了极其详细的复现信息,包括: 数据收集的完整流程、参与者画像、初始化策略(附录B)。 Turing测试平台的设计细节(附录C)。 18个细粒度维度的定义、标注指南、标注员信息及质量保证流程(附录D)。 AI评委模型的训练框架、嵌入读取策略消融、模型消融、超参数调优(网格搜索与敏感性分析)的完整细节(附录E)。 论文中引用的开源项目:论文在构建伪人对话数据集时,引用了两个开源TTS模型:Nari Dia-1.6B (nari-labs, 2025) 和 Spark-TTS (Wang et al., 2025c)。在评估模型泛化性时,引用了CosyVoice2、Fisher和MultiDialog数据集。 📌 核心摘要 本文旨在回答一个关键问题:当前的语音到语音(S2S)系统能否像人类一样进行对话?为解决此问题,作者首次对S2S系统实施了图灵测试。核心方法是构建一个包含人-人、人-机和伪人(TTS合成)对话的高质量数据集,通过一个游戏化的在线平台收集了近3000次人类判断。与已有工作相比,新在于将图灵测试范式首次全面引入端到端S2S评估,并超越二元通过/失败的结论。主要实验结果显示,所有评估的9个最先进的S2S系统均未通过图灵测试,成功率最高仅为0.31(人类为0.87)。为了诊断失败原因,论文提出了一个包含5大类18个细粒度维度的“拟人度”分类法,并对数据进行了人工标注。分析表明,当前S2S系统的瓶颈不在语义理解(如逻辑连贯性、记忆一致性接近人类水平),而在于韵律特征(如节奏、重音)、情感表达不足以及过度恭维、书面化的“机械人格”。此外,论文探索了使用AI作为评委的可能性,发现9个现成多模态模型表现不佳,因此提出了一个基于Qwen2.5-Omni微调的可解释评委模型,该模型先预测18个细粒度维度分数,再通过线性分类器做出人/机判断,其在测试集上的二分类准确率达到96.05%,显著优于人类评委(72.84%)和基线模型。这项工作的意义在于为S2S系统建立了一个系统化的拟人度评估与诊断框架,并指明了超越语义理解、在副语言和情感个性化方面突破的研究方向。主要局限性是评估的系统和场景覆盖范围可能无法代表整个S2S领域,且伪人对话的脚本部分依赖大语言模型生成。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 233 words

ICLR 2026 - 模型评估 论文列表

ICLR 2026 - 模型评估 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy 9.5分 前10% 🥈 MAPSS: Manifold-based Assessment of Perceptual Source Separa 8.5分 前25% 📋 论文详情 🥇 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳)) 通讯作者:未明确说明(根据惯例和贡献推断,Zhizheng Wu可能性较大) 作者列表:Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学(深圳) ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.(星尘智能科技有限公司) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 281 words

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation #多模态模型 #基准测试 #音视频联合推理 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jianghan Chao(中国人民大学高瓴人工智能学院) 通讯作者:Ruihua Song(中国人民大学高瓴人工智能学院) 作者列表:Jianghan Chao(中国人民大学高瓴人工智能学院),Jianzhang Gao(中国人民大学高瓴人工智能学院),Wenhui Tan(中国人民大学高瓴人工智能学院),Yuchong Sun(中国人民大学高瓴人工智能学院),Ruihua Song(中国人民大学高瓴人工智能学院),Liyun Ru(百川智能) 💡 毒舌点评 亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架,并巧妙地利用先进的LLM构建了自动化数据生成流水线,在保证质量的同时大幅降低了标注成本;短板在于其基准数据集完全来源于SF20K这一特定影视数据集,可能存在领域偏差,且论文主要贡献是评估基准而非新的建模方法,对推动模型架构本身创新的直接贡献有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:公开。论文提供了项目页面链接 (https://jointavbench.github.io),并说明JointAVBench数据集将在该页面发布。 Demo:未提及。 复现材料:论文在附录中提供了生成流水线各阶段使用的详细Prompt模板(如图10-16),这对于复现其数据生成过程至关重要。 论文中引用的开源项目:引用了多个开源模型(Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等)和工具(PySceneDetect)用于构建基准。 整体开源计划:论文明确表示会发布数据集,但代码和模型权重的开源计划未提及。 📌 核心摘要 要解决什么问题:现有评估全模态大语言模型(Omni-LLMs)的基准测试在音视频关联严格性、音频类型多样性和场景复杂度覆盖方面存在不足,无法有效评估模型真正的联合音视频推理能力。 方法核心是什么:提出JointAVBench,一个从5个认知维度、4种音频类型、3个场景跨度构建的15项任务基准。其核心创新在于设计了一个三阶段半自动化数据生成流水线:首先生成全模态描述(视频、语音、声音事件、音乐、声纹特征),然后利用LLM合成严格依赖音视频联合信息的问答对,最后通过通用到特定的多层质量控制确保数据质量。 与已有方法相比新在哪里:这是首个同时满足“严格音视频关联(AV Correlation Ratio 100%)”、“覆盖四种音频类型(含声纹特征)”和“涵盖单场景、跨场景、全场景”的综合基准。与现有基准(如WorldSense,AV Corr. 62.9%)相比,其问题设计更严谨地强制依赖双模态信息。 主要实验结果如何:在JointAVBench上评估了主流Omni-LLMs、Video-LLMs和Audio-LLMs。结果显示,即使最强的Omni-LLM(Gemini2.5-Pro)平均准确率也仅为62.6%,显著优于单模态模型,但在跨场景推理等任务上表现仍不理想。模型在声纹特征和语音相关任务(如SPER, SPL)上表现最差,在涉及声音事件和音乐的任务上表现相对较好。 实际意义是什么:为评估和推动具有真正音视频联合推理能力的Omni-LLM发展提供了关键的、标准化的评测工具,明确指出了当前模型在处理抽象音频信息(如声纹特征、情感)和复杂跨场景推理时的主要短板。 主要局限性是什么:数据源单一(仅SF20K短片),可能引入领域偏差;设计的任务分类法虽全面但无法穷尽所有音视频推理能力;受计算资源限制,实验评估的模型数量有限。 🏗️ 模型架构 本文并非提出一个新的模型架构,而是设计一个评估基准。其核心贡献在于数据生成与质量控制流水线。论文详细描述的流水线架构如下: ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 358 words

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #多模态模型 #自监督学习 #跨模态检索 #零样本 #模型评估 ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Chiraag Kaushik(Georgia Institute of Technology, School of Electrical and Computer Engineering) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Chiraag Kaushik(Georgia Institute of Technology)、Davis Barch(Dolby Laboratories)、Andrea Fanelli(Dolby Laboratories) 💡 毒舌点评 这篇论文理论与实践结合得不错,Theorem 1为“分裂字典”问题提供了理论保证,而提出的组稀疏+掩码方案在CLIP/CLAP上也确实有效提升了多模态概念的数量和语义性。但最大的短板是实验上缺乏代码开源,对于一篇方法论论文来说,这大大削弱了其即时影响力和社区复现验证的价值,使得“方法有效性”部分打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开训练好的SAE/GSAE/MGSAE模型权重。 数据集:使用了公开数据集(CC3M, JamendoMaxCaps, MusicBench等),论文中未说明是否提供额外的处理脚本。 Demo:未提及在线演示。 复现材料:论文在附录A.2中提供了较为详细的实验设置,包括数据集、超参数范围选择方法、训练步数等,有助于复现。 论文中引用的开源项目:引用了dictionary_learning工具库(Marks et al., 2024)作为TopK SAE的实现基础。 📌 核心摘要 这篇论文旨在解决稀疏自编码器(SAE)应用于多模态对齐嵌入(如CLIP)时产生的“分裂字典”问题,即学习到的稀疏特征大多只对单一模态激活,损害了跨模态对齐。核心方法包括:理论上证明了在对齐嵌入空间上,存在比分裂字典对齐性更好的非分裂字典;提出组稀疏自编码器(GSAE)和掩码组稀疏自编码器(MGSAE),通过组稀疏损失(鼓励配对样本的稀疏码具有相同支撑集)和跨模态随机掩码来引导学习多模态字典。与标准SAE相比,该方法显著增加了跨模态激活的神经元数量,减少了“死神经元”,并提升了跨模态零样本任务的性能。例如,在CLIP图像/文本任务上,MGSAE在CIFAR-10上的零样本分类准确率达到84.2%,比标准TopK SAE高出18.5个百分点;在CLAP音频/文本任务上,MGSAE在NSynth乐器分类上达到35.4%,远超SAE的26.5%。该工作的实际意义在于为多模态模型的可解释性分析和可控生成提供了更好的分解工具,其主要局限是依赖配对的多模态数据进行训练,且未提供开源代码。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 290 words

MAPSS: Manifold-based Assessment of Perceptual Source Separation

📄 MAPSS: Manifold-based Assessment of Perceptual Source Separation #模型评估 #自监督学习 #信号处理 #语音分离 #音频质量 🔥 8.5/10 | 前25% | #模型评估 | #自监督学习 | #信号处理 #语音分离 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Amir Ivry(Technion - Israel Institute of Technology, Electrical and Computer Engineering) 通讯作者:未明确指定(根据邮箱顺序推测为Amir Ivry) 作者列表:Amir Ivry(Technion - Israel Institute of Technology)、Samuele Cornell(Carnegie Mellon University, Language Technologies Institute)、Shinji Watanabe(Carnegie Mellon University, Language Technologies Institute) 💡 毒舌点评 亮点在于其优雅的数学框架(流形+马氏距离)将“分离度”和“保真度”评估解耦,并为每个测量值提供了理论误差边界,这在音频评估指标中非常罕见。然而,其性能高度依赖一个预先定义的、手工设计的“失真库”来构建感知流形,这似乎将评估的泛化能力瓶颈从模型转移到了这个失真库的覆盖面上,且对时间对齐的敏感性可能限制其在实际延迟系统中的应用。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 237 words

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统 学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者:未明确说明(论文中未以“Corresponding author”标注单独作者,但提供了多个联系邮箱) 作者列表: Run Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Xiaobo Xia (新加坡国立大学, 中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院, 中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Min Yang (中国科学院深圳先进技术研究院, 深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评 亮点在于论文提出了一个干净利落的统一框架(DFM),避免了自回归范式在理解/生成任务间的先天矛盾,并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力(如文本生成图像)的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖,且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 316 words