Posts

Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding

📄 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding #多模态模型 #音频分类 #音视频 #预训练 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Keane Ong（MIT；National University of Singapore）通讯作者：未说明作者列表：Keane Ong（MIT；National University of Singapore）、Wei Dai（MIT）、Carol Li（MIT）、Dewei Feng（MIT）、Hengzhi Li（MIT；Imperial College London）、Jingyao Wu（MIT）、Jiaee Cheong（Harvard University）、Rui Mao（Nanyang Technological University）、Gianmarco Mengaldo（National University of Singapore）、Erik Cambria（Nanyang Technological University）、Paul Pu Liang（MIT） 💡 毒舌点评亮点：在行为理解领域，该工作首次系统性地将分散在情感、认知、病理和社会过程等多个维度的异构数据集、任务和评估指标统一成一个标准化基准，为构建行为基础模型提供了至关重要的“数据-任务-评估”三位一体的基础设施。短板：论文更像是一个扎实的工程整合工作，其核心创新在于“统一”而非提出解决行为理解某一具体子任务（如深度讽刺识别或复杂社交推理）的新算法或架构，对于寻求领域内技术深度突破的读者来说，可能略显“广而不深”。 ...

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xiang Li（北京邮电大学网络与交换技术国家重点实验室，深圳大数据研究院，香港中文大学（深圳），深圳环域研究院）通讯作者：Jiale Han（香港科技大学）作者列表：Xiang Li（北京邮电大学网络与交换技术国家重点实验室，深圳大数据研究院，香港中文大学（深圳），深圳环域研究院），Jiabao Gao（香港中文大学（深圳）），Sipei Lin（香港中文大学（深圳）），Xuan Zhou（香港中文大学（深圳）），Chi Zhang（香港中文大学（深圳）），Bo Cheng（北京邮电大学网络与交换技术国家重点实验室），Jiale Han（香港科技大学），Benyou Wang（深圳大数据研究院，香港中文大学（深圳），深圳环域研究院） 💡 毒舌点评亮点是首次对语音到语音系统进行了图灵测试，并构建了一个包含18个细粒度维度的诊断框架，不仅指出了“通过/失败”，更深入剖析了“为何失败”，将瓶颈精准定位在非语义层面。短板在于，作为开创性工作，其评估的S2S系统数量和对话场景多样性仍有限，且伪人对话的脚本部分由GPT-4o生成，可能引入了额外的偏差。 🔗 开源详情代码：论文中提供了GitHub仓库链接：https://github.com/Carbohydrate1001/Turing-Test。模型权重：论文中明确提到公开了模型（“Our code, dataset, and model are publicly available”），但未直接提供权重下载链接，需从上述GitHub仓库获取。数据集：论文中明确提到公开了数据集，同样需从上述GitHub仓库获取。 Demo：论文中提到了部署了一个游戏化的在线评测平台，但未提供公开的在线演示链接。复现材料：提供了极其详细的复现信息，包括：数据收集的完整流程、参与者画像、初始化策略（附录B）。 Turing测试平台的设计细节（附录C）。 18个细粒度维度的定义、标注指南、标注员信息及质量保证流程（附录D）。 AI评委模型的训练框架、嵌入读取策略消融、模型消融、超参数调优（网格搜索与敏感性分析）的完整细节（附录E）。论文中引用的开源项目：论文在构建伪人对话数据集时，引用了两个开源TTS模型：Nari Dia-1.6B (nari-labs, 2025) 和 Spark-TTS (Wang et al., 2025c)。在评估模型泛化性时，引用了CosyVoice2、Fisher和MultiDialog数据集。 📌 核心摘要本文旨在回答一个关键问题：当前的语音到语音（S2S）系统能否像人类一样进行对话？为解决此问题，作者首次对S2S系统实施了图灵测试。核心方法是构建一个包含人-人、人-机和伪人（TTS合成）对话的高质量数据集，通过一个游戏化的在线平台收集了近3000次人类判断。与已有工作相比，新在于将图灵测试范式首次全面引入端到端S2S评估，并超越二元通过/失败的结论。主要实验结果显示，所有评估的9个最先进的S2S系统均未通过图灵测试，成功率最高仅为0.31（人类为0.87）。为了诊断失败原因，论文提出了一个包含5大类18个细粒度维度的“拟人度”分类法，并对数据进行了人工标注。分析表明，当前S2S系统的瓶颈不在语义理解（如逻辑连贯性、记忆一致性接近人类水平），而在于韵律特征（如节奏、重音）、情感表达不足以及过度恭维、书面化的“机械人格”。此外，论文探索了使用AI作为评委的可能性，发现9个现成多模态模型表现不佳，因此提出了一个基于Qwen2.5-Omni微调的可解释评委模型，该模型先预测18个细粒度维度分数，再通过线性分类器做出人/机判断，其在测试集上的二分类准确率达到96.05%，显著优于人类评委（72.84%）和基线模型。这项工作的意义在于为S2S系统建立了一个系统化的拟人度评估与诊断框架，并指明了超越语义理解、在副语言和情感个性化方面突破的研究方向。主要局限性是评估的系统和场景覆盖范围可能无法代表整个S2S领域，且伪人对话的脚本部分依赖大语言模型生成。 ...

ICLR 2026 - 动作生成论文列表

ICLR 2026 - 动作生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Gener 7.5分前25% 📋 论文详情 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评 ...

ICLR 2026 - 图像生成论文列表

ICLR 2026 - 图像生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 A Hidden Semantic Bottleneck in Conditional Embeddings of Di 8.5分前25% 📋 论文详情 🥇 A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers 🔥 8.5/10 | 前25% | #图像生成 | #扩散模型 | #多任务学习 #模型评估 👥 作者与机构第一作者：Trung X. Pham（韩国科学技术院，KAIST）通讯作者：Chang D. Yoo（韩国科学技术院，KAIST）作者列表：Trung X. Pham（KAIST）、Kang Zhang（KAIST）、Ji Woo Hong（KAIST）、Chang D. Yoo（KAIST） 💡 毒舌点评本文首次系统性地揭示了扩散Transformer条件嵌入中高达99%的角相似性和超过66%的维度冗余，这是一个反直觉且重要的发现，为模型压缩和条件机制设计指明了新方向。但遗憾的是，论文对“为何如此”的理论解释仍停留在假设阶段（如“训练动态导致稳定信号”），缺乏更深入的数学分析或机制性验证，使得这个精彩观察的理论深度打了折扣。 ...

ICLR 2026 - 基准测试 #数据集论文列表

ICLR 2026 - 基准测试 #数据集共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling w 8.0分前25% 📋 论文详情 🥇 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）通讯作者：Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）作者列表：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院，中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院，中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所） 💡 毒舌点评 ...

ICLR 2026 - 基准测试论文列表

ICLR 2026 - 基准测试共 9 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluatio 8.5分前25% 🥈 MCIF: Multimodal Crosslingual Instruction-Following Benchmar 8.5分前25% 🥉 WearVox: An Egocentric Multichannel Voice Assistant Benchmar 8.0分前25% 4. AudioTrust: Benchmarking The Multifaceted Trustworthiness of 7.5分前25% 5. XModBench: Benchmarking Cross-Modal Capabilities and Consist 7.5分前25% 6. MMSU: A Massive Multi-task Spoken Language Understanding and 7.5分前50% 7. VideoMathQA: Benchmarking Mathematical Reasoning via Multimo 7.0分前25% 8. EchoMind: An Interrelated Multi-level Benchmark for Evaluati 7.0分前25% 9. STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 6.5分前25% 📋 论文详情 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 ...

ICLR 2026 - 声源定位论文列表

ICLR 2026 - 声源定位共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning 8.0分前25% 📋 论文详情 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #空间音频 👥 作者与机构第一作者：Min-Sang Baek（Hanyang University, Department of Electronic Engineering）通讯作者：Joon-Hyuk Chang（Hanyang University, Department of Electronic Engineering）作者列表：Min-Sang Baek（Hanyang University, Department of Electronic Engineering）、Gyeong-Su Kim（Hanyang University, Department of Electronic Engineering）、Donghyun Kim（Hanyang University, Department of Electronic Engineering）、Joon-Hyuk Chang（Hanyang University, Department of Electronic Engineering） 💡 毒舌点评 ...

ICLR 2026 - 多模态推理论文列表

ICLR 2026 - 多模态推理共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in 7.5分前25% 📋 论文详情 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 👥 作者与机构第一作者：Yucheng Wang, Yifan Hou（苏黎世联邦理工学院计算机系，标注为同等贡献）通讯作者：Mrinmaya Sachan（苏黎世联邦理工学院计算机系）作者列表：Yucheng Wang（苏黎世联邦理工学院计算机系）、Yifan Hou（苏黎世联邦理工学院计算机系）、Aydin Javadov（苏黎世联邦理工学院计算机系）、Mubashara Akhtar（苏黎世联邦理工学院计算机系）、Mrinmaya Sachan（苏黎世联邦理工学院计算机系） 💡 毒舌点评亮点：论文构建了一套精妙的逻辑推理框架，将模态交互分解为六种可控模式，这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板：依赖高度简化的合成逻辑数据来揭示“根本瓶颈”，其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中，存疑。 🔗 开源详情 ...

ICLR 2026 - 多模态模型论文列表

ICLR 2026 - 多模态模型共 5 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And 8.5分前25% 🥈 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models wi 8.0分前25% 🥉 OmniVinci: Enhancing Architecture and Data for Omni-Modal Un 7.5分前25% 4. Seeing, Listening, Remembering, and Reasoning: A Multimodal 7.5分前25% 5. TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR 7.0分前25% 📋 论文详情 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 ...

ICLR 2026 - 序列解耦论文列表

ICLR 2026 - 序列解耦共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 DiffSDA: Unsupervised Diffusion Sequential Disentanglement A 8.0分前25% 📋 论文详情 🥇 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities 🔥 8.0/10 | 前25% | #序列解耦 | #扩散模型 | #自监督学习 #多模态模型 👥 作者与机构第一作者：Hedi Zisling (Ben-Gurion University) 通讯作者：Omri Azencot (Ben-Gurion University) 作者列表：Hedi Zisling (Ben-Gurion University)、Ilan Naiman (Ben-Gurion University)、Nimrod Berman (Ben-Gurion University)、Supasorn Suwajanakorn (VISTEC)、Omri Azencot (Ben-Gurion University) 💡 毒舌点评 ...