Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding

📄 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding #多模态模型 #音频分类 #音视频 #预训练 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Keane Ong(MIT;National University of Singapore) 通讯作者:未说明 作者列表:Keane Ong(MIT;National University of Singapore)、Wei Dai(MIT)、Carol Li(MIT)、Dewei Feng(MIT)、Hengzhi Li(MIT;Imperial College London)、Jingyao Wu(MIT)、Jiaee Cheong(Harvard University)、Rui Mao(Nanyang Technological University)、Gianmarco Mengaldo(National University of Singapore)、Erik Cambria(Nanyang Technological University)、Paul Pu Liang(MIT) 💡 毒舌点评 亮点:在行为理解领域,该工作首次系统性地将分散在情感、认知、病理和社会过程等多个维度的异构数据集、任务和评估指标统一成一个标准化基准,为构建行为基础模型提供了至关重要的“数据-任务-评估”三位一体的基础设施。短板:论文更像是一个扎实的工程整合工作,其核心创新在于“统一”而非提出解决行为理解某一具体子任务(如深度讽刺识别或复杂社交推理)的新算法或架构,对于寻求领域内技术深度突破的读者来说,可能略显“广而不深”。 ...

2026-05-04 · 更新于 2026-06-23 · 2 min · 384 words

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 通讯作者:Jiale Han(香港科技大学) 作者列表:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院),Jiabao Gao(香港中文大学(深圳)),Sipei Lin(香港中文大学(深圳)),Xuan Zhou(香港中文大学(深圳)),Chi Zhang(香港中文大学(深圳)),Bo Cheng(北京邮电大学网络与交换技术国家重点实验室),Jiale Han(香港科技大学),Benyou Wang(深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 💡 毒舌点评 亮点是首次对语音到语音系统进行了图灵测试,并构建了一个包含18个细粒度维度的诊断框架,不仅指出了“通过/失败”,更深入剖析了“为何失败”,将瓶颈精准定位在非语义层面。短板在于,作为开创性工作,其评估的S2S系统数量和对话场景多样性仍有限,且伪人对话的脚本部分由GPT-4o生成,可能引入了额外的偏差。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Carbohydrate1001/Turing-Test。 模型权重:论文中明确提到公开了模型(“Our code, dataset, and model are publicly available”),但未直接提供权重下载链接,需从上述GitHub仓库获取。 数据集:论文中明确提到公开了数据集,同样需从上述GitHub仓库获取。 Demo:论文中提到了部署了一个游戏化的在线评测平台,但未提供公开的在线演示链接。 复现材料:提供了极其详细的复现信息,包括: 数据收集的完整流程、参与者画像、初始化策略(附录B)。 Turing测试平台的设计细节(附录C)。 18个细粒度维度的定义、标注指南、标注员信息及质量保证流程(附录D)。 AI评委模型的训练框架、嵌入读取策略消融、模型消融、超参数调优(网格搜索与敏感性分析)的完整细节(附录E)。 论文中引用的开源项目:论文在构建伪人对话数据集时,引用了两个开源TTS模型:Nari Dia-1.6B (nari-labs, 2025) 和 Spark-TTS (Wang et al., 2025c)。在评估模型泛化性时,引用了CosyVoice2、Fisher和MultiDialog数据集。 📌 核心摘要 本文旨在回答一个关键问题:当前的语音到语音(S2S)系统能否像人类一样进行对话?为解决此问题,作者首次对S2S系统实施了图灵测试。核心方法是构建一个包含人-人、人-机和伪人(TTS合成)对话的高质量数据集,通过一个游戏化的在线平台收集了近3000次人类判断。与已有工作相比,新在于将图灵测试范式首次全面引入端到端S2S评估,并超越二元通过/失败的结论。主要实验结果显示,所有评估的9个最先进的S2S系统均未通过图灵测试,成功率最高仅为0.31(人类为0.87)。为了诊断失败原因,论文提出了一个包含5大类18个细粒度维度的“拟人度”分类法,并对数据进行了人工标注。分析表明,当前S2S系统的瓶颈不在语义理解(如逻辑连贯性、记忆一致性接近人类水平),而在于韵律特征(如节奏、重音)、情感表达不足以及过度恭维、书面化的“机械人格”。此外,论文探索了使用AI作为评委的可能性,发现9个现成多模态模型表现不佳,因此提出了一个基于Qwen2.5-Omni微调的可解释评委模型,该模型先预测18个细粒度维度分数,再通过线性分类器做出人/机判断,其在测试集上的二分类准确率达到96.05%,显著优于人类评委(72.84%)和基线模型。这项工作的意义在于为S2S系统建立了一个系统化的拟人度评估与诊断框架,并指明了超越语义理解、在副语言和情感个性化方面突破的研究方向。主要局限性是评估的系统和场景覆盖范围可能无法代表整个S2S领域,且伪人对话的脚本部分依赖大语言模型生成。 ...

2026-05-04 · 更新于 2026-06-23 · 2 min · 233 words

ICLR 2026 - 动作生成 论文列表

ICLR 2026 - 动作生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Gener 7.5分 前25% 📋 论文详情 🥇 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态 👥 作者与机构 第一作者:Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者:未说明(但Aniket Bera为最后作者,通常为通讯作者) 作者列表:Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-23 · 1 min · 115 words

ICLR 2026 - 图像生成 论文列表

ICLR 2026 - 图像生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 A Hidden Semantic Bottleneck in Conditional Embeddings of Di 8.5分 前25% 📋 论文详情 🥇 A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers 🔥 8.5/10 | 前25% | #图像生成 | #扩散模型 | #多任务学习 #模型评估 👥 作者与机构 第一作者:Trung X. Pham(韩国科学技术院,KAIST) 通讯作者:Chang D. Yoo(韩国科学技术院,KAIST) 作者列表:Trung X. Pham(KAIST)、Kang Zhang(KAIST)、Ji Woo Hong(KAIST)、Chang D. Yoo(KAIST) 💡 毒舌点评 本文首次系统性地揭示了扩散Transformer条件嵌入中高达99%的角相似性和超过66%的维度冗余,这是一个反直觉且重要的发现,为模型压缩和条件机制设计指明了新方向。但遗憾的是,论文对“为何如此”的理论解释仍停留在假设阶段(如“训练动态导致稳定信号”),缺乏更深入的数学分析或机制性验证,使得这个精彩观察的理论深度打了折扣。 ...

2026-05-04 · 更新于 2026-06-23 · 1 min · 100 words

ICLR 2026 - 基准测试 #数据集 论文列表

ICLR 2026 - 基准测试 #数据集 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling w 8.0分 前25% 📋 论文详情 🥇 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 通讯作者:Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院,中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院,中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院,中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院,中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-23 · 1 min · 136 words

ICLR 2026 - 基准测试 论文列表

ICLR 2026 - 基准测试 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluatio 8.5分 前25% 🥈 MCIF: Multimodal Crosslingual Instruction-Following Benchmar 8.5分 前25% 🥉 WearVox: An Egocentric Multichannel Voice Assistant Benchmar 8.0分 前25% 4. AudioTrust: Benchmarking The Multifaceted Trustworthiness of 7.5分 前25% 5. XModBench: Benchmarking Cross-Modal Capabilities and Consist 7.5分 前25% 6. MMSU: A Massive Multi-task Spoken Language Understanding and 7.5分 前50% 7. VideoMathQA: Benchmarking Mathematical Reasoning via Multimo 7.0分 前25% 8. EchoMind: An Interrelated Multi-level Benchmark for Evaluati 7.0分 前25% 9. STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 6.5分 前25% 📋 论文详情 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 ...

2026-05-04 · 更新于 2026-06-23 · 6 min · 1203 words

ICLR 2026 - 声源定位 论文列表

ICLR 2026 - 声源定位 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning 8.0分 前25% 📋 论文详情 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #空间音频 👥 作者与机构 第一作者:Min-Sang Baek(Hanyang University, Department of Electronic Engineering) 通讯作者:Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 作者列表:Min-Sang Baek(Hanyang University, Department of Electronic Engineering)、Gyeong-Su Kim(Hanyang University, Department of Electronic Engineering)、Donghyun Kim(Hanyang University, Department of Electronic Engineering)、Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-23 · 1 min · 113 words

ICLR 2026 - 多模态推理 论文列表

ICLR 2026 - 多模态推理 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in 7.5分 前25% 📋 论文详情 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(苏黎世联邦理工学院计算机系,标注为同等贡献) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 作者列表:Yucheng Wang(苏黎世联邦理工学院计算机系)、Yifan Hou(苏黎世联邦理工学院计算机系)、Aydin Javadov(苏黎世联邦理工学院计算机系)、Mubashara Akhtar(苏黎世联邦理工学院计算机系)、Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 💡 毒舌点评 亮点:论文构建了一套精妙的逻辑推理框架,将模态交互分解为六种可控模式,这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板:依赖高度简化的合成逻辑数据来揭示“根本瓶颈”,其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中,存疑。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-06-23 · 1 min · 102 words

ICLR 2026 - 多模态模型 论文列表

ICLR 2026 - 多模态模型 共 5 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And 8.5分 前25% 🥈 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models wi 8.0分 前25% 🥉 OmniVinci: Enhancing Architecture and Data for Omni-Modal Un 7.5分 前25% 4. Seeing, Listening, Remembering, and Reasoning: A Multimodal 7.5分 前25% 5. TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR 7.0分 前25% 📋 论文详情 🥇 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 ...

2026-05-04 · 更新于 2026-06-23 · 4 min · 671 words

ICLR 2026 - 序列解耦 论文列表

ICLR 2026 - 序列解耦 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 DiffSDA: Unsupervised Diffusion Sequential Disentanglement A 8.0分 前25% 📋 论文详情 🥇 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities 🔥 8.0/10 | 前25% | #序列解耦 | #扩散模型 | #自监督学习 #多模态模型 👥 作者与机构 第一作者:Hedi Zisling (Ben-Gurion University) 通讯作者:Omri Azencot (Ben-Gurion University) 作者列表:Hedi Zisling (Ben-Gurion University)、Ilan Naiman (Ben-Gurion University)、Nimrod Berman (Ben-Gurion University)、Supasorn Suwajanakorn (VISTEC)、Omri Azencot (Ben-Gurion University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-23 · 1 min · 193 words