智能座舱 | 语音/音乐/音频论文速递

InCarEmo: A Multimodal Dataset for In-Cabin Emotion Recognition and Driver State Monitoring

📄 InCarEmo: A Multimodal Dataset for In-Cabin Emotion Recognition and Driver State Monitoring 标签：#多模态模型 #对比学习 #数据集 #基准测试 #智能座舱 7.3/10 | 创新 1.1/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.3/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #多模态模型 | #对比学习 | #数据集 #基准测试 | arxiv 👥 作者与机构第一作者：Hao Yang（哈尔滨工业大学）通讯作者：Bing Qin（哈尔滨工业大学）（论文未明确标注通讯作者，但根据作者列表最后一位及邮箱格式推断）作者列表：Hao Yang（哈尔滨工业大学）、Yanyan Zhao（哈尔滨工业大学）、Kewei Zhao（哈尔滨工业大学）、Hongbo Zhang（哈尔滨工业大学）、Tian Zheng（哈尔滨工业大学）、Yusheng Liu（哈尔滨工业大学）、Xing Fu（哈尔滨工业大学）、Bichen Wang（哈尔滨工业大学）、Yu Zhang（哈尔滨工业大学）、Hao He（SERES）、Zhen Wu（SERES）、Xuda Zhi（SERES）、Yongbo Huang（SERES）、Bing Qin（哈尔滨工业大学） 💡 毒舌点评论文在座舱场景中创新性地融合了对话文本和红外模态，数据构建流程规范且具有工程价值。然而，其核心卖点之一——用于“跨语言评估”的英文基准——完全依赖质量不可控的机器合成语音，这不仅引入了严重的偏差，更使其关于跨语言性能的结论沦为一项对语音合成技术的间接评估，极大地削弱了研究的科学严谨性。模型比较的公平性也存在疑问。 ...

Perceived Annoyance in Multi-source Electric Vehicle AVAS Environments

📄 Perceived Annoyance in Multi-source Electric Vehicle AVAS Environments 标签：#音频质量评估 #模型评估 #声源定位 #智能座舱 #音频理解 3.5/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 0.6/1.5 | 清晰 0.7/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.2/1.5 📝 3.5/10 | 后50% | 文档类型：应用研究 | 评分置信度：高 | #音频质量评估 | #模型评估 | #声源定位 #智能座舱 | arxiv 👥 作者与机构第一作者：Berkay Kullukcu（TU Dresden, Chair of Acoustics and Haptics）通讯作者：论文未明确标注通讯作者。四位作者均隶属于TU Dresden Chair of Acoustics and Haptics，所有作者均提供了邮箱地址（第一作者邮箱：berkay.kullukcu@tu-dresden.de）。作者列表：Berkay Kullukcu（TU Dresden, Chair of Acoustics and Haptics）、Jonas Krautwurm（TU Dresden, Chair of Acoustics and Haptics）、Serkan Atamer（TU Dresden, Chair of Acoustics and Haptics）、Ercan Altinsoy（TU Dresden, Chair of Acoustics and Haptics；Centre for Tactile Internet with Human-in-the-Loop (CeTI), TU Dresden；Research Cluster 6G-life, TU Dresden） 💡 毒舌点评论文聚焦于电动汽车AVAS多声源场景下的烦扰感知，将评估视角从"单个声音"转向"声学场景"，问题意识值得肯定。然而，这更像一个初步的探索性实验而非扎实的研究工作：10名受试者、3种AVAS声音、单一车速、2辆车的简化场景，难以支撑其核心结论的普适性。统计分析中的池化处理掩盖了不同声音组合和时间偏移的差异性，而结论"多声源场景更烦人"在心理学实验中并不令人意外。论文在讨论中援引了"信息掩蔽"和"听觉场景组织"理论作为解释机制，却未设计针对性实验加以验证，使得这些解释停留在推测层面。此外，研究未开源任何实验材料（刺激音频、场景配置、原始数据），严重限制了可复现性和后续研究的价值。 ...

6G Communication Networks Enabling Embodied Agents: Architecture and Prototype

📄 6G Communication Networks Enabling Embodied Agents: Architecture and Prototype #信号处理 #工业应用 #智能座舱 📝 2.7/10 | 后50% | #信号处理 | #工业应用 | #智能座舱 | arxiv 学术质量 2/7 | 影响力 0.2/2 | 可复现性 0.5/2 👥 作者与机构作者：Lipeng Dai, Luping Xiang (通讯作者), Kun Yang 机构：南京大学，软件新技术国家重点实验室；南京大学（苏州校区），智能网络与通信研究所 (NINE) 💡 毒舌点评这篇论文试图在一个宏大且热门的话题（6G与具身智能体）上做贡献，但其实际产出与标题的雄心相比显得相当骨感。论文的核心工作是提出一个概念性的分层通信架构，并在5G O-RAN测试床上实现了一个非常基础的人机控制远程操作原型。这个原型的复杂度和创新性甚至不及许多本科或硕士毕业设计项目（使用现成触觉设备、机械臂和开发软件，搭建一个闭环控制）。所谓的“6G使能”在实验中完全缺席，因为所有实验都是在5G网络下完成的，6G的特性（如亚毫秒时延、原生AI）仅停留在愿景描述层面。文章用大量篇幅讨论了6G赋能具身智能体的共生关系（第III节），但这部分更像是精心组织的综述或前瞻展望，而非本文的原创研究贡献。对于寻求6G网络切片、感知通信一体化或分布式智能体协同控制等方面实质性技术突破的读者来说，本文提供的信息量和启发性非常有限。 📌 核心摘要本文旨在探讨如何为物理实体智能体（具身智能体）构建满足其严苛通信需求的6G网络系统。研究从概念和工程两个层面展开：首先，文章回顾了具身智能体的概念、价值及其与6G网络的共生关系，指出6G的增强型超可靠低时延通信、多模态协同调度等能力是支持具身智能体的关键，而具身智能体也能通过环境感知和物理理解反哺6G网络。基于此分析，文章提出了一种用于人机远程交互的分层通信架构，该架构以开放无线接入网为传输骨干，并引入智能中介层作为认知中枢。为了验证可行性，作者构建了一个端到端原型系统，整合了Touch触觉设备、工业机械臂、中介平台以及基于OpenAirInterface的5G O-RAN测试床。实验结果表明，该原型在5G网络下的平均传输时延低于8毫秒，中介平台处理时延低于2毫秒，实现了基本的稳定闭环控制，为未来6G使能具身智能体的研究提供了初步的参考框架。 🔗 开源详情代码：论文中未提及代码链接。论文描述了原型系统的实现细节（如使用MATLAB开发中介平台，使用OpenAirInterface构建5G O-RAN），但未提供任何公开的代码仓库链接。模型权重：论文中未提及。本文不涉及需要预训练的AI模型。数据集：论文中未提及。文中未提及用于训练或评估的公开数据集。 Demo：论文中未提及。文中未提供在线演示或交互式Demo的链接。复现材料：论文中未提供具体的复现材料包（如配置文件、脚本）。论文在IV-B节详细描述了原型系统的硬件组成和软件工作流程，这为复现其“人-机械臂远程交互”原型提供了设计蓝图，但未提供可直接下载和运行的打包材料。论文中引用的开源项目： OpenAirInterface (OAI)：论文中多次提及，并说明其gNB和5GC的实现基于OAI。链接：https://www.openairinterface.org/ A2A 和 ACP 协议：论文在IV-B4节提到，若集成LLM智能体，可使用这些现有的智能体协作协议。文中未提供这些协议的具体开源链接。 🏗️ 方法概述和架构本文提出的方法包含概念分析与原型实现两大部分。核心架构（如图2所示）是一个为支持人机远程协作而设计的分层通信系统，旨在解耦控制逻辑与物理连接，实现可扩展、安全且智能的协作。人类意图感知层：这是系统的起点，由“融合体”构成。该层利用智能传感器（如论文原型中的Touch触觉设备）捕捉人类操作意图（例如，通过手写笔的位移表示抓取目标）。随后，利用大语言模型或领域知识库将抽象的意图转化为机械臂等具身智能体能够识别的控制指令，完成操作意图的数字化。 O-RAN层：作为传输骨干，连接操作者与远端智能体。论文强调O-RAN作为6G候选技术，其开放式架构和RAN智能控制器是实现灵活网络管理的关键。通过RIC，该层能够为不同的数据模态（如时延敏感的触觉/控制信号、高带宽的视频流）主动配置网络切片。例如，为高优先级控制信号分配URLLC切片以保证亚毫秒级抖动，为视频流分配eMBB切片，从而防止网络拥塞，在大规模智能体集群中保障系统稳定性。智能中介层：充当系统的“认知神经中枢”。其功能包括转发指令、执行安全护栏（过滤不合规或危险指令），以及集成LLM以理解复杂任务。为缓解LLM可能带来的开销，该层可采用云-边解耦部署：云端/边缘的LLM异步解析复杂意图，而本地平台直接处理高频的运动学控制。此外，LLM生成的指令可在物理执行前通过本地数字孪生仿真进行预验证。实时视频和数字孪生反馈将人类置于回路中，使操作者能快速检测并纠正任何语义误解。在论文的原型中，此层由基于MATLAB开发的中介平台实现，负责指令合规性验证、转发及延迟测量。执行层（体现层）：作为最后一层，具身智能体响应上层指令并反馈各类数据，不仅包括关键的传感器读数，还包括其自主发现的见解（如局部异常或世界模型更新），确保系统与物理世界保持深度同步。原型中，此层由六轴工业机械臂构成。 ...