人机交互 | 语音/音乐/音频论文速递

Real-time, EDM-inspired sonfication of the activity of a supercomputer

📄 Real-time, EDM-inspired sonfication of the activity of a supercomputer #数据声化 #系统监控 #实时音频生成 #人机交互 ✅ 6.5/10 | 前50% | #数据声化 | #信号处理 | #系统监控 #实时音频生成 | arxiv 学术质量 6.5/7 | 影响力 6/2 | 可复现性 1/2 | 置信度 8 👥 作者与机构论文未明确给出所有作者姓名。论文致谢了 Åke Sandgren 的技术贡献和 Mickaël Zehren 的反馈。工作得到了瑞典政府的战略研究计划 eSSENCE 和 Universidad EAFIT 的支持。 💡 毒舌点评这篇论文描绘了一个颇具雄心的愿景：用电子舞曲（EDM）来实时“监听”一台超级计算机的脉搏。想法很酷，概念隐喻（机械化的管弦乐队）也挺有诗意。但是，作为一个顶会审稿人，我必须说，论文的“骨架”撑不起它的“野心”。最核心的问题是：没有任何定量或定性的用户评估。你声称这个系统能减轻认知负荷、提供新的感知方式，但证据呢？只有几个示例音频文件。你怎么知道管理员真的能从中听出有意义的信息？怎么知道他们不会觉得这是一种噪音干扰？这就像发表一个新药，只说成分和作用机理，却不做临床试验。技术上，将Slurm数据映射到EDM参数的描述虽然详细，但缺乏形式化的算法定义和理论依据（比如窗口大小 n=8 的选择依据）。论文更像是一份详尽的“设计报告”或“艺术声明”，而非一篇经过严格验证的科研论文。影响力方面，对语音/音频领域的直接贡献有限，更偏向于数据可视化/可听化这个交叉领域的概念展示。 📌 核心摘要本文提出了一种用于超级计算机Kebnekaise实时活动数据监测的音乐化（sonification）系统。该系统采用“风格驱动”的方法，将计算机的分层架构（分区-节点）映射到电子舞曲（EDM）的曲目结构（声部层）。系统从Slurm工作负载管理器实时获取每个节点的三个指标：运行进程数、内存使用率和InfiniBand发送流量。通过参数映射技术，这些数据被转化为控制音乐属性（节奏密度、音高、混响）的信号。为处理高维数据带来的信息过载，系统采用轮询（round-robin）播放策略，使每个声部层轮流处于前景，并提供简单的图形用户界面（GUI）供用户选择性监听特定分区。论文的核心主张是，该方法在信息传达的清晰度与音乐风格的连贯性之间取得了平衡，旨在创建一个可无限持续、兼具信息量与听觉吸引力的环境听觉显示系统，用于长期监控。 🔗 开源详情代码：论文提供了SuperCollider声化核心代码的GitHub仓库：https://github.com/pupil72/kebne-sonification。模型权重：论文未提及。数据集：论文未提及传统意义上的公开数据集。所用数据为Kebnekaise超级计算机的实时监控数据流，通过Slurm系统获取，属于特定机构的专有实时数据，未公开。 Demo：论文未提供在线Demo链接。仅提供了5个示例音频文件（Sound 1-5）用于展示效果。复现材料：论文未提供完整的复现材料包（如数据采集脚本、完整的系统配置文档）。仅提供了声化代码仓库，复现整个系统需要自行搭建从Slurm数据提取到OSC转发的完整管道。论文中引用的开源项目： SuperCollider：用于音频合成与编程的开源环境。论文中作为核心声化引擎。 Slurm：开源的工作负载管理器。用于管理Kebnekaise并提供监控数据。官网：https://slurm.schedmd.com/。 Python：用于编写数据读取与转发脚本。 OSC (Open Sound Control)：用于Python与SuperCollider间通信的开源协议。 🏗️ 方法概述和架构本系统的架构是一个端到端的实时数据采集、转换与音频生成管道，主要包含四个核心组件： ...

AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling

📄 AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling #音频生成 #多智能体系统 #语音情感识别 #人机交互 ✅ 6.0/10 | 前50% | #音频生成 | #多智能体系统 | #语音情感识别 #人机交互 | arxiv 学术质量未说明/8 | 影响力未说明/2 | 可复现性 0.4/1 | 置信度中 👥 作者与机构第一作者：Yiming Ren (上海人工智能实验室) 通讯作者：未说明作者列表：Yiming Ren (上海人工智能实验室), Xuenan Xu (未说明), Ziyang Zhang (未说明), Wen Wu (未说明), Baoxiang Li (未说明), Chao Zhang (清华大学) 💡 毒舌点评本文提出了一个整合多阶段、多智能体的音频故事生成框架，意图解决声音匹配、质量控制和交互性问题，流程设计清晰。然而，其核心创新严重不足，本质上是现有商业/闭源大模型（Gemini-3-Pro）、音频生成模型（IndexTTS2, TangoFlux）和检索模型的“拼装”。所谓的“自我反思闭环”机制，其关键参数（如阈值τ）黑箱操作，评估模型（如CLAP）本身也存在偏见，使得自纠正效果难以独立验证。论文在学术贡献的深度上乏善可陈，更像一篇系统应用报告而非算法创新论文。 📌 核心摘要本文针对长篇连贯音频故事生成中存在的角色声音不匹配、缺乏质量自纠正、交互性差等问题，提出了AuDirector。这是一个基于多智能体（Director, Casting, Acoustic Production, Critic, Mix, Interaction Agent）的自反射闭环框架。其核心方法分为三阶段：1）身份感知的预制作，通过两步检索（语义过滤+导演决策）为角色匹配声音，并动态生成7维情绪指令；2）协作合成与修正，通过Critic Agent评估生成的语音和音效质量，并在低于阈值时触发迭代修正；3）人类引导的交互优化，允许用户通过自然语言反馈修改生产脚本并针对性地重新生成部分音频。实验在100个播客和广播剧场景上进行，与WavJourney和PodAgent基线相比，AuDirector在语音角色匹配度（VRM: 4.23 vs 3.59）、情感表达（MOS-Emo: 4.17 vs 3.60）和结构连贯性（MOS-Ali: 3.74 vs 3.60）上均取得领先。消融实验证明了闭环修正机制的有效性。论文明确承认的主要局限在于底层生成模型对非语音音轨建模的不足。 ...

语音/音乐/音频论文速递 2026-05-13

语音/音乐/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📄 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation #视频生成 #扩散模型 #多模态 #人机交互 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #多模态 #人机交互 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Xiangyang Luo（清华大学，†阿里巴巴集团实习期间完成）通讯作者：Xiaozhe Xin（阿里巴巴集团）作者列表： Xiangyang Luo（清华大学，†阿里巴巴集团） Xiaozhe Xin（阿里巴巴集团，‡通讯作者） Tao Feng（阿里巴巴集团） Xu Guo（阿里巴巴集团） Meiguang Jin（阿里巴巴集团） Junfeng Ma（阿里巴巴集团） 💡 毒舌点评亮点在于其“训练时注入物理约束，推理时零开销”的双流范式设计非常巧妙，有效平衡了生成质量与效率；但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊（仅称“12K high-quality clips”），且未公开数据集，这严重限制了工作的可复现性和公平比较的基础。 🔗 开源详情代码：论文中提及了GitHub项目页面链接（https://xinxiaozhe12345.github.io/CoInteract_Project/），表明有开源计划，但未明确说明代码是否已公开及仓库地址。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：论文中描述了自建数据集的规模和内容，但明确未提及是否公开或如何获取。 Demo：论文中未提及是否提供在线演示。复现材料：论文提供了部分训练细节（如优化器、学习率、迭代次数、损失权重）和推理设置，但缺少关键信息如batch size、总训练时长、GPU配置、完整的超参数列表。论文中引用的开源项目：引用了Qwen-Edit（用于数据解耦）、SAM3和SAM3D-body（用于生成几何监督）、MediaPipe和DWPose（用于手脸检测）、WanS2V（作为初始化基础）、以及多种基线模型。开源计划：论文中未明确提及具体的开源时间表或承诺。 📌 核心摘要问题：现有视频扩散模型在生成人机交互（HOI）视频时，常出现手/脸结构崩溃和人机物理穿透等问题，根源在于模型缺乏对3D空间关系和交互结构的理解。方法核心：提出CoInteract框架，核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流（去除纹理的轮廓图），后者通过非对称注意力机制向RGB流注入几何约束。同时，引入“人感知混合专家”模块，通过空间监督路由将手/脸区域的token分配给专用专家处理。新意：首次将物理交互先验直接嵌入视频生成骨干网络的训练过程，并通过非对称掩码设计确保推理时无需辅助分支，实现了零额外开销。相比依赖外部预处理或后处理的方法，这是一种更端到端的解决方案。结果：在多个指标上显著超越现有方法。例如，在VLM-QA（HOI合理性）上达到0.72（最佳），HQ（手部质量）达到0.724（最佳），用户研究在交互合理性上排名第一（平均排名1.79）。消融实验证明每个组件都有效。意义：推动了高质量、物理一致的HOI视频合成技术发展，对电商直播、虚拟广告等应用有直接价值。局限性：所用数据集未公开，具体规模和细节不足；模型在极端复杂或罕见交互上的泛化能力未充分验证；训练所需的计算资源（如GPU时长）未说明。 🏗️ 模型架构 CoInteract是一个端到端的视频生成框架，基于Diffusion Transformer（DiT）骨干构建。 ...

MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

📄 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation #机器人控制 #多模态交互 #大语言模型 #人机交互 #工业应用 ✅ 7.5/10 | 前25% | #机器人控制 | #多模态交互 | #大语言模型 #人机交互 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Markus Knauer（德国航空航天中心，机器人与机电一体化研究所；慕尼黑工业大学，计算、信息与技术学院）通讯作者：未明确说明作者列表： Markus Knauer（德国航空航天中心；慕尼黑工业大学） Edoardo Fiorini（德国航空航天中心） Maximilian Mühlbauer（德国航空航天中心；慕尼黑工业大学） Stefan Schneyer（德国航空航天中心；慕尼黑工业大学） Promwat Angsuratanawech（德国航空航天中心；慕尼黑工业大学） Florian Samuel Lay（德国航空航天中心） Timo Bachmann（德国航空航天中心） Samuel Bustamante（德国航空航天中心；慕尼黑工业大学） Korbinian Nottensteiner（德国航空航天中心） Freek Stulp（德国航空航天中心） Alin Albu-Schäffer（德国航空航天中心；慕尼黑工业大学） João Silvério（德国航空航天中心） Thomas Eiband（德国航空航天中心） 💡 毒舌点评亮点：该框架的核心价值在于“无缝”和“统一”，通过将物理、语言、图形三种模态的输入最终都转化为对KMP模型的途径点操作，实现了一致的底层适应机制，这种工程上的优雅设计比单纯提出一个新算法更贴近实际部署需求。短板：论文自称“验证了实际应用性”，但全文几乎只有定性描述和展会观察，缺乏关键的定量数据（如任务完成时间缩短百分比、用户偏好统计、与传统示教方法的效率对比），使得“有效性”停留在主观感受层面，说服力打折扣。 ...

语音/音乐/音频论文速递 2026-04-23

语音/音乐/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文评分分档主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...