MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

📄 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation #机器人技能学习 #多模态模型 #大语言模型 #工业应用 ✅ 7.5/10 | 前25% | #机器人技能学习 | #多模态模型 | #大语言模型 #工业应用 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Markus Knauer(德国航空航天中心,机器人与机电一体化研究所;慕尼黑工业大学,计算、信息与技术学院) 通讯作者:未说明 作者列表:Markus Knauer(DLR, RMC; TUM, CIT)、Edoardo Fiorini(DLR, RMC)、Maximilian Mühlbauer(DLR, RMC; TUM, CIT)、Stefan Schneyer(DLR, RMC; TUM, CIT)、Promwat Angsuratanawech(DLR, RMC; TUM, CIT)、Florian Samuel Lay(DLR, RMC)、Timo Bachmann(DLR, RMC)、Samuel Bustamante(DLR, RMC; TUM, CIT)、Korbinian Nottensteiner(DLR, RMC)、Freek Stulp(DLR, RMC)、Alin Albu-Schäffer(DLR, RMC; TUM, CIT)、João Silvério(DLR, RMC)、Thomas Eiband(DLR, RMC) 💡 毒舌点评 亮点:框架设计上实现了“无缝”多模态切换,将物理、语音、图形界面三种交互方式通过“路径点插入”这一统一机制连接,是一个考虑周全的系统工程。短板:论文自称是“框架”,但实验部分更像是一个功能演示,缺乏在标准基准上与基线方法的定量对比,其“有效性”主要依赖于贸易展观众的定性观察,科学严谨性有待加强。 ...

2026-04-25

语音/音频论文速递 2026-04-25

语音/音频论文速递 2026-04-25 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #机器人技能学习 1篇 █ #语音合成 1篇 █ 📊 论文评分排行榜(2 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人技能学习 🥈 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 📋 论文列表 🥇 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation ✅ 7.5/10 | 前25% | #机器人技能学习 | #多模态模型 | #大语言模型 #工业应用 | arxiv ...

2026-04-25

Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis

📄 Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis #音频分类 #层次分类 #工业应用 ✅ 7.5/10 | 前25% | #音频分类 | #层次分类 | #工业应用 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yu Sha (沙宇)(西安电子科技大学人工智能学院;香港中文大学(深圳)理工学院;法兰克福高等研究院) 通讯作者:Kai Zhou (周凯)(香港中文大学(深圳)理工学院;香港中文大学(深圳)人工智能学院;法兰克福高等研究院) 作者列表: Yu Sha (沙宇)(西安电子科技大学人工智能学院;香港中文大学(深圳)理工学院;法兰克福高等研究院) Shuiping Gou (苟水平)(西安电子科技大学人工智能学院) Bo Liu (刘波)(西安电子科技大学人工智能学院) Haofan Lu (卢浩帆)(西安电子科技大学人工智能学院) Ningtao Liu (刘宁涛)(洛阳理工学院计算机学院) Jiahui Fu (付佳慧)(法兰克福高等研究院) Horst Stoecker(法兰克福高等研究院;法兰克福大学理论物理研究所;GSI亥姆霍兹重离子研究中心) Domagoj Vnucec(SAMSON AG) Nadine Wetzstein(SAMSON AG) Andreas Widl(SAMSON AG) Kai Zhou (周凯)(香港中文大学(深圳)理工学院;香港中文大学(深圳)人工智能学院;法兰克福高等研究院) 💡 毒舌点评 这篇论文的亮点在于其将层次分类的思想系统性地转化为两个互补的损失函数(层次树损失和分组树三元组损失),并提供了严格的数学推导,在空化诊断这一具体任务上取得了令人信服的性能提升。短板在于其应用场景过于垂直(工业阀门空化),虽然实验充分,但对更广泛的音频或语音处理研究社区的直接启发性和普适性可能有限,更像是一篇扎实的领域应用论文而非开创性的方法论工作。 ...

2026-04-23

MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

📄 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation #机器人控制 #多模态交互 #大语言模型 #人机交互 #工业应用 ✅ 7.5/10 | 前25% | #机器人控制 | #多模态交互 | #大语言模型 #人机交互 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Markus Knauer(德国航空航天中心,机器人与机电一体化研究所;慕尼黑工业大学,计算、信息与技术学院) 通讯作者:未明确说明 作者列表: Markus Knauer(德国航空航天中心;慕尼黑工业大学) Edoardo Fiorini(德国航空航天中心) Maximilian Mühlbauer(德国航空航天中心;慕尼黑工业大学) Stefan Schneyer(德国航空航天中心;慕尼黑工业大学) Promwat Angsuratanawech(德国航空航天中心;慕尼黑工业大学) Florian Samuel Lay(德国航空航天中心) Timo Bachmann(德国航空航天中心) Samuel Bustamante(德国航空航天中心;慕尼黑工业大学) Korbinian Nottensteiner(德国航空航天中心) Freek Stulp(德国航空航天中心) Alin Albu-Schäffer(德国航空航天中心;慕尼黑工业大学) João Silvério(德国航空航天中心) Thomas Eiband(德国航空航天中心) 💡 毒舌点评 亮点:该框架的核心价值在于“无缝”和“统一”,通过将物理、语言、图形三种模态的输入最终都转化为对KMP模型的途径点操作,实现了一致的底层适应机制,这种工程上的优雅设计比单纯提出一个新算法更贴近实际部署需求。 短板:论文自称“验证了实际应用性”,但全文几乎只有定性描述和展会观察,缺乏关键的定量数据(如任务完成时间缩短百分比、用户偏好统计、与传统示教方法的效率对比),使得“有效性”停留在主观感受层面,说服力打折扣。 ...

2026-04-23

Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification

📄 Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification #自监督学习 #解缠表示学习 #音频事件检测 #工业应用 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Xudong Jian (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 通讯作者:Eleni Chatzi (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) - 根据论文中标注“\corrauth”推断 其他作者: Charikleia Stoura (米兰理工大学 Politecnico di Milano,机械工程系) Simon Scandella (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 💡 毒舌点评 亮点:这篇论文巧妙地将计算机视觉领域流行的自监督方法(VICReg)与结构动力学的物理先验(频域PSD)结合,像给模型戴上了一副“损伤透视镜”,让它在嘈杂的操作变异中死死盯住结构本身的微小损伤信号,思路非常清晰实用。 槽点:方法在“轻微损伤”场景下有点“视力不佳”(桥梁数据集TPR仅0.324),而且损伤量化能力更像是个“半成品”,离精确评估损伤程度还有距离。说白了,能告诉你“病了”,但说不准“病多重”。 📌 核心摘要 本文针对结构健康监测中损伤信号易被环境与操作变异掩盖的核心挑战,提出了一种无标签、自监督的解缠表示学习框架。该框架采用双流自编码器架构,通过时间序列重构损失确保信息完整性,并利用VICReg自监督损失(基于假设损伤状态不变的基线期数据)强制损伤敏感表征(z_dmg)对操作变异保持不变性。同时,引入频域PSD重构损失作为物理约束,确保z_dmg保留关键的损伤相关频谱特征。该框架在无需任何损伤、激励或环境标签的情况下,实现了损伤信息与干扰信息的有效分离。在真实桥梁实验数据集和高保真齿轮箱数据集上的评估表明,所提方法能有效进行损伤检测(在齿轮箱上平衡准确率达0.816)并揭示损伤演化进程,其性能显著优于仅使用时间序列重构或手工特征的基线方法。研究证实了结合数据驱动自监督与领域物理知识对于提升SHM鲁棒性的价值,为实际无标签监测场景提供了可行的解决方案。 🏗️ 模型架构 模型整体是一个双解码器自编码器,旨在从原始振动加速度信号X ∈ R^{C×T}(C个传感器通道,T个时间点)中学习两个解缠的潜在表征:z_dmg(损伤敏感)和z_ndmg(非损伤/干扰敏感)。流程如下: 编码器 (Encoder):一个一维卷积神经网络(1D CNN),将输入信号X映射为两个H维(H=128)的潜在向量z_dmg和z_ndmg。这是实现信息分离的关键设计。 解码器1 (Decoder1):另一个1D CNN,以拼接后的[z_dmg, z_ndmg]为输入,重构原始时间序列X̂。其目标是确保潜在空间保留足够的原始信号信息。 解码器2 (Decoder2):一个多层感知机(MLP),仅以z_dmg为输入,重构输入信号的归一化功率谱密度Ŝ。这是一个物理引导的约束,迫使z_dmg保留与结构属性(如固有频率)紧密相关的频谱特征。 损伤评分:训练后,使用z_dmg计算马氏距离作为损伤分数m。基于基线期z_dmg的分布(均值μ,协方差Σ)计算每个样本的偏离程度,并通过百分位数(如95%)设定检测阈值。 关键设计理由: ...

2026-04-22

MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tao Feng (清华大学) 通讯作者:Zhizheng Wu (香港中文大学(深圳)) 其他作者: Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学(深圳)) Xun Guan (清华大学) 💡 毒舌点评 亮点:把TTS生成的“垃圾”(合成语音)从训练目标变成训练源,这个“角色交换”的脑回路确实清奇,直接绕过了合成质量天花板,是论文最大的创新点。槽点:虽然思路巧妙,但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源,33%的数据过滤率也暗示了对TTS质量的敏感性;此外,构建850万对训练数据所需的计算资源(TTS推理+模型训练)恐怕不是一般实验室能承受的,可复现性存疑。 📌 核心摘要 这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构,要么使用合成语音作为训练目标,导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架,其核心创新在于**“角色交换”的数据构建策略**:使用TTS生成的语音作为训练源,而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习,突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题,论文进一步引入了交错文本-音频建模(通过文本锚点引导内容生成)和基于DPO的偏好对齐(使用真实输入进行后训练以弥合分布差距)。实验表明,MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果,尤其在主观评价中表现突出,并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 🏗️ 模型架构 MimicLM是一个基于自回归Transformer的端到端语音到语音转换模型,整体架构包含三个核心组件: 音频分词器:使用预训练且冻结的 CosyVoice 2.0 的音频分词器,将连续的语音波形转换为离散的音频令牌(audio tokens),帧率为25 Hz。 自回归Transformer主干:基于 Qwen2.5-0.5B 架构改造的解码器-only Transformer。其输入是一个精心构造的交错序列,输出是预测的文本和音频令牌。 流匹配解码器:同样来自CosyVoice 2.0,将Transformer输出的离散音频令牌重建为连续的语音波形。 完整输入输出流程: 输入准备: 参考音频:通过音频分词器转换为“参考令牌”(ref token)。 源音频:通过音频分词器转换为“源令牌”(src token),并以<|SOURCE_START|>特殊令牌为前缀。 序列构造:模型输入序列按顺序拼接为:[ref token] + [<|SOURCE_START|>] + [src token] + [交错文本-音频块]。 交错文本-音频块是核心设计。序列被分为两个阶段: 分块阶段:交替出现文本块(5个令牌,由<|TEXT_START|>和<|TEXT_END|>包裹)和音频块(25个令牌)。这种1:5的比例确保文本预测在时间上略微领先音频生成,为音频合成提供语义指导。 连续阶段:处理剩余内容,先生成剩余文本令牌(由<|REMAIN_START|>和<|TEXT_END|>包裹),再生成剩余音频令牌(以<|REMAIN_END|>结束)。 自回归生成:Transformer以该序列为条件,以自回归方式同时预测下一个文本令牌和音频令牌。训练时使用教师强制。 输出重建:生成的音频令牌序列被送入流匹配解码器,最终输出模仿了参考音频音色和风格、但内容与源音频一致的目标语音波形。 关键设计选择理由: ...

2026-04-21