Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #扩散模型 #自回归模型 #音视频 #基准测试 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 #自回归模型 | #扩散模型 #自回归模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Vaibhavi Lokegaonkar, Aryan Vijay Bhosale(论文中标注为Corresponding authors,邮箱为{vlokegao,aryanvib}@umd.edu) 作者列表: Vaibhavi Lokegaonkar(University of Maryland College Park, USA) Aryan Vijay Bhosale(University of Maryland College Park, USA) Vishnu Raj(University of Maryland College Park, USA) Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(NVIDIA, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点:该工作将语音合成领域已验证有效的“自回归规划+扩散细化”混合范式,成功迁移到视频音乐生成任务,并通过引入文本条件控制解决了该领域长期存在的“创作者意图表达”短板,工程实现和实验验证都做得非常扎实。短板:其核心架构思想并非首创(如DiTAR),且评估主要集中在10秒短片段,对于真正考验音乐结构连贯性的长视频配乐场景缺乏验证,使得其“里程碑”成色稍显不足。 ...

2026-04-24 · 更新于 2026-05-22 · 3 min · 483 words

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24 · 更新于 2026-05-22 · 11 min · 2180 words

Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines

📄 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines #语音识别 #语音活动检测 #数据集 #模型评估 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #模型评估 | #语音活动检测 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hawau Olamide Toyin(MBZUAI, UAE) 通讯作者:Hanan Aldarmaki(MBZUAI, UAE) 作者列表: Hawau Olamide Toyin(MBZUAI, UAE) Mutiah Apampa(SpeechCare, Portugal & UAE) Toluwani Aremu(SpeechCare, Portugal & UAE) Humaid Alblooshi(SpeechCare, Portugal & UAE) Ana Rita Valente(SLAI & CUHK (SZ), China) Gonçalo Leal(SLAI & CUHK (SZ), China) Zhengjun Yue(SLAI & CUHK (SZ), China) Zeerak Talat(University of Edinburgh, UK) Hanan Aldarmaki(MBZUAI, UAE) 💡 毒舌点评 亮点在于它系统性地揭示了口吃语音处理领域“研究自嗨”与“用户真实需求”之间的鸿沟,并提出了一个清晰的任务分类法来弥合术语混乱。短板是作为一篇“指南”类论文,它主要诊断问题,解决方案相对宏观,缺乏具体的技术路线图或可立即实施的算法改进方案。 ...

2026-04-23 · 更新于 2026-05-22 · 1 min · 165 words

ATIR: Towards Audio-Text Interleaved Contextual Retrieval

📄 ATIR: Towards Audio-Text Interleaved Contextual Retrieval #音频检索 #多模态模型 #基准测试 #对比学习 ✅ 7.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #对比学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tong Zhao(中国人民大学高瓴人工智能学院) 通讯作者:Zhicheng Dou(中国人民大学高瓴人工智能学院) 作者列表: Tong Zhao(中国人民大学高瓴人工智能学院) Chenghao Zhang(中国人民大学高瓴人工智能学院) Yutao Zhu(中国人民大学高瓴人工智能学院) Zhicheng Dou(中国人民大学高瓴人工智能学院) 💡 毒舌点评 这篇论文为“音频-文本交错检索”这一新兴场景建立了首个标准化基准和评估框架,这种“开山立派”的工作本身具有重要价值。然而,其提出的模型(ATIR-Qwen-3B)本质上是现有强大MLLM(Qwen2.5-Omni)的一个检索适配版本,核心创新(ATIR Selector)更像是一个工程优化模块,理论深度有限。实验虽然充分,但所有基线在交错检索任务上表现都很差,这固然凸显了新任务的难度,但也使得“显著提升”的结论说服力打了一点折扣。 🔗 开源详情 代码:论文中提及“GitHub Issue”,但未提供具体的代码仓库链接。是否开源及代码状态未说明。 模型权重:论文提到训练了ATIR-Qwen-3B模型,但未提及是否公开模型权重。 数据集:论文构建了ATIR基准,但未说明是否公开数据集及获取方式。 Demo:论文中未提及在线演示。 复现材料:附录B提供了极其详细的实现细节,包括模型架构、LoRA配置、训练超参数(学习率、优化器、轮数)、硬件环境(8xA100)和训练时长(约24小时),复现信息充分。 论文中引用的开源项目:依赖Qwen2.5-Omni-3B、Qwen3-0.6B作为骨干和选择器基础;使用LoRA进行参数高效微调;使用DeepSpeed进行分布式训练。 📌 核心摘要 这篇论文旨在解决现有音频-文本检索方法无法处理查询和文档中音频与文本交错出现(如多轮对话、混合输入)的局限性。为此,作者定义了音频-文本交错上下文检索(ATIR)任务,并构建了一个包含约8.8万对样本的大规模基准。为解决直接应用多模态大语言模型(MLLM)时音频token冗余导致的效率和精度问题,论文提出了一种基于MLLM的检索框架,其核心是引入一个轻量级的ATIR Selector模块,用于自适应地筛选关键音频token。此外,采用了两阶段训练策略(先激活嵌入能力,再激发交错模态能力)。实验表明,所提出的ATIR-Qwen-3B模型在各项指标上显著优于文本模态、跨模态和融合模态的基线模型(例如,在交错检索任务上,Recall@1比最强基线高出约10%)。该工作为复杂的多模态信息检索场景提供了新的研究方向和基准,但其局限在于仅关注单文档检索,且评估任务集中于问答领域。 🏗️ 模型架构 模型采用双编码器(Bi-encoder)架构,查询和文档分别独立编码到共享嵌入空间,通过余弦相似度计算相关性,支持高效检索。 整体流程:输入为音频-文本交错序列。文本部分通过Qwen2.5-Omni的Tokenizer处理;音频部分通过其原生的音频编码器(AuT)处理,生成帧级表示。编码后的文本token和音频token序列被送入“ATIR Selector”模块进行关键音频token筛选。筛选后的token序列与文本token序列一起,输入到Qwen2.5-Omni的Thinker骨干网络(一个Transformer)进行处理。最终,取序列最后一个token()的隐藏状态作为整个交错序列的嵌入表示。 主要组件: Qwen2.5-Omni Thinker:作为骨干模型,负责处理混合的文本和音频token序列,生成上下文感知的表示。论文中冻结了其音频编码器,仅对后续部分进行微调。 ATIR Selector:这是一个即插即用的轻量模块,建立在Qwen3-0.6B之上。它在骨干模型的最终隐藏层之上添加一个线性层,为每个音频token位置预测一个选择概率。概率高于阈值的token被保留,低于阈值的被过滤。其目标是减少冗余音频信息,平衡不同模态的信息密度。 数据流与设计动机:音频token通常数量多且包含冗余信息,直接输入Transformer会导致计算效率低且可能引入噪声。ATIR Selector的设计动机就是通过自适应选择,保留最具信息量的音频片段,从而提升检索的准确性和效率。这是一个针对音频特性的优化,与修改tokenizer或编码器的方法正交。 💡 核心创新点 定义ATIR任务与构建首个基准:首次正式定义了音频与文本交错出现的检索任务,并构建了一个大规模、高质量的合成数据集。这是最重要的贡献,为社区提供了明确的研究问题和评估平台。 提出ATIR Selector模块:针对音频token冗余问题,设计了一个轻量级的、基于学习的token选择器。它能根据上下文自适应地过滤音频token,优于简单的平均池化,并能灵活控制压缩率。 设计多阶段训练策略:采用两阶段训练:第一阶段使用单模态/跨模态对激活模型的通用嵌入能力;第二阶段使用带有强负样本的交错模态数据,专门激发模型处理复杂交错结构的能力。这种渐进式训练有效提升了模型性能。 构建严谨的数据合成与质量控制流程:利用MLLM从多个角度(跨领域、比较、示例、推理)扩展语料,构建高质量问答对,并通过检索和生成两种方式构造困难负样本,最后进行多方面自评估,确保了基准数据的质量和难度。 🔬 细节详述 训练数据:基于LibriSpeech(ASR)、CoQA(QA)、SVQ(检索)三个数据集,通过统一合成流程生成。训练集包含84,374对查询-文档对,测试集包含3,909对。数据包含四种声学环境:干净、背景人声、交通噪声、媒体噪声。 损失函数:采用InfoNCE对比损失(公式1)。给定查询、正文档和一批负文档(包括硬负样本和批内负样本),目标是最大化正对的相似度,最小化负对的相似度。温度参数τ设为0.05。 训练策略: 优化器:AdamW。 学习率:峰值5e-5,前10%步骤线性预热。 轮数:两个阶段各训练2个epoch。 批次大小:通过梯度累积实现大批次(具体值未说明)。 参数高效微调:使用LoRA(rank=32, α=32, dropout=0.1)插入Transformer的投影层,冻结骨干模型。 关键超参数:骨干模型为Qwen2.5-Omni-3B。Selector基于Qwen3-0.6B。文本最大序列长度512 token。音频采样率16kHz。 训练硬件:8块NVIDIA A100 40GB GPU,使用DeepSpeed ZeRO优化。完整训练约需24小时。 推理细节:采用双编码器,通过余弦相似度计算相关性。Selector的阈值可调,用于平衡性能与效率。 📊 实验结果 主要基准与指标:在ATIR基准的四个设置(A→T, T→A, IAT→T, IAT→A)上评估,使用Recall@1和nDCG@5。 主结果:ATIR-Qwen-3B显著优于所有基线。 对比文本模型:在IAT→T设置上,Recall@1为81.74%,最强文本基线Qwen3-Embedding-4B为69.24%,高出12.5个百分点。 对比跨模态模型:跨模态模型(如CLAP)性能极差,M2D-CLAP在IAT→T上Recall@1仅22.53%。 对比融合模态模型:在IAT→T上,ATIR-Qwen-3B(81.74%)优于Omni-Embed-Nemotron-3B(75.47%)6.27个百分点。 消融实验: 组件贡献(表3):移除Selector导致平均Recall@1下降1.05%;移除Stage I下降3.27%;移除Stage II下降5.86%,表明交错模态训练最关键。 Selector vs. 平均池化:Selector(Recall@1 78.86%)优于2/4/8路平均池化(77.12/77.21/76.54%),证明了学习选择优于均匀压缩。 交错结构影响(表7):打乱音频-文本的顺序或位置都会导致性能下降,证实模型依赖于有序的交错结构。 效率分析:ATIR-Qwen-3B(延迟16.8ms)与同等规模的融合模态模型(如ColQwen-Omni-3B,17.1ms)延迟相当,且远低于需要ASR预处理的文本模型(>500ms)。 ⚖️ 评分理由 学术质量:6.0/7:论文在任务定义、基准构建和实验设计上表现出色,工作完整扎实。ATIR Selector模块的设计有明确动机且有效。主要扣分点在于模型架构本身缺乏根本性创新,更多是现有强大MLLM在特定任务上的适配和优化。 选题价值:1.5/2:音频-文本交错检索是一个重要且未被充分研究的前沿问题,尤其在人机交互和多模态内容理解领域有明确应用前景,选题具有较好的时效性和影响力。 开源与复现加成:0.0/1:论文提供了详尽的实验配置和附录,可复现性高。但正文中未明确承诺代码、模型权重和数据集的公开开源计划(仅提及“GitHub Issue”),因此无法给予加分。 🖼️ 图片与表格 图1:内容:展示跨模态检索、融合模态检索与交错模态检索的区别。保留:是 - 理由:直观定义了新任务(ATIR)与传统任务的区别,是理解论文核心问题的关键示意图。 图2:内容:展示ATIR数据合成框架的五个步骤。保留:是 - 理由:清晰地概括了构建基准数据集的完整流程,是理解论文数据贡献的核心图表。 图3:内容:展示ATIR模型的整体架构和ATIR Selector的训练范式。保留:是 - 理由:论文核心方法的详细图解,展示了模型组件、数据流和Selector的监督学习方式。 图4(柱状图):内容:对比ATIR Selector与不同路数平均池化在Recall@1和nDCG@5上的性能。保留:是 - 理由:直观展示了核心组件(Selector)的有效性,是关键消融实验的可视化证据。 主要结果表(表2):内容:在四个检索设置下,对比文本、跨模态、融合模态基线与ATIR-Qwen-3B的Recall@1和nDCG@5数值。保留:是 - 理由:承载了论文最核心的实验结论,必须保留所有模型和数值。 消融实验表(表3):内容:展示移除Selector、Stage I、Stage II对性能的影响。保留:是 - 理由:证明了每个设计组件的必要性,是验证方法有效性的关键证据。 分析实验表(表7):内容:展示打乱交错结构(Shuffle Order/Position/Both)对性能的影响。保留:是 - 理由:证明了模型对有序交错结构的依赖,深化了对任务和模型的理解。 效率分析表(表4):内容:对比不同模型的参数量和推理延迟。保留:是 - 理由:展示了ATIR-Qwen-3B在效率上的优势,是评估方法实用性的重要依据。 📸 论文图片 ...

2026-04-23 · 更新于 2026-05-22 · 1 min · 170 words

Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials

📄 Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials #语音匿名化 #信号处理 #鲁棒性 #实时处理 ✅ 7.5/10 | 前25% | #语音匿名化 | #信号处理 | #鲁棒性 #实时处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhiyuan Ning(西北大学) 通讯作者:未说明 作者列表: Zhiyuan Ning(西北大学) Zhanyong Tang(西北大学) Xiaojiang Chen(西北大学) Zheng Wang(利兹大学) 💡 毒舌点评 亮点在于开创性地将声学超材料引入声纹保护领域,提供了一种无需信任设备、无需耗能的物理层解决方案,思路非常新颖且实验验证扎实。短板是当前的刚性外壳形态可能影响美观和佩戴舒适度,且其核心依赖于特定频率的声学干扰,未来若出现能精准分离声纹特征与语音内容的新型攻击,其鲁棒性可能面临挑战。 🔗 开源详情 代码:论文中提及了“GitHub Issue”,但未提供明确的代码仓库链接。无法确认是否开源。 模型权重:不适用。 数据集:未提及公开数据集。 Demo:未提及在线演示。 复现材料:论文提供了关键的设计参数和仿真示意图,但未提供可直接用于制造的完整工程文件(如CAD模型、打印参数)或复现脚本。 论文中引用的开源项目:提到了使用COMSOL Multiphysics进行仿真,以及Google Speech-to-Text进行评估,但这些是商业工具或服务,并非论文贡献的开源项目。 论文中未提及明确的开源计划。 📌 核心摘要 这篇论文针对在公共场景(如会议、演讲)中,不可信录音设备可能导致声纹泄露且事后无法补救的问题,提出了EchoMask——首个基于声学超材料的物理层实时声纹匿名化系统。其核心方法是在声音到达麦克风前,通过精心设计的被动声学结构对特定低频段(300-700Hz)进行选择性干扰,该频段对说话人识别至关重要但对语音可懂度影响较小。与已有软件和硬件方法相比,EchoMask的新颖之处在于其工作在物理层,不依赖可信的麦克风硬件、固件或软件,且无需外部供电。实验结果表明,在8种麦克风和5种说话人识别系统上,EchoMask能将失配率(MMR)提升至90%以上,同时保持高语音可懂度(词准确率>95%)和高感知质量(MOS>4)。该工作的实际意义在于为不可信环境下的声纹隐私提供了一种低成本、易部署的物理屏障。主要局限性在于系统当前为刚性3D打印结构,可能影响美观和舒适度,且其干扰频带固定,缺乏动态调谐能力以应对未来更复杂的自适应攻击。 🏗️ 模型架构 EchoMask是一个物理系统,而非传统的计算模型。其“架构”由三个协同工作的物理组件构成: ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 236 words

Centering Ecological Goals in Automated Identification of Individual Animals

📄 Centering Ecological Goals in Automated Identification of Individual Animals #生物声学 #模型评估 #数据集 #开源工具 ✅ 6.5/10 | 前25% | #生物声学 | #模型评估 | #数据集 #开源工具 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Lukas Picek(University of West Bohemia in Pilsen, Czechia;Massachusetts Institute of Technology, USA) 通讯作者:论文中未明确说明通讯作者。通常可根据投稿信息或邮箱判断,但本文提供的文本中未明确标注。 作者列表: Lukas Picek(University of West Bohemia in Pilsen, Czechia;Massachusetts Institute of Technology, USA) Timm Haucke(未说明具体机构) Lukáš Adam(未说明具体机构) Ekaterina Nepovinnykh(LUT University, Lappeenranta, Finland) Lasha Otarashvili(Conservation X Labs, USA) Kostas Papafitsoros(Queen Mary University of London, UK) Tanya Berger-Wolf(未说明具体机构) Michael B. Brown(Giraffe Conservation Foundation, Windhoek, Namibia) Tilo Burghardt(University of Bristol, UK) Vojtech Cermak(Czech Technical University in Prague, Czechia) Daniela Hedwig(未说明具体机构) Justin Kitzes(Cornell Lab of Ornithology, Cornell University, USA) Sam Lapp(University of Pittsburgh, USA) Subhransu Maji(未说明具体机构) Daniel Rubenstein(未说明具体机构) Arjun Subramonian(未说明具体机构) Charles Stewart(未说明具体机构) Silvia Zuffi(CNR, Milan, Italy) Sara Beery(未说明具体机构) 💡 毒舌点评 亮点在于其犀利地指出了当前AI在生态学应用中的“皇帝新衣”——高准确率的实验室数据与野外部署的现实需求严重脱节,并提出了极具操作性的四个实践考量问题。短板则是一篇纯观点文章,缺乏原创算法和定量实验验证,其提出的框架虽好,但“如何具体实施”和“效果如何”仍需后续工作填充,说服力更多依赖于逻辑而非实证。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 233 words

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📄 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation #视频生成 #扩散模型 #多模态 #人机交互 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #多模态 #人机交互 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Xiangyang Luo(清华大学,†阿里巴巴集团实习期间完成) 通讯作者:Xiaozhe Xin(阿里巴巴集团) 作者列表: Xiangyang Luo(清华大学,†阿里巴巴集团) Xiaozhe Xin(阿里巴巴集团,‡通讯作者) Tao Feng(阿里巴巴集团) Xu Guo(阿里巴巴集团) Meiguang Jin(阿里巴巴集团) Junfeng Ma(阿里巴巴集团) 💡 毒舌点评 亮点在于其“训练时注入物理约束,推理时零开销”的双流范式设计非常巧妙,有效平衡了生成质量与效率;但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊(仅称“12K high-quality clips”),且未公开数据集,这严重限制了工作的可复现性和公平比较的基础。 🔗 开源详情 代码:论文中提及了GitHub项目页面链接(https://xinxiaozhe12345.github.io/CoInteract_Project/),表明有开源计划,但未明确说明代码是否已公开及仓库地址。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:论文中描述了自建数据集的规模和内容,但明确未提及是否公开或如何获取。 Demo:论文中未提及是否提供在线演示。 复现材料:论文提供了部分训练细节(如优化器、学习率、迭代次数、损失权重)和推理设置,但缺少关键信息如batch size、总训练时长、GPU配置、完整的超参数列表。 论文中引用的开源项目:引用了Qwen-Edit(用于数据解耦)、SAM3和SAM3D-body(用于生成几何监督)、MediaPipe和DWPose(用于手脸检测)、WanS2V(作为初始化基础)、以及多种基线模型。 开源计划:论文中未明确提及具体的开源时间表或承诺。 📌 核心摘要 问题:现有视频扩散模型在生成人机交互(HOI)视频时,常出现手/脸结构崩溃和人机物理穿透等问题,根源在于模型缺乏对3D空间关系和交互结构的理解。 方法核心:提出CoInteract框架,核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流(去除纹理的轮廓图),后者通过非对称注意力机制向RGB流注入几何约束。同时,引入“人感知混合专家”模块,通过空间监督路由将手/脸区域的token分配给专用专家处理。 新意:首次将物理交互先验直接嵌入视频生成骨干网络的训练过程,并通过非对称掩码设计确保推理时无需辅助分支,实现了零额外开销。相比依赖外部预处理或后处理的方法,这是一种更端到端的解决方案。 结果:在多个指标上显著超越现有方法。例如,在VLM-QA(HOI合理性)上达到0.72(最佳),HQ(手部质量)达到0.724(最佳),用户研究在交互合理性上排名第一(平均排名1.79)。消融实验证明每个组件都有效。 意义:推动了高质量、物理一致的HOI视频合成技术发展,对电商直播、虚拟广告等应用有直接价值。 局限性:所用数据集未公开,具体规模和细节不足;模型在极端复杂或罕见交互上的泛化能力未充分验证;训练所需的计算资源(如GPU时长)未说明。 🏗️ 模型架构 CoInteract是一个端到端的视频生成框架,基于Diffusion Transformer(DiT)骨干构建。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 276 words

Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis

📄 Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis #音频分类 #层次分类 #工业应用 ✅ 7.5/10 | 前25% | #音频分类 | #层次分类 | #工业应用 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yu Sha (沙宇)(西安电子科技大学人工智能学院;香港中文大学(深圳)理工学院;法兰克福高等研究院) 通讯作者:Kai Zhou (周凯)(香港中文大学(深圳)理工学院;香港中文大学(深圳)人工智能学院;法兰克福高等研究院) 作者列表: Yu Sha (沙宇)(西安电子科技大学人工智能学院;香港中文大学(深圳)理工学院;法兰克福高等研究院) Shuiping Gou (苟水平)(西安电子科技大学人工智能学院) Bo Liu (刘波)(西安电子科技大学人工智能学院) Haofan Lu (卢浩帆)(西安电子科技大学人工智能学院) Ningtao Liu (刘宁涛)(洛阳理工学院计算机学院) Jiahui Fu (付佳慧)(法兰克福高等研究院) Horst Stoecker(法兰克福高等研究院;法兰克福大学理论物理研究所;GSI亥姆霍兹重离子研究中心) Domagoj Vnucec(SAMSON AG) Nadine Wetzstein(SAMSON AG) Andreas Widl(SAMSON AG) Kai Zhou (周凯)(香港中文大学(深圳)理工学院;香港中文大学(深圳)人工智能学院;法兰克福高等研究院) 💡 毒舌点评 这篇论文的亮点在于其将层次分类的思想系统性地转化为两个互补的损失函数(层次树损失和分组树三元组损失),并提供了严格的数学推导,在空化诊断这一具体任务上取得了令人信服的性能提升。短板在于其应用场景过于垂直(工业阀门空化),虽然实验充分,但对更广泛的音频或语音处理研究社区的直接启发性和普适性可能有限,更像是一篇扎实的领域应用论文而非开创性的方法论工作。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 311 words

Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations

📄 Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations #音乐信息检索 #自监督学习 #模型评估 ✅ 7.5/10 | 前25% | #音乐信息检索 | #自监督学习 | #模型评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Paul A. Bereuter(格拉茨音乐与表演艺术大学电子音乐与声学研究所) 通讯作者:未明确说明(论文中作者邮箱为{ bereuter,sontacchi }@iem.at,表明两人可能均为联系作者) 作者列表: Paul A. Bereuter(格拉茨音乐与表演艺术大学电子音乐与声学研究所) Alois Sontacchi(格拉茨音乐与表演艺术大学电子音乐与声学研究所) 💡 毒舌点评 亮点:论文直击音乐源分离评估中“指标与感知脱节”的痛点,用两个独立数据集系统性地验证了基于MERT嵌入的指标(MSE_MERT, FAD_MERT)在相关性上全面优于传统BSS-Eval指标,为社区提供了一个更可靠的自动化评估工具。短板:本质上是将一个现有的预训练模型(MERT)“拿来主义”地用于计算评估指标,创新深度有限;且仅验证了MERT这一种模型,未探讨其他音频基础模型是否更优,结论的普适性有待扩展。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/pablebe/mert-emb-eval/ 模型权重:论文未提及是否公开MERT模型权重,但MERT模型本身是公开的(论文引用了其出处)。 数据集:论文使用的两个数据集(Bake-Off, GenSVS)均提供了Zenodo链接,是公开可获取的。 Demo:论文中未提及在线演示。 复现材料:提供了计算指标的Python包gensvs,并说明了所使用的基线指标实现库(torchmetrics, nussl)。论文中包含实验设置细节(如STFT参数, MERT层选择)。 论文中引用的开源项目:torchmetrics(用于计算SDR, SI-SDR), nussl(用于计算SI-SAR, SI-SIR)。 复现计划:论文中已提供完整代码和数据链接,足以支持复现。 📌 核心摘要 问题:音乐源分离(MSS)领域常用的客观评估指标(BSS-Eval)与人类感知评分相关性较低,导致模型评估不够准确。 方法核心:提出两种基于嵌入的侵入式评估指标:在预训练MERT模型的嵌入空间上计算目标与分离信号的均方误差(MSE_MERT)和一种逐曲目的Fréchet音频距离(FAD_MERT)。 创新点:首次在多个音乐源(人声、贝斯、鼓、其他)和不同类型的分离模型(判别式、生成式)上,系统验证了基于MERT嵌入的指标与感知评分的相关性优于传统BSS-Eval指标。 主要实验结果:在两个独立数据集(Bake-Off, GenSVS)上,MSE_MERT和FAD_MERT在所有声部和模型类型上的Spearman和Pearson相关系数均高于BSS-Eval指标(如SDR, SI-SAR)。例如,在Bake-Off数据集的人声声部,FAD_MERT的SRCC达到0.78,而最高的BSS-Eval指标(SDR)仅为0.69。 实际意义:为音乐源分离模型提供了一种更可靠、与人类感知更一致的自动化评估方法,可作为耗时的主观听音测试的实用代理。 主要局限性:研究仅限于MERT一种预训练模型,未探索其他音频基础模型的表现;指标性能可能受限于MERT模型的表征能力。 🏗️ 模型架构 本文并非提出一个新的分离模型,而是提出一套评估指标计算流程。其核心架构如下: ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 221 words

Enhancing ASR Performance in the Medical Domain for Dravidian Languages

📄 Enhancing ASR Performance in the Medical Domain for Dravidian Languages #语音识别 #领域适应 #数据增强 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #领域适应 | #数据增强 #低资源 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注第一作者) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表: Sri Charan Devarakonda(未说明) Ravi Sastry Kolluru(未说明) Manjula Sri Rayudu(未说明) Rashmi Kapoor(未说明) Madhu G(未说明) Anil Kumar Vuppala(未说明) 💡 毒舌点评 论文提出的置信度感知训练框架设计完整,从静态指标到动态熵的融合逻辑清晰,并在两种语言上验证了有效性,这是一个扎实的工程化工作。然而,论文最大的短板在于完全未提供代码、模型权重或数据集链接,使得其“可复现性”大打折扣,对于一篇强调方法论的论文而言,这是个明显的遗憾。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中描述了构建的Telugu和Kannada医疗语音数据集,但未说明是否公开及获取方式。 Demo:未提及。 复现材料:论文提供了详细的训练超参数(学习率、batch size、优化器、epoch数等)和硬件信息,但缺少完整的配置文件、脚本和检查点。 论文中引用的开源项目:Wav2Vec2, Whisper, IndicTTS, GlowTTS, KenLM, IndicBART, mT5。 📌 核心摘要 这篇论文旨在解决达罗毗荼语言(Telugu和Kannada)在医疗领域自动语音识别(ASR)中面临的标注数据稀缺和语言形态复杂两大挑战。其核心方法是提出一个“置信度感知训练框架”,该框架通过一个混合置信度评分机制(结合静态的感知、声学相似性、WER分数和动态的模型熵),对混合了真实与合成语音的训练数据进行质量评估和加权,从而在微调阶段优先学习高质量样本。与传统直接微调或简单混合数据的方法相比,其创新在于引入了可学习的权重聚合策略和课程学习调度。实验结果显示,该方法结合5-gram KenLM后处理,将Telugu的WER从24.3%降至15.8%(8.5%绝对改进),Kannada的WER从31.7%降至25.4%(6.3%绝对改进),显著优于基线。该工作的实际意义在于为低资源、垂直领域的语音识别提供了一套可扩展的解决方案。主要局限性在于,框架的验证仅限于两种特定语言,其泛化能力有待更广泛检验,且论文未开源任何代码或数据,限制了社区的复现与跟进。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 293 words