AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

📄 AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner #视频编辑 #扩散模型 #音频生成 #音视频 🔥 8.0/10 | 前25% | #视频编辑 | #扩散模型 | #音频生成 #音视频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院) 通讯作者:Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 作者列表:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院),Shuchen Weng(北京人工智能研究院,北京大学计算机科学学院),Jingqi Liu(北京大学软件与微电子学院,北京人工智能研究院),Siqi Yang(北京大学人工智能研究院),Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 💡 毒舌点评 这篇工作就像一位细心的“音频-视频外科医生”,不仅能精准切除或替换视频中的特定实例(如把狗变成猫),还能确保它的叫声也同步变化,这种对模态间精细时空对齐的执着在现有编辑工具中相当稀缺。然而,其“手术”目前一次只能处理一个“病人”(单实例),且整个“手术器械”(自反馈音频代理)依赖一个外部模型“工具箱”,这让人担心其在真实世界复杂场景下的自主性和鲁棒性。 📌 核心摘要 问题:现有视频编辑方法主要关注视觉层面,破坏了原始视频中至关重要的音频-视频同步,且缺乏实例级别的精细空间和时间控制。 方法核心:提出AVI-Edit框架,包含三个关键组件:基于Wan2.2的音频同步视频骨干网络(通过帧级交叉注意力融合音频信息)、粒度感知遮罩精炼器(GAMR,迭代式地将用户提供的粗糙遮罩精化为精确的实例轮廓)、自反馈音频代理(通过“分离-生成-重混-修正”的闭环流程,利用外部工具生成高质量的引导音频)。 创新点:a) 引入“精度因子”来量化和控制遮罩的粗糙程度,实现迭代式遮罩精化;b) 设计了自反馈音频代理,能够根据场景自适应选择分离和生成模型,并通过质量评判进行迭代优化;c) 构建了首个大规模、实例中心的音频-视频编辑数据集AVISet。 实验结果:在AVISet和AvED-Bench两个数据集上,AVI-Edit在视觉质量(FVD/IS)、条件遵循(TC/AC)和音视频同步(Sync-C/D)等定量指标上均优于现有方法(AvED, Ovi, VACE-Foley)。用户研究显示,在音视频同步、文本对齐和总体偏好方面,AVI-Edit均获得最高支持率(最高达49.20%)。 实际意义:为高质量的视频内容创作提供了新工具,允许用户在保留背景和非目标音频的前提下,对视频中的特定实例及其关联音频进行精准、同步的编辑,适用于影视后期、短视频创作等场景。 主要局限性:a) 目前仅支持单实例顺序编辑,无法同时处理多个目标实例;b) 框架的音频代理模块依赖一组预设的外部模型,其性能受限于这些外部组件的质量和泛化能力。 🔗 开源详情 代码:论文中未提及代码链接 ...

2026-05-07 · 更新于 2026-05-21 · 3 min · 444 words

Benchmarking LLMs on the Massive Sound Embedding Benchmark (MSEB)

📄 Benchmarking LLMs on the Massive Sound Embedding Benchmark (MSEB) #音频大模型 #音频分类 #音频场景理解 #模型评估 #大语言模型 ✅ 7.0/10 | 前50% | #音频分类 | #模型评估 | #音频大模型 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Cyril Allauzen(未说明机构) 通讯作者:未说明 作者列表:Cyril Allauzen(未说明)、Tom Bagby(未说明)、Georg Heigold(未说明)、Ehsan Variani(未说明)、Ke Wu(未说明) 💡 毒舌点评 本文作为一篇系统性的基准测试论文,其亮点在于直面当前最热的“音频原生大模型”与传统“级联管道”的路线之争,利用权威的MSEB基准提供了宝贵的实证数据。然而,其主要短板在于结论略显保守和模糊——“最优方案不明确”虽然是事实,但对于寻求具体指导的研究者而言,这更像一个起点而非答案,且论文在提出新的评估范式或更精细的误差分析上似乎着墨不多。 📌 核心摘要 问题:随着能够处理音频的“音频原生”大语言模型(LLM)兴起,学术界和工业界面临一个关键选择:是用一个统一的多模态骨干网络取代以往复杂的、针对特定任务设计的音频处理流水线,还是继续沿用级联架构?目前缺乏系统性评估来指导这一架构决策。 方法:本文采用严格的经验性评估方法,在“大规模声音嵌入基准”(MSEB)的八项核心能力上,对来自Gemini和GPT系列的领先LLM进行测试,旨在量化评估其音频理解与处理效能,并检验其相对于传统专用编码器的“音频-文本对等性”。 新意:相比于早期针对特定编码器的评估,本文的新意在于将评估焦点转向新兴的、基于LLM的通用音频模型,并在同一基准下进行了大规模、多模型的横向对比。 主要结果:论文指出,尽管LLM展示了潜力,但在性能和鲁棒性上仍存在显著的“模态差距”(摘要中未提供具体数值或表格)。实验证据未能支持任何一种建模范式(音频原生 vs. 级联)具有绝对优势。 意义:为音频处理系统的架构选择提供了基于经验的参考。其结论强调,最优选择高度依赖于具体应用场景对延迟、成本、推理深度等的不同要求,有助于避免“一刀切”的技术路线讨论。 局限:核心结论(“最优方案不明确”)缺乏更强的结论性,可能无法给读者提供明确的行动指南。此外,评估的全面性(如是否覆盖所有典型音频任务、是否考虑了不同参数规模模型的表现)在摘要中未完全体现。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及(论文评估的MSEB基准测试本身为引用的第三方基准) Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 模型架构 本文为评估性论文,核心在于评估多个已有的模型,而非提出新架构。因此,论文中未描述一个新的、统一的模型架构。其“架构”指的是被评估的各个LLM(如Gemini、GPT系列)以及作为基线的传统音频编码器。论文重点在于比较这些不同架构在统一基准(MSEB)上的表现差异。摘要中未提供架构图。 ...

2026-05-07 · 更新于 2026-05-21 · 1 min · 116 words

Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes

📄 Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes #音频深度伪造检测 #内容审核 #模型评估 #数据集 #评测协议 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #模型评估 | #内容审核 #数据集 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Michael Soprano(University of Udine, Department of Mathematics, Computer Science and Physics) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Michael Soprano(University of Udine, Department of Mathematics, Computer Science and Physics)、Andrea Cioci(University of Udine, Department of Mathematics, Computer Science and Physics)、Stefano Mizzaro(University of Udine, Department of Mathematics, Computer Science and Physics) 💡 毒舌点评 这篇论文的亮点在于其严谨的实验设计,系统地量化了普通人在检测逼真假视频时的“集体盲点”,特别是对音视频联合伪造的无力感,为“眼见不一定为实”的当代困境提供了扎实的实证数据。但短板在于其结论高度依赖于特定的众包平台和数据集,且未与当前先进的自动检测模型进行对比,使得“人类筛查信号”到底有多强、能否与模型互补,仍是一个未解之谜。 ...

2026-05-07 · 更新于 2026-05-21 · 2 min · 364 words

Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation

📄 Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation #音乐生成 #和弦识别 #迁移学习 #领域适应 ✅ 7.5/10 | 前50% | #音乐生成 | #迁移学习 | #和弦识别 #领域适应 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jinju Lee(PearlLeeStudio) 通讯作者:Jinju Lee(pearl1379@gmail.com) 作者列表:Jinju Lee(PearlLeeStudio) 💡 毒舌点评 本文的亮点在于极其扎实和清晰的实验设计,将“跨风格微调时需要多少旧数据”这个模糊问题量化为了一个可复现的实证研究,并给出了“1.5倍”这个具有实操价值的启发式阈值。其短板则在于任务本身和评估手段的局限性:一个25M参数的模型在两个小数据集上的结论,且最关键的“风格偏好”判断仅依赖作者一人的主观听感,缺乏形式化的听觉研究来支撑“指标最优≠听感最佳”的有趣结论,使得说服力打了折扣。 📌 核心摘要 本文研究了在将流行音乐预训练的和弦生成模型微调至爵士风格时,为防止“灾难性遗忘”所需的“复习”数据量。核心方法是固定使用全部约1,500条爵士训练序列,系统性地变化混合其中的流行音乐训练序列数量(从0到10,000条),使用一个25M参数的Music Transformer进行微调。实验发现:1)所有微调模型在爵士和弦预测准确率上均提升7-9个百分点;2)当流行复习数据量达到爵士数据量的1.5至2倍(约2,500条序列)时,即可完全防止流行音乐预测性能的崩溃;3)超过此阈值,性能收益饱和。论文还通过作者的非正式听感指出,虽然指标最优的中间混合比例(F3)在量化指标上平衡,但风格特征更鲜明的端点模型(流行偏向的F1或爵士偏向的F4)可能更受创作者青睐。这表明在音乐生成工具中,提供多种风格倾向的模型供用户选择可能比提供单一“最优”模型更具价值。主要局限在于实验仅基于单一模型架构和规模,且缺乏正式的多人听觉评估研究。 🔗 开源详情 代码:论文中未提及代码链接。论文中说明代码库由作者私人维护,访问权限需通过电子邮件(pearl1379@gmail.com)申请。 模型权重:所有六个检查点已发布于 HuggingFace Hub,链接为:https://huggingface.co/PearlLeeStudio。 数据集:论文中提及了六个使用的语料库,但未提供统一的开源数据集页面或下载链接。论文说明:“许可的源数据集本身不重新分发”。具体数据集名称及来源如下: Pop:Chordonomicon(用户生成)、McGill Billboard(CC0协议)。 Jazz:Jazz Harmony Treebank (JHT)(公开)、JazzStandards (iReal Pro)(社区)、Weimar Jazz Database (WJazzD)(ODbL协议)、JAAH(研究许可)。 外部数据集下载链接已包含在模型卡中。 Demo:论文中未提及在线演示链接。 复现材料:论文中提及,所有运行结果的每轮CSV、配置文件、随机种子以及分词器均打包在HuggingFace模型卡的元数据中,可用于端到端地重新生成本文结果。具体文件未在论文中列出,但可通过上述HuggingFace链接获取。 论文中引用的开源项目:论文在相关工作中提及了多个项目,但未在本文直接使用其代码。具体提及的项目包括:DoReMi(论文链接:https://arxiv.org/abs/2104.14216)、The Pile(论文链接:https://arxiv.org/abs/2101.00027)。 🏗️ 模型架构 论文采用标准的 Music Transformer 架构,专注于和弦符号序列的建模。 ...

2026-05-07 · 更新于 2026-05-21 · 2 min · 282 words

Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification

📄 Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification #音频分类 #信号处理 #时频分析 #实时处理 #水下声学 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #时频分析 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India) 通讯作者:未说明 作者列表:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Sandeep Kumar (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Monika Aggarwal (Centre for Applied Research in Electronics (CARE), IIT Delhi, India)、Neel Kanth Kundu (Centre for Applied Research in Electronics (CARE), IIT Delhi, India) 💡 毒舌点评 亮点:论文清晰地论证并验证了“信号表示质量是决定性能上限的关键”这一观点,其生物启发的Gammatone前端在保持极低计算开销(0.77ms延迟)的前提下,显著优于传统线性和多分辨率特征,为资源受限的边缘声纳部署提供了切实可行的方案。短板:创新性更多体现在技术整合与领域迁移,而非Gammatone滤波器本身的原理突破;虽然在VTUAD数据集上表现优异,但验证仅限于单一公开数据集,其泛化能力至更复杂的真实海洋环境仍需更多证据。 ...

2026-05-07 · 更新于 2026-05-21 · 2 min · 341 words

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

📄 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions #音频质量评估 #大语言模型 #多模态模型 #零样本 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Leying Zhang(上海交通大学 计算机科学与技术学院,听觉认知与计算声学实验室,AI研究院) 通讯作者:Yanmin Qian(上海交通大学 计算机科学与技术学院,听觉认知与计算声学实验室,AI研究院) 作者列表: Leying Zhang(上海交通大学) Bowen Shi(独立研究者,美国) Haibin Wu(独立研究者,美国) Bach Viet Do(独立研究者,美国) Yanmin Qian(上海交通大学) 💡 毒舌点评 这篇论文把“指令跟随”从聊天机器人玩出了新花样,成功让一个3B参数的LLM学会了听声辨器,成为一个跨领域的全能“音频考官”,实验结果全面碾压了各种老牌打分模型和通用多模态大模型,实用性拉满。不过,它的“超能力”似乎建立在对训练数据分布的高度适应上,一旦遇到像语速评估这种对时序动态要求苛刻的任务,就立马“打回原形”,暴露了当前LLM在细粒度音频感知上的本质短板。 📌 核心摘要 要解决的问题:随着生成式音频模型的快速发展,现有评估方法(传统客观指标或通用多模态大模型)在领域泛化能力、零样本任务适应性和指令灵活性上存在严重瓶颈。一个模型往往只能用于特定任务或评估维度。 方法核心:提出JASTIN框架,将音频评估重新定义为指令驱动的自回归推理任务。其核心架构是冻结的预训练音频编码器(PE-A-Frame-base)+ 轻量级可训练音频适配器 + 微调的大语言模型(Llama-3.2-3B)。通过交错的对话模板输入,将自然语言评估指令与音频特征一起输入LLM,直接生成数值评分。 与已有方法相比新在哪里: 统一泛化:单个模型可零样本处理语音、音乐、音效等24种评估任务,无需任务特定重训练。 创新的数据准备管道:采用多源(人工标注、伪标签、代理任务数据)、多任务、多校准(动态评分范围、语义反转)、多描述(LLM驱动重述) 的异构数据增强策略,极大提升了模型对指令和评估标准的理解与鲁棒性。 指令鲁棒性与人类中心对齐:模型能灵活适应评分规则和标定的变化,同时对同义指令保持稳定输出,其预测结果与人类主观评分的相关性达到了新的SOTA水平。 主要实验结果�� 在QualiSpeech和SpeechEval两个语音数据集上,JASTIN在几乎所有指标上的皮尔逊(PCC)和斯皮尔曼(SRCC)相关系数均超过所有对比基线(包括专用评估模型、通用MLLM和传统指标)。例如,在QualiSpeech的失真(Dist.)指标上,JASTIN的PCC达到0.561,而第二好的专用模型QualiSpeech仅为0.518。 在跨领域AES数据集(语音、音效、音乐)上,JASTIN性能与专用的AES模型相当或更优,例如在语音质量(PQ)指标上PCC达0.707(AES模型为0.730),在音乐内容享受度(CE)上PCC达0.749(超过AES的0.748)。 在域外(OOD)任务(音乐文本对齐、整体音乐质量、合成语音MOS、ASMR语音MOS)上,JASTIN显著超越所有通用大模型(如Gemini-3-Pro, Qwen3-Omni),证明了其出色的零样本泛化能力。例如,在音乐文本对齐(M-TA)任务上,JASTIN的PCC为0.487,而Gemini-3-Pro仅为0.175。 实际意义:提供了一个通用、灵活、可扩展的自动化音频评估基础框架。研究人员和开发者可以像给人类评估员下指令一样,用自然语言定义评估任务和标准,无需为每个新任务收集数据或训练专用模型,极大降低了音频质量评估的门槛和成本。 主要局限性: 在时间敏感任务(如语速评估)上表现不佳,相关系数很低,与大多数基线模型一样,揭示了当前LLM架构在精细时序动态感知上的共同弱点。 在处理高度专业化或美学驱动的音频领域(如ASMR)时,模型可能因内部语音质量先验知识而产生误判,将高保真的耳语误认为音频伪影。 仅支持单音频评分,尚不支持多音频比较或参考音频评估。 🔗 开源详情 代码:https://github.com/vivian556123/Jastin 模型权重: 音频编码器基础模型:https://huggingface.co/facebook/pe-a-frame-base (论文中引用的第三方预训练模型,非Jastin自训练权重) 语言模型骨干:https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct (论文中引用的第三方预训练模型,非Jastin自训练权重) Jastin模型本身的训练权重:论文中未提及下载链接或开源权重。 数据集:论文中提及用于训练的多源数据集,但未提供统一的下载包或开源链接。具体数据集名称及来源见下文“论文中引用的开源项目”部分。 Demo:论文中未提及。 复现材料:论文中开源了模型设计、推理脚本、数据处理脚本以及所有模板、任务描述和提示。这些材料已包含在上述GitHub代码仓库中。论文中详细说明了训练配置(如使用8个A100 GPU,训练6000步等),但未提供训练好的检查点(checkpoint)。 论文中引用的开源项目: 模型: PE-A-Frame: https://huggingface.co/facebook/pe-a-frame-base Llama-3.2-3B: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct 数据集(部分提及): ChildSpeech: https://huggingface.co/datasets/TomRoma/Child_Speech_dataset_Whisper 其他作为数据来源被提及的公开数据集名称:BVCC、QualiSpeech、SpeechEval、UrgentMOS、LibriTTS、Expresso、CommonVoice、EARS、AudioSet、FreeSound、MusicCaps、MUSDB18、LibriSpeech、NCSSD、CHAINs。 完整任务列表:在论文的补充材料中提及,链接为 https://github.com/vivian556123/Jastin/blob/main/prompts-and-tasks.html 🏗️ 模型架构 JASTIN的整体架构如图1所示,旨在将连续的音频信号与离散的文本指令在LLM的语义空间中对齐。 ...

2026-05-07 · 更新于 2026-05-21 · 2 min · 418 words

Library learning with e-graphs on jazz harmony

📄 Library learning with e-graphs on jazz harmony #音乐信息检索 #音乐理解 #程序合成 #库学习 ✅ 6.5/10 | 前50% | #音乐信息检索 | #程序合成 | #音乐理解 #库学习 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Zeng Ren (EPFL Lausanne, Vaud, Switzerland) 通讯作者:Martin Rohrmeier (EPFL Lausanne, Vaud, Switzerland) 作者列表:Zeng Ren (EPFL Lausanne, Vaud, Switzerland)、Maddy Bowers (MIT, Cambridge, Massachusetts, USA)、Xinyi Guan (EPFL Lausanne, Vaud, Switzerland)、Martin Rohrmeier (EPFL Lausanne, Vaud, Switzerland) 💡 毒舌点评 这篇论文将音乐模式发现巧妙地形式化为可重用程序片段的合成问题,并在技术上创造性地整合了演绎解析与e-graph上的库学习,理论框架新颖且自洽。然而,核心实验仅在3首长度有限的爵士乐曲上进行概念验证,其计算效率、对更复杂或更大规模语料库的适用性,以及学习到的模式是否具有音乐理论上的普适意义,都亟需更大规模的实验来验证,目前看更像一个技术探索而非成熟的解决方案。 ...

2026-05-07 · 更新于 2026-05-21 · 2 min · 304 words

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #自回归模型 #端到端 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #端到端 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jingyao Gong (Independent Researcher) 通讯作者:Jingyao Gong (gongjy.cs@foxmail.com) 作者列表:Jingyao Gong (Independent Researcher) 💡 毒舌点评 亮点: 这篇论文堪称“开源全模态”的典范级实践,从模型架构、训练数据、到中间层状态桥接等每一个“工程细节”都被清晰设计并完整开源,为研究社区提供了一个可真正拆解和复现的语音原生全模态研究基座。短板: 然而,在0.1B这个参数规模下,模型在中长英文语音生成上的“音素漂移”和“漏词”问题暴露了其表达能力的上限,且评估侧重于内部一致性而非端到端的任务性能或用户感知,使其更像是一个优雅的技术验证原型,而非一个能直接解决实际问题的强劲方案。 📌 核心摘要 要解决什么问题: 旨在探索并证明在极小参数规模(0.1B)下,构建一个完整的、可复现的语音原生全模态(文本/语音/图像输入 -> 文本/流式语音输出)交互循环的可行性。 方法核心是什么: 采用分离的Thinker(负责语义推理)和Talker(负责语音生成)架构。核心创新在于:a) 使用Thinker的中间层隐状态(而非最终层)作为语义桥梁注入Talker,以提供更纯净的声学条件;b) 对Mimi八码本的嵌入和输出头采用低秩适配器参数化,实现参数高效接口;c) 设计并公开了完整的多模态序列格式和训练数据集。 与已有方法相比新在哪里: 不同于追求大规模和高性能的前沿全模态模型,本文专注于在小规模、全开源、可严格复现的约束下,系统研究并量化影响全模态循环的关键设计选择(如桥接层位置、Talker宽度、码本接口等)。同时,模型通过上下文提示(参考码本流+说话人嵌入)实现灵活的声音克隆,而非依赖独立的TTS模块。 主要实验结果如何: 论文报告了两个关键评估结果: 一致性(CER): 在Thinker-Talker一致性评估中,Dense和MoE变体的平均CER分别为0.0897和0.0900。消融实验表明,768维的Talker宽度是稳定工作的必要条件。 语音克隆(CAM++相似度): 整体声音克隆相似度分别为0.5995(Dense)和0.5937(MoE),相比仅使用参考码本的基线有提升。 在与Mini-Omni2等更大模型的跨模型英文T2A对比中,minimind-3o在短句(≤15词)上CER/WER接近,但在中长句(16-30词)上差距显著(如minimind-3o CER: 0.1327 vs. Mini-Omni2 CER: 0.0062)。 实际意义是什么: 为语音大模型/全模态模型的研究提供了一个完全透明、可修改、可在消费级GPU(4x RTX 3090)上复现的小规模研究平台。它证明了在资源受限下,通过精心设计桥接层、参数高效接口和开放数据,也能构建并训练一个功能完整的语音原生循环。 主要局限性是什么: a) 性能天花板低:在语音自然度和长文本稳定性上远落后于大型模型;b) 视觉通路弱:使用冻结的SigLIP2和简单MLP投影器,更接近简化的图像描述而非强大的视觉理解;c) 评估窄:主要评估输出文本一致性(CER/WER),缺乏自然度、延迟、鲁棒性等更全面的评估。 🔗 开源详情 代码:https://github.com/jingyaogong/minimind-o 模型权重: HuggingFace:https://huggingface.co/collections/jingyaogong/minimind-o ModelScope:https://modelscope.cn/collections/gongjy/minimind-o 数据集:论文中提及了公开发布的训练数据集,用于复现模型。具体数据集(sft_t2a, sft_i2t, sft_a2a)的Parquet格式文件及获取方式,应通过上述代码仓库或模型集合页面获取。论文未提及单独的、独立的数据集存储库链接。 Demo:论文中未提及独立的在线演示链接。但附录B指出,代码发布中包含了一个HTML演示页面,其中包含可播放的音频示例。 复现材料: 训练配置:论文详细说明了训练流程(train_sft_omni.py)、数据模式(sft_t2a, sft_i2t, sft_a2a)、训练超参数(如学习率、批大小)、硬件要求(4张NVIDIA RTX 3090 GPU)和各阶段训练时间。 检查点:模型权重(检查点)已发布在HuggingFace和ModelScope上。 附录:提供了详细的模块配置、参��计数和评估结果表格。 论文中引用的开源项目: MiniMind (基础语言模型):https://github.com/jingyaogong/minimind SenseVoice-Small (音频编码器):论文中引用其来源为 An and others, 2024,但未提供直接链接。通常可通过其官方仓库获取,例如:https://github.com/FunAudioLLM/SenseVoice SigLIP2 (视觉编码器):论文中引用其来源为 Tschannen et al., 2025,未提供直接链接。 Mimi (音频编解码器):论文中引用其来源为 Défossez et al., 2024,未提供直接链接。这是Moshi模型的一部分。 CAM++ (说话人嵌入):论文中引用其来源为 Wang et al., 2023b,未提供直接链接。 Qwen3-ASR-Flash (用于评估的ASR):论文中引用但未提供链接。 Qwen-VL-Plus (用于视觉评估的参考生成):论文中引用但未提供链接。 🏗️ 模型架构 Figure 1: MiniMind-O 架构总览。音频和图像由冻结的编码器处理,通过MLP投影器注入到Thinker对应模态的占位符位置。一个中间层的Thinker状态与Mimi码本历史被独立的Talker融合,以预测八个码本层的流式语音。 ...

2026-05-07 · 更新于 2026-05-21 · 3 min · 523 words

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #音频分类 #数据集 #预训练 #领域适应 #多模态模型 ✅ 7.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #领域适应 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yida Xue(浙江大学计算机科学与技术学院;浙江大学软件技术学院) 通讯作者:Ningyu Zhang(浙江大学计算机科学与技术学院;浙江大学软件技术学院;海洋感知国家重点实验室)、Guozhou Zheng(舟山海洋研究中心;海洋感知国家重点实验室) 作者列表:Yida Xue(浙江大学计算机科学与技术学院,浙江大学软件技术学院),Ningyu Zhang(浙江大学计算机科学与技术学院,浙江大学软件技术学院,海洋感知国家重点实验室),Tingwei Wu(浙江大学计算机科学与技术学院,浙江大学软件技术学院),Zhe Ma(浙江大学计算机科学与技术学院),Daxiong Ji(浙江大学软件技术学院),Zhao Wang(浙江大学软件技术学院),Guozhou Zheng(舟山海洋研究中心,海洋感知国家重点实验室),Huajun Chen(浙江大学计算机科学与技术学院,ZJU-杭州全球科技创新中心,海洋感知国家重点实验室) 💡 毒舌点评 亮点:该工作首次系统性地整合了声呐、水下图像、科学图表和文本等多源异构海洋数据,并构建了配套的知识图谱引导的指令数据与评估基准,填补了领域空白,为海洋科学Foundation Model的开发铺平了道路。 短板:作为一篇数据集论文,其方法论创新主要体现在工程化的数据处理和整合流程上,缺乏在模型架构或训练范式上的突破;对于如此大规模多模态数据的噪声分布、跨模态对齐的误差分析以及数据偏见等关键问题讨论不足。 📌 核心摘要 要解决什么问题:海洋科学领域缺乏大规模、高质量、多模态对齐的数据集,导致通用多模态大模型(MLLMs)在海洋科学任务上应用受限,存在严重的“数据瓶颈”。 方法核心是什么:提出OceanPile,一个为海洋基础模型设计的大规模多模态语料库,包含三个核心组件:用于预训练的OceanCorpus(整合文本、声呐、水下图像等多源数据);用于指令微调的OceanInstruction(基于层次化海洋概念知识图谱生成的指令数据);以及用于评估的OceanBenchmark(手动标注的基准测试集)。 与已有方法相比新在哪里:相比于零散的单一模态海洋数据集(如声呐或图像数据集)或目标单一的海洋大模型(如OceanGPT),OceanPile首次提供了覆盖物理、化学、生物等多学科,整合了声学、视觉、文本等多模态,且经过对齐和质量控制的综合性资源,旨在全面支持海洋科学MLLM的预训练、微调和评估。 主要实验结果如何:实验表明,使用OceanInstruction微调的模型在OceanBenchmark上性能显著提升。例如,Qwen3-VL-8B-Instruct的多模态总体得分从13.07提升至32.59(+19.52),超越了GPT-4o(14.35)和GPT-5(9.67),并略优于Gemini-3-Flash(31.21)。具体任务提升显著:海洋物种识别(Marine Organisms VQA)从9.96提升至48.52(+38.56)。关键数据见下表: 模型 文本基准:海洋科学QA (%) 多模态基准 海洋科学VQA (%) 声呐VQA (%) 海洋生物VQA (%) 总体 (%) Qwen3-30B 25.49 - - - - Qwen3-30B (with OceanPile) 26.47 - - - - Qwen3-VL-8B - 21.21 8.04 9.96 13.07 Qwen3-VL-8B (with OceanPile) - 29.29 19.97 48.52 32.59 GPT-5 16.67 19.19 0.71 9.11 9.67 GPT-4o 6.86 16.16 5.71 21.19 14.35 Gemini-3-Flash 24.51 32.32 11.11 50.21 31.21 实际意义是什么:为海洋科学AI研究提供了关键的基础设施(数据集和基准),有望加速海洋环境感知、物种识别、资源勘探等领域的智能化进程,推动领域专用大模型的发展。 ...

2026-05-07 · 更新于 2026-05-21 · 1 min · 208 words

PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐表示学习 #对比学习 #音乐信息检索 #音频评估 🔥 8.5/10 | 前10% | #音乐信息检索 | #对比学习 | #音乐表示学习 #音频评估 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Davide Marincione(未明确说明具体所属机构,根据论文末尾致谢推断可能隶属于Sapienza University of Rome) 通讯作者:未说明 作者列表:Davide Marincione (未说明)、Michele Mancusi (未说明)、Giorgio Strano (未说明)、Luca Cerovaz (未说明)、Donato Crisostomi (未说明)、Roberto Ribuoli (未说明)、Emanuele Rodolà (Sapienza University of Rome) 💡 毒舌点评 亮点:PHALAR巧妙地将信号处理中的经典理论(傅里叶移位定理)转化为深度学习的归纳偏置,通过让特征在复平面“旋转”而非“抹平”来编码节奏,为解决音乐表示学习中“保留时序结构”这一难题提供了优美且有效的几何方案,效果提升显著。 短板:其核心假设(RFFT对时间周期性敏感)在面对真实世界中常见的速度渐变、自由节奏(rubato)时面临理论瓶颈;此外,论文的评估高度聚焦于“茎检索”这一特定代理任务,其学到的表示能否无缝迁移至更复杂的音乐理解任务(如结构分析、生成质量评估)尚缺乏更广泛的验证。 📌 核心摘要 要解决的问题:现有音乐音频表示学习模型(如CLAP、COCOLA)依赖全局平均池化(GAP),丢弃了关键的时序和相位信息,导致它们在需要评估音乐“结构相干性”(即不同音轨是否在时间和和声上匹配)的任务上表现糟糕,本质上是“结构盲”的。 方法核心:提出PHALAR框架,其核心是用Learned Spectral Pooling层替代GAP。该层对提取的特征进行时域快速傅里叶变换(RFFT),依据傅里叶移位定理,将时间偏移映射为复数域中的相位旋转。随后,使用复数值神经网络(CVNN)头处理这些复数嵌入,以保持相位等变性,最终通过一个参数化的埃尔米特内积计算“相干性”分数。 与已有方法相比新在哪里: 范式转变:从追求“时序不变性”(如GAP)转向明确建模“时序等变性”,这是根本性的设计哲学变化。 架构创新:结合了音高等变的骨干网络(基于CQT输入)和相位等变的CVNN头,形成了端到端的相干性建模流水线。 揭示新关系:实验证明,传统的语义相似性基础模型(如CLAP)在相干性任务上表现随机,揭示了“相似性”与“相干性”建模的正交性。 主要实验结果: 检索性能:在三个数据集(MoisesDB, Slakh2100, ChocoChorales)的K-way检索任务中,PHALAR均达到新的SOTA。例如,在最困难的MoisesDB K=64任务中,PHALAR的Top-1准确率为70.87%,相比之前SOTA(COCOLA)的41.84%有≈69%的相对提升,且参数量仅为其一半(2.3M vs 5.2M)。 人类相关性:在人类听感相干性评分实验中,PHALAR的得分与人类评分的斯皮尔曼相关系数(rs=0.414)显著高于所有基线(包括COCOLA的0.153和CLAP的0.122),且AIC值最低。 零样本涌现能力:尽管未针对节奏或和声进行监督,PHALAR的嵌入在零样本节拍跟踪(F1=0.627)和线性和弦探测(55.2%准确率)任务中均表现出有效捕捉音乐结构的能力。 消融研究:证明了相位等变性(去掉后准确率降10.3%)和频谱池化(替换为GAP后准确率降18.9%)是性能的关键。 实际意义:为音乐信息检索(特别是需要理解结构对齐的检索、生成评估)提供了一个强大且与人类感知高度相关的度量工具。其方法可推广至任何需要保留相位/时序信息的领域(如雷达信号、时间序列分析)。 主要局限性:对非周期性节奏(如速度渐变rubato)的适应性有限,因为RFFT假设时间周期性;性能在重度压缩或有损音频上会下降;训练数据以西方流行音乐为主,其定义的“相干性”可能不适用于强调微时序偏差的音乐风格。 🔗 开源详情 代码:https://github.com/gladia-research-group/phalar 模型权重:论文中未提及(代码仓库包含模型检查点) 数据集:论文中使用了MoisesDB、Slakh2100、ChocoChorales,但未提供这些数据集的直接获取链接,读者需通过相应渠道获取。 Demo:论文中未提及 复现材料:代码仓库(https://github.com/gladia-research-group/phalar)包含代码、训练检查点以及人类评估结果。 论文中引用的开源项目: Muon 优化器:论文中未提及具体链接(引用为 Jordan et al., 2024) STAGE (stem生成模型):论文中未提及具体链接(引用为 Strano et al., 2025) StableAudio-ControlNet:论文中未提及具体链接(引用为 Evans et al., 2025) MERT:论文中未提及具体链接(引用为 Li et al., 2024) CLAP:论文中未提及具体链接(引用为 Wu* et al., 2023) CDPAM:论文中未提及具体链接(引用为 Manocha et al., 2021) COCOLA:论文中未提及具体链接(引用为 Ciranni et al., 2025) MUSDB18-HQ 数据集:论文中未提及具体链接(引用为 Rafii et al., 2017, 2019) DAC (神经音频编解码器):论文中未提及具体链接(引用为 Kumar et al., 2023) EnCodec (神经音频编解码器):论文中未提及具体链接(引用为 Défossez et al.) librosa:论文中未提及具体链接,通常指开源Python库 https://librosa.org/ mir_eval:论文中未提及具体链接,通常指开源Python库 https://craffel.github.io/mir_eval/ 🏗️ 模型架构 PHALAR的整体架构可分为三个阶段,如论文中的图2所示: ...

2026-05-07 · 更新于 2026-05-21 · 3 min · 468 words