MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #自回归模型 #端到端 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #端到端 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jingyao Gong (Independent Researcher) 通讯作者:Jingyao Gong (gongjy.cs@foxmail.com) 作者列表:Jingyao Gong (Independent Researcher) 💡 毒舌点评 亮点: 这篇论文堪称“开源全模态”的典范级实践,从模型架构、训练数据、到中间层状态桥接等每一个“工程细节”都被清晰设计并完整开源,为研究社区提供了一个可真正拆解和复现的语音原生全模态研究基座。短板: 然而,在0.1B这个参数规模下,模型在中长英文语音生成上的“音素漂移”和“漏词”问题暴露了其表达能力的上限,且评估侧重于内部一致性而非端到端的任务性能或用户感知,使其更像是一个优雅的技术验证原型,而非一个能直接解决实际问题的强劲方案。 📌 核心摘要 要解决什么问题: 旨在探索并证明在极小参数规模(0.1B)下,构建一个完整的、可复现的语音原生全模态(文本/语音/图像输入 -> 文本/流式语音输出)交互循环的可行性。 方法核心是什么: 采用分离的Thinker(负责语义推理)和Talker(负责语音生成)架构。核心创新在于:a) 使用Thinker的中间层隐状态(而非最终层)作为语义桥梁注入Talker,以提供更纯净的声学条件;b) 对Mimi八码本的嵌入和输出头采用低秩适配器参数化,实现参数高效接口;c) 设计并公开了完整的多模态序列格式和训练数据集。 与已有方法相比新在哪里: 不同于追求大规模和高性能的前沿全模态模型,本文专注于在小规模、全开源、可严格复现的约束下,系统研究并量化影响全模态循环的关键设计选择(如桥接层位置、Talker宽度、码本接口等)。同时,模型通过上下文提示(参考码本流+说话人嵌入)实现灵活的声音克隆,而非依赖独立的TTS模块。 主要实验结果如何: 论文报告了两个关键评估结果: 一致性(CER): 在Thinker-Talker一致性评估中,Dense和MoE变体的平均CER分别为0.0897和0.0900。消融实验表明,768维的Talker宽度是稳定工作的必要条件。 语音克隆(CAM++相似度): 整体声音克隆相似度分别为0.5995(Dense)和0.5937(MoE),相比仅使用参考码本的基线有提升。 在与Mini-Omni2等更大模型的跨模型英文T2A对比中,minimind-3o在短句(≤15词)上CER/WER接近,但在中长句(16-30词)上差距显著(如minimind-3o CER: 0.1327 vs. Mini-Omni2 CER: 0.0062)。 实际意义是什么: 为语音大模型/全模态模型的研究提供了一个完全透明、可修改、可在消费级GPU(4x RTX 3090)上复现的小规模研究平台。它证明了在资源受限下,通过精心设计桥接层、参数高效接口和开放数据,也能构建并训练一个功能完整的语音原生循环。 主要局限性是什么: a) 性能天花板低:在语音自然度和长文本稳定性上远落后于大型模型;b) 视觉通路弱:使用冻结的SigLIP2和简单MLP投影器,更接近简化的图像描述而非强大的视觉理解;c) 评估窄:主要评估输出文本一致性(CER/WER),缺乏自然度、延迟、鲁棒性等更全面的评估。 🔗 开源详情 代码:https://github.com/jingyaogong/minimind-o 模型权重: HuggingFace:https://huggingface.co/collections/jingyaogong/minimind-o ModelScope:https://modelscope.cn/collections/gongjy/minimind-o 数据集:论文中提及了公开发布的训练数据集,用于复现模型。具体数据集(sft_t2a, sft_i2t, sft_a2a)的Parquet格式文件及获取方式,应通过上述代码仓库或模型集合页面获取。论文未提及单独的、独立的数据集存储库链接。 Demo:论文中未提及独立的在线演示链接。但附录B指出,代码发布中包含了一个HTML演示页面,其中包含可播放的音频示例。 复现材料: 训练配置:论文详细说明了训练流程(train_sft_omni.py)、数据模式(sft_t2a, sft_i2t, sft_a2a)、训练超参数(如学习率、批大小)、硬件要求(4张NVIDIA RTX 3090 GPU)和各阶段训练时间。 检查点:模型权重(检查点)已发布在HuggingFace和ModelScope上。 附录:提供了详细的模块配置、参��计数和评估结果表格。 论文中引用的开源项目: MiniMind (基础语言模型):https://github.com/jingyaogong/minimind SenseVoice-Small (音频编码器):论文中引用其来源为 An and others, 2024,但未提供直接链接。通常可通过其官方仓库获取,例如:https://github.com/FunAudioLLM/SenseVoice SigLIP2 (视觉编码器):论文中引用其来源为 Tschannen et al., 2025,未提供直接链接。 Mimi (音频编解码器):论文中引用其来源为 Défossez et al., 2024,未提供直接链接。这是Moshi模型的一部分。 CAM++ (说话人嵌入):论文中引用其来源为 Wang et al., 2023b,未提供直接链接。 Qwen3-ASR-Flash (用于评估的ASR):论文中引用但未提供链接。 Qwen-VL-Plus (用于视觉评估的参考生成):论文中引用但未提供链接。 🏗️ 模型架构 Figure 1: MiniMind-O 架构总览。音频和图像由冻结的编码器处理,通过MLP投影器注入到Thinker对应模态的占位符位置。一个中间层的Thinker状态与Mimi码本历史被独立的Talker融合,以预测八个码本层的流式语音。 ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 523 words

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #音频分类 #数据集 #预训练 #领域适应 #多模态模型 ✅ 7.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #领域适应 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yida Xue(浙江大学计算机科学与技术学院;浙江大学软件技术学院) 通讯作者:Ningyu Zhang(浙江大学计算机科学与技术学院;浙江大学软件技术学院;海洋感知国家重点实验室)、Guozhou Zheng(舟山海洋研究中心;海洋感知国家重点实验室) 作者列表:Yida Xue(浙江大学计算机科学与技术学院,浙江大学软件技术学院),Ningyu Zhang(浙江大学计算机科学与技术学院,浙江大学软件技术学院,海洋感知国家重点实验室),Tingwei Wu(浙江大学计算机科学与技术学院,浙江大学软件技术学院),Zhe Ma(浙江大学计算机科学与技术学院),Daxiong Ji(浙江大学软件技术学院),Zhao Wang(浙江大学软件技术学院),Guozhou Zheng(舟山海洋研究中心,海洋感知国家重点实验室),Huajun Chen(浙江大学计算机科学与技术学院,ZJU-杭州全球科技创新中心,海洋感知国家重点实验室) 💡 毒舌点评 亮点:该工作首次系统性地整合了声呐、水下图像、科学图表和文本等多源异构海洋数据,并构建了配套的知识图谱引导的指令数据与评估基准,填补了领域空白,为海洋科学Foundation Model的开发铺平了道路。 短板:作为一篇数据集论文,其方法论创新主要体现在工程化的数据处理和整合流程上,缺乏在模型架构或训练范式上的突破;对于如此大规模多模态数据的噪声分布、跨模态对齐的误差分析以及数据偏见等关键问题讨论不足。 📌 核心摘要 要解决什么问题:海洋科学领域缺乏大规模、高质量、多模态对齐的数据集,导致通用多模态大模型(MLLMs)在海洋科学任务上应用受限,存在严重的“数据瓶颈”。 方法核心是什么:提出OceanPile,一个为海洋基础模型设计的大规模多模态语料库,包含三个核心组件:用于预训练的OceanCorpus(整合文本、声呐、水下图像等多源数据);用于指令微调的OceanInstruction(基于层次化海洋概念知识图谱生成的指令数据);以及用于评估的OceanBenchmark(手动标注的基准测试集)。 与已有方法相比新在哪里:相比于零散的单一模态海洋数据集(如声呐或图像数据集)或目标单一的海洋大模型(如OceanGPT),OceanPile首次提供了覆盖物理、化学、生物等多学科,整合了声学、视觉、文本等多模态,且经过对齐和质量控制的综合性资源,旨在全面支持海洋科学MLLM的预训练、微调和评估。 主要实验结果如何:实验表明,使用OceanInstruction微调的模型在OceanBenchmark上性能显著提升。例如,Qwen3-VL-8B-Instruct的多模态总体得分从13.07提升至32.59(+19.52),超越了GPT-4o(14.35)和GPT-5(9.67),并略优于Gemini-3-Flash(31.21)。具体任务提升显著:海洋物种识别(Marine Organisms VQA)从9.96提升至48.52(+38.56)。关键数据见下表: 模型 文本基准:海洋科学QA (%) 多模态基准 海洋科学VQA (%) 声呐VQA (%) 海洋生物VQA (%) 总体 (%) Qwen3-30B 25.49 - - - - Qwen3-30B (with OceanPile) 26.47 - - - - Qwen3-VL-8B - 21.21 8.04 9.96 13.07 Qwen3-VL-8B (with OceanPile) - 29.29 19.97 48.52 32.59 GPT-5 16.67 19.19 0.71 9.11 9.67 GPT-4o 6.86 16.16 5.71 21.19 14.35 Gemini-3-Flash 24.51 32.32 11.11 50.21 31.21 实际意义是什么:为海洋科学AI研究提供了关键的基础设施(数据集和基准),有望加速海洋环境感知、物种识别、资源勘探等领域的智能化进程,推动领域专用大模型的发展。 ...

2026-05-07 · 更新于 2026-06-22 · 1 min · 208 words

PHALAR: Phasors for Learned Musical Audio Representations

📄 PHALAR: Phasors for Learned Musical Audio Representations #音乐表示学习 #对比学习 #音乐信息检索 #音频评估 🔥 8.5/10 | 前10% | #音乐信息检索 | #对比学习 | #音乐表示学习 #音频评估 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Davide Marincione(未明确说明具体所属机构,根据论文末尾致谢推断可能隶属于Sapienza University of Rome) 通讯作者:未说明 作者列表:Davide Marincione (未说明)、Michele Mancusi (未说明)、Giorgio Strano (未说明)、Luca Cerovaz (未说明)、Donato Crisostomi (未说明)、Roberto Ribuoli (未说明)、Emanuele Rodolà (Sapienza University of Rome) 💡 毒舌点评 亮点:PHALAR巧妙地将信号处理中的经典理论(傅里叶移位定理)转化为深度学习的归纳偏置,通过让特征在复平面“旋转”而非“抹平”来编码节奏,为解决音乐表示学习中“保留时序结构”这一难题提供了优美且有效的几何方案,效果提升显著。 短板:其核心假设(RFFT对时间周期性敏感)在面对真实世界中常见的速度渐变、自由节奏(rubato)时面临理论瓶颈;此外,论文的评估高度聚焦于“茎检索”这一特定代理任务,其学到的表示能否无缝迁移至更复杂的音乐理解任务(如结构分析、生成质量评估)尚缺乏更广泛的验证。 📌 核心摘要 要解决的问题:现有音乐音频表示学习模型(如CLAP、COCOLA)依赖全局平均池化(GAP),丢弃了关键的时序和相位信息,导致它们在需要评估音乐“结构相干性”(即不同音轨是否在时间和和声上匹配)的任务上表现糟糕,本质上是“结构盲”的。 方法核心:提出PHALAR框架,其核心是用Learned Spectral Pooling层替代GAP。该层对提取的特征进行时域快速傅里叶变换(RFFT),依据傅里叶移位定理,将时间偏移映射为复数域中的相位旋转。随后,使用复数值神经网络(CVNN)头处理这些复数嵌入,以保持相位等变性,最终通过一个参数化的埃尔米特内积计算“相干性”分数。 与已有方法相比新在哪里: 范式转变:从追求“时序不变性”(如GAP)转向明确建模“时序等变性”,这是根本性的设计哲学变化。 架构创新:结合了音高等变的骨干网络(基于CQT输入)和相位等变的CVNN头,形成了端到端的相干性建模流水线。 揭示新关系:实验证明,传统的语义相似性基础模型(如CLAP)在相干性任务上表现随机,揭示了“相似性”与“相干性”建模的正交性。 主要实验结果: 检索性能:在三个数据集(MoisesDB, Slakh2100, ChocoChorales)的K-way检索任务中,PHALAR均达到新的SOTA。例如,在最困难的MoisesDB K=64任务中,PHALAR的Top-1准确率为70.87%,相比之前SOTA(COCOLA)的41.84%有≈69%的相对提升,且参数量仅为其一半(2.3M vs 5.2M)。 人类相关性:在人类听感相干性评分实验中,PHALAR的得分与人类评分的斯皮尔曼相关系数(rs=0.414)显著高于所有基线(包括COCOLA的0.153和CLAP的0.122),且AIC值最低。 零样本涌现能力:尽管未针对节奏或和声进行监督,PHALAR的嵌入在零样本节拍跟踪(F1=0.627)和线性和弦探测(55.2%准确率)任务中均表现出有效捕捉音乐结构的能力。 消融研究:证明了相位等变性(去掉后准确率降10.3%)和频谱池化(替换为GAP后准确率降18.9%)是性能的关键。 实际意义:为音乐信息检索(特别是需要理解结构对齐的检索、生成评估)提供了一个强大且与人类感知高度相关的度量工具。其方法可推广至任何需要保留相位/时序信息的领域(如雷达信号、时间序列分析)。 主要局限性:对非周期性节奏(如速度渐变rubato)的适应性有限,因为RFFT假设时间周期性;性能在重度压缩或有损音频上会下降;训练数据以西方流行音乐为主,其定义的“相干性”可能不适用于强调微时序偏差的音乐风格。 🔗 开源详情 代码:https://github.com/gladia-research-group/phalar 模型权重:论文中未提及(代码仓库包含模型检查点) 数据集:论文中使用了MoisesDB、Slakh2100、ChocoChorales,但未提供这些数据集的直接获取链接,读者需通过相应渠道获取。 Demo:论文中未提及 复现材料:代码仓库(https://github.com/gladia-research-group/phalar)包含代码、训练检查点以及人类评估结果。 论文中引用的开源项目: Muon 优化器:论文中未提及具体链接(引用为 Jordan et al., 2024) STAGE (stem生成模型):论文中未提及具体链接(引用为 Strano et al., 2025) StableAudio-ControlNet:论文中未提及具体链接(引用为 Evans et al., 2025) MERT:论文中未提及具体链接(引用为 Li et al., 2024) CLAP:论文中未提及具体链接(引用为 Wu* et al., 2023) CDPAM:论文中未提及具体链接(引用为 Manocha et al., 2021) COCOLA:论文中未提及具体链接(引用为 Ciranni et al., 2025) MUSDB18-HQ 数据集:论文中未提及具体链接(引用为 Rafii et al., 2017, 2019) DAC (神经音频编解码器):论文中未提及具体链接(引用为 Kumar et al., 2023) EnCodec (神经音频编解码器):论文中未提及具体链接(引用为 Défossez et al.) librosa:论文中未提及具体链接,通常指开源Python库 https://librosa.org/ mir_eval:论文中未提及具体链接,通常指开源Python库 https://craffel.github.io/mir_eval/ 🏗️ 模型架构 PHALAR的整体架构可分为三个阶段,如论文中的图2所示: ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 468 words

RenCon 2025: Revival of the Expressive Performance Rendering Competition

📄 RenCon 2025: Revival of the Expressive Performance Rendering Competition #音乐生成 #音乐信息检索 #模型评估 #生成模型 ✅ 7.0/10 | 前50% | #音乐生成 | #生成模型 | #音乐信息检索 #模型评估 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhang (Queen Mary University of London, London, UK) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Huan Zhang (Queen Mary University of London), Taegyun Kwon (Korea Advanced Institute of Science and Technology, Daejeon, Korea), Anders Friberg (KTH Royal Institute of Technology, Stockholm, Sweden), Junyan Jiang (New York University, New York, USA), Hayeon Bang (Korea Advanced Institute of Science and Technology, Daejeon, South Korea), Hyeyoon Cho (Korea Advanced Institute of Science and Technology, Daejeon, South Korea), Gus Xia (Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE), Akira Maezawa (Yamaha Corporation, Hamamatsu, Japan), Simon Dixon (Queen Mary University of London), Dasaem Jeong (Sogang University, Seoul, South Korea) 💡 毒舌点评 亮点在于论文成功复兴并系统化了停滞十余年的音乐表演渲染竞赛,其严谨的两阶段赛制、对人类基准的纳入以及对评估方法的深入分析(如性能蠕虫图),为该领域建立了极具价值的当代基准。短板是论文本质是竞赛报告而非方法论创新,虽然分析细致,但对于寻求新型生成算法或模型突破的读者而言,信息增量有限,更多是“测量”而非“发明”。 ...

2026-05-07 · 更新于 2026-06-22 · 2 min · 336 words

SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue

📄 SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue #信号处理 #自监督学习 #对比学习 #鲁棒性 #音频安全 ✅ 7.5/10 | 前25% | #信号处理 | #对比学习 | #自监督学习 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhang(东南大学仪器科学与工程学院) 通讯作者:Xuanpeng Li(东南大学仪器科学与工程学院) 作者列表:Ruixiang Zhang(东南大学仪器科学与工程学院),Zinan Zhou(东南大学仪器科学与工程学院),Yezhuo Zhang(东南大学仪器科学与工程学院),Guangyu Li(南京理工大学计算机科学与工程学院),Xuanpeng Li(东南大学仪器科学与工程学院) 💡 毒舌点评 这篇论文的亮点在于其“解耦”思想设计得很漂亮,用自监督学习为噪声检测建立了一个不受污染的“纯净”特征空间,逻辑链条完整且实验验证扎实。但短板也很明显:迭代救援机制在类别数少时效果不稳定(POWDER数据集上高噪声率反而变差),且训练开销显著增加(约10倍),虽然作者辩称训练可离线,但这仍是实际部署时需要权衡的成本。 📌 核心摘要 问题:深度学习在特定辐射源识别(SEI)中应用广泛,但实际非合作环境中存在的标签噪声(源于信道模糊、标注错误、恶意攻击)会严重破坏模型可靠性。现有方法依赖有噪声的监督信号进行样本选择,导致确认偏差和特征空间污染。 方法核心:提出SEI-SHIELD框架,其核心是“解耦”范式。首先使用带有射频定制化增强的Momentum Contrast(MoCo)进行自监督对比预训练,从原始I/Q信号中提取与标签无关的、鲁棒的射频指纹表征。随后,在学到的特征空间中,基于KNN的邻域标签一致性分析来识别噪声样本。最后,通过一个迭代救援机制,联合使用分类器预测置信度和特征空间原型相似度,逐步恢复在初步过滤中被错误丢弃的硬样本。 新意:与依赖有噪监督信号的现有范式不同,SEI-SHIELD首次将表征学习(通过自监督)与噪声检测严格解耦,从根本上避免了确认偏差。此外,其迭代救援机制是对一次性过滤方法的改进,能更好地利用训练数据。 实验结果:在POWDER和ORACLE两个真实射频数据集上进行了全面实验。结果显示,SEI-SHIELD在各种对称标签噪声率下均达到了最先进的识别准确率。例如,在POWDER数据集上,当噪声率(η)为60%时,SEI-SHIELD的准确率为78.62%,显著高于最强基线SSR的57.37%;在ORACLE数据集上,η=60%时,SEI-SHIELD(55.44%)优于GCE(51.02%)。消融实验证明迭代救援模块至关重要,特别是在类别数多的情况下。 实际意义:为物联网和无线通信中的物理层安全提供了一种更鲁棒的设备认证方案,能够有效抵御标签污染攻击和真实世界中的标注错误。 主要局限性:迭代救援机制在类别数较少的POWDER数据集高噪声场景下效果不稳定(可能错误救援噪声样本);训练时间显著高于基线;KNN模块的阈值等超参数对性能有一定影响。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集,具体信息如下: ORACLE Dataset: 由16个USRP X310 SDR采集的WiFi帧原始I/Q信号。具体获取方式需参考其原始出处:Sankhe et al., “ORACLE: Optimized Radio clAssification for Low-cost Empirical devices”,在论文中通过引用 [25] 标识。 POWDER Dataset: 由4个USRP X310 SDR采集的WiFi、4G和5G帧原始I/Q信号。具体获取方式需参考其原始出处,在论文中通过引用 [24] 标识。 Demo:论文中未提及。 复现材料:论文提供了详细的训练配置,包括: 实施细节:使用 PyTorch 1.8.1,在 Ubuntu 20.04.3 LTS 系统,配备 Intel Xeon Gold 6330 CPU 和一块 NVIDIA GeForce RTX 3080 GPU 上实现。 超参数设置:论文在 Table I 中详细列出了所有阶段的超参数。 算法伪代码:论文在 Algorithm 1 中提供了完整的SEI-SHIELD训练流程。 论文中引用的开源项目: Momentum Contrast (MoCo):论文中采用的对比学习框架。未提供具体项目链接。 Complex-Valued Neural Networks (CVNN):论文中使用的骨干网络架构。未提供具体项目链接。 K-Nearest Neighbors (KNN):论文中使用的噪声识别算法。未提供具体项目链接。 论文未提供这些引用项目的具体GitHub等代码仓库链接。 🏗️ 模型架构 SEI-SHIELD是一个分阶段的框架,其整体流程如图2所示。主要包含四个模块: ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 492 words

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确区分第一作者) 通讯作者:未说明(论文未明确标注) 作者列表:Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge(论文中未提供任何作者的所属机构信息) 💡 毒舌点评 这篇论文的亮点在于通过一个巧妙的观察(梯度能量高度集中于少数token),将看似复杂的音频波形优化问题简化成了“抓关键”,提出了高效的稀疏攻击方法TAGO。但其短板也很明显:研究聚焦于“如何更高效地破坏安全”,视角相对负面;且方法的成功严重依赖于特定的超参数(如token保留率ζ)和早停策略,在真实场景的泛化能力上论证稍显不足。 📌 核心摘要 解决的问题:针对音频语言模型(ALM)的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法,这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。 方法核心:提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中,梯度能量在音频token层面上的分布,发现其高度非均匀,仅一小部分token贡献了大部分梯度能量。因此,在每次迭代中,TAGO只对梯度能量最高的前ζ比例token所对应的音频区域(receptive field)进行梯度更新,而将其他区域的梯度置零,实现稀疏优化。 创新之处:与已有方法(如SpeechGuard、AdvWave)的密集更新不同,TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别,并利用梯度的稀疏性进行自适应、token选择性的更新。此外,TAGO还设计了模型兼容的前缀模板和EOS抑制策略。 实验结果:在Qwen3-Omni, Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明,TAGO在攻击成功率上优于基线。即使将token保留率降至0.25(仅更新25%的token对应区域),在Qwen3-Omni上仍能保持86%的ASR_l(LLM判别成功率),仅比全量更新的87%下降1个百分点。同时,实验否定了“先密集优化再稀疏化”的后处理方法。 实际意义:证明了针对ALM的越狱攻击存在大量冗余更新,揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点(梯度信号分布不均)。这为攻击者提供了更高效的攻击思路,也为防御者指出了需要关注的脆弱区域(关键音频token),推动了对音频模型安全机制的深入理解。 主要局限性:攻击效果对超参数(如token保留率ζ和早停置信度ρ)较为敏感;虽然构造了模型兼容前缀,但仍属于基于特定文本前缀的约束优化,可能无法覆盖所有拒绝场景;主要评估了白盒攻击,对黑盒场景的迁移性未做探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中评估的三个模型均提供了HuggingFace链接: Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集:论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50(基于 Chao et al. (2025) 的有害指令集)和 HarmBench(Mazeika et al. (2024))。需参考相应原始论文获取。 Demo:论文中未提及。 复现材料:论文提供了详细的复现信息,包括: 对话模板(见论文附录A表5)。 拒绝词列表(见论文附录A表6)。 模型兼容的目标前缀(见论文附录A表7)。 优化超参数(如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1)。 评判模型及提示(见论文附录A中“Judge models and judge prompts”部分,包含SorryBench评判器及Gemini提示)。 论文中引用的开源项目: Whisper (语音编码器):https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频):https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406):https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型):未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型,而是一种针对已有ALM的优化攻击算法。其整体架构(流程)如图1所示: ...

2026-05-07 · 更新于 2026-06-22 · 2 min · 417 words

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

📄 Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement #语音增强 #麦克风阵列 #波束成形 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音增强 | #麦克风阵列 | #波束成形 #生成模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Dongheon Lee (Meta Reality Labs Research 1, Korea Advanced Institute of Science and Technology (KAIST) 2) 通讯作者:Juan Azcarreta (Meta Reality Labs Research) 作者列表:Dongheon Lee (Meta Reality Labs Research 1, KAIST 2)、Ashutosh Pandey (Meta Reality Labs Research)、Sanjeel Parekh (Meta Reality Labs Research)、Daniel Wong (Meta Reality Labs Research)、Jacob Donley (Meta Reality Labs Research)、Buye Xu (Meta Reality Labs Research)、Juan Azcarreta (Meta Reality Labs Research) 💡 毒舌点评 亮点:论文核心贡献非常聚焦,Spatial-Magnifier模型针对“空间上采样”这一特定任务进行了专门的架构设计(选择模块、DCA模块),而非简单套用现有语音增强网络;SARL框架提出的特征级条件化(SARL-F)是一种新颖且有效的思路,实验消融证明了其优越性。短板:方法整体依赖于预训练的MC-SE模型作为下游,其性能天花板受制于此;此外,论文虽然展示了在模拟数据和特定阵列上的优秀性能,但缺乏在真实世界设备和复杂噪声环境下的端到端验证,且未开源任何实现细节,限制了其直接影响力。 ...

2026-05-07 · 更新于 2026-06-22 · 4 min · 797 words

Stage Light is Sequence^2: Multi-Light Control via Imitation Learning

📄 Stage Light is Sequence^2: Multi-Light Control via Imitation Learning #舞台技术 #强化学习 #音乐生成 #模仿学习 #目标条件强化学习 ✅ 7.0/10 | 前25% | #舞台技术 | #强化学习 | #音乐生成 #模仿学习 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zijian Zhao (The Hong Kong University of Science and Technology) 通讯作者:Xiaoyu Zhang (City University of Hong Kong) 作者列表: Zijian Zhao (The Hong Kong University of Science and Technology) Dian Jin (The Hong Kong Polytechnic University) Zijing Zhou (The University of Hong Kong) Xiaoyu Zhang (City University of Hong Kong) 💡 毒舌点评 亮点:论文的核心创新在于将“多灯光控制”这个高维问题巧妙地解耦为“全局分布预测”和“条件分布分解”两个子问题,并为后者设计了一个无需专业演示数据的模仿学习框架,这种分层思路具有很好的工程实用性和扩展性。 短板:方法验证严重依赖于一个仅含8个点光源的过度简化模拟环境,其结论能否迁移到拥有复杂空间关系、方向性和动态效果的真实舞台灯光系统,文中并未提供足够令人信服的证据或讨论。 ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 501 words

Stage-adaptive audio diffusion modeling

📄 Stage-adaptive audio diffusion modeling #音频生成 #音频修复 #扩散模型 #自监督学习 #自适应采样 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #音频修复 #自监督学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xuanhao Zhang (中国药科大学,邮箱:2020230870@stu.cpu.edu.cn) 通讯作者:Chang Li (中国科学技术大学,邮箱:lc_lca@mail.ustc.edu.cn) 作者列表:Xuanhao Zhang(中国药科大学)、Chang Li(中国科学技术大学) 💡 毒舌点评 亮点:论文抓住了音频扩散模型训练过程中的核心动态矛盾——“语义获取”与“生成精炼”的阶段差异,并提出了一个统一的“进度变量”监控指标来驱动三个自适应机制,理论上是一个完整且优雅的解决方案。短板:实验部分存在明显的设计缺陷,三个机制(衰减SSL引导、自适应时间步采样、结构正则化)都只在“均匀基线”上单独评估,缺乏“三者结合”的完整方案验证,也缺少与近期高效训练方法(如动态权重调整、重要性采样)的直接对比,说服力打了折扣。此外,与外部SOTA的对比弱于框架内的自身对比,更凸显了该工作的定位是“训练效率改进”而非“性能颠覆”。 📌 核心摘要 要解决什么问题:解决当前音频扩散模型训练依赖静态优化配方、计算成本高昂的问题。论文指出,训练早期应侧重语义对齐与粗略组织,后期应侧重时域一致性、感知保真度与细节精炼,静态配方无法适应这种动态变化。 方法核心是什么:提出一种阶段自适应训练视角。核心是引入一个基于冻结自监督学习(SSL)编码器的差异斜率信号(g_k)作为“进度变量”,监控语义获取速度。基于此变量,设计并集成三个自适应机制:衰减的SSL引导、由进度变量驱动的自适应时间步采样、以及基于参数空间分组组织的结构感知正则化。 与已有方法相比新在哪里:1) 首次在音频扩散模型训练中提出一个统一的、基于SSL空间动态的“进度变量”来量化训练阶段;2) 将外部语义支持、内部结构约束和优化重点分配这三个通常独立考虑的因素,整合到同一个自适应控制框架下;3) 结构感知正则化不是预设的,而是基于观察到的训练中后期才出现的稳定分组结构“按需激活”。 主要实验结果如何:在文本到音频生成和音频超分辨率两个任务上,所提机制在各自单独加入时,均在关键指标上优于静态基线。例如,在文本到音频生成任务中,自适应时间步采样将FAD(越低越好)从基线的2.36降至1.91;在24kHz到48kHz超分辨率任务中,衰减SSL引导将LSD(越低越好)从基线的0.831降至0.760。 实际意义是什么:为高效训练音频扩散模型提供了一个新的、基于阶段动态的理论视角和实践框架。它表明,通过让训练配方与模型内部状态协同演化,可以在不增加模型容量或数据规模的前提下提升训练效率和最终质量。 主要局限性是什么:1) 核心局限在于三个自适应机制仅单独评估,未验证其组合后的协同效应或潜在冲突;2) 实验对比更侧重于验证自身机制相对于静态基线的提升,与近期其他高效扩散训练方法的对比不足;3) “结构感知正则化”中引用的“参考模式S_ref”的具体获取方式(如使用哪个数据集训练的哪个模型、在哪个训练阶段截取)未明确说明,影响复现和理解其普适性。 🔗 开源详情 代码:论文中未提及代码链接。论文所有实验均基于 stable-audio-tools 框架进行,但未提供本文方法的具体实现代码。 模型权重:论文中未提及。 数据集: AudioSet: 用于文本到音频生成任务的训练。需要向 Google Research 申请访问权限:https://research.google.com/audioset/ FreeSound: 用于文本到音频生成任务的训练。公开数据集:https://freesound.org/ AudioCaps: 用于文本到音频生成任务的评估。公开数据集:http://www.cs.toronto.edu/~kmn428/AudioCaps/ VCTK: 用于音频超分辨率任务的训练与评估。公开数据集,可从官方渠道获取,常见来源如:https://datashare.ed.ac.uk/handle/10283/3443 Demo:论文中未提及。 复现材料:论文中未提及。论文未提供训练脚本、配置文件、预训练检查点等额外复现材料。 论文中引用的开源项目: stable-audio-tools: 论文所有实验基于此框架实现。官方仓库:https://github.com/Stability-AI/stable-audio-tools USAD: 作为冻结的自监督音频编码器用于提取SSL特征。官方仓库:https://github.com/facebookresearch/audiocraft (注:USAD是AudioCraft库中的一部分,论文引用了Chang et al. (2025)) Make-An-Audio: 作为基线模型之一。官方仓库:https://github.com/lifeaudioml/Make-An-Audio AudioLDM 2: 作为基线模型之一。官方仓库:https://github.com/haoheliu/audioldm2 Tango 2: 作为基线模型之一。官方仓库:https://github.com/declare-lab/tango AudioSR: 作为基线模型之一。官方仓库:https://github.com/haoheliu/AudioSR NVSR: 作为基线模型之一。论文引用了Liu et al. (2022),通常指NVIDIA的超分辨率工作。 🏗️ 模型架构 论文并未提出一个新的网络架构,而是提出了一套可附加到现有扩散Transformer(DiT)架构上的训练自适应机制。整体流程如下: ...

2026-05-07 · 更新于 2026-06-22 · 2 min · 353 words

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

📄 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail #语音识别 #数据增强 #迁移学习 #多语言 #低资源 🔥 8.5/10 | 前25% | #语音识别 | #数据增强 | #迁移学习 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(论文中未明确说明其所属机构) 通讯作者:未说明(论文中未提及通讯作者信息) 作者列表:Venkata Pushpak Teja Menta(所属机构未说明) 💡 毒舌点评 亮点:这篇论文最聪明的地方在于,它用近乎“土法炼钢”的合成数据方法(TTS生成)解决了一个高端商业系统都搞不定的垂直痛点(实体密集型ASR),并给出了令人信服的量化提升(Telugu EHR提升17倍),成本却低到令人发指(<$50)。短板:其核心验证集仍然是合成的,虽然作者用少量原生人类录音做了补充验证,但这20条录音的样本量和单一说话人条件,对于宣称的“解决真实场景问题”来说,说服力稍显不足,存在“用魔法打败魔法”但魔法本身是否足够真实的疑问。 📌 核心摘要 要解决的问题:现有开源和商业的印度语言(Indic)ASR系统在识别实体密集型内容(如电话号码、货币金额、地址、品牌名、英印语码混)时表现极差,与其在标准朗读文本上的性能形成巨大差距。 方法核心:提出一个自包含的“TTS↔STT飞轮”框架。利用多种开源/商业TTS系统合成约22,000条实体密集、跨语言的印度英语码混语音,并设计了针对实体识别的评估指标EHR(实体命中率)。在此合成数据上对现有的开源SOTA模型(vasista22/Whisper)进行LoRA微调。 与已有方法相比新在哪里:(1) 提出并验证了使用多系统TTS合成数据来专门提升ASR在特定垂直领域性能的完整方法论。(2) 设计并开源了EHR指标,更公平地评估实体识别的语义准确性。(3) 发现并诊断了Whisper在特定语言(Telugu)上的“脚本坍塌”问题,并给出了条件性的修复方案。 主要实验结果:在Telugu(泰卢固语)上,其微调模型(Praxy-STT-rb)的实体密集型测试集EHR达到0.473,相比开源SOTA(vasista22的0.027)提升17倍,相比商业系统(Deepgram的0.160)提升3倍。在Tamil(泰米尔语)上EHR为0.543(比两者均高22倍),在Hindi(印地语)上为0.337(比开源高7倍,但低于Deepgram的0.485)。所有结果均未达到预设的0.65-0.75 EHR目标。标准朗读文本(FLEURS)上的WER回退在Telugu上控制在+6.6个百分点。 实际意义:证明了一种低成本(<$50边际成本)、可复现的路径,能够高效提升ASR系统在缺乏数据的垂直领域的特定能力,对工业应用(如IVR、客服)具有直接参考价值。 主要局限性:(1) 核心评估仍基于合成音频(尽管进行了人类录音验证,但样本量小);(2) 在商业系统已深耕的语言(如Hindi)上优势不明显;(3) 微调会导致在标准朗读文本集上性能轻微回退;(4) 所有语言的实体识别性能均未达到预设的高标准目标。 🔗 开源详情 代码:https://github.com/praxelhq/stt-flywheel 模型权重: 基于 vasista22 的实体密集识别适配器 (Praxy-STT-rb, 主要结果): Telugu: https://huggingface.co/Praxel/praxy-stt-te-rb Hindi: https://huggingface.co/Praxel/praxy-stt-hi-rb Tamil: https://huggingface.co/Praxel/praxy-stt-ta-rb 基于 Whisper-large-v3 的语言条件适配器 (Praxy-STT-r2): Telugu: https://huggingface.co/Praxel/praxy-stt-te-r2 Hindi: https://huggingface.co/Praxel/praxy-stt-hi-r2 Tamil: https://huggingface.co/Praxel/praxy-stt-ta-r2 数据集: EDSA 语料库:合成的实体密集音频及对应文本。包含在代码仓库中,采用 CC-BY-4.0 协议。 实体字典:用于生成 EDSA 的种子实体。包含在代码仓库中,采用 CC-BY-4.0 协议。 评估数据集 (Holdouts):包括 FLEURS、Common Voice 25.0、IndicVoices-General 以及用于实体密集评估的 Cartesia 合成数据的留出集。具体 JSONL 文件包含在代码仓库中。 Demo:论文中未提及在线演示链接。 复现材料: 预测结果:每个评估系统在每个数据集上的逐条假设 JSONL 文件,位于代码仓库的 evaluation/scorecards/stt_flywheel/ 目录下。 训练配置:论文第 III-C 节详细描述了 LoRA 微调的超参数、步骤、数据混合比例等。具体的训练脚本和配置应在代码仓库中。 评估脚本:论文中提到的 eval_ehr.py(EHR 指标)和 data_pipeline.py(数据生成管道)均包含在代码仓库中。 论文中引用的开源项目: vasista22/whisper-{te,ta,hi}-large-v2: 论文中使用的开源印地语 ASR 基线模型。许可证为 Apache-2.0。HuggingFace 地址未在论文中给出。 AI4Bharat 项目: IndicWhisper / Vistaar: 论文中提到的开源印地语 ASR 模型集,但在 HuggingFace 上为 gated 状态,未提供直接链接。 IndicConformer-600M: 同上,为 gated 模型。 Praxy Voice: 项目组开源的跨脚本印地语 TTS 模型。论文中提到其 arXiv 链接为 arXiv:2604.25441。其 GitHub/HuggingFace 链接未在论文中给出。 Whisper-large-v3: 由 OpenAI 开发的基础模型。论文中引用为 [14]。 评估数据集: FLEURS: 论文中引用为 [13]。数据集本身为开源,但论文未提供链接。 Common Voice 25.0: 论文中引用为 [12]。数据集本身为开源,但论文未提供链接。 IndicVoices: 论文中引用为 [11]。 TTS 后端: Vanilla Chatterbox Multilingual IndicF5: 用于合成代码混合语音频。 ElevenLabs v3 (商业) Cartesia sonic-3 (商业) 其他论文中引用的开源工具/库: torchaudio: 用于音频重采样。 transformers 和 peft: 用于模型微调。论文指定了特定版本 (transformers==4.36.2, peft==0.10.0)。 🏗️ 模型架构 本论文并非提出一种全新的模型架构,而是提出了一种基于现有架构的适应(Adaptation)框架。其核心是TTS-STT飞轮,可以理解为一个两阶段的数据生成与模型微调流水线。 ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 457 words