语音/音乐/音频论文速递 2026-04-22

语音/音乐/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-06-24 · 8 min · 1620 words

A novel LSTM music generator based on the fractional time-frequency feature extraction

📄 A novel LSTM music generator based on the fractional time-frequency feature extraction #音乐生成 #LSTM #时频分析 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Li Ya(海南师范大学音乐学院) 通讯作者:根据邮箱推断,Li Ya (liya@hainnu.edu.cn) 和 Chen Wei (chenwei@hainanu.edu.cn) 可能为共同通讯作者。 其他作者: Chen Wei(海南师范大学外国语学院) Li Xiulai(海南海瑞众创科技有限公司,研发部) Yu Lei(海南师范大学音乐学院) Deng Xinyi(海南师范大学音乐学院) Chen Chaofan(海南海瑞众创科技有限公司,研发部) 💡 毒舌点评 这篇论文的亮点在于把信号处理领域的“古老神器”分数阶傅里叶变换(FrFT)拽进了AI音乐生成的派对,试图在时频平面上找个更刁钻的角度来“撬开”音乐的特征,想法值得点赞。但槽点在于,实验部分寒酸得像用MIDI键盘弹了个单音旋律就宣称自己复刻了交响乐团——缺乏与SOTA方法的正面PK,没有听众盲测,仅靠几条损失曲线和波形对比图就得出“生成质量媲美人类”的结论,这自信程度堪比认为学会了音阶就能写《月光奏鸣曲》。 🔗 开源详情 代码:论文在“Experimental support”部分提到“please view the build logs for errors”并提供了GitHub Issue报告链接(格式为“Report GitHub Issue ×”),暗示代码可能托管在GitHub上,但未提供完整的仓库URL。因此,无法确认代码是否完全开源及具体状态。 模型权重:未提及是否公开。 数据集:使用了公开的GiantMIDI-Piano数据集,但论文未提供基于此数据集处理后的具体数据或索引。 预训练权重:未提及。 在线Demo:未提及。 引用的开源项目:未明确列出。 📌 核心摘要 本文提出了一种基于分数阶傅里叶变换(FrFT)和长短期记忆网络(LSTM)的新型AI音乐生成系统。核心目标是利用FrFT在分数阶域(时频平面的旋转表示)中提取比传统时域或频域更丰富的音乐信号特征,以解决传统LSTM在捕捉音乐复杂时频结构上的不足。关键方法是将输入音乐信号进行FrFT变换,分离其实部和虚部并归一化后,分别输入到一个多层LSTM网络中进行训练和预测,最后将网络输出的实部和虚部合并并通过逆FrFT重构为音频信号。主要发现是,在GiantMIDI-Piano钢琴数据集上,该方法在训练集的损失值(0.0155)低于不使用FrFT的基线方法(0.0351),并且生成的波形与原始音乐在视觉上相似。实际意义在于探索了将经典信号处理工具与深度学习结合用于音乐生成的新路径。主要局限性在于实验验证极不充分,缺乏与SOTA方法的对比、客观音乐质量评估和主观听感测试,方法细节(如FrFT公式的准确性、为何选择α=0.05)阐述模糊,结论的可靠性存疑。 🏗️ 模型架构 该模型是一个端到端的音乐音频生成系统,流程如下: ...

2026-04-21 · 更新于 2026-06-24 · 1 min · 209 words

A state-space representation of the boundary integral equation for room acoustic modelling

📄 A state-space representation of the boundary integral equation for room acoustic modelling #空间音频 #信号处理 #模型评估 🔥 评分:8.0/10 | arxiv 👥 作者与机构 (根据论文摘要信息及常见研究机构推断) 第一作者:Randall Ali(推断:比利时鲁汶大学(KU Leuven)ESAT-PSI实验室) 通讯作者:Toon van Waterschoot(推断:比利时鲁汶大学(KU Leuven)ESAT-PSI实验室 / 代尔夫特理工大学(TU Delft)) 其他作者: Thomas Dietzen(推断:比利时鲁汶大学(KU Leuven)ESAT-PSI实验室) Matteo Scerbo(推断:意大利米兰理工大学(Politecnico di Milano)) Enzo De Sena(推断:伦敦大学金史密斯学院(Goldsmiths, University of London)) 💡 毒舌点评 这篇论文的亮点在于它用一套极其优美和统一的数学语言(状态空间算子理论),把房间声学里几个“老死不相往来”的模型(边界元、延迟网络、几何声学)给“串”起来了,理论贡献堪称“数学魔术”。槽点也同样突出:全文都在“纸上谈兵”,没有一行代码、一个仿真结果来证明这个漂亮的框架到底好不好用、快不快,让人不禁想问:“所以,然后呢?代码在哪?” 🔗 开源详情 论文中未提及任何关于代码、模型或数据集的开源计划。所有内容均为理论推导和讨论。 📌 核心摘要 本文旨在解决传统房间声学建模中多种方法(如边界元法、延迟网络、几何声学)彼此独立、缺乏统一理论基础的问题。作者提出了一种名为边界积分算子状态空间(BIOSS) 的新框架。该框架的核心是将描述声场的边界积分方程重新表述为一个状态空间模型,其中状态是房间边界上的声压分布函数,系统动态由一组积分算子(而非传统的矩阵)描述。通过数学推导,作者展示了BIOSS模型可以等价地转换为具有反馈或前馈结构的传递函数形式。这一框架的主要贡献在于其强大的统一能力:作者证明了BIOSS与边界元模型、延迟网络以及部分几何声学模型之间存在数学等价性,为理解这些模型的内在联系提供了理论基础。此外,论文提出,未来可将状态空间理论中的可控性、可观测性等概念应用于房间声学,以开发新的声场推断和控制方法。主要的局限性在于,本文仅提出了纯理论框架,缺乏任何实验验证或计算实现,其实际效果和效率有待后续研究证实。 🏗️ 模型架构 BIOSS模型并非一个用于具体任务的“神经网络”架构,而是一个描述房间声场动态的数学物理模型。其核心思想是将连续空间、连续时间的物理系统(房间声场)用状态空间理论重新参数化。 整体输入输出流程: 输入:位于房间内部的声源产生的声压(或速度势)。 内部状态:定义在房间边界(表面)上的声压分布函数 p(x, t),其中 x 是边界上的空间坐标。这是一个无限维的函数,是模型的核心。 系统动态:由一组积分算子 A, B, C, D 描述。这些算子作用于状态函数 p(x, t),决定其如何随时间演化,并如何产生输出。 输出:房间内任意接收点处的声压,或边界上的声压本身。 主要组件与连接: ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 251 words

Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints #音乐生成, #大语言模型, #强化学习, #跨模态 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Hao Meng(根据论文格式推断) 通讯作者:未明确标注。根据论文中“Aligned Lyric2Melody Model”的在线演示域名(arain233.github.io)推断,可能与第一作者或项目负责人相关。 其他作者:Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song 机构信息:论文全文未明确列出作者所属机构。根据论文内容和常见的学术实践推断,作者可能来自同一研究团队或实验室。论文中提到了“Xiaomi LLM Core Team”,但未明确说明作者是否隶属于此团队。(推断) 所有作者可能来自小米公司或与其合作的研究机构。 💡 毒舌点评 亮点:这论文最聪明的地方在于,它没去跟人类评委死磕“什么叫好听”,而是把音乐老师敲黑板划的重点(音域别太宽、节奏别太怪、歌词对齐)变成了冷冰冰的代码规则,让模型自己跟自己玩“大家来找茬”,省时省力还效果拔群。 槽点:规则是把双刃剑,虽然保证了下限(能唱),但也可能锁死了上限(好听)。模型学会了“不犯错”,但离“写出动人旋律”可能还差着十个贝多芬的灵感。另外,实验里的“主观评分”居然没找专业音乐人,这就像让一群美食家去评判手术缝合技术,专业不对口啊! 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/arain233/AligningMelody 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。 数据集:偏好数据集由论文方法自动生成,论文中未提及是否公开此数据集。SFT训练数据部分来自公开的SongComposer数据集和私有源。 在线Demo:提供。地址:https://arain233.github.io/AligningMelody-demo 依赖的开源项目:基于Qwen2.5-0.5B预训练模型。评估中使用了TechSinger架构的声码器(可能未开源)。 📌 核心摘要 这篇论文旨在解决大语言模型在歌词到旋律生成任务中,通过监督微调(SFT)训练出的模型常产生音乐上不可行(如节奏怪异、音域超限)的“约束违反”问题。核心贡献是提出了一套无需人工标注、基于规则约束的自动化对齐框架。关键方法分为三步:首先对预训练LLM进行SFT以获得基础生成能力;其次,利用SFT模型生成大量候选旋律,并通过五类预定义的音乐规则(格式、歌词对应、音符重复度、时长合理性、音域)自动评估,构建包含“好-坏”配对和纯“坏”样本的偏好数据集;最后,采用序列对齐策略,先用DPO在配对数据上优化模型偏好,再用KTO在纯负面样本上进一步抑制不良输出。主要发现是该方法在客观指标(音高/时长分布相似度)和主观听感(MOS评分接近真人作品)上均显著优于多个基线,并能大幅减少各类规则违反。实际意义在于为将领域专家知识(以规则形式)高效、可扩展地注入生成模型提供了一种新范式,对音乐、代码等结构化生成任务有重要参考价值。局限性在于规则集可能无法涵盖所有音乐美学维度,生成的旋律在创造性上可能受限。 🏗️ 模型架构 论文提出的“Lyric2Melody”模型架构是一个三阶段流程,核心是基于一个预训练的大语言模型(Qwen2.5-0.5B)。 第一阶段:监督微调(SFT) - 输入:歌词文本序列。 - 输出:符号化旋律序列。旋律被表示为 | (歌词音节, MIDI音高, 时长毫秒) | ... | 的序列。 - 过程:在约130万(80万中文+50万英文)歌词-旋律对数据上微调预训练LLM,使其学会从歌词到该符号格式的映射。 - 关键设计:采用结构化元组表示,强制模型在生成音高和时长的同时,必须与具体的歌词音节对齐,为后续规则约束提供了清晰的解析基础。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 390 words

Anonymization, Not Elimination: Utility-Preserved Speech Anonymization

📄 Anonymization, Not Elimination: Utility-Preserved Speech Anonymization #语音匿名化 #流匹配 #扩散模型 #模型评估 #音频安全 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yunchong Xiao*, Yuxiang Zhao*(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 通讯作者:Jiachun Liao(南湖实验室,大数据技术研究中心),Xie Chen(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 其他作者: Ziyang Ma(上海交通大学,计算机科学与技术学院,X-LANCE实验室) Shuai Wang(南京大学,智能科学与技术学院) Kai Yu(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 💡 毒舌点评 这篇论文的亮点在于把“匿名化”和“消除”分得门儿清,用流匹配生成千变万化的新“声纹”,而不是粗暴地抹掉或替换,还煞有介事地设计了从头训练下游模型的评估协议,这比那些拿预训练模型在匿名数据上跑个分就完事的“表面功夫”扎实多了。槽点嘛,内容匿名化部分对“语言风格”这种更隐蔽的PII保护力度似乎还不够,而且这么复杂的两阶段框架,真要部署到实时系统里,估计得把服务器累得够呛。 🔗 开源详情 代码:论文中提到“GitHub Issue”,并在摘要后提供了“GitHub”链接(但未在提供的文本中显示具体URL)。论文正文也提到“Please view the build logs for errors. Generated by L A T E xml.”,表明其HTML版本由LaTeXML生成,但这不是代码仓库。推断代码已开源或计划开源,具体地址需查看原论文PDF或arXiv页面。 模型权重:论文中未明确提及是否公开预训练模型权重(如骨干网络、匿名器、SECA管道中的各组件)。 数据集:实验使用公开数据集:LibriSpeech, LibriTTS, IEMOCAP, WikiAnn。论文未提及发布新的数据集。 预训练权重:论文中引用了多个预训练模型:HuBERT-large, CAM++, ECAPA-TDNN (用于评估), Flair NER, F5-TTS, Whisper-large-v3 (用于评估), Emotion2Vec (用于评估)。这些均非本文作者训练。 在线 Demo:论文中未提及。 依赖的开源项目:PyTorch, icefall (ASR训练配方), F5-TTS仓库, SpeechBrain (ECAPA-TDNN), HuggingFace Transformers/Models (多个模型), RMVPE等。 📌 核心摘要 这篇论文针对语音数据隐私保护中“隐私泄露”与“数据效用损失”的核心矛盾,提出了一个新颖的两阶段框架。首先,为解决语音匿名化(保护“谁在说”)中身份多样性不足和可控性差的问题,提出了基于流匹配的说话人嵌入匿名器(F3-VA),它能生成多样且与原始说话人充分分离的新身份。其次,为解决内容匿名化(保护“说了什么”)中传统删除/替换方法导致的声学不连续问题,提出了基于生成式语音编辑的管道(SECA),能无缝替换个人隐私信息。更重要的是,论文提出了一种更真实的效用评估协议,即通过在匿名化数据上从头训练ASR、TTS和SER模型来评估其作为训练资源的价值,而非仅在预训练模型上测试。实验表明,该框架在VoicePrivacy Challenge基线对比中,在提供更强隐私保护(更高的声学和内容验证等错误率)的同时,显著降低了下游任务性能的损失。 ...

2026-04-21 · 更新于 2026-06-24 · 3 min · 568 words

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

📄 ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics #音频深度伪造检测, #知识蒸馏, #数据增强, #基准测试, #U-Net 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者 & 通讯作者:Heewon Oh (Intrect / MARTE Lab, Dongguk University, Seoul, South Korea) 其他作者:无(论文仅列出一位作者) 💡 毒舌点评 亮点:巧妙地将AI音乐检测问题从“学习它听起来像什么”(容易过时)升维到“检测它物理上留下了什么痕迹”(更本质),就像法医通过指纹破案而非记忆罪犯长相。提出的“有界掩码”和“编解码器感知训练”解决了关键的技术陷阱。 槽点:检测器严重依赖完整的音频带宽(44.1kHz),在流媒体压缩或低采样率场景下可能失效,这限制了其在某些实际部署中的应用。此外,对“未来可能不使用神经编解码器”的生成器的失效警告,也像是给自己的“武功”画了个圈。 🔗 开源详情 代码:评估工具和基准测试运行器已开源,地址:github.com/Intrect-io/artifactbench (MIT许可证)。 模型权重:未开源原始训练权重。但提供了预编译的ONNX推理构建,地址:huggingface.co/intrect/artifactnet (CC BY-NC 4.0许可证)。 数据集:ArtifactBench v1 已开源,地址:huggingface.co/datasets/intrect/artifactbench (CC BY-NC 4.0许可证),包含音频数据。 在线Demo:论文未提及。 引用的开源项目:Demucs v4 (源分离)、FMA数据集、SONICS和MoM基准的检查点等。 📌 核心摘要 这篇论文旨在解决AI生成音乐检测中普遍存在的泛化能力差的问题。当前主流方法(如CLAM、SpecTTTra)通过学习AI音乐的声音特征,在面对未见过的生成器时性能急剧下降。作者提出了一个核心假设:当前主流AI音乐生成器(如Suno, Udio)都依赖神经音频编解码器(如EnCodec)的残差矢量量化(RVQ),这一过程会引入不可逆的信息损失,形成独特的物理“痕迹”。基于此,论文提出了ArtifactNet框架,其核心是:1)使用一个轻量级(3.6M参数)的有界掩码U-Net(ArtifactUNet)从频谱图中提取源分离残差;2)应用谐波-打击乐源分离(HPSS)将残差分解为7通道的法医特征;3)用一个微型CNN(0.4M参数)进行分类。在包含22个生成器的新基准ArtifactBench上,ArtifactNet的F1分数达到0.9829,假阳性率(FPR)仅为1.49%,远超基线模型。论文还通过编解码器感知训练(使用MP3/AAC/Opus增强)解决了模型对压缩格式的敏感性问题,并在公开的SONICS数据集上验证了性能的领先性。该工作表明,通过放大生成过程的物理痕迹,可以用极小的模型实现鲁棒且可快速适应的检测。 🏗️ 模型架构 ArtifactNet是一个三阶段的端到端流水线,总参数量仅4.0M,处理44.1kHz单声道音频。 输入:原始音频波形。 阶段一:法医残差提取 (ArtifactUNet, 3.6M参数) 功能:预测一个频谱图掩码,以提取输入音频中的“异常”残差信号。 结构:基于U-Net编码器-解码器架构,带有门控残差块瓶颈。 关键设计:输出掩码 m 通过Sigmoid函数约束在 [0, 0.5] 范围内。这意味着残差 r = m ⊙ X(⊙为逐元素乘)在任何时频点上的能量最多占原始信号 X 的一半。这一有界设计防止了网络退化为直接传递整个输入信号的平凡解。 训练:分为三阶段。第一阶段(知识蒸馏)用Demucs v4源分离模型的残差作为教师信号,学习残差的形态。第二阶段(分类器引导)固定下游CNN,用分类损失反向传播微调UNet,使其残差更具判别性。第三阶段(编解码器感知)使用WAV/MP3/AAC/Opus四种编码增强数据训练,使提取的残差对压缩格式不变。 阶段二:7通道法医特征计算 (HPSS + 特征工程) 功能:将第一阶段输出的残差幅度谱图分解并转化为富含判别信息的多通道特征。 结构: 对残差谱图应用谐波-打击乐源分离(HPSS),得到谐波分量(H)和打击乐分量(P)。 组合原始残差梅尔谱图(mel_res)、HPSS谐波(mel_H)、HPSS打击乐(mel_P)、一阶时间导数(Δ)、二阶时间导数(Δ²)、谐波/打击乐对数比(hp_ratio)、谱通量(spectral_flux),共7个通道。 输出:一个形状为 [7, T, F] 的张量,其中T和F为时间和频率维度。 阶段三:分类与歌曲级判决 (ResidualCNN7ch, 0.4M参数) 功能:对4秒的音频片段进行AI概率预测,并聚合为整首歌曲的判决。 结构:一个紧凑的CNN,包含3个卷积-批归一化-ReLU-池化块,后接自适应平均池化和全连接层。 片段预测:输入7通道特征,输出 P(AI) ∈ [0, 1]。 歌曲级判决:对一首歌所有片段的预测概率取中位数,然后以阈值0.5二值化。 输出:歌曲为AI生成的概率。 💡 核心创新点 法医残差提取范式:将AI音乐检测从“学习生成内容的表征”(易受内容、风格影响)重新定义为“放大和分析生成过程的物理痕迹”(更本质)。这借鉴了图像取证中从像素分类到物理特征(如扩散噪声特征)的转变思路。 有界掩码UNet (ArtifactUNet):设计了一个预测乘法掩码而非直接残差的网络,并通过[0, 0.5]的有界约束,有效避免了网络学习到恒等映射的捷径,确保提取的是真正的“附加”残差信号。 HPSS作为法医特征:首次将音乐信息检索(MIR)中成熟的HPSS技术应用于源分离残差上。谐波分量捕捉AI音乐在周期性结构上的扰动,打击乐分量捕捉瞬态能量的异常泄漏,为检测提供了可解释的物理依据。 编解码器感知训练:通过在训练中主动使用WAV、MP3、AAC、Opus四种编解码器进行数据增强,教会模型抑制由通用有损压缩引入的伪影,使其专注于由神经音频编解码器RVQ量化引入的特有痕迹。这解决了模型将MP3压缩误判为AI生成的关键失败模式。 ArtifactBench基准与OOD评估框架:构建了一个包含22个AI生成器和6种真实音乐来源的综合性基准,并引入了bench_origin标签以支持严格的零样本评估。同时,提出了一个四轴(生成器、真实域、编解码器、时间)的OOD评估哲学,更清晰地剖析模型的泛化能力。 🔬 细节详述 训练数据: 来源:来自28个子集,总计20,374条音轨(12,495 AI, 7,879真实)。包括AIME、MoM、SONICS、Suno/Udio CDN等数据集,以及为抑制假阳性而加入的FMA MP3和YouTube制作音乐等“硬负例”。 预处理:音频统一为44.1kHz单声道。训练时使用4秒片段。 数据增强:在Phase 3(编解码器感知训练)中,对每个训练样本同时应用WAV(无损)、MP3 (128kbps)、AAC (128kbps)、Opus (128kbps) 四种编码,构成一个批次。 损失函数: Phase 1 (知识蒸馏):L1损失 + 多分辨率STFT损失,目标是与Demucs v4残差对齐。 Phase 2 (分类器引导):二元交叉熵(BCE)损失,通过可微分的梅尔谱图变换反向传播至UNet。 Phase 3 (下游CNN训练):BCE损失。 训练策略: 优化器:论文未明确指定,但提及了分阶段训练。 关键超参数:掩码边界 [0, 0.5];片段长度4秒;歌曲级判决使用中位数聚合;分类阈值 τ = 0.5(用于主要报告)。 硬件/时间:未明确提及。 推理细节: 输入44.1kHz单声道音频。 将音频切分为4秒片段(有重叠)。 对每个片段通过完整流水线得到 P(AI)。 对一首歌所有片段的 P(AI) 取中位数,与阈值0.5比较得到最终判决。 正则化/增强:除了编解码器增强,还通过“硬负例挖掘”(加入FMA MP3等)来增强模型对易混淆真实音乐的判别力。 📊 实验结果 主要指标对比(ArtifactBench测试集, n=2,263): 模型 参数量 F1 精确率 召回率 假阳性率(FPR) ArtifactNet (ours) 4.0M 0.9829 0.9905 0.9755 0.015 (1.5%) SpecTTTra 18.7M 0.7713 0.8519 0.7046 0.194 (19.4%) CLAM 194M 0.7576 0.6674 0.8761 0.693 (69.3%) 主要指标对比(SONICS测试集, n=23,288, 统一协议): 模型 参数量 F1 AUC 假阳性率(FPR) ArtifactNet v9.5 4.0M 0.9993 0.9999 0.09% SpecTTTra 18.7M 0.8874 0.9303 17.97% CLAM 194M 0.7652 0.8222 67.16% 消融实验: 编解码器感知训练(Phase 3)效果:将真实音乐在MP3编码下的假阳性率从98.7%降至8.0%(FMA子集),跨编解码器概率变化量(Δ)从0.95降至0.16(降低83%)。 有界掩码效果:移除有界约束后,UNet掩码均值趋近1,残差能量占比超95%,模型退化为直通,F1分数大幅下降。 7通道特征贡献:附录B提到将对每个通道进行消融,结果待补充。 对抗鲁棒性:对AI音频进行单次Demucs源分离“清洗”后,模型F1从0.9950降至0.9592,表明法医信号减弱但未被完全消除。 带宽指纹证据:AI生成音乐残差的有效带宽平均为291 Hz,而人类音乐为1,996 Hz,相差6.9倍,为“神经编解码器瓶颈”假设提供了独立的声学证据。 ROC分析:在FPR≤5%的宽松操作点(τ≈0.28),TPR可达99.1%。F1分数在阈值τ∈[0.05, 0.9]范围内保持在0.98以上,显示系统对阈值不敏感。 ⚖️ 评分理由 创新性:9/10 - 提出了从“内容识别”到“物理痕迹检测”的范式转变,核心思想(法医残差、有界掩码、HPSS特征化)新颖且有效,对领域有重要启发。 实验充分性:9/10 - 实验设计极为全面和严谨。不仅在新基准上测试,还用公开基准验证排名稳定性;进行了详尽的消融研究(掩码、训练阶段、特征通道);评估了编解码器鲁棒性、对抗攻击等现实挑战;提出了系统的OOD评估框架。数据支撑坚实。 实用价值:8/10 - 直接应对AI音乐泛滥的现实安全挑战,模型轻量(4M参数)易于部署,且提出“快速适应”的 defender advantage 理念,通过微调小模型即可应对新失败模式,实用性强。局限性在于对全带宽的依赖。 灌水程度:2/10 - 论文内容紧凑,创新点明确,实验环环相扣,没有明显的冗余或夸大表述。附录和待补充内容(如通道消融)属于正常的研究过程记录。 🖼️ 图片与表格 图1: 架构概览图 | 保留: 是 - 清晰展示了从音频输入到最终概率输出的三阶段流水线(ArtifactUNet -> HPSS+7ch -> CNN -> Median),以及各组件参数量,是理解论文方法的核心。 图2: UNet编解码器鲁棒性直方图 | 保留: 是 - 直观对比了基线UNet和编解码器感知UNet在不同编解码器(WAV/MP3/AAC/Opus)下对真实音乐的预测概率分布。基线模型在MP3下严重右偏(高FPR),而提出方法有效纠正了此问题,是证明编解码器感知训练必要性的关键证据。 图3: SONICS测试集3-way对比(四子图) | 保留: 是 - 这是一组核心结果图。(A)整体指标对比,显示ArtifactNet全面领先;(B)真实音乐FPR对比(对数坐标),凸显ArtifactNet的极低FPR;(C)分来源准确率热力图,显示ArtifactNet在各AI生成器和真实源上表现均衡;(D)效率对比图(F1 vs. 参数量),直观展示其以极小参数量实现高性能。信息量极大。 图4: ArtifactBench性能对比(四子图) | 保留: 是 - 以柱状图形式清晰展示了在ArtifactBench测试集上,ArtifactNet在F1、精确率、召回率和FPR四个指标上对SpecTTTra和CLAM的显著优势。数据与正文表格一致,可视化更直观。 图5: 残差有效带宽对比 | 保留: 是 - 展示了AI音乐(分生成器列出)与人类音乐残差有效带宽的巨大差异(平均291 Hz vs. 1996 Hz),为“神经编解码器瓶颈”假设提供了直观、可解释的声学证据,是支持论文核心论点的重要机理分析图。 图6: ROC曲线与F1-阈值曲线 | 保留: 是 - (a)ROC曲线显示模型性能优异,AUC接近1;(b)F1-阈值曲线显示F1分数在很宽的阈值范围内(约0.05-0.9)保持高位,证明系统对操作阈值不敏感,鲁棒性强,这对实际部署很重要。 📸 论文图片 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 311 words

Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频问答 #知识蒸馏 #音频大模型 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Longhao Li (龙浩 李)(西北工业大学 计算机学院,语音与语言处理组 ASLP@NPU) 通讯作者:Lei Xie (谢磊)(西北工业大学 计算机学院,语音与语言处理组 ASLP@NPU),其邮箱 lxie@nwpu.edu.cn 在摘要中列出。 其他作者: Hongjie Chen (陈鸿杰)(中国电信人工智能研究院 TeleAI) Zehan Li (李泽汉)(西北工业大学 计算机学院,ASLP@NPU) Qihan Hu (胡启涵)(西北工业大学 计算机学院,ASLP@NPU) Jian Kang (康健)(西北工业大学 计算机学院,ASLP@NPU) Jie Li (李杰)(西北工业大学 计算机学院,ASLP@NPU) Yongxiang Li (李永祥)(西北工业大学 计算机学院,ASLP@NPU) 💡 毒舌点评 亮点:构建了一套“授人以渔”的自动化数据炼金术(Cogito-Pipe),并用“自己教自己”的自蒸馏方法让模型学会了深度思考,效果立竿见影,在开源阵营里算是“卷”出新高度。 槽点:评估推理质量的“裁判”(GPT-4o)自己就是个闭源黑盒,用它来评判开源模型的推理逻辑是否严谨,总感觉有点“让厨师长评菜品”的味道,公平性存疑。 🔗 开源详情 代码:论文中提到将发布代码,但未提供具体GitHub链接。文中提及使用了ms-swift训练框架(https://github.com/modelscope/ms-swift)。 模型权重:基于Qwen3-Omni-Thinking,该模型本身是开源的。Audio-Cogito的微调权重计划发布。 数据集:承诺发布一个包含545k高质量音频推理样本的数据集,涵盖声音、语音、音乐多个领域。具体发布平台未说明。 预训练权重:使用Qwen3-Omni-Thinking的公开预训练权重作为起点。 在线Demo:论文中未提及。 引用的开源项目:论文中引用了多个开源模型和数据集,如Qwen系列、AudioSet、Clotho、AudioCaps等。 📌 核心摘要 本文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务中能力不足、推理过程不透明的问题。核心贡献是提出了一个名为 Audio-Cogito 的完全开源解决方案,其核心是一个四阶段的自动化数据构建管道 Cogito-Pipe,用于生成高质量、多样化的音频推理链(CoT)数据。关键方法是利用Cogito-Pipe构建了包含545k样本的大规模数据集,并采用自蒸馏策略,使用同一模型(Qwen3-Omni-Thinking)进行推理数据生成和后续微调,确保了推理模式的一致性。主要发现表明,在专门评估推理过程的MMAR基准上,Audio-Cogito在开源模型中取得了SOTA性能,平均准确率达71.70%,其推理质量指标(Rubrics 62.22%, CRS 0.87)也优于所有基线,性能接近Gemini 2.5 Pro等顶级闭源模型。实际意义在于为社区提供了一个可复现的、用于提升音频模型深度推理能力的完整框架和数据资源,推动了音频智能从感知向认知迈进。局限性在于其数据生成和质量验证仍部分依赖于其他强大的闭源模型(如Qwen3-Omni, GPT-4o)。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 278 words

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者: Xiang He (腾讯AI Lab, 北京) 通讯作者: Li Liu (香港科技大学(广州)), Dong Yu (腾讯AI Lab, 北京) 其他作者: Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评 亮点: 这篇论文最“性感”的地方在于它证明了在音频领域,像教婴儿学走路一样,不需要手把手教(监督微调),只需要给对“奖励信号”(混合相似度奖励),模型自己就能在探索中“悟”出如何推理,而且悟性还特别好(SOTA)。槽点: 依赖一个巨大的外部LLM(Qwen3-235B)作为奖励评估器,训练成本恐怕不菲,有点像请米其林三星大厨来给家常菜打分,效果虽好但难以普及。另外,参考推理链本身也依赖其他大模型生成,属于“站在巨人的肩膀上再创造”,原创性在数据层面稍打折扣。 🔗 开源详情 代码: 论文中提到“代码和数据将开源”,但未提供具体链接或时间表。当前未开源。 模型权重: 未提及发布训练后的Audio-DeepThinker模型权重。 数据集: 构建的训练数据(D1, D2)将随代码一同开源,但当前未发布。 预训练权重: 基于开源的Qwen3-Omni-30B-A3B-Instruct模型。 在线Demo: 未提及。 引用的开源项目: 依赖Qwen3-Omni、DeepSeek V3.1、BGE-M3等模型,以及SWIFT、Megatron-LM等训练框架。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量,要么使用粗糙的奖励,导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架,其核心贡献有三:1)设计了一种混合推理相似度奖励,结合LLM评估(逻辑、深度)和嵌入相似度(语义对齐),直接对推理链内容进行细粒度监督;2)提出了一个渐进式两阶段RL课程,首先在基础音频QA数据上通过纯RL探索激发基本推理模式,然后在声学边界案例上使用更灵活的奖励进行增强,全程无需监督推理微调;3)进行了深入的机理分析,揭示RL训练主要重塑上层MoE门控机制,且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能,证明了通过精心设计的奖励和课程,高质量的音频推理能力可以从RL探索中涌现。 ...

2026-04-21 · 更新于 2026-06-24 · 3 min · 497 words

AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers

📄 AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers #音视频 #知识蒸馏 #强化学习 #数据集 #多模态模型 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Edson Araujo(德国图宾根大学,图宾根AI中心) 通讯作者:根据论文格式和机构排序,推测为 Hilde Kuehne(德国图宾根大学,图宾根AI中心)或 James R. Glass(MIT-IBM Watson AI Lab) 其他作者: Saurabhchand Bhati(MIT-IBM Watson AI Lab) M. Jehanzeb Mirza(IBM Research, USA; MIT-IBM Watson AI Lab) Brian Kingsbury(IBM Research, USA; MIT-IBM Watson AI Lab) Samuel Thomas(IBM Research, USA; MIT-IBM Watson AI Lab) Rogerio Feris(MIT-IBM Watson AI Lab) James R. Glass(MIT CSAIL; MIT-IBM Watson AI Lab) Hilde Kuehne(德国图宾根大学,图宾根AI中心; MIT-IBM Watson AI Lab) 💡 毒舌点评 亮点:这篇论文最聪明的地方在于“借力打力”——自己没有强大的多模态推理模型?没关系,找两个顶尖的单模态“专家”(视觉和音频模型)分别写解题思路,再让一个“文书专家”(纯文本LLM)把它们整合成一份完美的跨模态推理报告,然后用这份报告去“教”学生模型。这招“分而治之,再合而为一”在数据稀缺的领域堪称优雅。 槽点:整个流程的“天花板”被那两个单模态教师牢牢卡住了,如果教师自己就是“睁眼瞎”(幻觉),那合并出来的推理链就是“一本正经地胡说八道”。论文也承认了,大部分幻觉源自教师。此外,SFT数据基本来自AVQA一个数据集,多样性上可能有点“偏科”。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 384 words

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频大模型 #模型评估 #对抗样本 #基准测试 #音频安全 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,基于论文作者顺序和邮箱前缀) 通讯作者:Amir Houmansadr(麻省大学阿默斯特分校,计算机科学系) 其他作者:无(本文为双作者论文) 所属机构:University of Massachusetts Amherst(麻省大学阿默斯特分校),计算机科学系。 💡 毒舌点评 亮点:这篇论文像一把精准的手术刀,首次剖开了音频大模型“安全对齐”的脆弱内脏——原来不用投毒,光喂“健康食品”(良性数据)就能让它对“坏指令”言听计从。其“邻近性分解”框架巧妙地将模糊的“相似”拆解为“说了啥”和“听着像啥”,并发现这居然取决于模型“耳朵”(编码器)的构造,洞察深刻。 槽点:研究聚焦于英语单轮问答,像是在无菌实验室里测试病毒的威力,现实世界中多语言、多轮次、带背景噪音的“培养皿”会怎样?防御手段(系统提示)虽有效,但像个事后补的“道德补丁”,模型本身的“先天缺陷”如何从架构上根治? 🔗 开源详情 代码:论文提及提供了GitHub仓库(https://github.com/…),但未在正文给出完整链接。推测包含用于邻近性过滤和实验复现的代码。 模型权重:论文中评估的三个模型(AF3, Kimi-Audio, Qwen2.5-Omni)均为公开的SOTA模型,其预训练权重可在Hugging Face等平台获取。微调后的模型权重未提供,以防滥用。 数据集:使用的良性数据集(SD-QA, GC Accents, MMSU, MELD)和有害数据集(AdvBench, SafetyBench)多为公开基准。论文未提及发布新数据集。 预训练权重:未提供,依赖于上述公开模型。 在线Demo:未提及。 引用的开源项目:依赖的主要开源工具/模型包括:Whisper (编码器), Sentence-BERT, WavLM, Hugging Face Transformers库, LoRA实现等。 📌 核心摘要 这篇论文首次系统研究了良性音频数据微调对音频大模型安全对齐的破坏性影响。核心问题是:用户出于提升性能的目的,在完全无害的音频数据上微调模型,是否会意外削弱其拒绝有害指令的能力?作者提出了一个基于嵌入空间邻近性的过滤框架,通过计算良性音频与有害音频在模型内部或外部参考编码器空间中的距离,来选择性地构建微调数据集。实验在三个SOTA模型上进行,发现:1)良性微调能显著提升越狱成功率,在邻近性过滤下,JSR从个位数飙升至87.12%;2)主导的脆弱性轴(语义或声学)是架构依赖的,由音频编码器如何将声音映射到LLM输入空间的方式决定;3)防御是可行的,通过“远距离过滤”训练数据或在推理时添加安全系统提示,可将JSR降至近零。研究揭示了音频大模型安全与文本/视觉模型的结构性差异,强调了模态感知的安全评估和数据筛选的必要性。 🏗️ 模型架构 论文本身并未提出新模型,而是对三个现有SOTA音频大模型进行安全分析。其整体分析流程和涉及的模型架构如下: 输入:原始音频波形。 音频编码器(冻结):将波形转换为高级表示。 Audio Flamingo 3 (AF3):使用Whisper编码器,后接一个两层MLP投影器,将音频特征压缩后输入LLM。 Kimi-Audio-7B:采用双编码器设计,包含一个WhisperVQEncoder(通过矢量量化引入瓶颈)和一个Whisper-Large-V3编码器。 Qwen2.5-Omni:使用Whisper-Large-V3编码器,其输出以“直通”方式(无压缩投影)输入LLM。 大语言模型(部分参数通过LoRA微调):接收音频编码器的输出(可能经过投影),生成文本响应。三个模型的LLM骨干均基于Qwen2.5-7B。 输出:文本形式的回答(可能包含拒绝信息或有害内容)。 安全对齐:模型在预训练后经过安全对齐训练,使其能拒绝有害文本指令。这种对齐主要针对文本表示空间,对音频输入产生的表示可能覆盖不足。 数据流:音频 → [冻结的音频编码器] → [可选的投影层] → [LLM(部分参数通过LoRA更新)] → 文本输出。 关键设计选择:论文的核心发现在于,不同音频编码器架构(压缩式、量化瓶颈式、直通式)决定了良性微调数据在嵌入空间中的“邻近性”如何影响安全边界,从而导致了差异化的安全脆弱性。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 230 words