论文速递 | 语音/音乐/音频论文速递

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度中 👥 作者与机构论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

📄 EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs #强化学习 #多模态模型 #数据增强 🔥 9.1/10 | 前50% | #强化学习 | #强化学习 | #多模态模型 #数据增强 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构论文共有11位作者，隶属于7个机构。其中，Liang Lin, Chunxi Luo, Kaiwen Luo为共同第一作者（*Equal contribution.）。Kun Wang和Junhao Dong为通讯作者（\(\uparrow\)Corresponding author）。主要机构包括：南洋理工大学（NTU）、上海大学（SHU）、中国科学院信息工程研究所（ICT, CAS）、杭州电子科技大学（HDU）、北京邮电大学（BUPT）、中国科学技术大学（USTC）、网络与信息安全国家重点实验室（SKL-NST, BUPT）。论文作者机构信息在“已有分析结果”中未提及。 💡 毒舌点评这论文的“自蒸馏”包装得挺花哨，但核心思想就是拿干净数据的老师傅带带嘈杂数据里的学生，思路不新，但做成了一个相对完整的框架。最大亮点是那个“音频证据稀疏性”的分析，确实点出了问题的关键——模型容易被噪音带跑偏，而不是真正“听懂”了音频。实验做得比较扎实，跨了多个模型和领域，GSR指标提升看起来不错。但仔细一看，实验只在MMAU和MMAR这两个特定数据集上做，泛化性存疑。而且，需要配对噪声/干净音频的训练数据，这在真实世界里可不好搞，局限性不小。代码倒是给了，算是个加分项。总的来说，是一篇工科味道很浓、解决具体工程问题的工作，理论上没什么突破，但实验上花了不少功夫。 📌 核心摘要音频大语言模型（ALLMs）在真实世界的复杂噪声下非常脆弱，容易产生语义漂移和幻觉。现有方法主要依赖波形级增强或表示抑制，未能从训练层面根本提升模型鲁棒性。本文提出EchoDistill，一种基于对齐的“噪声-清洁”自蒸馏框架。该框架利用一个冻结的、以清洁音频为输入的教师模型，为以噪声音频为输入的学生模型提供语义参考。训练时，学生模型在噪声音频下采样生成候选响应，通过群组相对策略优化（GRPO）结合教师-学生的token级一致性作为奖励，来优化学生的生成轨迹，使其更符合清洁音频的语义证据。此外，引入音频感知的奖励塑造机制，以区分那些仅仅正确和真正基于音频证据的响应。在多个ALLM（Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2）和多个音频领域（音乐、声音、语音）上的实验表明，EchoDistill能显著提升以GSR为导向的生成鲁棒性，且不增加额外的推断成本。 🔗 开源详情代码：论文提供了匿名代码仓库链接：https://anonymous.4open.science/r/echodistill-10DE。模型权重：论文中未提及提供预训练模型（教师/学生）或最终训练好的模型权重的下载地址。数据集：论文使用了MMAR和noisy MMAU数据集。训练/验证数据格式有示例（表6），但未提供这些数据集的直接下载链接。 Demo：论文中未提及在线演示（Demo）。复现材料：论文在附录C详细说明了评估协议、三个指标（Acc, Noisy, GSR）的计算公式和实例化方式，以及一个训练数据格式的示例表格（表6）。但未提供训练超参数配置（如学习率、优化器、训练轮数等）或用于初始化的预训练检查点的下载链接。引用的开源项目：论文提到了基础模型（Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2）和对比方法（DFL, SEEN）的名称，但未给出这些项目对应的官方代码仓库地址。 🏗️ 方法概述和架构 EchoDistill是一个完整的训练框架，旨在提升音频大语言模型在噪声输入下的语义生成鲁棒性。其核心思想是利用训练时可获取的配对噪声/清洁音频数据，通过“噪声-清洁”自蒸馏，引导模型学习从噪声输入中生成更符合清洁音频语义证据的响应。 ...

MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding

📄 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding #Transformer 🔥 8.2/10 | 前50% | #Transformer | #Transformer | arxiv 学术质量 5.5/7 | 影响力 1/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构 Abdulkadir Gocke, Badr AlKhamissi, Martin Schrimpf，均来自EPFL的NeuroAI Lab。 💡 毒舌点评论文试图解决一个有价值的问题：如何利用新兴的全能基础模型更有效地编码全脑fMRI响应。MIRAGE框架在概念上是合理的，并且在Algonauts 2025挑战赛中取得了SOTA成绩，这是值得肯定的。然而，审稿人必须指出其局限性。最核心的弱点在于验证数据集极其有限（仅4名受试者），这严重削弱了所有统计结论的可靠性和模型的泛化性声称。尽管作者在讨论中承认了这一点，但这并非“局限性”，而是一个根本性的实验设计缺陷，限制了该工作的影响力范围。此外，将一个超大参数量（30B）的冻结模型作为特征提取器，虽然性能卓越，但其巨大的计算和存储成本（每次特征提取需约700 GPU小时）使其难以被更广泛的社区采纳和复现，这与论文声称的“可复现性”目标背道而驰。论文将核心创新点之一归结为“可解释性”，但提供的注意力权重分析仅停留在模型层面，而非更符合科学假设的皮层层级，这种“解释性”的深度有限。 📌 核心摘要本文提出了MIRAGE，一个用于从自然视听刺激预测全脑fMRI响应的自适应多模态门控编码框架。该框架使用一个冻结的多模态基础模型（Qwen3-Omni）提取特征，并通过每个模态独立的、基于可学习查询的跨注意力层聚合模块，自适应地融合不同网络层的信息。核心发现是：（1）在多个架构层级和骨干网络上，来自同一多模态模型的原生融合特征，始终优于从独立单模态模型提取特征再进行后融合的策略；（2）学习到的注意力权重具有可解释性，揭示了不同模态对骨干网络层深度的偏好；（3）在Algonauts 2025挑战赛的分布外基准上，MIRAGE取得了最佳成绩（单模型r=0.217，集成模型r=0.227）。论文结论认为，将多模态融合作为预训练模型的原生特性，并通过自适应层聚合进行利用，是构建通用、可解释且准确的全脑编码模型的有效路径。 🔗 开源详情代码：https://github.com/epflneuroailab/mirage 模型权重：https://huggingface.co/epfl-neuroai/mirage 数据集：未直接提供数据集下载链接。数据为Algonauts 2025挑战赛数据，源自Courtois NeuroMod项目。训练集和验证集通过公开发布获取；测试集需通过官方Codabench评估平台访问。许可证：Courtois NeuroMod数据集采用CC-BY-SA 4.0协议，Algonauts 2025挑战赛数据遵循其特定衍生协议。演示：https://mirage-brain.epfl.ch 复现材料：论文附录（A.1-A.8节）提供了极其详细的训练配置、超参数、优化器设置、计算资源要求和集成方法。附录B详细报告了关键超参数（交叉注意力查询数量）的消融实验结果。论文中引用的开源项目： Qwen3-Omni-30B-A3B-Thinking (Apache-2.0) Qwen3-Omni-30B-A3B-Instruct (Apache-2.0) Qwen2.5-Omni-7B (Apache-2.0) Llama-3.2-3B (Llama 3.2 Community License) Wav2Vec-BERT-2.0 (MIT) V-JEPA 2 (CC-BY-NC 4.0) Schaefer 1000-parcel atlas (MIT) Yeo–Krienen 7 networks (通过FreeSurfer获取，Open non-commercial research use) PyTorch (BSD-3-Clause) Python (PSF License) HuggingFace Transformers (Apache-2.0) 🏗️ 方法概述和架构 MIRAGE的架构可分为四个核心阶段，详细如下： ...

PiAnnotate: A Web Annotation Tool for Piano Fingering, with a Diagnostic Probe

📄 PiAnnotate: A Web Annotation Tool for Piano Fingering, with a Diagnostic Probe ✅ 6.0/10 | 前50% | arxiv 学术质量 6.0/7 | 影响力 5.5/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构未在提供的文本中明确提及作者与所属机构。论文标题为“PiAnnotate: A Web Annotation Tool for Piano Fingering, with a Diagnostic Probe”。 💡 毒舌点评这篇论文更像是一个精心设计的“工具+工作流”的技术报告，而非一篇理论创新的机器学习研究。它解决的痛点真实存在（钢琴指法标注成本高昂），提出的方案（Web工具+规则/人工双轨+诊断探针）也务实。但作为一篇投递顶级机器学习会议的工作，其核心贡献——那个“诊断探针”——显得过于“小”了。它本质上是在一个特定数据集上训练并微调了一个标准的、小型的Transformer编码器，用来学习规则与人工标注之间的差异。实验部分花了大量篇幅论证这个探针“安全”（低误改率）且能带来微小的精度提升（+2.83 pp），但这更像是对工具实用性的验证，而非提出新的学习范式或解决根本性难题。最大的创新点在于“成对轨道”这一数据组织形式，但这属于数据工程范畴。论文自我定位为“诊断”和“审计”工具是诚实的，但也限制了其在追求突破性算法贡献的会议中的潜力。它更适合作为一份优秀的系统描述发表在专注于工具、数据集或应用的场合。 📌 核心摘要本文介绍了PiAnnotate，一个用于为钢琴演奏数据集添加专家指法标注的Web流水线工具。该工具集成了钢琴卷帘视图、原始视频和3D MANO手部网格，使标注者能结合音乐和物理上下文进行审查。其核心设计特点是保留成对的规则标注（\(f_{\text{rule}}\)）和人工编辑标注（\(f_{\text{edited}}\)）轨道，使标注历史可审计。作为诊断探针，作者训练了一个小型Transformer编码器模型，利用上述成对轨道数据学习规则错误中的可学习结构。该探针在留出的乐曲上表现出保守的改进（精度提升，极低误改率），并揭示了时间戳相关的标注伪影。 🔗 开源详情代码：https://github.com/joonhyungbae/PiAnnotate 模型权重：论文中未提及模型权重下载链接。数据集：论文中发布的是标注工具和流程，而非完整的标注数据集。人工编辑的指法标签（\(f_{\text{edited}}\)）未随代码发布。论文指出，标注语料基于 FürElise 数据集，但该原始数据集需用户自行获取，论文未提供具体下载链接。发布的代码包含探针训练代码和分析脚本，但需要配合自有或重新标注的数据运行。 Demo：论文中未提及在线演示链接。复现材料：代码仓库包含工具代码、探针训练与评估脚本以及可能用于生成论文中分析结果的代码。但复现完整实验仍需获取未公开的编辑后标签和外部的FürElise数据集。论文中引用的开源项目： Praat：语音分析软件。论文中作为时间对齐工具示例提及。官网链接：https://www.fon.hum.uva.nl/praat/ ELAN：多模态注释工具。论文中作为时间对齐工具示例提及。官网链接：https://archive.mpi.nl/tla/elan Sonic Visualiser：音频可视化与注释工具。论文中作为时间对齐工具示例提及。官网链接：https://www.sonicvisualiser.org/ MANO：手部模型。论文中用于渲染3D手部网格。论文中引用为[15]，官方页面通常为：http://mano.is.tue.mpg.de/ Vite / React：用于构建前端。论文中提及为工具技术栈。官方链接分别为：https://vitejs.dev/ 和 https://react.dev/ Flask：用于构建后端。论文中提及为工具技术栈。官方链接：https://flask.palletsprojects.com/ Gradient-Boosted Decision Trees (GBDT)：作为对比的非序列基线模型。论文中引用为[6]，未指定具体实现库。该算法有多种开源实现（如 scikit-learn, XGBoost）。 🏗️ 方法概述和架构 PiAnnotate是一个旨在支持专家对钢琴指法进行高质量标注的半自动工作流系统，其架构可分为三个核心阶段：基于规则的初始标注、Web工具辅助的人工审校与编辑、以及用于诊断和质量控制的模型训练。 ...

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构核心贡献者来自KRAFTON。论文作者列表按角色划分，核心贡献者包括：建模（Ethan Ewer等）、数据（Beomsoo Kim等）、评估（Haechan Kim等）、服务与工程（Hyeonghwan Kim等）、基础设施（Jiyun Kim等）。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著，但论文在论证“最强整体表现”时，巧妙地选择了对自家有利的8个基线模型，并在多轮对话（FDB v2.0）上露出了短板。所谓“开源一切”的承诺，在正文中连代码仓库和模型权重的具体链接都找不到，实在不够诚恳。全双工模型设计了不少“状态建模”技巧，却没有任何消融实验来证明其有效性，这让贡献打了折扣。整体来看，它更像一份详尽的模型发布说明书，而非一篇经得起严格推敲的学术论文，顶会门槛确实还没到。 📌 核心摘要本文介绍了Raon-Speech，一个针对英语和韩语优化的9B参数语音语言模型，以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练（对齐、端到端预训练+知识蒸馏、偏好优化后训练）将预训练LLM转化为兼具语音理解和生成能力的模型，并在42个基准测试中展示了其在语音相关任务上的优越性能，尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模（SIL, BOW, BC），以支持实时对话。该模型在FDB v1.0的转接行为上表现出色，但在更复杂的多轮对话场景（FDB v2.0）中并非最优。论文声称开源了模型、代码和演示，但未提供具体链接。 🔗 开源详情代码：论文中未提及具体的代码仓库链接（如GitHub地址）。模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope页面）。数据集： KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo：论文中未提及在线交互式演示的具体链接。复现材料：论文未提供独立的复现材料包。论文详细说明了模型架构（附录B、C）、训练流程与超参数（表2、第3节）、数据处理流程（第4节、附录D），这些信息构成了复现所需的核心材料，但部分细节仍需参考附录。论文中引用的开源项目：骨干LLM: Qwen3-VL-8B-Instruct 语音编码器（理解对齐）: AuT模型语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器（全双工）: Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM（Qwen3-VL-8B-Instruct）作为骨干，通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧：输入语音经由一个预训练的非因果语音编码器（AuT）提取特征（12.5Hz），再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧：使用Mimi编解码器（保留前16个残差码本）。生成过程是自回归的：上一帧的编解码器嵌入经输出适配器映射至LLM输入空间，LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家（SGE）用于预测语义token（第一层码本）。随后，一个15层的残差码本预测器（RCP，初始化自Qwen3-Omni-30B-A3B-Instruct）自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入，输入编解码器解码器合成语音，并反馈至输出适配器用于下一帧生成。说话人控制：通过一个预训练的说话人编码器（speechbrain/spkrec-ecapa-voxceleb）从目标语音中提取2-8秒的片段，其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜（6 篇，按分数降序）排名论文评分分档主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分前50% #语音识别 5. Raon-Speech Technical Report 6.5分前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

📄 AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions 📝 5.6/10 | 前50% | arxiv 学术质量 3.7/7 | 影响力 0.3/2 | 可复现性 1.6/2 | 置信度中 👥 作者与机构未在提供的全文中明确列出所有作者的所属单位。论文致谢部分列出了部分作者（JWS, BH, TLL）获得的资金支持，包括香港研究资助局（RGC）、国家自然科学基金（NSFC）和澳大利亚研究理事会（ARC）项目。 💡 毒舌点评这篇论文的工作动机清晰，直指当前GUI智能体在理想化测试集上表现良好但在真实杂乱环境中脆弱的“皇帝新衣”问题，这一点值得肯定。提出的AgentHijack基准测试本身有一定工程价值，填补了“非对抗性”鲁棒性评估的空白。然而，作为一篇投向ICML的论文，其方法部分的深度和创新性严重不足。“观察者”模块的概念过于朴素，本质上是将环境状态变化显式文本化的外挂模块，缺乏理论上的新颖性。所谓的DA-GRPO算法，其核心创新（在多环境rollout）在正文中公式（1）里几乎没有体现，创新点隐藏在附录的描述性文字中，这在顶会论文中是不可接受的写作方式。更关键的是，论文的领域相关性非常弱。作为一个针对通用GUI智能体的鲁棒性测试与简单模块增强工作，它与ICML核心关注的机器学习理论、算法或根本性模型突破关联甚微。对于语音/音乐/音频领域的读者而言，本文几乎没有直接启发或技术迁移价值。实验中仅使用UI-TARS-1.5-7B作为基座模型进行微调和观察者构建，限制了结论的普适性。整体感觉像是一篇扎实的系统工程报告（benchmark + hack），而非一篇有深度的机器学习研究论文。 📌 核心摘要本文针对多模态大语言模型驱动的计算机使用智能体在真实环境中易受常见非对抗性干扰影响的脆弱性问题，提出了首个可配置的基准测试AgentHijack。该基准在OSWorld平台上构建了包含9类干扰（如弹窗、分辨率变更、意外触控等）的3321个任务。实验评估发现，即便是先进的UI-TARS系列智能体，在干扰下的平均成功率也显著下降。为提升鲁棒性，作者提出了AgentHijack-Agent框架，其核心包括一个采用数据增强群体相对策略优化（DA-GRPO）训练、具有增强定位能力的动作生成器，以及一个负责行为总结与初始环境检查的观察者模块。消融实验验证了各组件的有效性，该框架在所有干扰类型上均优于基准模型。 🔗 开源详情代码：https://AgentHijack.github.io 模型权重：论文中未提及提供微调后的AgentHijack-Agent或观察者模型权重。数据集：AgentHijack基准基于OSWorld构建，数据集链接通过代码仓库提供。 Demo：论文中未提及。复现材料：论文提供了非常详细的复现材料，包括：1) 训练配置（Section 5.1，附录F）；2) 所有实验中使用的系统提示词（附录F.3）；3) 每类干扰的具体配置参数（表5）；4) 消融实验的设置（附录F.2）；5) 评估所用的基线模型及统一推理参数。复现环境基于OSWorld提供的虚拟机。论文中引用的开源项目： VERL：用于强化学习微调的框架。 pyautogui：用于程序化控制鼠标和键盘的Python库。 UI-TARS：论文评估的基线GUI智能体模型系列。 OSWorld：作为基准构建基础的计算机任务评估环境。 🏗️ 方法概述和架构论文提出的AgentHijack-Agent框架（如图3所示）旨在增强GUI智能体对常见环境干扰的鲁棒性，其设计基于对现有智能体在干扰下表现的三项关键观察：1) 视觉干扰破坏定位能力；2) 意外操作干扰决策；3) 智能体无法感知初始环境错误。框架由两个核心组件构成，协同工作以提升鲁棒性。动作生成器与数据增强群体相对策略优化（DA-GRPO）：功能与实现：动作生成器负责根据用户指令、历史轨迹和观察者的总结，输出下一步操作。其核心能力的提升源于DA-GRPO训练算法。DA-GRPO是标准群体相对策略优化（GRPO）的扩展，关键在于“数据增强”。在标准GRPO中，模型从单一（通常是清洁）环境中采集多条轨迹进行策略更新。而DA-GRPO在为一个任务进行策略更新时，会同时从多个不同的随机化干扰环境中采集轨迹\(\{o_{i}^{c}|i\in[1,G],c\in\mathcal{C}\}\)（\(c\)代表不同的干扰环境）。目标函数如公式(1)所示，旨在最大化这些来自多样干扰环境下的轨迹的累积优势。这强迫策略在优化过程中就适应多样化的环境扰动，从而学习到更鲁棒的行动策略。奖励设计：奖励函数\(r_{i}\)（公式(2)）结合了任务成功奖励\(r_{i}^{\text{success}}\)（成功为1，失败为0）和格式奖励\(r_{i}^{\text{format}}\)（格式错误为-1，正确为0）。为应对稀疏的成功奖励，训练过程中引入了经验回放缓冲区，用于存储成功的轨迹。当一个批次内所有采样轨迹的奖励均为零时，会从缓冲区中随机替换一条，以确保优化过程始终有正向信号。基座模型：实验中采用UI-TARS-1.5-7B作为基座模型进行DA-GRPO微调。观察者（Onlooker）模块：功能：观察者是一个额外的、环境聚焦的辅助智能体，其职责有两个：行为总结：在动作生成器执行每一步动作后，观察者对比动作前后的屏幕截图，将环境发生的变化（尤其是由意外操作引起的非预期变化）总结成简洁的描述\(d_{t}\)。这使得历史上下文从传统的\(\{o_{1},a_{1},...,o_{t},a_{t}\}\)扩展为\(\{o_{1},d_{1},...,o_{k},d_{k},...o_{t},d_{t}\}\)，帮助动作生成器更准确地归因状态变化，避免被意外操作触发的内容分散注意力。初始环境检查：在任务执行前，观察者检查初始环境状态。通过对比屏幕截图和预设的错误信息仓库（如网络断开、需要登录验证），若检测到初始化异常（如网络错误、锁屏状态），则会报告错误并提示重新初始化环境，防止智能体在故障环境中进行无意义的尝试。实现：在实验中，默认使用另一个经过微调的UI-TARS-1.5-7B实例作为观察者。论文也探索了使用更强大的模型（如Qwen3-VL-235B）作为观察者的可能性。框架流程与交互：如图3所示，在任务开始前，观察者先执行环境检查，确保环境就绪。任务执行时，动作生成器接收用户指令、当前截图和包含历史截图及观察者总结的历史记忆，输出动作。观察者持续监控每一步后的环境变化，更新行为总结并将其追加到历史记忆中，供动作生成器在下一步决策时参考。通过这种显式记录环境变化的方式，框架增强了智能体对动态环境的感知和抗干扰能力。 ...

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

📄 Archon: A Unified Multimodal Model for Holistic Digital Human Generation #多模态模型 #扩散模型 #无监督学习 #生成对抗网络 #数据增强 #语音识别 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #多模态模型 #扩散模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构论文作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang 发表场合/期刊: arXiv: 2605.30311 研究领域: 计算机视觉、多模态学习、数字人生成 💡 毒舌点评这篇论文的野心足以撑爆一个顶会，试图用一个模型吞下数字人的所有模态——文本、语音、动画、视频。架构图和“模态思维”的概念确实画了一张好饼，让人眼前一亮。然而，现实很骨感。最硬的伤在可复现性：核心组件依赖闭源的PaLM2和未公开的海量私有数据集，这对于绝大多数研究者而言意味着“看得到，摸不着”。其次，实验评估严重偏科，号称支持72个任务，但主要定量评估只集中在语音驱动视频生成这一两个任务上，其他几十个任务的能力更像是“口头支票”。那个听起来高大上的“模态思维”策略，本质上是一种推理时的链式分解，却缺乏理论解释其为何有效，更像是一种工程上的trick。总体而言，这是一篇方向正确、架构有想法的系统论文，但其科学贡献被工程壁垒和不充分的验证所削弱，难以被认定为一个扎实的里程碑工作。 ...

Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion

📄 Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion #音频深度伪造检测 🔥 8.4/10 | 前50% | #音频深度伪造检测 | #音频深度伪造检测 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 1.8/2 | 置信度高 👥 作者与机构作者：S. Sutharya, Remya K. Sasi 机构：Cochin University of Science and Technology (CUSAT), Kochi, India 💡 毒舌点评这篇论文就像在自助餐厅里开了一家新店，招牌菜是“三合一”检测（真实/全伪造/半伪造）。它确实第一个吃螃蟹，在MLADDC T3这个新赛道上建立了第一个能同时分类和定位的基线，这值得肯定。模型设计上，把MFAAN的2D CNN换成1D DSConv并加上交叉注意力，思路清晰。然而，这“第一”的含金量需要审视：T3任务本身（1秒拼接在4秒音频中）是否过于简化，能否代表现实世界中更隐蔽的伪造？实验部分，最引人注目（也最令人头疼）的是跨数据集泛化研究——论文花了很大篇幅展示模型在跨域上的惨败，但给出的分析和潜在解决方案却非常薄弱，仅停留在“发现问题”和引用“灾难性遗忘”。这就像医生明确诊断了疑难杂症，却只会开阿司匹林。此外，与大型预训练模型（XLS-R, AST）的对比在资源受限设定下进行，虽然能凸显本模型的轻量高效，但声称“优于”可能不够全面，因为这些大模型在充分微调下的潜力未被探索。论文写作流畅，但结论部分的部分表述（如“解决了两个开放问题”）稍显过度宣称。 📌 核心摘要本文针对音频深度伪造检测中的一个实际且更难的问题——“半真”音频（即部分伪造）检测与定位，提出了CAFNet模型。该模型通过并行分支提取MFCC、LFCC和Chroma-STFT特征，利用交叉注意力进行融合，并在一个前向传播中同时完成三分类（真实/全伪造/半真）和拼接边界回归。在首个公开的三分类+定位基准MLADDC T3上，CAFNet建立了基线，实现了92.71%的整体准确率和0.075秒的边界定位平均绝对误差（MAE）。在二分类任务上，模型以仅576k参数超越了经过微调的大型预训练模型。然而，研究也发现，标准的预训练-微调范式会导致跨数据集表示崩溃，模型在跨域场景下的泛化能力极差。 🔗 开源详情代码：https://github.com/ssutharya/Audio_Deepfake_Detection 模型权重：代码仓库中包含训练好的模型。数据集： MLADDC T2: https://www.kaggle.com/datasets/artharking/mladdc-t2 MLADDC T3: https://www.kaggle.com/datasets/artharking/mladdc-t3 Demo：未提及。复现材料：论文在第3节详细描述了模型架构、特征提取、损失函数和超参数（表2）。具体的训练代码、配置及预训练权重指向上述GitHub代码仓库。论文未提及单独的复现手册或附录。论文中引用的开源项目： MFAAN：论文重新实现了该模型作为基线，未提供其原始代码链接。 HiFi-GAN， BigVGAN：论文提及为语音合成器，未提供具体项目链接。 XLS-R 300M， AST 87M：论文提及为预训练模型，未提供具体项目链接。 librosa：论文在讨论LFCC实现时提及，作为常用音频处理库被引用。其他研究工具或数据集（如FoR, WaveFake, ASVspoof, In-the-Wild）：论文在实验中作为对比或测试集引用，未提供其官方链接。 🏗️ 方法概述和架构 CAFNet是一个统一的、端到端的轻量级架构，旨在同时解决三分类和拼接边界定位两个任务。其核心设计是并行的特征提取、基于交叉注意力的特征融合以及共享的多任务输出头。架构详见论文图2（Fig. 2）。 ...

Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation

📄 Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation #多模态模型 #数据增强 🔥 8.9/10 | 前25% | #多模态模型 | #数据增强 | arxiv 学术质量 5.7/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构 Bo-Han Feng, Yu-Hsuan Li Liang, Chien-Feng Liu, You-Hsuan Chang, Yun-Nung Chen. 台湾大学（National Taiwan University）。注：论文中明确标注了共同第一作者（*）。 💡 毒舌点评这篇论文的出发点是好的，试图为混乱的LALM越狱攻击研究建立秩序，像给一群瞎摸大象的盲人递上了一份详细的解剖图谱。分类学部分做得扎实，将语义、声学、信号、嵌入层攻击，以及护盾、训练无关、训练相关防御梳理得井井有条，这是其主要贡献。然而，作为一篇声称提供“统一评估”的论文，其实验部分却显得颇为“保守”甚至“取巧”。评估仅覆盖10个开源模型、仅使用黑盒API访问、仅测试两种防御（一个输入护盾和一个提示），这距离真正全面的“实证研究”还有不小差距。更关键的是，所谓的“成本感知评估”虽然提出了延迟指标，但其分析深度有限，例如对TTS成本、多次查询的累积财务开销、以及防御部署的实际算力成本都未做量化，使得“成本”这一核心论点显得有些浮于表面。论文更像是一个精心设计的、有限范围内的“示范性评估”，而非一个普适的基准。结论中“未来方向”部分写得比实验本身更能激发兴趣，这暗示了当前工作的探索性多于结论性。 📌 核心摘要本文旨在解决大型音频语言模型（LALMs）越狱攻击研究领域缺乏统一评估框架和标准的问题，特别是忽略了攻击的实际可行性与成本。作者提出了一套涵盖攻击（语义、声学、信号、嵌入层）、防御（基于护盾模型、免训练、基于训练）和基准（跨模态、音频原生、交互式）的统一分类体系（Taxonomy）。通过在十个开源LALMs上进行受控实验，系统评估了代表性攻击（如语义改写、最佳-N搜索）和防御（护盾模型、防御提示）的有效性、良性拒绝率（BRR）和延迟开销。实验结果表明，声学最佳-N（Acoustic BoN）攻击揭示了最强的音频空间漏洞，但需要极高的延迟；叙事框架（Narrative Framing）是有效的低延迟语义威胁。防御方法普遍存在稳健性与可用性（良性拒绝率）之间的权衡：护盾模型精确但对声学搜索脆弱，防御提示更稳健但导致更高的良性拒绝率。论文强调LALM安全评估应是一个多目标问题，需要综合考量攻击成功率（ASR）、良性拒绝率、延迟、成本和隐蔽性。 🔗 开源详情代码：论文中未提供具体的代码仓库链接。但附录C.5承诺将在论文发表后发布评估代码、攻击配置文件、声学/信号特征向量生成脚本、延迟测量脚本、评判员提示和聚合结果文件。模型权重：论文评估了10个开源大型音频语言模型，具体权重链接如下： Audio Flamingo 3: https://huggingface.co/GoelVaibhav/audio-flamingo-3-hf DeSTA2.5-Audio: https://github.com/desta-team/DeSTA2.5-audio Fun-Audio-Chat-8B: https://huggingface.co/InclusionAI/Fun-Audio-Chat-8B midashenglm-7b-1021-bf16: https://huggingface.co/MiMo-midashenglm/midashenglm-7b-1021-bf16 MOSS-Audio-4B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-4B-Instruct MOSS-Audio-8B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-8B-Instruct Phi-4-multimodal-instruct: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507 数据集： JailbreakBench (JBB-Behaviors)： https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (MIT 许可证) Demo：论文中未提及。复现材料：论文中承诺发布支持复现的评估代码和配置文件（附录C.5），但未说明具体时间。论文中引用的开源项目： Qwen3-TTS： https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign (用于语音合成) VoiceShield (voiceSHIELD-small)： https://huggingface.co/Emvo-ai/voiceSHIELD-small (用作输入防御) gpt-oss-safeguard-20b： https://huggingface.co/openai/gpt-oss-safeguard-20b (用作 LLM 评判员) whisper-large-v3： https://huggingface.co/openai/whisper-large-v3 (用于可懂度测试) JailbreakBench： https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (基准数据集) AdvBench：论文中提及，为被转换为语音的基础文本安全基准。 Llama-Guard：论文中提及，为文本/视觉领域外部防御模型。 ShieldVLM：论文中提及，为文本/视觉领域外部防御模型。 🏗️ 方法概述和架构本文的方法核心是构建一个统一的分类框架（Taxonomy）并在此框架下进行受控的实证评估。 ...