多模态模型

Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation

📄 Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation #音乐生成 #多模态模型 #数据增强 #自监督学习 📝 5.6/10 | 前50% | #音乐生成 | #数据增强 | #多模态模型 #自监督学习 | arxiv 学术质量 3.3/7 | 影响力 1/2 | 可复现性 1.3/2 👥 作者与机构 Yizhu Wen, Shuhao Zhang, Nan Zhang, Long Cheng, Hanqing Guo 其中 Yizhu Wen 和 Shuhao Zhang 贡献相同（贡献者排序已标明）。 💡 毒舌点评这篇论文提出了一个重要但略显初步的攻击向量。其核心思想——利用高级语义锚点和低级声学载荷的“分层注入”来同时实现检索隐蔽性和生成引导——思路清晰且具有启发性。然而，作为一篇旨在投递顶级会议的工作，其“新颖性”的成色不足。将PoisonedRAG等文本/图像领域的攻击范式迁移到音乐RAG，本身并非重大技术突破。更关键的是，论文的“技术深度”明显欠缺：公式(2)提出的优化目标，其核心函数 \(\mathcal{R}(\cdot)\) 和 \(\mathcal{S}(\cdot)\) 如何定义、如何优化，在文中仅被笼统地描述为依赖LLM生成，这使得整个“方法”部分更像是一个工程化的prompt设计流程，而非一个严谨的算法框架。实验部分，仅在一个高度特定的“CLAP + MusicGen”组合上进行验证，结论的普适性大打折扣。评估仅依赖CLAP相似度这一单一自动指标，缺乏人类感知评估（如用户研究）来验证攻击是否真的能造成“心理伤害（Mental Damage）”或“功能偏离”，这使得其影响力和危害性声明显得空泛。总体而言，这是一篇合格的探索性工作，提出的问题值得研究，但若想跻身顶会，需要在方法严谨性、实验广度与深度、以及对“危害”的实证评估上进行大幅加强。 📌 核心摘要本文研究了检索增强文本到音乐生成（RAG-TTM）系统面临的一种新型完整性攻击：标题污染攻击。攻击者通过向知识库注入少量精心构造的音乐标题，可在不修改用户提示、检索器或生成器的情况下，操纵系统检索到恶意标题，并偏置提示增强过程，最终使生成的音乐偏离用户原始意图，转向攻击者选定的目标类别。论文提出的“双层标题污染攻击”策略包含三个组件：1）锚点保留，以维持检索可行性；2）高级功能对立目标生成，以控制语义冲突；3）低级语义载荷注入，以增强生成引导强度。在基于MusicCaps、CLAP检索器和MusicGen的实验管道中，攻击使生成音乐与目标类别的CLAP相似度提升近一倍（从约0.21-0.28升至0.41-0.48），同时与用户查询的相似度保持稳定（约0.30），证实了攻击的有效性和隐蔽性。该工作揭示了RAG系统在创意AI领域面临的实际安全风险。 🔗 开源详情代码：论文中未提供攻击生成流程本身的代码仓库链接。但论文明确使用了Meta的开源库AudioCraft来运行MusicGen模型，并给出了其GitHub仓库链接：https://github.com/facebookresearch/audiocraft。模型权重：论文中未提及该研究独有的模型权重链接。论文使用的MusicGen (musicgen-small) 模型权重可通过上述AudioCraft项目获取。数据集：使用了 MusicCaps 数据集。论文中未提供该数据集的直接下载链接，但因其是公开数据集，通常可通过官方渠道（如Google Research项目页或HuggingFace Datasets）获取。 Demo：提供了在线演示链接：https://yizhu-wen.github.io/Mental-Damage/。复现材料：论文附录（Appendix A）提供了详细的攻击示例（图3）和用于生成攻击载荷数据的数据生成提示模板（图4），这些材料对于复现攻击流程至关重要。论文中引用的开源项目： MusicGen (通过AudioCraft)：Meta的文本到音乐生成模型。链接：https://github.com/facebookresearch/audiocraft。 CLAP：一个连接文本和音频的对比学习模型，用作检索器。论文未提供其具体仓库链接。 Sonnet 4.6：论文中提到用于生成目标类别和推理的LLM（具体模型版本），未提供链接。 🏗️ 方法概述和架构本文的攻击针对一个典型的检索增强文本到音乐生成管道。该管道由三个核心部分组成：1）知识库，存储音乐标题-音频对；2）检索器，使用CLAP等模型将用户查询和知识库标题嵌入到共享表示空间，通过余弦相似度检索最相关的标题；3）生成器，如MusicGen，基于检索到的标题（可能经过LLM重写或直接拼接）生成音乐。 ...

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

📄 Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer #自回归模型 #扩散模型 #多模态模型 #对比学习 ✅ 6.5/10 | 前50% | #自回归模型 | #对比学习 | #扩散模型 #多模态模型 | arxiv 学术质量 6.5/7 | 影响力 7.0/2 | 可复现性 0.2/2 | 置信度高 👥 作者与机构作者：Ke Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao。论文中未明确提及作者所属机构。（审校注：根据其arXiv提交历史及相关信息，通常隶属于阿里巴巴集团，但本文原文未明确声明） 💡 毒舌点评概念包装大于实质新颖：将“分块生成”（Patch-wise generation）包装为“流式自回归扩散Transformer”，听起来高大上，但其核心思想——用一个较小的局部扩散模型（LocDiT）在自回归生成的语义条件下进行块内去噪——在语音和音频生成领域已有先例。创新更多体现在具体架构的组合，而非范式突破。 “流式”宣传需打折：论文反复强调0.21s的首块延迟，但报告了总推理时间为9.13s（生成10秒音频）。这意味着在生成完第一个chunk（约0.5秒音频）后，用户需等待约8.9秒才能获得完整音频。这种“流式”对实时交互的支持非常有限，更像是一种延迟优化的序列生成，而非真正的低延迟流式传输。实验对比存在“田忌赛马”：将SwanSphere（1.09B参数）与多个级联管线（如MMAudio+AS）和一个参数更小的专用模型（ViSAGe, 0.36B）对比，并声称全面超越，说服力有限。更公平的对比应与最新、参数量相当的端到端空间音频模型进行。 ODPO的必要性存疑：消融实验显示ODPO将FD从133.91降至120.28。虽然有效，但奖励函数设计（空间误差、语义相似度、保真度）高度依赖外部预训练模型（ImageBind, Audiobox Aesthetics），这引入了额外的复杂性和偏差。论文并未探讨这些奖励模型本身的局限性如何影响最终生成质量。数据集构建与评估的“自产自销”：SwanSphere数据集由论文作者自己构建，测试集也从中划分。虽然附录提供了细节，但使用自己构建、自己评估的数据集来证明方法优越性，存在固有的乐观偏差。跨数据集泛化能力（如YT360-Test）虽然有所展示，但仍是同一评估体系下的结果。 “通用”方法的狭窄适用性：尽管声称适用于VR/AR等沉浸式场景，但模型输入严格限定于全景视频+文本，输出为FOA。这与当前市场上更通用的双耳渲染或基于对象的音频格式存在差距。技术路线过于专精，可能限制其实际应用广度。 📌 核心摘要本文提出SwanSphere，一个统一的流式框架，用于从全景视频和文本提示生成高保真第一阶环绕声（FOA）空间音频。该框架旨在解决现有技术在生成质量与推理延迟之间的权衡，以及从多模态输入中捕捉精确空间信息的困难。其核心贡献包括：1) 提出因果自回归扩散Transformer架构，通过将语义规划（自回归语言模型）与局部声学渲染（局部扩散Transformer）解耦，实现流式高质量生成；2) 设计空间视频-音频对比学习（SVAC）策略，通过四类物理感知的正负样本对齐视频与音频编码器的空间语义表征；3) 引入多目标在线直接偏好优化（ODPO），从空间、语义和保真度三个维度对齐生成结果与人类偏好；4) 开发基于多模态大语言模型（MLLM）的自动化空间字幕标注管道，以缓解空间音频数据稀缺问题。实验表明，SwanSphere在视频到空间音频和文本到空间音频任务上，在语义保真度、空间精度和主观评估方面均优于现有基线模型，同时实现了更低的首块生成延迟。 ...

UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception

📄 UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception #语音合成 #语音识别 #多模态模型 #低资源 🔥 10/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Yuhan Song¹, Linhao Zhang², Aiwei Liu², Chuhan Wu², Sijun Zhang², Wei Jia², Yuan Liu², Houfeng Wang¹, Xiao Zhou² (通讯作者) 机构：¹北京大学计算机科学学院，多媒体信息处理国家重点实验室；²腾讯微信事业群基础模型技术中心 💡 毒舌点评这篇论文切中了当前Audio-LLM领域一个真实且重要的痛点：语义语音分词器为了对齐文本，把音频里丰富的声学细节给“弄瞎”了，导致处理音乐、环境音时抓瞎。提出的SAP监督和SAE门控机制在思路上确实巧妙且直觉上合理，实验数据也显示出全面的性能提升。然而，其“通用”的宣称可能有些过于乐观——训练和评估仍重度依赖英语和中文资源，非语音音频的重建质量也承认远不如专用编解码器。此外，其数据创建流程完全依赖Qwen3系列大模型，这本身就引入了新的偏差和可复现性门槛。总的来说，这是一篇扎实的、解决了具体问题的增量工作，但距离真正的“通用音频接口”还有明显距离，尤其在多语言覆盖和高保真非语音重建方面。 📌 核心摘要本文针对现有语义语音分词器在通用音频感知上的“声学失明”（acoustic blindness）问题，提出了UniAudio-Token框架。该框架旨在不牺牲语音生成能力的前提下，为语义分词器赋予通用音频感知能力。其核心创新包括两点：（1）语义-声学原语（Semantic-Acoustic Primitives, SAP）：一种结构化监督协议，将音频分解为语言内容、声音属性和听觉场景原语进行监督，以解耦内容与风格。（2）语义-声学平衡（Semantic-Acoustic Equilibrium, SAE）：一种内容感知的门控机制，能够自适应地从浅层注入细粒度声学细节到深层语义流中，以缓解声学失明，同时不破坏语义表征。大量实验证明，UniAudio-Token学到了全面的通用表征，同时保持了高保真度的语音生成。当集成到下游LLM中，其在理解和生成任务上均超越了所有单码本基线分词器。 🔗 开源详情代码：https://github.com/Tencent/Universal_Audio_Tokenizer （包含训练和推理脚本）模型权重：论文明确在摘要和引言中声明，将随代码仓库发布模型检查点（checkpoints），但未提供独立的HuggingFace或ModelScope链接。数据集：训练使用了多个公开数据集，论文附录C.1（表7）提供了完整列表和时长。具体数据集获取方式通常如下： LibriSpeech: https://www.openslr.org/12 Multilingual LibriSpeech: https://github.com/facebookresearch/libri-light GigaSpeech: https://github.com/SpeechColab/GigaSpeech Yodas: https://github.com/facebookresearch/yodas Hi-Fi TTS: 论文引用Bakhturina et al.，链接可能为 https://github.com/keithito/tacotron-2-data 或相关发布。 VCTK: https://datashare.ed.ac.uk/handle/10283/2651 LibriTTS: https://www.openslr.org/60 AISHELL-1: https://www.openslr.org/33 WenetSpeech: https://github.com/wenet-e2e/WenetSpeech Common Voice: https://commonvoice.mozilla.org/ Emilia: https://github.com/EMI-PMC/emilia-dataset AudioSet: https://research.google.com/audioset/ Demo：论文中未提及在线演示链接。复现材料：提供了完整的训练细节，包括数据集组成（附录C.1，表7）、超参数配置（附录C.2，表8）。SAP数据标注样例见附录A（图5-7）。论文中引用的其他开源项目： WavTokenizer: https://github.com/jishengpeng/WavTokenizer CosyVoice: https://github.com/FunAudioLLM/CosyVoice GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice StableToken: 论文中未提供明确链接。 Whisper: https://github.com/openai/whisper (使用whisper-large-v3) Qwen3系列模型：论文用于生成SAP数据和评估，但未提供具体下载链接。 Qwen2.5: 用于下游Audio-LLM实验，未提供链接。 MOSNet: https://github.com/dongchao-py/MOSNet CAM++: https://github.com/alibaba/damo-academy ERes2Net: 论文中提及但未提供链接。 🏗️ 方法概述和架构 UniAudio-Token 的核心目标是解决语义语音分词器的“声学失明”问题，即它们为了对齐语言内容而主动抑制声学细节，导致其在非语音任务上表现不佳。该方法通过两个核心组件协同工作：SAP（解决监督冲突）和SAE（解决架构瓶颈），最终输出一个能统一表征语音和通用音频的离散码本。 ...

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分前50% - 13. Improving acoustic drone detection generalization throu 7.7分前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度中 👥 作者与机构论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

📄 EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs #强化学习 #多模态模型 #数据增强 🔥 9.1/10 | 前50% | #强化学习 | #强化学习 | #多模态模型 #数据增强 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构论文共有11位作者，隶属于7个机构。其中，Liang Lin, Chunxi Luo, Kaiwen Luo为共同第一作者（*Equal contribution.）。Kun Wang和Junhao Dong为通讯作者（\(\uparrow\)Corresponding author）。主要机构包括：南洋理工大学（NTU）、上海大学（SHU）、中国科学院信息工程研究所（ICT, CAS）、杭州电子科技大学（HDU）、北京邮电大学（BUPT）、中国科学技术大学（USTC）、网络与信息安全国家重点实验室（SKL-NST, BUPT）。论文作者机构信息在“已有分析结果”中未提及。 💡 毒舌点评这论文的“自蒸馏”包装得挺花哨，但核心思想就是拿干净数据的老师傅带带嘈杂数据里的学生，思路不新，但做成了一个相对完整的框架。最大亮点是那个“音频证据稀疏性”的分析，确实点出了问题的关键——模型容易被噪音带跑偏，而不是真正“听懂”了音频。实验做得比较扎实，跨了多个模型和领域，GSR指标提升看起来不错。但仔细一看，实验只在MMAU和MMAR这两个特定数据集上做，泛化性存疑。而且，需要配对噪声/干净音频的训练数据，这在真实世界里可不好搞，局限性不小。代码倒是给了，算是个加分项。总的来说，是一篇工科味道很浓、解决具体工程问题的工作，理论上没什么突破，但实验上花了不少功夫。 📌 核心摘要音频大语言模型（ALLMs）在真实世界的复杂噪声下非常脆弱，容易产生语义漂移和幻觉。现有方法主要依赖波形级增强或表示抑制，未能从训练层面根本提升模型鲁棒性。本文提出EchoDistill，一种基于对齐的“噪声-清洁”自蒸馏框架。该框架利用一个冻结的、以清洁音频为输入的教师模型，为以噪声音频为输入的学生模型提供语义参考。训练时，学生模型在噪声音频下采样生成候选响应，通过群组相对策略优化（GRPO）结合教师-学生的token级一致性作为奖励，来优化学生的生成轨迹，使其更符合清洁音频的语义证据。此外，引入音频感知的奖励塑造机制，以区分那些仅仅正确和真正基于音频证据的响应。在多个ALLM（Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2）和多个音频领域（音乐、声音、语音）上的实验表明，EchoDistill能显著提升以GSR为导向的生成鲁棒性，且不增加额外的推断成本。 🔗 开源详情代码：论文提供了匿名代码仓库链接：https://anonymous.4open.science/r/echodistill-10DE。模型权重：论文中未提及提供预训练模型（教师/学生）或最终训练好的模型权重的下载地址。数据集：论文使用了MMAR和noisy MMAU数据集。训练/验证数据格式有示例（表6），但未提供这些数据集的直接下载链接。 Demo：论文中未提及在线演示（Demo）。复现材料：论文在附录C详细说明了评估协议、三个指标（Acc, Noisy, GSR）的计算公式和实例化方式，以及一个训练数据格式的示例表格（表6）。但未提供训练超参数配置（如学习率、优化器、训练轮数等）或用于初始化的预训练检查点的下载链接。引用的开源项目：论文提到了基础模型（Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2）和对比方法（DFL, SEEN）的名称，但未给出这些项目对应的官方代码仓库地址。 🏗️ 方法概述和架构 EchoDistill是一个完整的训练框架，旨在提升音频大语言模型在噪声输入下的语义生成鲁棒性。其核心思想是利用训练时可获取的配对噪声/清洁音频数据，通过“噪声-清洁”自蒸馏，引导模型学习从噪声输入中生成更符合清洁音频语义证据的响应。 ...

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构核心贡献者来自KRAFTON。论文作者列表按角色划分，核心贡献者包括：建模（Ethan Ewer等）、数据（Beomsoo Kim等）、评估（Haechan Kim等）、服务与工程（Hyeonghwan Kim等）、基础设施（Jiyun Kim等）。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著，但论文在论证“最强整体表现”时，巧妙地选择了对自家有利的8个基线模型，并在多轮对话（FDB v2.0）上露出了短板。所谓“开源一切”的承诺，在正文中连代码仓库和模型权重的具体链接都找不到，实在不够诚恳。全双工模型设计了不少“状态建模”技巧，却没有任何消融实验来证明其有效性，这让贡献打了折扣。整体来看，它更像一份详尽的模型发布说明书，而非一篇经得起严格推敲的学术论文，顶会门槛确实还没到。 📌 核心摘要本文介绍了Raon-Speech，一个针对英语和韩语优化的9B参数语音语言模型，以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练（对齐、端到端预训练+知识蒸馏、偏好优化后训练）将预训练LLM转化为兼具语音理解和生成能力的模型，并在42个基准测试中展示了其在语音相关任务上的优越性能，尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模（SIL, BOW, BC），以支持实时对话。该模型在FDB v1.0的转接行为上表现出色，但在更复杂的多轮对话场景（FDB v2.0）中并非最优。论文声称开源了模型、代码和演示，但未提供具体链接。 🔗 开源详情代码：论文中未提及具体的代码仓库链接（如GitHub地址）。模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope页面）。数据集： KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo：论文中未提及在线交互式演示的具体链接。复现材料：论文未提供独立的复现材料包。论文详细说明了模型架构（附录B、C）、训练流程与超参数（表2、第3节）、数据处理流程（第4节、附录D），这些信息构成了复现所需的核心材料，但部分细节仍需参考附录。论文中引用的开源项目：骨干LLM: Qwen3-VL-8B-Instruct 语音编码器（理解对齐）: AuT模型语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器（全双工）: Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM（Qwen3-VL-8B-Instruct）作为骨干，通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧：输入语音经由一个预训练的非因果语音编码器（AuT）提取特征（12.5Hz），再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧：使用Mimi编解码器（保留前16个残差码本）。生成过程是自回归的：上一帧的编解码器嵌入经输出适配器映射至LLM输入空间，LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家（SGE）用于预测语义token（第一层码本）。随后，一个15层的残差码本预测器（RCP，初始化自Qwen3-Omni-30B-A3B-Instruct）自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入，输入编解码器解码器合成语音，并反馈至输出适配器用于下一帧生成。说话人控制：通过一个预训练的说话人编码器（speechbrain/spkrec-ecapa-voxceleb）从目标语音中提取2-8秒的片段，其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜（6 篇，按分数降序）排名论文评分分档主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分前50% #语音识别 5. Raon-Speech Technical Report 6.5分前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

📄 Archon: A Unified Multimodal Model for Holistic Digital Human Generation #多模态模型 #扩散模型 #无监督学习 #生成对抗网络 #数据增强 #语音识别 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #多模态模型 #扩散模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构论文作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang 发表场合/期刊: arXiv: 2605.30311 研究领域: 计算机视觉、多模态学习、数字人生成 💡 毒舌点评这篇论文的野心足以撑爆一个顶会，试图用一个模型吞下数字人的所有模态——文本、语音、动画、视频。架构图和“模态思维”的概念确实画了一张好饼，让人眼前一亮。然而，现实很骨感。最硬的伤在可复现性：核心组件依赖闭源的PaLM2和未公开的海量私有数据集，这对于绝大多数研究者而言意味着“看得到，摸不着”。其次，实验评估严重偏科，号称支持72个任务，但主要定量评估只集中在语音驱动视频生成这一两个任务上，其他几十个任务的能力更像是“口头支票”。那个听起来高大上的“模态思维”策略，本质上是一种推理时的链式分解，却缺乏理论解释其为何有效，更像是一种工程上的trick。总体而言，这是一篇方向正确、架构有想法的系统论文，但其科学贡献被工程壁垒和不充分的验证所削弱，难以被认定为一个扎实的里程碑工作。 ...

Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation

📄 Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation #多模态模型 #数据增强 🔥 8.9/10 | 前25% | #多模态模型 | #数据增强 | arxiv 学术质量 5.7/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构 Bo-Han Feng, Yu-Hsuan Li Liang, Chien-Feng Liu, You-Hsuan Chang, Yun-Nung Chen. 台湾大学（National Taiwan University）。注：论文中明确标注了共同第一作者（*）。 💡 毒舌点评这篇论文的出发点是好的，试图为混乱的LALM越狱攻击研究建立秩序，像给一群瞎摸大象的盲人递上了一份详细的解剖图谱。分类学部分做得扎实，将语义、声学、信号、嵌入层攻击，以及护盾、训练无关、训练相关防御梳理得井井有条，这是其主要贡献。然而，作为一篇声称提供“统一评估”的论文，其实验部分却显得颇为“保守”甚至“取巧”。评估仅覆盖10个开源模型、仅使用黑盒API访问、仅测试两种防御（一个输入护盾和一个提示），这距离真正全面的“实证研究”还有不小差距。更关键的是，所谓的“成本感知评估”虽然提出了延迟指标，但其分析深度有限，例如对TTS成本、多次查询的累积财务开销、以及防御部署的实际算力成本都未做量化，使得“成本”这一核心论点显得有些浮于表面。论文更像是一个精心设计的、有限范围内的“示范性评估”，而非一个普适的基准。结论中“未来方向”部分写得比实验本身更能激发兴趣，这暗示了当前工作的探索性多于结论性。 📌 核心摘要本文旨在解决大型音频语言模型（LALMs）越狱攻击研究领域缺乏统一评估框架和标准的问题，特别是忽略了攻击的实际可行性与成本。作者提出了一套涵盖攻击（语义、声学、信号、嵌入层）、防御（基于护盾模型、免训练、基于训练）和基准（跨模态、音频原生、交互式）的统一分类体系（Taxonomy）。通过在十个开源LALMs上进行受控实验，系统评估了代表性攻击（如语义改写、最佳-N搜索）和防御（护盾模型、防御提示）的有效性、良性拒绝率（BRR）和延迟开销。实验结果表明，声学最佳-N（Acoustic BoN）攻击揭示了最强的音频空间漏洞，但需要极高的延迟；叙事框架（Narrative Framing）是有效的低延迟语义威胁。防御方法普遍存在稳健性与可用性（良性拒绝率）之间的权衡：护盾模型精确但对声学搜索脆弱，防御提示更稳健但导致更高的良性拒绝率。论文强调LALM安全评估应是一个多目标问题，需要综合考量攻击成功率（ASR）、良性拒绝率、延迟、成本和隐蔽性。 🔗 开源详情代码：论文中未提供具体的代码仓库链接。但附录C.5承诺将在论文发表后发布评估代码、攻击配置文件、声学/信号特征向量生成脚本、延迟测量脚本、评判员提示和聚合结果文件。模型权重：论文评估了10个开源大型音频语言模型，具体权重链接如下： Audio Flamingo 3: https://huggingface.co/GoelVaibhav/audio-flamingo-3-hf DeSTA2.5-Audio: https://github.com/desta-team/DeSTA2.5-audio Fun-Audio-Chat-8B: https://huggingface.co/InclusionAI/Fun-Audio-Chat-8B midashenglm-7b-1021-bf16: https://huggingface.co/MiMo-midashenglm/midashenglm-7b-1021-bf16 MOSS-Audio-4B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-4B-Instruct MOSS-Audio-8B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-8B-Instruct Phi-4-multimodal-instruct: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507 数据集： JailbreakBench (JBB-Behaviors)： https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (MIT 许可证) Demo：论文中未提及。复现材料：论文中承诺发布支持复现的评估代码和配置文件（附录C.5），但未说明具体时间。论文中引用的开源项目： Qwen3-TTS： https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign (用于语音合成) VoiceShield (voiceSHIELD-small)： https://huggingface.co/Emvo-ai/voiceSHIELD-small (用作输入防御) gpt-oss-safeguard-20b： https://huggingface.co/openai/gpt-oss-safeguard-20b (用作 LLM 评判员) whisper-large-v3： https://huggingface.co/openai/whisper-large-v3 (用于可懂度测试) JailbreakBench： https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (基准数据集) AdvBench：论文中提及，为被转换为语音的基础文本安全基准。 Llama-Guard：论文中提及，为文本/视觉领域外部防御模型。 ShieldVLM：论文中提及，为文本/视觉领域外部防御模型。 🏗️ 方法概述和架构本文的方法核心是构建一个统一的分类框架（Taxonomy）并在此框架下进行受控的实证评估。 ...