论文速递 | 语音/音频论文速递

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确区分第一作者）通讯作者：未说明（论文未明确标注）作者列表：Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge（论文中未提供任何作者的所属机构信息） 💡 毒舌点评这篇论文的亮点在于通过一个巧妙的观察（梯度能量高度集中于少数token），将看似复杂的音频波形优化问题简化成了“抓关键”，提出了高效的稀疏攻击方法TAGO。但其短板也很明显：研究聚焦于“如何更高效地破坏安全”，视角相对负面；且方法的成功严重依赖于特定的超参数（如token保留率ζ）和早停策略，在真实场景的泛化能力上论证稍显不足。 📌 核心摘要解决的问题：针对音频语言模型（ALM）的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法，这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。方法核心：提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中，梯度能量在音频token层面上的分布，发现其高度非均匀，仅一小部分token贡献了大部分梯度能量。因此，在每次迭代中，TAGO只对梯度能量最高的前ζ比例token所对应的音频区域（receptive field）进行梯度更新，而将其他区域的梯度置零，实现稀疏优化。创新之处：与已有方法（如SpeechGuard、AdvWave）的密集更新不同，TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别，并利用梯度的稀疏性进行自适应、token选择性的更新。此外，TAGO还设计了模型兼容的前缀模板和EOS抑制策略。实验结果：在Qwen3-Omni， Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明，TAGO在攻击成功率上优于基线。即使将token保留率降至0.25（仅更新25%的token对应区域），在Qwen3-Omni上仍能保持86%的ASR_l（LLM判别成功率），仅比全量更新的87%下降1个百分点。同时，实验否定了“先密集优化再稀疏化”的后处理方法。实际意义：证明了针对ALM的越狱攻击存在大量冗余更新，揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点（梯度信号分布不均）。这为攻击者提供了更高效的攻击思路，也为防御者指出了需要关注的脆弱区域（关键音频token），推动了对音频模型安全机制的深入理解。主要局限性：攻击效果对超参数（如token保留率ζ和早停置信度ρ）较为敏感；虽然构造了模型兼容前缀，但仍属于基于特定文本前缀的约束优化，可能无法覆盖所有拒绝场景；主要评估了白盒攻击，对黑盒场景的迁移性未做探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中评估的三个模型均提供了HuggingFace链接： Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集：论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50（基于 Chao et al. (2025) 的有害指令集）和 HarmBench（Mazeika et al. (2024)）。需参考相应原始论文获取。 Demo：论文中未提及。复现材料：论文提供了详细的复现信息，包括：对话模板（见论文附录A表5）。拒绝词列表（见论文附录A表6）。模型兼容的目标前缀（见论文附录A表7）。优化超参数（如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1）。评判模型及提示（见论文附录A中“Judge models and judge prompts”部分，包含SorryBench评判器及Gemini提示）。论文中引用的开源项目： Whisper (语音编码器)：https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频)：https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406)：https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型)：未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型，而是一种针对已有ALM的优化攻击算法。其整体架构（流程）如图1所示： ...

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

📄 Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement #语音增强 #麦克风阵列 #波束成形 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音增强 | #麦克风阵列 | #波束成形 #生成模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Dongheon Lee (Meta Reality Labs Research 1, Korea Advanced Institute of Science and Technology (KAIST) 2) 通讯作者：Juan Azcarreta (Meta Reality Labs Research) 作者列表：Dongheon Lee (Meta Reality Labs Research 1, KAIST 2)、Ashutosh Pandey (Meta Reality Labs Research)、Sanjeel Parekh (Meta Reality Labs Research)、Daniel Wong (Meta Reality Labs Research)、Jacob Donley (Meta Reality Labs Research)、Buye Xu (Meta Reality Labs Research)、Juan Azcarreta (Meta Reality Labs Research) 💡 毒舌点评亮点：论文核心贡献非常聚焦，Spatial-Magnifier模型针对“空间上采样”这一特定任务进行了专门的架构设计（选择模块、DCA模块），而非简单套用现有语音增强网络；SARL框架提出的特征级条件化（SARL-F）是一种新颖且有效的思路，实验消融证明了其优越性。短板：方法整体依赖于预训练的MC-SE模型作为下游，其性能天花板受制于此；此外，论文虽然展示了在模拟数据和特定阵列上的优秀性能，但缺乏在真实世界设备和复杂噪声环境下的端到端验证，且未开源任何实现细节，限制了其直接影响力。 ...

Stage Light is Sequence^2: Multi-Light Control via Imitation Learning

📄 Stage Light is Sequence^2: Multi-Light Control via Imitation Learning #舞台技术 #强化学习 #音乐生成 #模仿学习 #目标条件强化学习 ✅ 7.0/10 | 前25% | #舞台技术 | #强化学习 | #音乐生成 #模仿学习 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zijian Zhao (The Hong Kong University of Science and Technology) 通讯作者：Xiaoyu Zhang (City University of Hong Kong) 作者列表： Zijian Zhao (The Hong Kong University of Science and Technology) Dian Jin (The Hong Kong Polytechnic University) Zijing Zhou (The University of Hong Kong) Xiaoyu Zhang (City University of Hong Kong) 💡 毒舌点评亮点：论文的核心创新在于将“多灯光控制”这个高维问题巧妙地解耦为“全局分布预测”和“条件分布分解”两个子问题，并为后者设计了一个无需专业演示数据的模仿学习框架，这种分层思路具有很好的工程实用性和扩展性。短板：方法验证严重依赖于一个仅含8个点光源的过度简化模拟环境，其结论能否迁移到拥有复杂空间关系、方向性和动态效果的真实舞台灯光系统，文中并未提供足够令人信服的证据或讨论。 ...

Stage-adaptive audio diffusion modeling

📄 Stage-adaptive audio diffusion modeling #音频生成 #音频修复 #扩散模型 #自监督学习 #自适应采样 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #音频修复 #自监督学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xuanhao Zhang (中国药科大学，邮箱：2020230870@stu.cpu.edu.cn) 通讯作者：Chang Li (中国科学技术大学，邮箱：lc_lca@mail.ustc.edu.cn) 作者列表：Xuanhao Zhang（中国药科大学）、Chang Li（中国科学技术大学） 💡 毒舌点评亮点：论文抓住了音频扩散模型训练过程中的核心动态矛盾——“语义获取”与“生成精炼”的阶段差异，并提出了一个统一的“进度变量”监控指标来驱动三个自适应机制，理论上是一个完整且优雅的解决方案。短板：实验部分存在明显的设计缺陷，三个机制（衰减SSL引导、自适应时间步采样、结构正则化）都只在“均匀基线”上单独评估，缺乏“三者结合”的完整方案验证，也缺少与近期高效训练方法（如动态权重调整、重要性采样）的直接对比，说服力打了折扣。此外，与外部SOTA的对比弱于框架内的自身对比，更凸显了该工作的定位是“训练效率改进”而非“性能颠覆”。 📌 核心摘要要解决什么问题：解决当前音频扩散模型训练依赖静态优化配方、计算成本高昂的问题。论文指出，训练早期应侧重语义对齐与粗略组织，后期应侧重时域一致性、感知保真度与细节精炼，静态配方无法适应这种动态变化。方法核心是什么：提出一种阶段自适应训练视角。核心是引入一个基于冻结自监督学习（SSL）编码器的差异斜率信号（g_k）作为“进度变量”，监控语义获取速度。基于此变量，设计并集成三个自适应机制：衰减的SSL引导、由进度变量驱动的自适应时间步采样、以及基于参数空间分组组织的结构感知正则化。与已有方法相比新在哪里：1) 首次在音频扩散模型训练中提出一个统一的、基于SSL空间动态的“进度变量”来量化训练阶段；2) 将外部语义支持、内部结构约束和优化重点分配这三个通常独立考虑的因素，整合到同一个自适应控制框架下；3) 结构感知正则化不是预设的，而是基于观察到的训练中后期才出现的稳定分组结构“按需激活”。主要实验结果如何：在文本到音频生成和音频超分辨率两个任务上，所提机制在各自单独加入时，均在关键指标上优于静态基线。例如，在文本到音频生成任务中，自适应时间步采样将FAD（越低越好）从基线的2.36降至1.91；在24kHz到48kHz超分辨率任务中，衰减SSL引导将LSD（越低越好）从基线的0.831降至0.760。实际意义是什么：为高效训练音频扩散模型提供了一个新的、基于阶段动态的理论视角和实践框架。它表明，通过让训练配方与模型内部状态协同演化，可以在不增加模型容量或数据规模的前提下提升训练效率和最终质量。主要局限性是什么：1) 核心局限在于三个自适应机制仅单独评估，未验证其组合后的协同效应或潜在冲突；2) 实验对比更侧重于验证自身机制相对于静态基线的提升，与近期其他高效扩散训练方法的对比不足；3) “结构感知正则化”中引用的“参考模式S_ref”的具体获取方式（如使用哪个数据集训练的哪个模型、在哪个训练阶段截取）未明确说明，影响复现和理解其普适性。 🔗 开源详情代码：论文中未提及代码链接。论文所有实验均基于 stable-audio-tools 框架进行，但未提供本文方法的具体实现代码。模型权重：论文中未提及。数据集： AudioSet: 用于文本到音频生成任务的训练。需要向 Google Research 申请访问权限：https://research.google.com/audioset/ FreeSound: 用于文本到音频生成任务的训练。公开数据集：https://freesound.org/ AudioCaps: 用于文本到音频生成任务的评估。公开数据集：http://www.cs.toronto.edu/~kmn428/AudioCaps/ VCTK: 用于音频超分辨率任务的训练与评估。公开数据集，可从官方渠道获取，常见来源如：https://datashare.ed.ac.uk/handle/10283/3443 Demo：论文中未提及。复现材料：论文中未提及。论文未提供训练脚本、配置文件、预训练检查点等额外复现材料。论文中引用的开源项目： stable-audio-tools: 论文所有实验基于此框架实现。官方仓库：https://github.com/Stability-AI/stable-audio-tools USAD: 作为冻结的自监督音频编码器用于提取SSL特征。官方仓库：https://github.com/facebookresearch/audiocraft (注：USAD是AudioCraft库中的一部分，论文引用了Chang et al. (2025)) Make-An-Audio: 作为基线模型之一。官方仓库：https://github.com/lifeaudioml/Make-An-Audio AudioLDM 2: 作为基线模型之一。官方仓库：https://github.com/haoheliu/audioldm2 Tango 2: 作为基线模型之一。官方仓库：https://github.com/declare-lab/tango AudioSR: 作为基线模型之一。官方仓库：https://github.com/haoheliu/AudioSR NVSR: 作为基线模型之一。论文引用了Liu et al. (2022)，通常指NVIDIA的超分辨率工作。 🏗️ 模型架构论文并未提出一个新的网络架构，而是提出了一套可附加到现有扩散Transformer（DiT）架构上的训练自适应机制。整体流程如下： ...

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

📄 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail #语音识别 #数据增强 #迁移学习 #多语言 #低资源 🔥 8.5/10 | 前25% | #语音识别 | #数据增强 | #迁移学习 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Venkata Pushpak Teja Menta（论文中未明确说明其所属机构）通讯作者：未说明（论文中未提及通讯作者信息）作者列表：Venkata Pushpak Teja Menta（所属机构未说明） 💡 毒舌点评亮点：这篇论文最聪明的地方在于，它用近乎“土法炼钢”的合成数据方法（TTS生成）解决了一个高端商业系统都搞不定的垂直痛点（实体密集型ASR），并给出了令人信服的量化提升（Telugu EHR提升17倍），成本却低到令人发指（<$50）。短板：其核心验证集仍然是合成的，虽然作者用少量原生人类录音做了补充验证，但这20条录音的样本量和单一说话人条件，对于宣称的“解决真实场景问题”来说，说服力稍显不足，存在“用魔法打败魔法”但魔法本身是否足够真实的疑问。 📌 核心摘要要解决的问题：现有开源和商业的印度语言（Indic）ASR系统在识别实体密集型内容（如电话号码、货币金额、地址、品牌名、英印语码混）时表现极差，与其在标准朗读文本上的性能形成巨大差距。方法核心：提出一个自包含的“TTS↔STT飞轮”框架。利用多种开源/商业TTS系统合成约22,000条实体密集、跨语言的印度英语码混语音，并设计了针对实体识别的评估指标EHR（实体命中率）。在此合成数据上对现有的开源SOTA模型（vasista22/Whisper）进行LoRA微调。与已有方法相比新在哪里：(1) 提出并验证了使用多系统TTS合成数据来专门提升ASR在特定垂直领域性能的完整方法论。(2) 设计并开源了EHR指标，更公平地评估实体识别的语义准确性。(3) 发现并诊断了Whisper在特定语言（Telugu）上的“脚本坍塌”问题，并给出了条件性的修复方案。主要实验结果：在Telugu（泰卢固语）上，其微调模型（Praxy-STT-rb）的实体密集型测试集EHR达到0.473，相比开源SOTA（vasista22的0.027）提升17倍，相比商业系统（Deepgram的0.160）提升3倍。在Tamil（泰米尔语）上EHR为0.543（比两者均高22倍），在Hindi（印地语）上为0.337（比开源高7倍，但低于Deepgram的0.485）。所有结果均未达到预设的0.65-0.75 EHR目标。标准朗读文本（FLEURS）上的WER回退在Telugu上控制在+6.6个百分点。实际意义：证明了一种低成本（<$50边际成本）、可复现的路径，能够高效提升ASR系统在缺乏数据的垂直领域的特定能力，对工业应用（如IVR、客服）具有直接参考价值。主要局限性：(1) 核心评估仍基于合成音频（尽管进行了人类录音验证，但样本量小）；(2) 在商业系统已深耕的语言（如Hindi）上优势不明显；(3) 微调会导致在标准朗读文本集上性能轻微回退；(4) 所有语言的实体识别性能均未达到预设的高标准目标。 🔗 开源详情代码：https://github.com/praxelhq/stt-flywheel 模型权重：基于 vasista22 的实体密集识别适配器 (Praxy-STT-rb, 主要结果)： Telugu: https://huggingface.co/Praxel/praxy-stt-te-rb Hindi: https://huggingface.co/Praxel/praxy-stt-hi-rb Tamil: https://huggingface.co/Praxel/praxy-stt-ta-rb 基于 Whisper-large-v3 的语言条件适配器 (Praxy-STT-r2)： Telugu: https://huggingface.co/Praxel/praxy-stt-te-r2 Hindi: https://huggingface.co/Praxel/praxy-stt-hi-r2 Tamil: https://huggingface.co/Praxel/praxy-stt-ta-r2 数据集： EDSA 语料库：合成的实体密集音频及对应文本。包含在代码仓库中，采用 CC-BY-4.0 协议。实体字典：用于生成 EDSA 的种子实体。包含在代码仓库中，采用 CC-BY-4.0 协议。评估数据集 (Holdouts)：包括 FLEURS、Common Voice 25.0、IndicVoices-General 以及用于实体密集评估的 Cartesia 合成数据的留出集。具体 JSONL 文件包含在代码仓库中。 Demo：论文中未提及在线演示链接。复现材料：预测结果：每个评估系统在每个数据集上的逐条假设 JSONL 文件，位于代码仓库的 evaluation/scorecards/stt_flywheel/ 目录下。训练配置：论文第 III-C 节详细描述了 LoRA 微调的超参数、步骤、数据混合比例等。具体的训练脚本和配置应在代码仓库中。评估脚本：论文中提到的 eval_ehr.py（EHR 指标）和 data_pipeline.py（数据生成管道）均包含在代码仓库中。论文中引用的开源项目： vasista22/whisper-{te,ta,hi}-large-v2: 论文中使用的开源印地语 ASR 基线模型。许可证为 Apache-2.0。HuggingFace 地址未在论文中给出。 AI4Bharat 项目: IndicWhisper / Vistaar: 论文中提到的开源印地语 ASR 模型集，但在 HuggingFace 上为 gated 状态，未提供直接链接。 IndicConformer-600M: 同上，为 gated 模型。 Praxy Voice: 项目组开源的跨脚本印地语 TTS 模型。论文中提到其 arXiv 链接为 arXiv:2604.25441。其 GitHub/HuggingFace 链接未在论文中给出。 Whisper-large-v3: 由 OpenAI 开发的基础模型。论文中引用为 [14]。评估数据集: FLEURS: 论文中引用为 [13]。数据集本身为开源，但论文未提供链接。 Common Voice 25.0: 论文中引用为 [12]。数据集本身为开源，但论文未提供链接。 IndicVoices: 论文中引用为 [11]。 TTS 后端: Vanilla Chatterbox Multilingual IndicF5: 用于合成代码混合语音频。 ElevenLabs v3 (商业) Cartesia sonic-3 (商业) 其他论文中引用的开源工具/库: torchaudio: 用于音频重采样。 transformers 和 peft: 用于模型微调。论文指定了特定版本 (transformers==4.36.2， peft==0.10.0)。 🏗️ 模型架构本论文并非提出一种全新的模型架构，而是提出了一种基于现有架构的适应（Adaptation）框架。其核心是TTS-STT飞轮，可以理解为一个两阶段的数据生成与模型微调流水线。 ...

To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition

📄 To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition #语音情感识别 #多模态模型 #强化学习 #知识蒸馏 #基准测试 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #强化学习 #知识蒸馏 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）通讯作者：Jia Li（合肥工业大学计算机科学与信息工程学院）作者列表：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）、Qian Chen（合肥工业大学计算机科学与信息工程学院）、Jia Li（合肥工业大学计算机科学与信息工程学院）、Zhenzhen Hu（合肥工业大学计算机科学与信息工程学院）、Jinpeng Hu（合肥工业大学计算机科学与信息工程学院）、Lizi Liao（新加坡管理大学计算与信息系统学院）、Erik Cambria（南洋理工大学计算与数据科学学院；麻省理工学院媒体实验室）、Richang Hong（合肥工业大学计算机科学与信息工程学院） 💡 毒舌点评这篇论文最大的亮点在于它给“多模态融合”这件事安了一个“交通灯”——能调和的（良性冲突）走蒸馏融合通道，调和不了的（严重冲突）就走强化学习选择通道，这个双路径设计思路清晰且有实证支撑，实验也做得相当全面扎实。但短板也很明显：对“严重冲突”的定义依赖启发式规则（单模态极性与多模态标签不一致），这在实际无标注场景下难以直接应用；此外，ADA的奖励函数设计相对朴素，可能无法完美捕捉“选择可靠性”的微妙之处。 📌 核心摘要问题：多模态情感识别（MER）中，传统融合方法在模态间存在冲突（如讽刺时文本与表情矛盾）时会失效，甚至不如单模态模型。核心方法：提出双路径冲突解决框架（DCR）。路径I（AFD）通过反向知识蒸馏，将音视频模态的时序情感线索融入文本表征，用于处理可调和的“良性冲突”。路径II（ADA）将路径选择建模为上下文赌博机问题，通过强化学习在融合结果和各单模态预测中做出决策，用于处理不可调和的“严重冲突”。创新之处：首次系统性地将模态冲突按“可解性”分类（良性/严重），并设计了针对性的“软校准”（AFD）与“硬裁决”（ADA）的协同处理机制，区别于以往单一的融合或丢弃策略。主要实验结果：在MELD、IEMOCAP、CMU-MOSEI、CH-SIMS和CH-SIMS v2五个基准上，DCR均取得SOTA或极具竞争力的性能。例如，在MELD上WF1达到68.84%，优于TelME（67.37%）；在CH-SIMS v2上MAE达到0.290，优于MulT（0.291）。在CH-SIMS的冲突子集上，DCR在良性冲突子集准确率达72.4%，严重冲突子集达50.3%，显著优于基线（TelME分别为61.8%，41.5%）。实际意义：为构建更鲁棒、可解释的多模态情感识别系统提供了新范式，尤其在对话、人机交互等易出现情感信号矛盾的场景中具有应用潜力。主要局限：冲突的启发式分类方法可能不完美；ADA的策略优化可能受有限动作空间和奖励设计约束；框架增加了模型复杂度。 🔗 开源详情代码：https://github.com/MSA-LMC/DCR 模型权重：论文中未提及具体的模型权重托管平台（如 HuggingFace、ModelScope）链接。论文仅在摘要中提到“Source code and models will be released at https://github.com/MSA-LMC/DCR”，表明模型权重将随代码一同发布。数据集：论文中未提及各数据集的具体获取链接或开源协议。论文仅描述了五个使用的数据集：MELD、IEMOCAP、CMU-MOSEI、CH-SIMS 和 CH-SIMS v2。 Demo：论文中未提及在线演示链接。复现材料：论文中提及了实现细节，包括：使用 PyTorch 实现。训练于单块 NVIDIA RTX 4090 GPU。使用预训练模型作为特征提取器：RoBERTa-large (文本), Whisper-large-v3 (音频), CLIP-ViT-B/16 (视觉)。报告了随机种子（从 {41, 42, 43, 44, 45} 中选择）、学习率 (1e-4)、批大小 (32) 等超参数设置。提供了具体的数据增强策略参数（如模态丢弃概率 p1=0.2, p2=0.05, 高斯噪声 σ=0.01）。论文中未提供独立的配置文件、检查点或详细的复现指南链接。论文中引用的开源项目：论文引用了多个开源项目作为基线或组件，但未提供所有项目的具体链接。以下为论文中明确提及名称的开源相关项目（按章节顺序）：模型/基线方法：大部分作为参考文献引用，论文正文中未提供其 GitHub 链接。例如：MMML, TelME, FacialMMT, DialogueCRN, DialogueRNN, SACL-LSTM, MulT, PMR, Self-MM, UniMSE, SDT, RMER-DT, ECERC, GraphCFC, MMGCN, DialogueGCN, Joyful, LMF, DashFusion, HFR-AME, MAG-BERT, MFON, ConKI, CLGSI, KEBR, BC-LSTM, EmoCaps, BiosERC, InstructERC, DialogueMMT。预训练模型：作为特征提取器使用，论文中提到了其名称但未提供开源链接。例如：RoBERTa-large, Whisper-large-v3, CLIP-ViT-B/16。技术/方法：作为论文中使用的方法被引用。例如：Grad-CAM [60], A2C (优势演员-评论家算法) [33], CMAB (上下文多臂老虎机) [16]。 🏗️ 模型架构图3展示了DCR框架的整体架构，它是一个包含两条互补路径的串行-并行结构： ...

Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity

📄 Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity #标签分布学习 #联邦学习 #质量自适应 #基准测试 #鲁棒性 🔥 8.0/10 | 前25% | #标签分布学习 | #联邦学习 | #质量自适应 #基准测试 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junxiang Wu 通讯作者：未说明（论文中未明确标注）作者列表：Junxiang Wu、Zhiqiang Kou、Hongwei Zeng、Wenke Huang、Biao Liu、Hanlin Gu、Yuheng Jia、Di Jiang、Yang Liu、Xin Geng、Qiang Yang（所有作者所属机构在提供的论文文本中均未明确说明） 💡 毒舌点评亮点在于将联邦学习的信任问题与标签分布学习的模糊性巧妙结合，并用一个优雅的理论（定理3.1）证明了“因材施教”（自适应校准）的必要性，避免了粗糙的一刀切方法。短板是质量指标$q_m$的定义（基于标注者数量）在现实中可能过于简化且难以准确获取，论文中对其局限性的讨论（附录F.1）虽坦诚，但也暴露了该框架落地时的一个潜在阿喀琉斯之踵。 📌 核心摘要这篇论文研究了联邦标签分布学习（Fed-LDL）中因客户端标注质量异质性导致的信任困境：低质量客户端的不可靠本地更新会污染全局模型，而传统的按样本量聚合策略会放大此问题。为解决此问题，论文提出了FedQual框架，其核心包含两个耦合机制：（1）客户端侧，引入全局语义锚点（GSA）作为参考，并设计一个质量自适应校准权重，对低质量客户端施加更强校准，同时保留高质量客户端的自主性；（2）服务器侧，提出一种渐进式、可靠性感知的聚合策略，根据有效可靠信息（样本量×质量）而非原始样本量来加权客户端贡献。理论分析证明，在质量异质性下，客户端特定校准严格优于任何统一校准。为进行严格评估，论文构建了四个新的Fed-LDL基准数据集（FER-LDL, FI-LDL, PIPAL-LDL, KADID-LDL）。在四个基准上的广泛实验表明，FedQual在多种指标下均优于包括FedAvg、FedProx、MOON在内的多种基线方法，并且对噪声比例、标签分布偏斜、联邦规模变化等具有强鲁棒性。该工作的实际意义在于为医疗、情感分析等隐私敏感领域中的联邦协作学习提供了更可靠的方法。主要局限性在于当前质量指标$q_m$依赖于外部标注者数量信息，可能无法完全反映标注的真实保真度。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中创建并承诺发布四个新的Fed-LDL基准数据集：FER-LDL、FI-LDL、PIPAL-LDL 和 KADID-LDL。论文正文（摘要、结论）和附录F.2节均明确指出将发布这些数据集，但未提供具体的下载链接或托管平台地址。这些基准数据集基于公开的原始数据集构建，原始数据集信息如下： FER2013 (情感识别)：原始数据集链接见论文引用 (Goodfellow et al., 2015)。 FI (情感识别)：原始数据集链接见论文引用 (You et al., 2016)。 KADID-10k (图像质量评估)：原始数据集链接见论文引用 (Lin et al., 2019)。 PIPAL (图像质量评估)：原始数据集链接见论文引用 (Gu et al., 2020)。新基准构建细节：论文在附录D中提供了完整的标注协议、指南和从原始数据生成标签分布的方法，但未提供新基准数据集的直接下载地址。 Demo：论文中未提及。复现材料：论文在附录B中提供了完整的实验设置和实现细节，包括：软件/硬件：PyTorch，8块NVIDIA RTX 4090 GPU。模型架构：ResNet-18 backbone。训练配置：每轮本地训练5个epoch，使用SGD优化器（学习率0.01，动量0.9，权重衰减10^{-4}），本地批次大小16，总通信轮次100。损失函数：KL散度（公式B.1）。 FedQual超参数：β=5, λ0=0.5, γ_temp=1 (附录B.4)。评估指标：六种标准LDL指标（Chebyshev, Clark, Canberra, KL, Cosine, Intersection）。作者承诺：在附录F.2中明确表示“将发布我们的源代码、训练脚本和四个新构建的Fed-LDL基准”，但未给出具体的代码仓库或检查点链接。论文中引用的开源项目：未提及具体开源项目链接。论文中作为基线方法引用了以下框架，但未提供其代码链接：FedAvg, FedProx, MOON, FedRDN, FedGloSS。论文中使用的原始公开数据集（FER2013, FI, KADID-10k, PIPAL）在参考文献中提供了来源，但未在正文中列出具体URL。 🏗️ 模型架构 FedQual是一个用于联邦标签分布学习（Fed-LDL）的框架，旨在解决客户端间标注质量差异带来的挑战。其整体架构围绕客户端-服务器范式展开，并集成了质量感知的双端优化机制。 ...

VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

📄 VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models #音乐转录 #语音识别 #音频大模型 #预训练 ✅ 7.0/10 | 前25% | #音乐转录 | #音频大模型 | #语音识别 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yukun Chen（西安交通大学，南洋理工大学）通讯作者：论文中未明确说明通讯作者。作者列表：Yukun Chen（西安交通大学，南洋理工大学）， Tianrui Wang（天津大学，南洋理工大学）， Zhaoxi Mu（蚂蚁集团，浙江大学）， Xinyu Yang（西安交通大学）， EngSiong Chng（南洋理工大学） 💡 毒舌点评亮点：将复杂的歌声转录多阶段任务优雅地统一到一个基于LALM的自回归生成框架中，其提出的“CoT式提示”策略巧妙地解决了预训练语义模型与结构化生成目标之间的冲突。短板：模型的核心能力很大程度上继承自强大的基座模型（Qwen3-ASR），创新更多是“术”而非“道”的层面；同时，其赖以生存的训练数据（SingCrawl）虽方法开源，但数据本身和模型权重均不公开，使得论文的复现性和实用推广价值大打折扣。 📌 核心摘要要解决什么问题：歌唱语音合成（SVS）需要大规模高质量标注数据，但人工标注成本高昂。现有的自动转录系统存在多阶段误差累积、词-音符对齐困难以及对分布外（OOD）歌唱数据泛化能力差等问题。方法核心是什么：提出VocalParse，一个基于大型音频语言模型（LALM）的统一歌声转录框架。其核心是将转录重构为对交错（interleaved）歌词-音符序列的自回归生成。为解决交错格式破坏预训练LALM语义理解能力的问题，引入了链式思维（CoT）风格的提示策略：先生成纯歌词序列作为语义支架，再生成交错的歌词-音符序列。与已有方法相比新在哪里：1) 统一框架：用一个自回归模型联合预测歌词、旋律及词-音符对应关系，无需复杂的多阶段流水线和后处理对齐。2) 结构化生成：交错提示序列直接编码了词与音符的层级关系。3) CoT适配策略：在保持预训练LALM强大语义解码能力的同时，实现了结构化输出的生成。4) 可扩展的数据管线SingCrawl：自动从网络爬取歌曲并生成伪标签训练数据。主要实验结果如何：在多个歌唱数据集上达到最先进性能。在Opencpop数据集上，音频-歌词联合推理模式在音高MAE（0.35）、音符MAE（0.43）、时值MAE（0.33）和音符数量误差（0.11）上均优于ROSVOT等基线。歌词转录WER在三个数据集上与专用ASR模型Qwen3-ASR接近（Opencpop上3.79% vs 3.41%）。消融实验证明，CoT策略将WER从7.18%显著降低至3.79%；移除SingCrawl数据后，音高MAE从0.56急剧上升至0.94。下游SVS实验证明，使用VocalParse生成的伪标签训练的模型，在节奏和旋律相似度上显著优于仅使用小规模人工标注数据训练的模型。 ...

语音/音频论文速递 2026-05-07

语音/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文评分分档主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language

📄 A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language #语音识别 #自监督学习 #模型评估 #多语言 #端到端 ✅ 7.0/10 | 前50% | #语音识别 | #自监督学习 | #模型评估 #多语言 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Thibault Bañeras-Roux（未说明）通讯作者：未说明作者列表：Thibault Bañeras-Roux（未说明）、Mickael Rouvier（未说明）、Jane Wottawa（未说明）、Richard Dufour（未说明） 💡 毒舌点评本文像一份详尽的“ASR系统配置说明书”，通过大量消融实验清晰地展示了分词策略和SSL模型选择对法语识别性能在多维度上的影响，这对于工程实践极具参考价值。但遗憾的是，它并未提出任何突破性的新方法或新模型，更像是一次站在前人肩膀上的系统性总结与验证，其“分析”重于“创新”的定位限制了其学术高度。 🔗 开源详情代码：https://github.com/thibault-roux/systems-analysis 模型权重：论文中未提及具体的模型权重下载链接（论文仅提及使用了LeBenchmark的wav2vec 2.0模型，但未提供模型存储地址）。数据集：论文中提及了以下法语语音数据集，但未提供具体下载链接： ESTER 1 ESTER 2 EPAC ETAPE REPERE Demo：论文中未提及。复现材料：论文中仅提及“For reproducibility, settings are detailed in our GitHub code repository”，具体的训练配置、检查点等信息需从上述代码仓库中获取。论文中未单独列出。论文中引用的开源项目： SpeechBrain (语音处理工具包): 论文中作为ASR系统构建基础，但未在文中给出具体链接（通常指 https://speechbrain.github.io/）。 CamemBERT (法语BERT模型): 用于计算SemDist指标的句子嵌入模型基础。论文中未给出具体链接。 SentenceBERT (句子嵌入模型): 论文在脚注中提供了HuggingFace模型链接：https://huggingface.co/dangvantuan/sentence-camembert-large。 PoemesProfonds (音素转换工具): 用于计算PhonER指标的自动图素-音素转换器。论文中提供了GitHub链接：https://github.com/Remiphilius/PoemesProfonds。 LeBenchmark (自监督学习模型集合): 论文引用[7]指代，未提供项目主页链接。 wav2vec 2.0 (自监督学习模型): 论文引用[2]和[12]，未提供项目主页链接。 XLSR (跨语言自监督学习模型): 论文引用[1]，未提供项目主页链接。补充信息 [细节详述] 补充：论文中明确给出了关键的训练超参数设置。微调时，SSL模型部分的学习率（LR）为1e-5，DNN部分的初始学习率为1e-3。这提供了更精确的复现细节。 ...