ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析 共分析 133 篇 ICLR 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音合成(10篇) 音频生成(9篇) 语音识别(9篇) 基准测试(9篇) 音乐生成(9篇) 语音对话系统(8篇) 音频分类(6篇) 音频问答(6篇) 语音情感识别(5篇) 多模态模型(5篇) 音视频(4篇) 音频检索(4篇) 语音分离(3篇) 模型评估(2篇) 语音翻译(2篇) 音乐信息检索(2篇) 生成模型(2篇) 音乐理解(2篇) 视频生成(2篇) 跨模态生成(1篇) 脑编码(1篇) 模型可解释性(1篇) 音视频深度伪造检测(1篇) 图像生成(1篇) 数据集(1篇) 语音增强 #对抗样本(1篇) 语音大模型(1篇) 音频编辑(1篇) 音视频事件检测(1篇) 生态计算(1篇) 视频描述生成(1篇) 视频摘要(1篇) 语音问答(1篇) 基准测试 #数据集(1篇) 音频安全(1篇) 神经网络架构(1篇) 语音转换 #语音匿名化(1篇) 声源定位(1篇) 序列解耦(1篇) 空间音频(1篇) 音频分离(1篇) 机器人操作(1篇) 动作生成(1篇) 音频场景理解(1篇) 跨模态检索(1篇) 语音增强(1篇) 多模态推理(1篇) 语音合成评估(1篇) 语音生成(1篇) 生物声学(1篇) 模型比较(1篇) 音视频联合推理(1篇) 语音识别 #语音合成(1篇) ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-06-12 · 72 min · 15177 words

Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers

📄 Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers #语音识别 #无监督学习 #Transformer 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #Transformer | #无监督学习 | arxiv 👥 作者与机构 论文作者:Yacouba Kaloga, Shashi Kumar, Shakeel A. Sheikh, Driss Khalil, Petr Motlicek, Ina Kodrasi。 机构:Idiap Research Institute (瑞士), EPFL (瑞士), BUT (捷克共和国), Novartis Institute of Biomedical Research (瑞士)。 核心贡献者:Yacouba Kaloga 和 Shashi Kumar 被标注为同等贡献。 ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 282 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-06-12 · 14 min · 2920 words

A Training-Efficient Transformer-Based Anti-Spoofing Network for Logical Access in ASVspoof 5

📄 A Training-Efficient Transformer-Based Anti-Spoofing Network for Logical Access in ASVspoof 5 #Transformer #数据增强 6.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.7/10 | 后50% | #Transformer | #Transformer | #数据增强 | arxiv 👥 作者与机构 论文作者为 Sidan Yin 和 Bo Zhao。论文中未明确提及作者所属机构信息。 💡 毒舌点评 这篇文章像一个精心搭建的乐高城堡,每个积木块(Transformer、Focal Loss、Pairwise Loss、Attention Pooling)都是现成的,拼装过程也算工整。它的价值在于向特定赛道(ASVspoof 5 Track 1 闭集)的选手证明了,用这些标准零件,确实能比用AASIST那些奇形怪状的图积木搭得更快、更省地,还能搭得稍微高一点(minDCF 0.2430 vs 0.2911)。但它的天花板也就仅限于此了。创新性基本停留在“排列组合”层面,缺乏对“为什么必须这样组合”的深度机理挖掘。实验局限在自家后院(闭集协议),从未与更广阔的SOTA世界(挑战赛高分系统、开放条件)交手。最致命的是,论文一边强调“平衡”,却对RawNet2在推理延迟和参数量上的优势轻描淡写,对AASIST内存异常高的原因缺乏深究,仿佛效率分析是为了凸显自家优点而量身定制的。它是一份合格的“技术报告”或“竞赛心得”,但距离一篇具有广泛启示意义的“研究论文”还有明显差距。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 473 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-12 · 26 min · 5337 words

Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS

📄 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS #流式处理 #扩散模型 #Transformer #语音合成 🔥 10/10 | 前25% | #语音合成 | #Transformer | #流式处理 #扩散模型 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Deokjin Seo: Resemble AI(与Gangin Park贡献均等) Gangin Park: 首尔国立大学(与Deokjin Seo贡献均等) Kihyun Nam: KAIST 论文标注了Deokjin Seo和Gangin Park的贡献均等(† footnote 1)。 💡 毒舌点评 这篇工作切入点很聪明,直击了块扩散方法在离散语音token上“水土不服”的痛点——静音token这类高频但低信息的“钉子户”严重干扰并行生成。提出的先验校准评分(PMI)和早期解码调度(ED)是实用的推理时补丁,无需改模型架构就能用,这点工程上很讨巧。但细看实验,几个关键点被包装得有点“圆滑”:1)在“标准”基准(LibriSpeech-PC, Seed-TTS)上,PMI相比更简单的TS调度(即OmniVoice的方法)在质量上几乎没有提升,其核心价值变成了为ED提供“可靠信号”——这更像是一个特性,而非一个强创新。2)在EmergentTTS-Eval上的10.6%相对WER提升是亮点,但这个基准是否足够主流和公允?论文未提供与OmniVoice等强基线在此基准的对比数据,使得提升幅度难以被客观衡量。3)宣称的“首个结合块扩散和原生流式推理的零样本TTS”定位准确,但与强大的AR流式系统(如Qwen3-TTS)相比,在TTFP上只是“具有竞争力”,而质量(如SIM-o)常落后于OmniVoice等NAR系统。说白了,这是一篇“工程上很不错,但科学上新瓶装旧酒”的论文,主要贡献是把已知技术组合并调优到了一个可用的状态,缺乏对块扩散在语音领域失败模式的更根本性解决方案。 📌 核心摘要 论文标题: Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 论文ID: arXiv 2605.30748 核心问题: 如何在不牺牲质量的前提下,实现支持流式推理的高速零样本文本到语音(TTS)合成。现有自回归(AR)模型延迟高,而非自回归(NAR)模型不支持原生流式。直接将块扩散(Block Diffusion)解码应用于离散语音token会导致质量下降,原因是语音codec的token分布高度长尾(如静音token占比极大),干扰了并行位置选择。 核心方法: 模型架构: 通过微调一个预训练的自回归T3解码器(来自Chatterbox-TTS),将其转换为块扩散解码器。采用混合注意力掩码:对条件上下文\(\mathbf{c}\)为因果注意力,在每个语音块内为双向注意力,块间为因果注意力,从而保留流式能力。训练使用token-shift去噪损失和互补掩码策略。 推理时技术(无需架构改动): 先验校准评分(Prior-Calibrated Scoring): 使用点互信息(PMI)分数 \(s_i^{(k)} = \log p_i^{(k)}(\hat{x}_i^{(k)}) - \log \bar{p}(\hat{x}_i^{(k)})\) 来排序和选择要解掩的位置。其中 \(\bar{p}\) 是通过一次无条件前向传播计算的无条件块先验概率。此举旨在抑制长尾高频token(如静音)的偏差。 早期解码调度(Early-Decoding Schedule): 基于校准后的PMI分数,自适应地提前终止每个块的去噪迭代步骤。具体通过设置阈值 \(\theta_k\),并在不同步数 \(k\) 用动态分位数 \(q_k\) 控制。 主要结果: 质量: 在标准零样本TTS基准(LibriSpeech-PC, Seed-TTS)上,Chatterbox-Flash的质量(SIM-o, WER, UTMOS)匹配或超越了部分AR和NAR基线(如与Chatterbox相比有提升)。在更具挑战性的EmergentTTS-Eval上,PMI带来了约10.6%的相对WER提升。 效率: 实现了显著更低的实时因子(RTF,相比强AR基线Qwen3-TTS降低约2.7倍至3.8倍)和具有竞争力的时间首包(TTFP)。支持原生流式推理,这是许多NAR基线(如OmniVoice)不具备的。 技术验证: 先验校准评分为早期解码提供了可靠的置信度信号,允许在约20%的步骤节省下几乎不损失质量(WER)。PMI的主要优势在质量饱和的基准上不直接体现,而在于提供可靠的置信度信号。 关键贡献: 首个结合块扩散和原生流式推理的零样本TTS模型。 提出先验校准评分,一种简单有效的推理时校正方法,用于抑制长尾token偏差。 提出早期解码调度,自适应降低计算量。 在质量和流式效率上取得了优异的平衡。 局限性与未来工作: 在训练中未对数据源进行消融;当块大小(D)过大(\(\geq128\))时模型会崩溃;在质量饱和的基准上,先验校准评分与直接使用置信度的基线方法差异不大,其优势主要体现在为早期解码提供信号和在难样本上。 🔗 开源详情 代码:https://github.com/resemble-ai/chatterbox-flash (论文中明确提供) 模型权重:论文中未提及模型权重的具体下载链接。论文说明模型从预训练的 Chatterbox-TTS 检查点初始化。 数据集: 论文中列出了详细的训练数据集组成(公开和私有),见表6。 公开数据集名称包括:MLS-English, Emilia (en, part 1), Loquacious, GLOBE, LibriTTS-R, HiFi-TTS, EARS, Expresso。 评估使用的基准测试为 LibriSpeech-PC test-clean 和 Seed-TTS test-en。 未提供数据集的具体下载链接或开源协议。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录(Appendix E)中提供了详细的实现细节,包括: 推理引擎基于 FlashInfer。 自定义注意力掩码实现(附录A)。 训练超参数(学习率、批大小、精度等,见3.2节)。 推理配置参数(块大小 D、去噪步数 K、调度参数 \(\tau\)、引导比例 w、采样温度 T 等,见3.2节)。 使用 CUDA Graph 进行推理加速。 论文中引用的开源项目: Chatterbox-TTS:https://github.com/resemble-ai/chatterbox (基础模型,论文中明确提供) FlashInfer:https://github.com/flashinfer-ai/flashinfer (用于推理注意力内核和键值缓存管理,论文中明确提供) MagiAttention:https://github.com/SandAI-org/MagiAttention (用于高吞吐量的长序列注意力,论文中明确提供) 🏗️ 方法概述和架构 Chatterbox-Flash是一个两阶段的零样本TTS系统,其核心创新在于将第一阶段的自回归解码器改造为支持流式生成的块扩散解码器。 ...

2026-06-01 · 更新于 2026-06-12 · 1 min · 190 words

Latent Space Disentanglement via Activation Steering for Interpretable Attribute Control in Symbolic Music Generation

📄 Latent Space Disentanglement via Activation Steering for Interpretable Attribute Control in Symbolic Music Generation #Transformer #音乐生成 ✅ 7.3/10 | 后50% | #音乐生成 | #Transformer | arxiv 学术质量 5/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 第一作者:Ioannis Prokopiou。所属机构未在论文正文明确提及,但根据项目主页推断可能来自雅典大学或其他研究机构。未提及小米或其他中国相关机构。 💡 毒舌点评 这篇论文像是把一个在语言模型上跑通的“标准操作”(DiffMean + 激活引导 + Gram-Schmidt)搬到了符号音乐模型上。创新性严重不足,核心方法都是现成的。更让人头疼的是评估指标,那个“质量降级δ”被当成核心指标反复使用,但其具体构成、权重、归一化方式一概不提,这就像在实验报告里说“性能有所提升”却不给数字一样不严谨。实验部分只在一个模型、一个数据集上打转,就宣称方法的普适性,说服力很弱。最要命的是,缺乏任何人类主观听觉评估来验证生成的音乐到底“好不好听”。总的来说,这是一篇动机清晰、执行工整但深度和广度都明显不足的工作,离顶会标准还有距离。 📌 核心摘要 本文针对预训练符号音乐生成模型(MMT)缺乏细粒度、可解释属性控制的问题,提出了一种基于机械可解释性和激活引导的无训练推理时控制框架。研究验证了音高和持续时间在模型残差流中存在线性可分的潜在方向(线性表征假设)。通过差异均值法提取控制向量,并在推理时注入。为解决多属性引导时的特征纠缠,引入了基于Gram-Schmidt正交化的双重引导框架。实验表明,该方法在无条件生成和上下文覆盖条件下均能有效控制属性,且正交化能降低干扰并保持生成质量。 🔗 开源详情 代码:论文在致谢部分提供了项目主页链接:https://giannisprokopiouorfium.github.io/music-transformer-sae/,其中包含代码和音频示例。未提供独立的GitHub仓库链接。 模型权重:论文中未提及模型权重的具体下载链接。 数据集:论文明确使用SOD数据集,但未提供数据集的下载链接或开源协议信息。 Demo:未提及在线演示链接。 复现材料:未提及训练配置、检查点或附录等具体复现材料。 论文中引用的开源项目:论文引用了多个相关工作(如MMT, MusicGen, Music FaderNets, SMITIN, MusicRFM, AxBench等),但未提供其具体链接(除MusicGen的官方GitHub仓库 https://github.com/facebookresearch/audiocraft 和 AxBench 的 https://github.com/meghdadk/axbench 外)。 🏗️ 方法概述和架构 论文提出的方法是一个基于机械可解释性的无训练推理时干预框架,旨在对预训练的多轨音乐Transformer(MMT)模型实现对音高和持续时间属性的独立控制。其核心流程可分解为以下几个关键组件: ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 367 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-06-12 · 12 min · 2552 words

MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding

📄 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding #Transformer 🔥 8.2/10 | 前50% | #Transformer | #Transformer | arxiv 学术质量 5.5/7 | 影响力 1/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 Abdulkadir Gocke, Badr AlKhamissi, Martin Schrimpf,均来自EPFL的NeuroAI Lab。 💡 毒舌点评 论文试图解决一个有价值的问题:如何利用新兴的全能基础模型更有效地编码全脑fMRI响应。MIRAGE框架在概念上是合理的,并且在Algonauts 2025挑战赛中取得了SOTA成绩,这是值得肯定的。然而,审稿人必须指出其局限性。最核心的弱点在于验证数据集极其有限(仅4名受试者),这严重削弱了所有统计结论的可靠性和模型的泛化性声称。尽管作者在讨论中承认了这一点,但这并非“局限性”,而是一个根本性的实验设计缺陷,限制了该工作的影响力范围。此外,将一个超大参数量(30B)的冻结模型作为特征提取器,虽然性能卓越,但其巨大的计算和存储成本(每次特征提取需约700 GPU小时)使其难以被更广泛的社区采纳和复现,这与论文声称的“可复现性”目标背道而驰。论文将核心创新点之一归结为“可解释性”,但提供的注意力权重分析仅停留在模型层面,而非更符合科学假设的皮层层级,这种“解释性”的深度有限。 📌 核心摘要 本文提出了MIRAGE,一个用于从自然视听刺激预测全脑fMRI响应的自适应多模态门控编码框架。该框架使用一个冻结的多模态基础模型(Qwen3-Omni)提取特征,并通过每个模态独立的、基于可学习查询的跨注意力层聚合模块,自适应地融合不同网络层的信息。核心发现是:(1)在多个架构层级和骨干网络上,来自同一多模态模型的原生融合特征,始终优于从独立单模态模型提取特征再进行后融合的策略;(2)学习到的注意力权重具有可解释性,揭示了不同模态对骨干网络层深度的偏好;(3)在Algonauts 2025挑战赛的分布外基准上,MIRAGE取得了最佳成绩(单模型r=0.217,集成模型r=0.227)。论文结论认为,将多模态融合作为预训练模型的原生特性,并通过自适应层聚合进行利用,是构建通用、可解释且准确的全脑编码模型的有效路径。 🔗 开源详情 代码:https://github.com/epflneuroailab/mirage 模型权重:https://huggingface.co/epfl-neuroai/mirage 数据集:未直接提供数据集下载链接。数据为Algonauts 2025挑战赛数据,源自Courtois NeuroMod项目。训练集和验证集通过公开发布获取;测试集需通过官方Codabench评估平台访问。许可证:Courtois NeuroMod数据集采用CC-BY-SA 4.0协议,Algonauts 2025挑战赛数据遵循其特定衍生协议。 演示:https://mirage-brain.epfl.ch 复现材料:论文附录(A.1-A.8节)提供了极其详细的训练配置、超参数、优化器设置、计算资源要求和集成方法。附录B详细报告了关键超参数(交叉注意力查询数量)的消融实验结果。 论文中引用的开源项目: Qwen3-Omni-30B-A3B-Thinking (Apache-2.0) Qwen3-Omni-30B-A3B-Instruct (Apache-2.0) Qwen2.5-Omni-7B (Apache-2.0) Llama-3.2-3B (Llama 3.2 Community License) Wav2Vec-BERT-2.0 (MIT) V-JEPA 2 (CC-BY-NC 4.0) Schaefer 1000-parcel atlas (MIT) Yeo–Krienen 7 networks (通过FreeSurfer获取,Open non-commercial research use) PyTorch (BSD-3-Clause) Python (PSF License) HuggingFace Transformers (Apache-2.0) 🏗️ 方法概述和架构 MIRAGE的架构可分为四个核心阶段,详细如下: ...

2026-05-30 · 更新于 2026-06-12 · 2 min · 365 words

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-12 · 3 min · 583 words