Native Active Perception as Reasoning for Omni-Modal Understanding

📄 Native Active Perception as Reasoning for Omni-Modal Understanding #强化学习 #多模态模型 #Transformer #大语言模型 #计算机视觉 #语音识别 9.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #强化学习 | #多模态模型 #Transformer | arxiv 👥 作者与机构 Zhenghao Xing (香港中文大学), Ruiyang Xu (香港中文大学), Yuxuan Wang (香港中文大学), Jinzheng He (香港中文大学), Ziyang Ma (香港中文大学), Qize Yang (香港中文大学), Yunfei Chu (阿里巴巴Qwen团队), Jin Xu (阿里巴巴Qwen团队), Junyang Lin (阿里巴巴Qwen团队), Chi-Wing Fu (香港中文大学), Pheng-Ann Heng (香港中文大学)。注:论文首页标注了香港中文大学、上海交通大学、阿里巴巴Qwen团队和南洋理工大学。 ...

2026-06-18 · 更新于 2026-07-03 · 3 min · 428 words

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分 前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分 前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分 前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分 前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分 前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分 前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分 前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分 前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分 前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分 前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分 前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分 前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分 前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分 前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分 前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分 前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分 前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分 前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分 前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分 前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分 前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分 前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分 前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分 前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分 前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分 前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分 前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分 前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分 前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分 前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分 前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分 前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分 前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分 前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分 前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分 后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-18 · 更新于 2026-07-03 · 21 min · 4449 words

One-Step Token-to-Waveform Generation with MeanFlow in Latent Space

📄 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space #语音合成 #生成模型 #自回归模型 #流匹配 #扩散模型 #Transformer 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.3/10 | 前10% | #语音合成 | #Transformer | #生成模型 #自回归模型 | arxiv 👥 作者与机构 作者:Zheqi Dai, Guangyan Zhang, Zhen Ye, Jingyu Li, Haolin He, Chunyat Wu, Yiwen Guo, Qiuqiang Kong 机构:1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 LIGHTSPEED, Tencent, Hong Kong SAR, China; 3 The Hong Kong University of Science and Technology, Hong Kong SAR, China; 4 Independent Researcher ...

2026-06-17 · 更新于 2026-07-03 · 3 min · 500 words

Turning music identification into a neural forward pass

📄 Turning music identification into a neural forward pass #音频分类 #音频指纹 #数据增强 #Transformer 7.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #Transformer | #音频指纹 #数据增强 | arxiv 👥 作者与机构 Muhammad Taimoor Haseeb, Ahmad Hammoudeh, Gus Xia。机构:穆罕默德·本·扎耶德人工智能大学 (MBZUAI),Music X Lab,阿联酋。其中Haseeb和Hammoudeh贡献均等。 💡 毒舌点评 这篇论文的立意相当迷人,试图用一个“系统1”式的神经直觉来替代“系统2”式的繁琐检索,概念上很性感。作者在音乐识别这个相对清晰的测试场上,展示了这种范式的可行性,实验设计也比较严谨,甚至考虑了持续学习和开放集这些实际问题。但是,实验的规模限制在25,000条轨道,对于“搜索”这个概念而言,这个数字更像一个玩具演示,而非工业级证明。论文对数据内部化的讨论颇具启发性,但将其与传统检索系统的计算权衡对比时,有些理想化。此外,现场录音性能的断崖式下跌,恰恰暴露了神经网络“记忆”与人类“识别”在泛化能力上的巨大鸿沟。总体而言,这是一篇想法不错、实验扎实但应用前景受限的概念验证论文。作者诚实地列出了局限性,这比那些假装解决了所有问题的论文要值得尊敬。 📌 核心摘要 本文将经典的音乐搜索问题重新定义为一个直接的识别问题。作者提出了一种名为“生成增强检索”的范式,使用一个decoder-only的Transformer模型,通过单次神经网络前向传播,直接从短音频片段(查询)中预测对应的轨道标识符。这种方法将传统声学指纹系统中需要的外部数据库和检索步骤,转化为模型参数对数据集的“内化”。实验表明,在短查询长度(如1秒)下,该方法的识别准确率显著超越了现有的检索基线(Dejavu和GraFPrint),同时大幅降低了外部存储需求并提升了推理延迟。此外,模型还支持通过多片段投票机制进行开放集操作,能够拒绝未知轨道。 🔗 开源详情 代码:论文在结论部分承诺发布代码、数据集清单和可复现脚本(We will release code, dataset manifests, and scripts to reproduce preprocessing, training, evaluation, and fingerprint database construction...),但未提供具体的代码仓库链接(如GitHub)。 模型权重:论文中未提及是否发布预训练模型权重。 数据集:论文使用的主要数据集是公开的Free Music Archive (FMA),其获取链接为:https://doi.org/10.24432/C5HW28。论文中用于版本偏移鲁棒性测试的策划数据集(包含原版、广播编辑、现场版本配对)需向通讯作者合理请求。 Demo:论文中未提及。 复现材料:论文的“Method”部分提供了极其详细的训练与评估参数,包括模型架构规格、数据增强配置、训练超参数(学习率、批量大小等)、评估协议以及硬件环境。论文未提及提供预训练模型检查点文件。 论文中引用的开源项目: Dejavu:作为基线对比的音频指纹识别系统,其GitHub仓库为:https://github.com/worldveil/dejavu。 FMA (Free Music Archive):论文使用的数据集,公开链接为:https://doi.org/10.24432/C5HW28。 torchaudio:论文提及用于特征提取的音频处理库(标准链接:https://pytorch.org/audio/stable/index.html)。 🏗️ 方法概述和架构 本文的核心方法是“生成增强检索”,其架构为一个decoder-only的Transformer模型。该模型的任务是直接从音频查询中自回归地生成一个唯一的轨道标识符。 ...

2026-06-17 · 更新于 2026-07-03 · 4 min · 643 words

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分 前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分 前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分 前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分 前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分 前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分 前25% - 7. Are you speaking my languages? On spoken language adher 8.0分 后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分 前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分 前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分 前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分 前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分 前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分 前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分 前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分 前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分 前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分 前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分 前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分 前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分 前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分 前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分 前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分 前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分 前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分 前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分 前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分 前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分 前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分 前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分 前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分 前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分 前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分 前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分 前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分 前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-17 · 更新于 2026-07-03 · 21 min · 4445 words

Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection

📄 Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection #多模态模型 #知识蒸馏 #集成学习 #Transformer #数据增强 7.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #多模态模型 | #知识蒸馏 | #集成学习 #Transformer | arxiv 👥 作者与机构 Elham Abolhasani, Maryam Ramezani, Hamid R. Rabiee* 沙理工大学 (Sharif University of Technology) 计算机工程系 💡 毒舌点评 这篇论文试图做一件有价值的事:让深度伪造检测器“活”起来,能适应新出现的伪造技术。想法不错,但执行上更像是一个标准流程的工程化整合,而非一个能激发领域范式转变的突破。教师-学生框架(第2.3节)被作者明确指出是受[19, 33]启发,其主要创新点——针对Transformer的\(L_{AV-KL}\)损失——虽有技术意义,但贡献深度有限。最令人困惑的是,在DFDC这个公认复杂的数据集上,经过精心设计的学生模型相比教师模型AUC提升仅4.09%,这是否真正证明了该框架的有效性,还是只是数据不足导致的勉强适应?论文试图通过解释性(第5.4节)和鲁棒性(第5.5节)分析来增加亮点,但这些分析更多是定性展示,缺乏更严谨的量化支撑。总体而言,这是一篇扎实的、但缺乏足够想象力和突破性贡献的论文,适合发表在会议的Poster环节,而非获得广泛关注的Oral。 ...

2026-06-16 · 更新于 2026-07-03 · 2 min · 272 words

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜(62 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分 前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分 前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分 前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分 前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分 前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分 前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分 前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分 前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分 前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分 前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分 前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分 前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分 前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分 前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分 前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分 前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分 前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分 前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分 后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分 前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分 前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分 前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分 前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分 前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分 前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分 前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分 前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分 前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分 前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分 前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分 前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分 前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分 前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分 前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分 前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分 前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分 前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分 前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分 前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分 前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分 前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分 前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分 前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分 前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分 前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分 前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分 前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分 前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分 前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分 前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分 前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分 前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分 前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分 前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分 前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分 前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分 前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分 前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分 前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分 前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分 前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分 后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-16 · 更新于 2026-07-03 · 36 min · 7668 words

FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding

📄 FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding #Transformer 7.5/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.3/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.5/10 | 前25% | #Transformer | #Transformer | arxiv 👥 作者与机构 作者:Ziwei Wang, Xingyi He, Tianwang Jia, Hongbin Wang, and Dongrui Wu。 机构:华中科技大学人工智能与自动化学院,脑启发智能系统湖北省重点实验室。 💡 毒舌点评 论文在实验上做得扎实,对比了足够多的基线,消融实验和可视化分析也挺充分。但核心创新点——把多个频带的编码器独立开再做个注意力融合——感觉更像是工程上的巧妙组合,而非对AAD问题机理的突破。那个带级辅助监督(BAS)倒是个不错的小技巧,能防止某些分支“躺平”,但算不上革命性。最大的软肋在于,整个架构复杂度(8个并行分支、额外的FAA模块)换来那几个点的提升,在实时性要求高的脑机接口场景里是否真有实用价值,得打个问号。另外,所有实验都只在经典的、被用烂了的双说话人数据集上跑,结论的泛化能力存疑。审稿人最烦看到在“温室环境”里刷点然后大谈意义的工作。 📌 核心摘要 本文针对听觉注意力解码(AAD)任务中现有模型对EEG频域信息利用不充分的问题,提出了FAConformer框架。该框架包含三个核心组件:1)多频带分解;2)带内独立编码器(WBE),为每个频带分配独立的CNN-Transformer编码器;3)频率感知注意力(FAA)模块与带级辅助监督(BAS)。FAA将各频带的特征视为序列化的“频带标记”,通过Transformer建模跨频带依赖并进行自适应融合。BAS在训练时为每个频带分支提供独立的分类监督,防止分支优化不足。在DTU和KUL两个公开AAD数据集、三种决策窗口长度下的实验表明,FAConformer在所有设置下均显著优于12种基线模型。消融研究、注意力可视化和特征分布分析进一步验证了各组件的有效性和模型的可解释性。 🔗 开源详情 代码:https://github.com/wzwvv/FAConformer (论文提供链接,实际开源状态需验证) 模型权重:论文中未提及提供预训练模型权重。 数据集:论文使用了两个公开数据集:DTU和KUL。论文未提供直接下载链接,但明确指出了数据集的名称和出处。 Demo:论文中未提及。 复现材料:论文提供了详细的算法伪代码(Algorithm 1)和完整的参数设置(例如:批量大小32,最大训练轮数200,早停耐心10,学习率 \(5 \times 10^{-4}\),权重衰减 \(3 \times 10^{-4}\),损失权衡 \(\lambda=1\)),但未提及是否提供详细的训练配置文件(如config.yaml)或预训练检查点。 论文中引用的开源项目: FAConformer: https://github.com/wzwvv/FAConformer 其余在基线模型中提到的项目(如 EEGNet、SCNN、IFNet 等)论文中未提供具体的代码链接。 🏗️ 方法概述和架构 FAConformer是一个用于AAD的频率感知CNN-Transformer混合框架,其核心设计理念是“先分频带独立建模,再自适应融合”。整体架构(如论文图2所示)可分为三个阶段: ...

2026-06-15 · 更新于 2026-07-03 · 2 min · 335 words

Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models

📄 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models #语音识别 #Transformer 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.6/10 | 前25% | #语音识别 | #Transformer | arxiv 👥 作者与机构 Ravi Ranjan (Florida International University,通讯作者),Utkarsh Grover (University of South Florida),Xiaomin Lin (University of South Florida),Agoritsa Polyzou (Florida International University)。论文已被INTERSPEECH 2026接收。 💡 毒舌点评 这篇论文在可解释AI(XAI)这个“网红”赛道上试图解决一个实际痛点:Transformer ASR模型的“黑箱”问题。LEAF-X这个名字起得很有品牌感,将“聆听”、“熵”、“注意力”、“忠实”几个关键词打包。其核心思想——用注意力的熵来筛选“靠谱”的注意力头,再结合跨层传播和因果消融——逻辑上是通的,也确实针对了现有方法(如纯注意力、LIME等)在音频时序定位和忠实度上的弱点。作者在实验设计上做足了功课,用了两个主流模型(Whisper, Canary)和两个数据集(LibriSpeech, TED-LIUM)进行交叉验证,并提出了一个相对全面的评估指标体系(LEAF-XBench)。结果也显示,在多项指标上取得了“最优或接近最优”的成绩。然而,作为一篇旨在提升透明度的方法论文,其自身的“透明度”仍有改进空间:1)实验部分对多次运行的标准差描述略显模糊(仅给出范围而非具体数值),这在严格的顶会审稿中可能会被追问统计显著性;2)关于计算开销的讨论,尤其是因果重加权部分的成本-收益权衡,目前的描述更像是功能开关而非定量的工程分析;3)最大的遗憾在于,尽管提到了“用户研究验证”,但最终并未提供,这使得“可解释性”在人类用户层面的价值未能闭环;4)方法中对“音频伪令牌”的描述以及其与编码器-解码器模型处理方式的差异,可以更清晰地阐述以提升通用性印象。总体而言,这是一篇扎实、有明确贡献的工作,但距离让审稿人无可挑剔(尤其是对实验严谨性和实用性论证的挑剔)还差临门一脚。 ...

2026-06-15 · 更新于 2026-07-03 · 1 min · 119 words

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜(26 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分 前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分 前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分 前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分 前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分 前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分 前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分 前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分 前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分 前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分 前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分 前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分 前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分 前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分 前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分 前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分 前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分 前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分 前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分 前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分 前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分 前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分 前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分 前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分 前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分 前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分 后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

2026-06-15 · 更新于 2026-07-03 · 15 min · 3122 words