语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-06-12 · 14 min · 2920 words

MelT: GEMM-Native NDFT for Efficient Single-Stage Audio Frontends on Modern Accelerators

📄 MelT: GEMM-Native NDFT for Efficient Single-Stage Audio Frontends on Modern Accelerators #信号处理基础 7.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Augusto Camargo, Marcelo Finger Instituto de Ciências Matemáticas e de Computação, University of São Paulo, Brazil 💡 毒舌点评 这篇论文的核心论点——“把信号处理流水线硬塞进GEMM里能更快”——在工程上完全正确,也经受住了多平台基准测试的考验。但它在顶会主会(NeurIPS/ICML)的“创新性”标尺下会显得有些“薄”。论文的主要贡献是“重新表述”和“评估”,而非提出一个全新的数学变换或架构。对于追求理论突破的审稿人来说,这可能被看作是一篇扎实的“系统应用”或“工程优化”论文,其价值更易被MLSys或ICLR的“Systems for ML”轨道认可。不过,文中坦诚地指出了与传统方法的数学非等价性(先投影再能量 vs. 先能量再聚合),这种诚实值得称赞,避免了常见的夸大其词。跨硬件、测能耗、开源代码,这套组合拳打得很实在,为“绿色AI”在音频前端的落地提供了一个具体的范例。然而,下游任务的验证仅限于相对简单的分类,缺乏在语音识别(ASR)、音频理解等更复杂端到端任务上的锤炼,这使得“表示保真度”的论证略显单薄。 ...

2026-06-02 · 更新于 2026-06-12 · 3 min · 500 words

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分 前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分 前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分 前25% #语音合成 4. MOSS-Audio Technical Report 9.2分 前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分 前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分 前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分 前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分 前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分 前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分 前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分 前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分 前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分 前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分 前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分 前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分 前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分 前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分 前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分 前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分 前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分 前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分 前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分 前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分 前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分 前50% #多模态模型 26. Kinship Verification Using Voice 6.9分 前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分 前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分 前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分 前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分 前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分 前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分 前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分 前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分 前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分 后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-02 · 更新于 2026-06-12 · 21 min · 4469 words

On the Use of Dereverberation for Acoustic Feedback Cancellation

📄 On the Use of Dereverberation for Acoustic Feedback Cancellation #语音增强 #信号处理基础 ✅ 6.7/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 学术质量 4.8/7 | 影响力 1/2 | 可复现性 0.9/2 | 置信度 高 👥 作者与机构 本文作者为 Basil Liekens、Arnout Roebben、Toon van Waterschoot 和 Marc Moonen。他们均隶属于比利时鲁汶大学(KU Leuven)的 ESAT 实验室。其中 Basil Liekens 和 Arnout Roebben 被标注为同等贡献。研究得到了鲁汶大学研究委员会项目 C14-21-0075 以及比利时佛兰德斯研究基金会(FWO)的博士后奖学金 11PDH24N 的资助。 📌 核心摘要 本文提出了一种将声学反馈消除(AFC)问题重新诠释为去混响(DR)问题的理论框架。核心论点是,在“闭环延迟足够长”和“闭环传递函数可合理近似为FIR滤波器”这两个温和条件下,麦克风信号中的反馈分量可以被视为源信号晚期混响的一部分。因此,现有的去混响算法(如WPE)可以直接用于联合执行去混响与反馈消除任务。论文通过理论推导和仿真实验证明了该视角的可行性,并展示了所提方案在干扰抑制、信号质量和语音可懂度指标上优于传统的连续自适应滤波器(CAF)基线。 🔗 开源详情 代码:论文指出代码已在引用文献 [11] 中提供(“with code made available in [11]”),表明作者公开了实现。但论文本身未直接给出代码仓库链接。 模型权重:论文中未提及模型权重。 数据集:论文中提及使用了以下数据集,但未提供具体获取链接或开源协议信息: ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 226 words

Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation

📄 Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation #音频生成 #音频质量评估 #信号处理基础 📝 5.7/10 | 前50% | #音频生成 | #音频质量评估 | #信号处理基础 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Nelly Garcia, Joshua Reiss 机构:Centre for Digital Music (C4DM), Queen Mary University of London 💡 毒舌点评 这篇论文像是一个音频专业的本科毕业设计,野心不小但手上功夫差了点。想用机器学习和用户研究来评判“程序化音频”这把双刃剑到底锋不锋利,想法是好的。但问题在于,你的尺子(MUSHRA评估)根本量不准你想量的东西(合成声音本身的质量)。你让一群专家评价“整体音效设计”,里面混着混音、同步、创意,最后得出“合成声音在动画日常场景里不行”的结论,这不是隔靴搔痒吗?方法部分写的像实验笔记,特征选择理由一笔带过,统计结果报告得乱七八糟,自由度都没有。最搞笑的是,你号称发现了“至少三个需要优化的声音效应”,结果通篇没说清楚是哪三个。这就像医生告诉你病了三个地方,但不说具体是哪。结论呢?又把“上下文很重要”这种老生常谈当宝贝。说白了,这篇论文最大的贡献可能是为后续研究者提供了一个“如何设计不严谨音频评估实验”的反面案例。 📌 核心摘要 本研究旨在评估程序化合成音效在不同类型(动画与真人实拍)视频场景中,相较于传统录音库样本的“可信度”。研究者构建了一个包含8个场景(4个动画,4个真人实拍)的数据集,每个场景制作了三种音效设计版本(全真实样本、混合合成样本、随机错误样本)。客观分析上,使用Essentia库提取了78个低层音频特征,利用XGBoost和Random Forest进行二分类(合成 vs. 真实),并通过SHAP和PCA分析关键特征。主观评估上,邀请了20名音频领域专业人士(最终有效样本18人),通过WebMUSHRA工具对视频的“整体音效设计质量”进行0-100分评分,并使用Google表单收集对不真实合成声音的定性反馈。研究发现:1) 真实音效设计在所有场景中评分均高于混合合成设计;2) 在模拟日常生活的动画场景(如“Drama (C)”)和科幻动画场景中,真实与混合设计的评分差异在统计上最为显著;3) 通过分类结果和用户反馈,识别出如“液体”、“身体击打”等模型需要优化,并关联到“增强低频”、“强调首次冲击”等改进方向及对应的音频特征域(如频率域、时频域)。 🔗 开源详情 代码:论文中未提及作者公开任何分析代码(如特征提取脚本、机器学习训练/评估代码)。 模型权重:论文中未提及公开任何训练好的分类模型。 数据集: 描述:自建了一个包含1616个音频样本的数据集,分为32个类别(16个合成类别,16个库样本类别)。样本格式为单声道、16位、44.1kHz、5秒长度。 来源:合成样本来自Nemisindo在线程序音频引擎;库样本来自BBC Sound Effects Library, Hybrid Sound Library, 50-ESC dataset [16], Soundsnap。 公开状态:论文中未提供该自建数据集的公开下载链接或开源协议。 Demo: 用于主观评估的视频可在作者YouTube频道观看:https://www.youtube.com/@nellyngz/videos (此为内容展示,非可下载数据集)。 用于主观评估的WebMUSHRA在线测试工具链接:论文未提供作者自己的测试实例链接,仅提到了工具名称。 用于收集定性反馈的Google表单链接:https://docs.google.com/forms/d/e/1FAIpQLSd4_IwgM0plWo2ug5Odu89mgm3yYfWCrwwrR1e75-iryGI3aw/viewform 复现材料:论文未提供训练配置、特征提取后的数据文件、模型检查点、或用于复现主观实验的视频包等具体复现材料。复现主要依赖于文本描述的方法和提供的外部工具/数据源链接。 论文中引用的开源项目: Essentia: https://essentia.upf.edu Nemisindo: https://nemisindo.com BBC Sound Effects Library: https://sound-effects.bbcrewind.co.uk Soundsnap: https://www.soundsnap.com WebMUSHRA: 论文未提供其项目主页链接。 XGBoost, Random Forest, SHAP, PCA: 论文仅引用,未提供项目链接。 🏗️ 方法概述和架构 本文研究方法可分为三个相互关联的阶段:数据集构建、客观特征分析和主观用户评估。 ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 299 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-06-12 · 12 min · 2552 words

Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures

📄 Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures #信号处理基础 📝 5/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 学术质量 3.2/7 | 影响力 1.5/2 | 可复现性 0.3/2 | 置信度 高 👥 作者与机构 Winko W. An†, Saketh Sundar†, Lisa Yankowitz, Daryush D. Mehta, and Carol L. Wilkinson。 机构包括:波士顿儿童医院发育医学科(与哈佛医学院合作);哈佛大学(S. Sundar);费城儿童医院(L. Yankowitz);哈佛医学院及马萨诸塞州总医院喉外科与语音康复中心(D. D. Mehta)。 💡 毒舌点评 这篇论文的核心工作是对一种现有传感技术(胸表加速度计)在特定新场景(婴儿哭声)下的工程验证。其“创新性”更偏向于应用验证而非方法革新,对于期望看到新颖模型或理论的顶会读者而言,可能略显单薄。论文最大的优势在于其清晰的实验设计和临床相关性,但受限于样本量(85人)和较为基础的分析框架,其结论的普遍性和深度有待进一步验证。代码和数据的缺失严重影响了研究的可复现性和社区贡献度,这在当前强调开源的学术环境中是一个显著短板。整体而言,这是一项扎实但影响范围有限的临床工程研究,适合发表于专业领域期刊而非追求广泛影响力的顶级机器学习会议。 📌 核心摘要 本研究旨在验证一种胸部表面加速度计(ACC)在提取婴儿哭声声学特征方面的有效性,以应对传统麦克风(MIC)在临床环境中面临的噪声和隐私挑战。研究在85名4个月和12个月大婴儿的疫苗接种过程中,同步采集了ACC和MIC信号。通过手动标注,提取了包括基频(F0)、抖动、微扰、倒谱峰突出度(CPP)和谐波噪声比(HNR)在内的七个声学特征。使用组内相关系数(ICC)评估一致性,结果显示:ACC与MIC在F0和抖动(特别是JCV)上表现出优秀至良好的绝对一致性和一致性;微扰指标(Shimmer)绝对一致性较差,但一致性尚可,且ACC值系统性偏低;CPP显示中等一致性,HNR显示中等一致性且ACC值系统性偏高。研究结论表明,胸表加速度计能可靠捕获婴儿哭声中与时间相关的声学特征(F0, 抖动),为噪声鲁棒、保护隐私的哭声临床分析提供了可行工具。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重。 数据集:论文中未提及数据集的公开获取链接或开源协议。数据集(85名婴儿的MIC/ACC同步录音)属于受IRB协议保护的临床研究数据,未提供公开分享途径。 Demo:论文中未提及。 复现材料:论文未提供训练配置、检查点等具体的复现材料链接。虽然详细描述了分析流程,但未提供可下载的处理脚本或配置文件。 论文中引用的开源项目: Praat:语音学分析软件,用于数据标注和特征提取。链接:https://www.fon.hum.uva.nl/praat/ Parselmouth:Praat的Python接口库,用于信号处理和特征提取。链接:https://github.com/YannickJadoul/Parselmouth pingouin:统计学Python库,用于计算ICC。链接:https://pingouin-stats.org/ NumPy, SciPy, pandas:基础Python科学计算库,用于数据分析。链接分别为 https://numpy.org/, https://scipy.org/, https://pandas.pydata.org/ OpenAI’s DALL·E:用于生成论文图1(a)的示意图。论文中提及并声明了使用。链接:https://openai.com/dall-e-2 🏗️ 方法概述和架构 本研究的方法可分为数据收集、数据标注、特征提取与统计分析四个核心阶段,形成一个从原始信号到验证结论的完整流程。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 354 words

Utilizing Missed Detections in Directional Sensitivity-Based DOA Estimation

📄 Utilizing Missed Detections in Directional Sensitivity-Based DOA Estimation #粒子滤波 #概率图模型 #信号处理基础 ✅ 7.1/10 | 前50% | #语音识别 | #粒子滤波 | #概率图模型 #信号处理基础 | arxiv 学术质量 5.6/7 | 影响力 1.2/2 | 可复现性 0.3/2 | 置信度 中 👥 作者与机构 论文作者为 Gustav Zetterqvist, Fredrik Gustafsson, Gustaf Hendeby,隶属于瑞典林雪平大学电气工程系。 💡 毒舌点评 本文想法直接且有趣——将“漏检”这种通常被丢弃的“阴性结果”信息显式地建模进DOA估计的概率框架中,这个思路本身是清晰且有价值的。但通篇读下来,感觉更像一个扎实的工程方法改进,而非具有突破性理论贡献的顶级工作。创新点清晰但有限,强假设(无虚警、高斯噪声、已知检测概率)在现实复杂环境中能打几折是存疑的。实验部分,虽然包含了仿真和真实BLE实验,但对比基线过于简单(仅与忽略漏检的NLS比较),没有与文献中其他可能更先进的RSSI DOA方法(如Dir-MUSIC或某些机器学习方法)进行对比,这使得对方法优越性的论证不够强。论文写作清晰,但开源信息的完全缺失在2025年的今天显得有些保守,严重影响了可复现性和社区贡献度。对于专注于语音/音乐/音频信号处理的读者而言,这篇工作的方法论(概率建模、似然函数构建)有借鉴价值,但其应用场景(无线信标定位)与核心音频处理任务相去甚远,因此直接影响力有限。 📌 核心摘要 本文针对基于接收信号强度(RSSI)的波达方向(DOA)估计问题,提出了一种能够显式利用传感器“漏检”(即信号低于检测阈值未被上报)信息的概率估计框架。传统方法通常忽略漏检信息,仅利用检测到的信号进行估计。本文将每个传感器的测量结果建模为两种互斥事件:检测事件(观测值服从阈值截断的正态分布)和漏检事件(其概率为1减去检测概率)。通过联合构建包含所有传感器(无论检测与否)的似然函数,并推导其负对数似然作为优化目标,实现了最大似然(ML)估计。该方法被具体应用于使用傅里叶级数建模方向性天线增益模式的RSSI DOA估计。仿真和基于低功耗蓝牙(BLE)定向天线阵列的真实实验表明,在低信号强度(高漏检率)场景下,所提方法相比仅使用检测信号的基线方法,能够显著提升DOA估计精度。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及数据集链接或名称(论文详细描述了实验中使用的数据采集方法与设置,但未提供公开的数据集或下载链接) Demo:论文中未提及 复现材料:论文中未提及(论文详细描述了仿真实验与真实实验的配置,包括传感器数量、阵列配置、噪声参数、优化方法(网格搜索)、以及粒子滤波器设置等,但未提供可直接下载的配置文件或检查点) 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出的方法是一个分层的概率估计框架,核心思想是将传感器报告“无测量值”这一事件本身视为一种蕴含信息的观测,并将其纳入统一的似然函数中进行参数估计。该框架可分为通用状态估计建模(第3节)和具体DOA估计应用(第4节)两个层次。 通用状态估计框架(第3节): 核心假设与测量模型:假设目标始终存在(无漏检目标),且无虚警(任何检测均来自目标)。每个传感器 \(m\) 的测量模型为:若检测到信号,则输出测量值 \(Y = h_m(x) + e\),其中 \(h_m(x)\) 是与待估状态 \(x\) 相关的已知测量函数,\(e \sim \mathcal{N}(0, \sigma^2)\) 为高斯噪声;否则输出空集 \(\emptyset\)。检测与否由测量值是否超过固定阈值 \(\gamma\) 决定。 检测概率建模:定义检测概率 \(p_{D,m}(x) = P(Y \neq \emptyset)\)。在给定检测到的条件下,测量值 \(Y\) 服从截断正态分布:\(\mathcal{N}_{\text{Tr}}(Y; h_m(x), \sigma^2, \gamma, \infty)\)。因此,单次测量的似然函数为混合形式:检测时为 \(\mathcal{N}_{\text{Tr}}(p_D(x))\),漏检时为 \((1-p_D(x))\)。 联合似然函数构建:对于 \(N\) 个独立传感器,将检测集 \(\mathcal{D}\) 和漏检集 \(\mathcal{MD}\) 的似然相乘,得到联合似然函数 \(p(\mathbf{Y}|x)\)。关键创新点在于,漏检集 \(\mathcal{MD}\) 的乘积项 \(\prod_{m \in \mathcal{MD}} (1-p_{D,m}(x))\) 显式地将漏检事件的概率贡献纳入总似然。 优化目标:取负对数,得到最小化目标(公式9)。该目标由两部分求和构成:检测传感器的“检测数据对数似然项”(包含测量值拟合项和检测概率项)和漏检传感器的“漏检数据对数似然项”(仅包含漏检概率项)。最小化该目标即可得到状态 \(x\) 的最大似然估计 \(\hat{x}\)。文中提到,由于阈值导致似然函数不可微,无法得到闭式Fisher信息矩阵与克拉美罗下界(CRLB)。 在DOA估计中的具体应用(第4节): 状态定义与测量方程:状态 \(x\) 被定义为信号源的DOA角度 \(\psi\) 和中心信号功率 \(\alpha\)。对于每个传感器 \(m\),测量方程为 \(y_m = \alpha + h_m(\psi) + e_m\),其中 \(h_m(\psi)\) 是传感器 \(m\) 的方向性灵敏度模式。 方向性模式建模:使用 \(K\) 阶傅里叶级数(FS)建模 \(h_m(\psi) = \sum_{k=-K}^{K} c_{m,k} e^{ik\psi}\)。选择FS是因为它能有效捕获天线方向图的周期性、主瓣、旁瓣和后瓣结构,且参数有限。在本文中,\(K=7\) 是通过BIC选定的。 检测概率的具体分解:将检测概率 \(p_{D,m}(\psi, \alpha)\) 进一步分解为两部分:\(p_{D,m}(\psi, \alpha) = p_{c,m} \cdot p_{\alpha,m}(\psi, \alpha)\)。其中,\(p_{\alpha,m}(\psi, \alpha) = 1 - \Phi\left( \frac{\gamma - (\alpha + h_m(\psi))}{\sigma} \right)\) 是由阈值 \(\gamma\) 决定的理论检测概率(\(\Phi\) 为正态CDF);\(p_{c,m}\) 是一个常数检测效率项(\(0 < p_{c,m} \leq 1\)),用于建模非阈值因素(如硬件不完美、环境干扰)导致的额外检测损失。这种分解使模型更贴近实际。 最终优化问题:将上述具体模型代入通用负对数似然函数,得到公式(15)。优化问题变为联合估计 \(\hat{\psi}, \hat{\alpha}\)。检测项包含测量值的高斯拟合项和 \(-\log(p_{c,m})\);漏检项则包含 \(-\log\left(1 - p_{c,m} \Phi\left( \frac{(\alpha + h_m(\psi)) - \gamma}{\sigma} \right)\right)\)。 实现与跟踪:在实验部分,优化采用网格搜索法(对 \(\psi\) 和 \(\alpha\) 离散化遍历)。针对真实实验中存在多峰似然函数的问题,引入了恒速(CV)粒子滤波(PF)来跟踪正确的似然峰值,提升DOA估计的时序稳定性。 架构流程:论文的图3清晰地展示了架构流程:1) 输入所有传感器的观测(部分为检测值,部分为漏检标志);2) 根据状态假设,计算每个传感器对应的检测概率 \(p_D(x)\);3) 将观测划分为检测集和漏检集;4) 分别计算“检测数据对数似然”和“漏检数据对数似然”;5) 将两者相加得到总对数似然;6) 通过优化算法(如网格搜索或结合PF)最大化总对数似然,得到最终的状态估计。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 360 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-12 · 15 min · 3187 words

Subspace Track-before-Detect for Passive Multi-Target Tracking with Unknown Emitted Signals

📄 Subspace Track-before-Detect for Passive Multi-Target Tracking with Unknown Emitted Signals #粒子滤波 #信号处理基础 ✅ 6.4/10 | 前50% | #信号处理基础 | #粒子滤波 | arxiv 学术质量 5.5/7 | 影响力 0.8/2 | 可复现性 0.1/2 | 置信度 高 👥 作者与机构 论文作者为 Nobutaka Ito 和 Yoshiaki Bando,隶属于日本产业技术综合研究所(National Institute of Advanced Industrial Science and Technology, AIST)。 💡 毒舌点评 这是一篇典型的“小而美”的工程改良论文,解决了被动跟踪中一个具体的模型失配问题。作者很聪明地用归一化和子空间对齐规避了未知信号估计这个无底洞,方法在特定模拟场景下立竿见影。但问题是,这个“特定场景”的限制框也太死了:活动模式必须提前知道(相当于开了全图挂)、环境必须是理想的消声室、基线弱得像个稻草人。这让论文看起来像是在自家后院里做了一场精心控制的实验,然后宣称征服了荒野。理论分析也点到为止,关键参数κ_f的取值和影响语焉不详。如果目标是冲击顶会,这种“控制变量”式的验证远远不够,读者会强烈质疑:离开了你这个理想温床,这方法还能活吗? 📌 核心摘要 本文针对被动多目标跟踪(MTT)中目标发射信号未知导致传统跟踪-检测(TBD)方法模型失配的问题,提出了“子空间TBD”方法。核心思想是将归一化后的多通道传感器数据(STFT域)视为位于由假定目标运动状态对应的导向矢量张成的低维信号子空间内。通过构建基于复Bingham分布的观测似然函数,该方法仅评估观测数据与该子空间的对齐程度,从而避免了对未知发射信号系数的显式建模或估计。在粒子滤波框架下,利用该似然函数进行状态推断。模拟实验在消声室声学场景中进行,结果表明,在目标活动模式已知的前提下,所提方法在低信噪比(SNR = -10 dB)下能有效跟踪两个目标,其位置均方根误差(RMSE)比传统确定性贡献TBD基线方法低一个数量级。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中提及使用了模拟数据,但未提供生成模拟数据的代码或脚本。 Demo:论文中未提及。 复现材料:论文未提供,但详细描述了实验设置和软件环境(Python 3.13.7,使用NumPy 2.3.3,SciPy 1.16.2,FilterPy 1.4.5)。 论文中引用的开源项目: FilterPy:论文中提到了使用该库。GitHub 仓库地址:https://github.com/rlabbe/filterpy NumPy:论文中提到了使用该库。GitHub 仓库地址:https://github.com/numpy/numpy SciPy:论文中提到了使用该库。GitHub 仓库地址:https://github.com/scipy/scipy 🏗️ 方法概述和架构 本文提出的方法称为“子空间跟踪-检测”(Subspace TBD),其核心架构是在粒子滤波(PF)框架内,用一种新颖的、基于子空间对齐的似然函数替代传统的观测似然函数,以处理被动感知中未知发射信号的问题。方法主要包含以下核心组件和流程: ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 368 words