Spatial Speech Perception Systems: A Survey of Sound Source Localization, Directional Enhancement, and Speech Recognition

📄 Spatial Speech Perception Systems: A Survey of Sound Source Localization, Directional Enhancement, and Speech Recognition #空间音频 #声源定位 #语音增强 #语音识别 4.1/10 | 创新 0.8/2 | 严谨 0.6/1.5 | 实验 0.4/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.8/1.5 📝 4.1/10 | 后50% | #声源定位 | #空间音频 | #语音增强 #语音识别 | arxiv 👥 作者与机构 第一作者:Pengyuan Shao(University College London, Department of Computer Science) 通讯作者:未明确说明,根据作者顺序推断为 Dimitrios Kanoulas(University College London, Department of Computer Science) 作者列表:Pengyuan Shao(University College London, Department of Computer Science)、Dimitrios Kanoulas(University College London, Department of Computer Science) 💡 毒舌点评 这篇综述选题有现实意义,试图将空间语音感知系统的三大组件进行统一综述,但在顶会级别看来,其贡献仅停留在文献整理和概念归纳层面。全文没有任何定量元分析、方法对比实验或新基准/工具,不发布数据集也不开源代码。所谓的"系统级评价"、“语义可靠性"等概念始终停留在愿景,缺乏可操作的量化定义或评测方案。对于希望直接拿来评估或改进自己系统的研究者而言,这篇综述提供不了太多硬核见解。 ...

2026-07-03 · 更新于 2026-07-03 · 4 min · 737 words

Speaker head orientation estimation with a single microphone array using phase spectrogram features

📄 Speaker head orientation estimation with a single microphone array using phase spectrogram features #声源定位 #端到端 #多通道 #鲁棒性 #数据集 5.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 📝 5.8/10 | 前50% | #声源定位 | #端到端 | #多通道 #鲁棒性 | arxiv 👥 作者与机构 第一作者:Balint Turi(坦佩雷大学,未在论文中明确标注) 通讯作者:未明确说明 作者列表:Balint Turi、Archontis Politis、Parthasaarathy Sudarsanam、Tuomas Virtanen(均来自坦佩雷大学,音频信号处理领域) 💡 毒舌点评 这项工作用高维STFT相位替代传统手工特征来估计说话人头朝向,配合仿真预训练与真实微调的范式,在多种噪声条件下确实稳定地甩开了之前的基线。然而,全文除了给出一个粗略的模型架构和部分超参数外,没有提供任何代码、权重或可直接使用的数据集;最关键的网络组件消融实验完全缺失,所谓“SOTA”的可复现性和可靠性因此大打折扣。此外,对推理延迟、模型大小、阵列拓扑变化等工程关键问题只字未提,使一项号称面向实际部署的工作显得有些不够落地。 📌 核心摘要 问题:使用单个小型麦克风阵列(如6通道、半径4.5cm的环形阵)估计说话人在混响室内的水平朝向(0°–360°),要求泛化到未知说话人、未知房间和多种噪声环境。 方法核心:以各通道STFT相位(经sin/cos编码消除±π不连续性)堆叠为高维多通道特征,送入由2D CNN(空间下采样)、双向GRU(时序建模)和多头自注意力(全局上下文)组成的端到端网络,最终在单位圆上回归 [cosθ, sinθ] 并用 atan2 恢复连续角度。 新颖性:首次将高维STFT相位作为头朝向估计的唯一输入特征,证明其在表达声源方向性方面优于人工特征(ILD/ITD等)和原始波形;并采用“大规模仿真预训练+少量真实数据微调”的跨域策略,解决了高维特征在真实标注稀缺场景下的学习问题。 实验结果:在仿真混响干净条件下MAE=19.9°,0–10 dB强噪声下MAE=29.5°,远优于基于原始波形的44.8°/75.1°和基于ITD/ILD的52.7°/82.8°。在真实数据(8方向分类)上,预训练+微调达到73.2%准确率,超过DoV基线(65.4%)。用户+房间个性化微调后MAE可降至11.3°。混响对STFT相位方法反而有利,误差分布更均匀。 实际意义:为资源受限的智能音箱、会议系统、驾驶员监控等场景提供了一种硬件要求低、对噪声和混响鲁棒的纯音频头朝向感知方案,支持用户级个性化适配。 主要局限:(1)零样本跨说话人/跨房间的泛化能力仍显不足,个性化微调提升巨大从反面说明了这一点;(2)无任何开源资源(代码/模型/数据),可复现性极差;(3)缺少对网络各组件(CNN、GRU、Attention)的消融实验以及对不同阵列拓扑、麦克风失效、动态朝向等工程边界条件的分析;(4)未评估推理延迟与计算开销。 🔗 开源详情 代码:未提供任何代码链接,文中无相关声明。 模型权重:未提供。 数据集:使用了剑桥VCTK语料库、WHAM噪声数据集和文献[3]中的公开8方位真实录音数据集。论文仅给出了引用,未提供数据集的直接下载、预处理脚本或生成的仿真数据集。 Demo:未提及。 复现材料:未提供详细训练配置文件、模型定义或实验记录。 论文中引用的开源项目:Pyroomacoustics(https://github.com/LCAV/pyroomacoustics) 🏗️ 方法概述和架构 系统流程由语音活动检测(VAD)、特征提取和深度神经网络回归三部分组成。输入为单说话人的一段多通道语音(最多3秒),首先通过文献[7]中的VAD模块去除首尾静音段,仅保留活动语音帧。 ...

2026-07-03 · 更新于 2026-07-03 · 2 min · 286 words

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜(31 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分 前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分 前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分 前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分 前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分 前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分 前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分 前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分 前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分 前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分 前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分 前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分 前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分 前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分 前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分 前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分 前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分 前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分 前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分 前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分 前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分 前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分 前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分 前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分 后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分 后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分 后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分 后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分 后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分 后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分 后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分 后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

2026-07-03 · 更新于 2026-07-03 · 25 min · 5320 words

What Do Neural Networks Learn for TDOA Estimation? A Cross-Architecture Probing Study

📄 What Do Neural Networks Learn for TDOA Estimation? A Cross-Architecture Probing Study #声源定位 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.7/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构 作者:Kang, Wang, Shi, Ashizawa, Yen, Nakadai (注:原文作者列表中包含 Yaozhong Jiang, Runwu, Takeshi, Benjamin, Kazuhiro,但署名单位一致) 机构:Department of Systems and Control Engineering, Institute of Science Tokyo, Japan ...

2026-06-23 · 更新于 2026-07-03 · 3 min · 445 words

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜(83 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分 前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分 前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分 前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分 前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分 前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分 前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分 前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分 前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分 前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分 前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分 前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分 前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分 前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分 前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分 前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分 前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分 前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分 前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分 前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分 前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分 前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分 前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分 前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分 前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分 前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分 前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分 前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分 前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分 前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分 前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分 前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分 前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分 前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分 前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分 前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分 前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分 前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分 前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分 前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分 前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分 前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分 前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分 前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分 前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分 前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分 前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分 前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分 前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分 前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分 前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分 前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分 前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分 前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分 前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分 前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分 前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分 前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分 前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分 前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分 前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分 前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分 前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分 前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分 前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分 前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分 前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分 前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分 前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分 前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分 前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分 前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分 前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分 前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分 前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分 前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分 前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分 前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分 前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分 前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分 后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分 后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分 后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分 后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-23 · 更新于 2026-07-03 · 48 min · 10123 words

NeuralMUSIC: A Hybrid Neural-Subspace Framework for Robot Sound Source Localization

📄 NeuralMUSIC: A Hybrid Neural-Subspace Framework for Robot Sound Source Localization #声源定位 #自监督学习 #低资源 #鲁棒性 7.8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.8/10 | 前50% | #声源定位 | #自监督学习 | #低资源 #鲁棒性 | arxiv 👥 作者与机构 Yizhuo Yang, Junqiao Fan, Shenghai Yuan*, Lihua Xie。作者来自新加坡南洋理工大学电气与电子工程学院。 💡 毒舌点评 这篇论文试图在经典信号处理(MUSIC)和深度学习之间架起一座桥梁,其动机——结合两者的优点——是值得称赞的。然而,这种“混合”框架在近年来的音频和阵列处理领域已不鲜见(如SubspaceNet, DA-Music)。论文的贡献更多地体现在将多个已知模块(神经协方差估计、注意力融合、自监督预训练)进行组合与适配,而非提出一个突破性的核心算法。作者声称的“统一框架”和“保留物理可解释性”是亮点,但后者主要通过保留MUSIC伪谱计算来实现,其神经协方差回归器本身仍是黑箱。实验部分确实全面,覆盖了多个数据集和任务,但部分对比基线(如DeepDAE, DeepMusic)可能并非最前沿的声源定位方法,而更先进的端到端模型(如近期基于Transformer的SSL模型)未被充分讨论。自监督策略(SSCL)的设计较为朴素,其有效性证明主要依赖于消融实验,缺乏与其他自监督音频预训练方法(如对比学习)的直接比较。总而言之,这是一篇扎实的工作,在特定设置下取得了SOTA结果,但其创新性和技术深度距离NeurIPS/ICML/ICLR的顶会标准尚有差距,更适合作为一个应用层面的技术报告。 📌 核心摘要 本文提出了NeuralMUSIC,一个用于机器人听觉声源定位的混合神经-子空间框架。其核心思想是利用神经网络从多通道音频中估计一个鲁棒的空间协方差矩阵,然后将其输入经典的MUSIC子空间算法进行波达方向(DOA)估计。为处理宽带声信号,引入了频率注意力融合(FAF)模块。为提升数据效率,设计了自监督空间相关学习(SSCL)策略,通过掩码重建任务从无标签数据中学习通道间的空间依赖关系。在多个机器人听觉数据集(说话人定位、声学事件定位、行人定位)上的实验表明,该方法在定位精度、低信噪比鲁棒性、数据效率和跨环境/跨阵列泛化方面优于多种经典和深度学习基线方法。 ...

2026-06-18 · 更新于 2026-07-03 · 2 min · 338 words

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分 前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分 前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分 前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分 前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分 前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分 前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分 前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分 前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分 前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分 前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分 前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分 前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分 前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分 前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分 前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分 前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分 前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分 前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分 前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分 前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分 前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分 前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分 前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分 前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分 前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分 前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分 前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分 前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分 前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分 前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分 前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分 前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分 前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分 前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分 前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分 后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-18 · 更新于 2026-07-03 · 21 min · 4449 words

Acoustic, VOC, and Multimodal Stress Source Localization in the Internet of Plants

📄 Acoustic, VOC, and Multimodal Stress Source Localization in the Internet of Plants #声源定位 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构 Ahmet B. Kilic, Ozgur B. Akan。作者隶属于土耳其伊斯坦布尔 Koç 大学下一代通信中心(CXC)。Ozgur B. Akan 同时隶属于英国剑桥大学工程系下一代通信中心(CXC)。本工作部分由 AXA 研究基金资助。 💡 毒舌点评 这篇论文填补了“植物互联网”(一个相当新颖且小众的范式)中一个具体的定位问题空白。其核心贡献在于一个物理仿真数据集和一个基于声学TDOA的、看起来相当可靠的基线方法。方法的物理动机清晰,对VOC和声学信号特性的利用是合理的。然而,VOC定位部分的“前瞻性”定位更像是在为当前技术的无力打圆场,而所谓的“多模态融合”在实验结果中几乎没有带来实质增益,使其看起来更像是一个架构上的完整主义追求而非实用创新。将“植物”和“压力源定位”结合确实新颖,但论文的实验和分析深度(尤其是对复杂真实场景的考量)可能不足以完全支撑其作为“互联网植物”框架下通用解决方案的宏大叙事。更诚实的定位可能是:“一种在高度简化仿真环境下的、以声学为主的植物应力源定位方法探索”。 📌 核心摘要 本文针对“互联网植物”框架中压力源空间定位的空白问题,研究了声学、挥发性有机化合物及多模态定位方法。作者提出一个两阶段定位管线:第一阶段利用声学到达时间差进行多定位,产生一个初始估计和搜索区域;第二阶段基于稳态对流扩散格林函数模型,在该区域内细化源位置估计。两个阶段通过一个VOC信息性门和逆方差融合规则结合,当VOC信号不具信息性时,系统能优雅降级到仅TDOA估计。论文贡献了一个包含52个场景的开源物理仿真数据集,并系统评估了管线在不同网络密度和参数扰动下的性能。结果表明,一旦声学范围内有三个或更多代理植物,TDOA多定位即可实现亚米级精度,远优于VOC定位。多模态融合在当前设置下相对于TDOA-only的提升有限。TDOA定位可与现有声学硬件部署,而VOC定位依赖未来传感器技术的进步。 🔗 开源详情 代码:https://github.com/Aburakkilic/Acoustic-VOC-and-Multimodal-Stress-Source-Localization-in-the-Internet-of-Plants 模型权重:论文中未提及。定位方法为优化/求解过程,无需预训练模型权重。 数据集:论文中提及一个开源的物理仿真数据集(包含52个场景)。数据集与代码一同发布在上述GitHub仓库中。 Demo:论文中未提及。 复现材料:论文中提及“The dataset and all evaluation code are available on GitHub.”,所有评估代码已开源,提供了完整的仿真设置和评估流程。未单独提及训练配置、检查点或附录等详细复现材料。 论文中引用的开源项目:未提及。论文引用了多个学术文献,但未明确标注其中任何一个为开源项目或提供其代码链接。论文的核心方法(如有限体积求解器、射线声学模型、定位算法)均为本文作者开发并开源。 🏗️ 方法概述和架构 本文提出的定位框架是一个两阶段、由粗到细的流水线,旨在融合声学和VOC两种物理特性迥异的信号,以定位“植物互联网”中的压力源(如受干旱或虫害的植物)。该框架建立在由“代理植物”(配备简易读出设备的生物混合感知节点)组成的网络之上。 ...

2026-06-16 · 更新于 2026-07-03 · 2 min · 361 words

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜(62 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分 前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分 前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分 前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分 前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分 前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分 前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分 前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分 前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分 前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分 前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分 前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分 前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分 前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分 前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分 前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分 前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分 前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分 前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分 后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分 前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分 前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分 前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分 前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分 前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分 前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分 前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分 前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分 前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分 前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分 前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分 前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分 前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分 前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分 前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分 前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分 前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分 前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分 前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分 前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分 前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分 前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分 前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分 前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分 前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分 前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分 前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分 前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分 前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分 前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分 前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分 前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分 前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分 前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分 前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分 前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分 前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分 前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分 前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分 前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分 前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分 前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分 后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-16 · 更新于 2026-07-03 · 36 min · 7668 words

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

📄 BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation #声源定位 #多任务学习 #语音增强 8.5/10 | 创新 8/2 | 严谨 7/1.5 | 实验 8/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 2/1.5 | 复现 8/0.5 | 工程 7/1.5 🔥 8.5/10 | 前25% | #声源定位 | #多任务学习 | #语音增强 | arxiv 👥 作者与机构 作者:Hanyu Meng, Eliathamby Ambikairajah, Vidhyasaharan Sethu, Qiquan Zhang, Haizhou Li 机构:1 The University of New South Wales, Sydney, Australia; 2 Tongyi Speech Lab, Alibaba Group, Hangzhou, China; 3 School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-08 · 更新于 2026-07-03 · 4 min · 741 words