音频事件检测 on 语音/音频论文速递

音频事件检测 on 语音/音频论文速递 https://nanless.github.io/audio-paper-digest-blog/tags/%E9%9F%B3%E9%A2%91%E4%BA%8B%E4%BB%B6%E6%A3%80%E6%B5%8B/ Recent content in 音频事件检测 on 语音/音频论文速递 Hugo zh-cn Wed, 29 Apr 2026 00:00:00 +0000 A Task-Aware Dual-Level Self-Supervised Learning Method for Effective Sound Event Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-task-aware-dual-level-self-supervised-learning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-task-aware-dual-level-self-supervised-learning/ 音频事件检测 | 7.5/10 CaMoD: Causal-Aware Modality Denoising for Multimodal Dialogue Intent Recognition https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-camod-causal-aware-modality-denoising-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-camod-causal-aware-modality-denoising-for/ 多模态对话意图识别 | 7.5/10 DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-dbft-sd-weakly-supervised-multimodal-detection-of/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-dbft-sd-weakly-supervised-multimodal-detection-of/ 音频事件检测 | 8.0/10 Event Classification by Physics-Informed Inpainting for Distributed Multichannel Acoustic Sensor with Partially Degraded Channels https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-event-classification-by-physics-informed/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-event-classification-by-physics-informed/ 音频事件检测 | 8.0/10 Fine-Tuning Large Audio-Language Models with Lora for Precise Temporal Localization of Prolonged Exposure Therapy Elements https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-fine-tuning-large-audio-language-models-with-lora/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-fine-tuning-large-audio-language-models-with-lora/ 音频事件检测 | 6.5/10 HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection with Multichannel Audio and Multiscale Visual Cues https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-havt-ivd-heterogeneity-aware-cross-modal-network/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-havt-ivd-heterogeneity-aware-cross-modal-network/ 音频事件检测 | 8.0/10 Hierarchical Activity Recognition and Captioning from Long-Form Audio https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hierarchical-activity-recognition-and-captioning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hierarchical-activity-recognition-and-captioning/ 音频事件检测 | 7.5/10 ICASSP 2026 - 音频事件检测论文列表 https://nanless.github.io/audio-paper-digest-blog/posts/icassp2026-task-114/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/icassp2026-task-114/ 共 21 篇 ICASSP 2026 音频事件检测方向论文 Improving Anomalous Sound Detection with Attribute-Aware Representation from Domain-Adaptive Pre-Training https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-improving-anomalous-sound-detection-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-improving-anomalous-sound-detection-with/ 音频事件检测 | 8.0/10 Improving Audio Event Recognition with Consistency Regularization https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-improving-audio-event-recognition-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-improving-audio-event-recognition-with/ 音频事件检测 | 7.0/10 Influence-Aware Curation and Active Selection for Industrial and Surveillance Sound Events https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-influence-aware-curation-and-active-selection-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-influence-aware-curation-and-active-selection-for/ 音频事件检测 | 7.0/10 Monitoring exposure-length variations in submarine power cables using distributed fiber-optic sensing https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-monitoring-exposure-length-variations-in/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-monitoring-exposure-length-variations-in/ 音频事件检测 | 6.5/10 More Than a Shortcut: A Hyperbolic Approach to Early-Exit Networks https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-more-than-a-shortcut-a-hyperbolic-approach-to/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-more-than-a-shortcut-a-hyperbolic-approach-to/ 音频事件检测 | 8.0/10 Phase-Space Signal Processing of Acoustic Data for Advanced Manufacturing In-Situ Monitoring https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-phase-space-signal-processing-of-acoustic-data/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-phase-space-signal-processing-of-acoustic-data/ 音频事件检测 | 7.0/10 RASD-SR: A Robust Anomalous Sound Detection Framework with Score Recalibration https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-rasd-sr-a-robust-anomalous-sound-detection/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-rasd-sr-a-robust-anomalous-sound-detection/ 异常声音检测 | 8.5/10 Refgen: Reference-Guided Synthetic Data Generation for Anomalous Sound Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-refgen-reference-guided-synthetic-data-generation/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-refgen-reference-guided-synthetic-data-generation/ 音频事件检测 | 7.5/10 Representation-Based Data Quality Audits for Audio https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-representation-based-data-quality-audits-for-audio/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-representation-based-data-quality-audits-for-audio/ 数据集 | 7.5/10 SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-seld-moha-a-fine-tuning-method-with-the-mixture/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-seld-moha-a-fine-tuning-method-with-the-mixture/ 音频事件检测 | 7.0/10 Shared Representation Learning for Reference-Guided Targeted Sound Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-shared-representation-learning-for-reference/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-shared-representation-learning-for-reference/ 音频事件检测 | 8.5/10 SONAR: Self-Distilled Continual Pre-Training for Domain Adaptive Audio Representation https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-sonar-self-distilled-continual-pre-training-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-sonar-self-distilled-continual-pre-training-for/ 音频事件检测 | 7.0/10 Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-task-oriented-sound-privacy-preservation-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-task-oriented-sound-privacy-preservation-for/ 音频事件检测 | 7.5/10 Temporally Heterogeneous Graph Contrastive Learning for Multimodal Acoustic Event Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-temporally-heterogeneous-graph-contrastive/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-temporally-heterogeneous-graph-contrastive/ 音频事件检测 | 8.5/10 Tldiffgan: A Latent Diffusion-Gan Framework with Temporal Information Fusion for Anomalous Sound Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-tldiffgan-a-latent-diffusion-gan-framework-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-tldiffgan-a-latent-diffusion-gan-framework-with/ 音频事件检测 | 7.5/10 Toward Faithful Explanations in Acoustic Anomaly Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-toward-faithful-explanations-in-acoustic-anomaly/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-toward-faithful-explanations-in-acoustic-anomaly/ 音频事件检测 | 7.5/10 Triad: Tri-Head with Auxiliary Duplicating Permutation Invariant Training for Multi-Task Sound Event Localization and Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-triad-tri-head-with-auxiliary-duplicating/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-triad-tri-head-with-auxiliary-duplicating/ 音频事件检测 | 7.5/10 USVexplorer: Robust Detection of Ultrasonic Vocalizations with Cross Species Generalization https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-usvexplorer-robust-detection-of-ultrasonic/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-usvexplorer-robust-detection-of-ultrasonic/ 音频事件检测 | 8.0/10 Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27-earable-platform-with-integrated-simultaneous-eeg/ Mon, 27 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27-earable-platform-with-integrated-simultaneous-eeg/ 音频事件检测 | 5.5/10 Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-22-disentangling-damage-from-operational-variability/ Wed, 22 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-22-disentangling-damage-from-operational-variability/ 本文针对结构健康监测中损伤信号易被环境与操作变异掩盖的核心挑战，提出了一种**无标签、自监督的解缠表示学习框架**。该框架采用双流自编码器架构，通过**时间序列重构损失**确保信息完整性，并利用**VICReg自监督损失**（基于假设损伤状态不变的基线期数据）强制损伤敏感表征（`z_dmg`）对操作 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-sky-ear-an-unmanned-aerial-vehicle-enabled-victim/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-sky-ear-an-unmanned-aerial-vehicle-enabled-victim/ 本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题，提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架：在“哨兵阶段”，系统利用单 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-spotsound-enhancing-large-audio-language-models/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-spotsound-enhancing-large-audio-language-models/ 本文旨在解决大型音频语言模型在**细粒度音频事件时间定位**上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单，导致在长音频中定位短暂事件（“大海捞针”）时表现不可靠。为此，作者提出了**S Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-towards-fine-grained-temporal-perception-post/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-towards-fine-grained-temporal-perception-post/ 这篇论文旨在解决大型音频语言模型（LALM）在细粒度时间感知（如精确定位声音事件的起止时间）上的不足。作者提出了**TimePro-RL**框架，其核心是两步走策略：首先，提出**音频侧时间提示（AS Transformer Based Machine Fault Detection From Audio Input https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-transformer-based-machine-fault-detection-from/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-transformer-based-machine-fault-detection-from/ 本文旨在探讨基于Transformer的架构在机器故障音频检测任务上相对于传统卷积神经网络（CNN）的潜在优势。**要解决的问题**是传统CNN在处理频谱图时固有的局部性和平移不变性等归纳偏置，可能并