音频分类 on 语音/音频论文速递

音频分类 on 语音/音频论文速递 https://nanless.github.io/audio-paper-digest-blog/tags/%E9%9F%B3%E9%A2%91%E5%88%86%E7%B1%BB/ Recent content in 音频分类 on 语音/音频论文速递 Hugo zh-cn Wed, 29 Apr 2026 00:00:00 +0000 A Consistent Learning Depression Detection Framework Integrating Multi-View Attention https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-consistent-learning-depression-detection/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-consistent-learning-depression-detection/ 语音生物标志物 | 6.5/10 A Dynamic Gated Cross-Attention Framework for Audio-Text Apparent Personality Analysis https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-dynamic-gated-cross-attention-framework-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-dynamic-gated-cross-attention-framework-for/ 音频分类 | 7.0/10 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-llm-driven-acoustic-semantic-enriched-framework/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-llm-driven-acoustic-semantic-enriched-framework/ 音频分类 | 7.0/10 A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-metric-learning-approach-to-heart-murmur/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-metric-learning-approach-to-heart-murmur/ 音频分类 | 7.7/10 A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-robust-knn-approach-for-multi-class-laryngeal/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-robust-knn-approach-for-multi-class-laryngeal/ 音频分类 | 7.5/10 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and Diverse Audio Understanding https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-acavcaps-enabling-large-scale-training-for-fine/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-acavcaps-enabling-large-scale-training-for-fine/ 音频分类 | 8.5/10 Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-acoustic-feedback-cancellation-in-hearing-aids/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-acoustic-feedback-cancellation-in-hearing-aids/ 音频分类 | 7.0/10 Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-acoustic-non-stationarity-objective-assessment/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-acoustic-non-stationarity-objective-assessment/ 音频分类 | 7.0/10 Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-adaptive-embedding-fusion-with-contrastive/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-adaptive-embedding-fusion-with-contrastive/ 音频分类 | 7.5/10 Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-adaptive-per-channel-energy-normalization-front/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-adaptive-per-channel-energy-normalization-front/ 音频分类 | 7.5/10 Adversarial Rivalry Learning for Music Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-adversarial-rivalry-learning-for-music/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-adversarial-rivalry-learning-for-music/ 音乐分类 | 6.5/10 AFT: An Exemplar-Free Class Incremental Learning Method for Environmental Sound Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-aft-an-exemplar-free-class-incremental-learning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-aft-an-exemplar-free-class-incremental-learning/ 音频分类 | 7.0/10 AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-animalclap-taxonomy-aware-language-audio/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-animalclap-taxonomy-aware-language-audio/ 音频分类 | 8.0/10 Attentive Masked Self-Distillation for Respiratory Sound Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-attentive-masked-self-distillation-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-attentive-masked-self-distillation-for/ 音频分类 | 7.5/10 Audio Classification Models are Vulnerable to Filter Perturbations https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-audio-classification-models-are-vulnerable-to/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-audio-classification-models-are-vulnerable-to/ 音频分类 | 7.5/10 AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-audiocards-structured-metadata-improves-audio/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-audiocards-structured-metadata-improves-audio/ 音频检索 | 7.5/10 AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-audiofuse-unified-spectral-temporal-learning-via/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-audiofuse-unified-spectral-temporal-learning-via/ 音频分类 | 7.5/10 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-automated-dysphagia-screening-using-noninvasive/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-automated-dysphagia-screening-using-noninvasive/ 音频分类 | 8.0/10 Benchmarking Music Autotagging with MGPHot Expert Annotations vs. Generic Tag Datasets https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-benchmarking-music-autotagging-with-mgphot-expert/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-benchmarking-music-autotagging-with-mgphot-expert/ 音乐信息检索 | 7.5/10 Beyond Mapping: Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-beyond-mapping-domain-invariant-representations/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-beyond-mapping-domain-invariant-representations/ 领域适应 | 7.5/10 Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content? https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-can-hierarchical-cross-modal-fusion-predict-human/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-can-hierarchical-cross-modal-fusion-predict-human/ 模型评估 | 6.0/10 Constructing Composite Features for Interpretable Music-Tagging https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-constructing-composite-features-for-interpretable/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-constructing-composite-features-for-interpretable/ 音乐信息检索 | 7.5/10 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-cooperative-multi-agent-reinforcement-learning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-cooperative-multi-agent-reinforcement-learning/ 联邦学习 | 7.0/10 Directly Trained Spiking Neural Networks with Adaptive Phase Coding https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-directly-trained-spiking-neural-networks-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-directly-trained-spiking-neural-networks-with/ 音频分类 | 7.0/10 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-echo-frequency-aware-hierarchical-encoding-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-echo-frequency-aware-hierarchical-encoding-for/ 音频分类 | 9.5/10 Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-empowering-multimodal-respiratory-sound/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-empowering-multimodal-respiratory-sound/ 音频分类 | 7.0/10 Enhanced Generative Machine Listener https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-enhanced-generative-machine-listener/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-enhanced-generative-machine-listener/ 音频分类 | 7.0/10 Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-estimating-respiratory-effort-from-nocturnal/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-estimating-respiratory-effort-from-nocturnal/ 音频分类 | 6.5/10 FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-foca-multimodal-malware-classification-via/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-foca-multimodal-malware-classification-via/ 音频分类 | 7.5/10 Hair Noise Analysis and Mitigation for Smart Glasses Audio Captures https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hair-noise-analysis-and-mitigation-for-smart/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hair-noise-analysis-and-mitigation-for-smart/ 语音增强 | 7.5/10 Hanui: Harnessing Distributional Discrepancies for Singing Voice Deepfake Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hanui-harnessing-distributional-discrepancies-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hanui-harnessing-distributional-discrepancies-for/ 音频深度伪造检测 | 8.0/10 HFSQVAE: Hierarchical Vector Quantization with Residuals for Frequency-Specific Embedding https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hfsqvae-hierarchical-vector-quantization-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hfsqvae-hierarchical-vector-quantization-with/ 音频生成 | 7.0/10 Hierarchical Activity Recognition and Captioning from Long-Form Audio https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hierarchical-activity-recognition-and-captioning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-hierarchical-activity-recognition-and-captioning/ 音频事件检测 | 7.5/10 ICASSP 2026 - 音频分类论文列表 https://nanless.github.io/audio-paper-digest-blog/posts/icassp2026-task-117/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/icassp2026-task-117/ 共 39 篇 ICASSP 2026 音频分类方向论文 Incremental Learning for Audio Classification with Hebbian Deep Neural Networks https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-incremental-learning-for-audio-classification/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-incremental-learning-for-audio-classification/ 音频分类 | 7.5/10 Influence-Aware Curation and Active Selection for Industrial and Surveillance Sound Events https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-influence-aware-curation-and-active-selection-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-influence-aware-curation-and-active-selection-for/ 音频事件检测 | 7.0/10 Input-Adaptive Differentiable Filterbanks via Hypernetworks for Robust Speech Processing https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-input-adaptive-differentiable-filterbanks-via/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-input-adaptive-differentiable-filterbanks-via/ 语音识别 | 7.5/10 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-keeping-models-listening-segment-and-time-aware/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-keeping-models-listening-segment-and-time-aware/ 音频问答 | 7.5/10 Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-learnable-mel-frontend-for-robust-underwater/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-learnable-mel-frontend-for-robust-underwater/ 音频分类 | 6.5/10 Learning Domain-Robust Bioacoustic Representations for Mosquito Species Classification with Contrastive Learning and Distribution Alignment https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-learning-domain-robust-bioacoustic/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-learning-domain-robust-bioacoustic/ 生物声学 | 7.5/10 LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-lenslessmic-audio-encryption-and-authentication/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-lenslessmic-audio-encryption-and-authentication/ 音频安全 | 7.5/10 Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-leveraging-prediction-entropy-for-automatic/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-leveraging-prediction-entropy-for-automatic/ 音频分类 | 7.5/10 Modeling Inter-Segment Relationships in Speech for Dementia Detection with Audio Spectrogram Transformers and Graph Attention Networks https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-modeling-inter-segment-relationships-in-speech/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-modeling-inter-segment-relationships-in-speech/ 语音生物标志物 | 7.0/10 More Than a Shortcut: A Hyperbolic Approach to Early-Exit Networks https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-more-than-a-shortcut-a-hyperbolic-approach-to/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-more-than-a-shortcut-a-hyperbolic-approach-to/ 音频事件检测 | 8.0/10 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-noise-robust-contrastive-learning-with-an-mfcc/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-noise-robust-contrastive-learning-with-an-mfcc/ 音频分类 | 7.0/10 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-non-line-of-sight-vehicle-detection-via-audio/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-non-line-of-sight-vehicle-detection-via-audio/ 音频分类 | 8.0/10 One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-one-modelthree-tasks-discovering-a-shared-winning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-one-modelthree-tasks-discovering-a-shared-winning/ 音频分类 | 7.5/10 Optimizing Domain-Adaptive Self-Supervised Learning for Clinical Voice-Based Disease Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-optimizing-domain-adaptive-self-supervised/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-optimizing-domain-adaptive-self-supervised/ 语音生物标志物 | 7.0/10 PADAM: Perceptual Audio Defect Assessment Model https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-padam-perceptual-audio-defect-assessment-model/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-padam-perceptual-audio-defect-assessment-model/ 音频分类 | 7.0/10 PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-pc-mcl-patient-consistent-multi-cycle-learning/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-pc-mcl-patient-consistent-multi-cycle-learning/ 音频分类 | 7.5/10 Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-reading-between-the-waves-robust-topic/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-reading-between-the-waves-robust-topic/ 音频分类 | 7.0/10 Reliable AI via Age-Balanced Validation: Fair Model Selection for Parkinson’s Detection from Voice https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-reliable-ai-via-age-balanced-validation-fair/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-reliable-ai-via-age-balanced-validation-fair/ 语音生物标志物 | 7.5/10 RMODGDF: A Robust STFT-Derived Feature for Musical Instrument Recognition https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-rmodgdf-a-robust-stft-derived-feature-for-musical/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-rmodgdf-a-robust-stft-derived-feature-for-musical/ 音乐信息检索 | 7.0/10 S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-s-sondo-self-supervised-knowledge-distillation/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-s-sondo-self-supervised-knowledge-distillation/ 音频分类 | 7.0/10 Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-semantic-guided-pseudo-feature-attention-network/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-semantic-guided-pseudo-feature-attention-network/ 音频分类零样本学习 | 7.0/10 SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-slap-scalable-language-audio-pretraining-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-slap-scalable-language-audio-pretraining-with/ 音频检索 | 8.0/10 Snore Sound Classification Based on Physiological Features and Adaptive Loss Function https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-snore-sound-classification-based-on-physiological/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-snore-sound-classification-based-on-physiological/ 音频分类 | 6.5/10 Speech Emotion Recognition based on Hierarchical Transformer with Shifted Windows https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-speech-emotion-recognition-based-on-hierarchical/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-speech-emotion-recognition-based-on-hierarchical/ 语音情感识别 | 8.0/10 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-spiking-temporal-enhanced-network-for-zero-shot/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-spiking-temporal-enhanced-network-for-zero-shot/ 音频分类 | 7.0/10 Testing The Efficient Coding Hypothesis Beyond Humans: The Auditory Kernels of Bat Vocalizations https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-testing-the-efficient-coding-hypothesis-beyond/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-testing-the-efficient-coding-hypothesis-beyond/ 生物声学 | 7.5/10 Thinking While Listening: Simple Test Time Scaling for Audio Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-thinking-while-listening-simple-test-time-scaling/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-thinking-while-listening-simple-test-time-scaling/ 音频分类 | 6.5/10 Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-timbre-aware-audio-difference-captioning-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-timbre-aware-audio-difference-captioning-for/ 音频分类 | 7.5/10 Timbre-Based Pretraining with Pseudo-Labels for Multi-Instrument Automatic Music Transcription https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-timbre-based-pretraining-with-pseudo-labels-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-timbre-based-pretraining-with-pseudo-labels-for/ 音乐信息检索 | 7.0/10 Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-transfer-learning-for-paediatric-sleep-apnoea/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-transfer-learning-for-paediatric-sleep-apnoea/ 音频分类 | 7.0/10 Transferable Audio Lottery Tickets: Gradient Accumulation for Extreme Sparsity https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-transferable-audio-lottery-tickets-gradient/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-transferable-audio-lottery-tickets-gradient/ 音频分类 | 7.0/10 UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-umv-a-mixture-of-experts-vision-transformer-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-umv-a-mixture-of-experts-vision-transformer-with/ 音频分类 | 7.5/10 Unsupervised Discovery and Analysis of the Vocal Repertoires and Patterns of Select Corvid Species https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-unsupervised-discovery-and-analysis-of-the-vocal/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-unsupervised-discovery-and-analysis-of-the-vocal/ 生物声学 | 7.5/10 UVT-LM: Unifying Visual and Tactile Perception with Language Model https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-uvt-lm-unifying-visual-and-tactile-perception/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-uvt-lm-unifying-visual-and-tactile-perception/ 跨模态 | 7.0/10 WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-wavespikenet-a-wavelet-spiking-fusion/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-wavespikenet-a-wavelet-spiking-fusion/ 音频分类 | 7.5/10 When Audio Matters: A Lightweight, Hierarchical Fusion Model for Speech and Non-Verbal Emotion Recognition https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-when-audio-matters-a-lightweight-hierarchical/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-when-audio-matters-a-lightweight-hierarchical/ 语音情感识别 | 8.0/10 Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-28-meta-ensemble-learning-with-diverse-data-splits/ Tue, 28 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-28-meta-ensemble-learning-with-diverse-data-splits/ 音频分类 | 8.0/10 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27-audio-effect-estimation-with-dnn-based-prediction/ Mon, 27 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27-audio-effect-estimation-with-dnn-based-prediction/ 音乐理解 | 8.0/10 Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-deep-hierarchical-knowledge-loss-for-fault/ Thu, 23 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-deep-hierarchical-knowledge-loss-for-fault/ 1. **要解决什么问题**：传统故障强度诊断方法将各类故障视为独立标签，忽略了物理状态之间固有的层次依赖关系（如“空化”是“初期空化”、“稳定空化”等的父类），这限制了模型的性能和鲁棒性。 2. **方法核心是什么**：提出一个名为DHK的通用框架，其核心是设计两个新的损失函数：**层次树损失 Explicit Dropout: Deterministic Regularization for Transformer Architectures https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-explicit-dropout-deterministic-regularization-for/ Thu, 23 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-explicit-dropout-deterministic-regularization-for/ 这篇论文旨在解决传统Dropout方法依赖随机掩码、正则化效果不透明且难以精确控制的问题。其核心方法是提出一种确定性公式，将Dropout重新表述为一个可直接加入训练损失函数的显式正则化项，并推导出了适用于Transformer架构中注意力机制（Q、K、V）和前馈网络的正则化表达式。与已有方法相比， Environmental Sound Deepfake Detection Using Deep-Learning Framework https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-22-environmental-sound-deepfake-detection-using-deep/ Wed, 22 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-22-environmental-sound-deepfake-detection-using-deep/ 本文针对环境声音（如声音事件、声音场景）的深度伪造检测这一新兴任务，提出了一个系统的深度学习框架。**核心贡献**在于通过大量实验，系统评估了不同频谱图（MEL, CQT, Gammatone）、多种CNN架构（ResNet, Inception等）以及预训练模型（BEATs）在该任务上的表现，并验 Incremental learning for audio classification with Hebbian Deep Neural Networks https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-21-incremental-learning-for-audio-classification/ Tue, 21 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-21-incremental-learning-for-audio-classification/ 本文针对音频分类中的增量学习（持续学习）问题，提出了一种受生物启发的解决方案。核心是解决深度学习模型在学习新任务时对旧知识的“灾难性遗忘”。作者首次将**Hebbian学习**（一种基于神经元同步激活的无监督、无反馈学习规则）与**增量学习**相结合，并设计了一个**核塑性**机制。该机制通过分析训 Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-adaptive-test-time-scaling-for-zero-shot/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-adaptive-test-time-scaling-for-zero-shot/ 本文旨在解决零样本呼吸音频分类中“一刀切”的推理计算浪费问题。为此，提出了TRIAGE框架，这是一个三层自适应推理管道：第一层（Tier-L）进行快速的标签-文本相似度匹配；若置信度不足则升级至第二层 Classical Machine Learning Baselines for Deepfake Audio Detection on the Fake-or-Real Dataset https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-classical-machine-learning-baselines-for-deepfake/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-classical-machine-learning-baselines-for-deepfake/ 本文旨在解决深度伪造音频检测领域缺乏透明、可解释基线的问题。研究团队采用经典机器学习方法，在Fake-or-Real (FoR) 数据集上构建了一个完整的检测流程。他们从高保真（44.1 kHz）和电 Comparison of window shapes and lengths in short-time feature extraction for classification of heart sound signals https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-comparison-of-window-shapes-and-lengths-in-short/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-comparison-of-window-shapes-and-lengths-in-short/ 本文针对心音信号（PCG）分类任务中，因信号非-stationarity而采用滑动窗口分段提取特征时，窗函数形状和长度选择缺乏系统性研究的问题，进行了一项实验性评估。作者使用双向长短期记忆网络（biL Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-elastic-net-regularization-and-gabor-dictionary/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-elastic-net-regularization-and-gabor-dictionary/ 本文旨在解决心音信号（PCG）的多分类问题，以辅助心血管疾病的自动诊断。核心贡献在于提出了一套结合**优化Gabor字典**和**弹性网络正则化**的特征提取框架，并与**CNN-LSTM深度学习网络 Room compensation for loudspeaker reproduction using a supporting source https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-room-compensation-for-loudspeaker-reproduction/ Sun, 19 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-19-room-compensation-for-loudspeaker-reproduction/ 本文针对传统房间补偿技术仅能修正频谱（音色）而无法控制空间感知（如距离感）的局限，提出了一种创新的补偿方法。该方法通过引入一个延迟的、经过频谱滤波的辅助扬声器，选择性地向房间的混响声场中添加能量，从而