状态空间模型 on 语音/音频论文速递

状态空间模型 on 语音/音频论文速递 https://nanless.github.io/audio-paper-digest-blog/tags/%E7%8A%B6%E6%80%81%E7%A9%BA%E9%97%B4%E6%A8%A1%E5%9E%8B/ Recent content in 状态空间模型 on 语音/音频论文速递 Hugo zh-cn Wed, 29 Apr 2026 00:00:00 +0000 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-hybrid-convolution-mamba-network-with-tone/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-a-hybrid-convolution-mamba-network-with-tone/ 歌唱旋律提取 | 7.5/10 Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-combining-ssl-speech-features-contextual/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-combining-ssl-speech-features-contextual/ 音频深度伪造检测 | 7.5/10 Condition-Invariant fMRI decoding of speech intelligibility with deep state space model https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-condition-invariant-fmri-decoding-of-speech/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-condition-invariant-fmri-decoding-of-speech/ 神经解码 | 7.0/10 DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-decaf-dynamic-envelope-context-aware-fusion-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-decaf-dynamic-envelope-context-aware-fusion-for/ 语音增强 | 7.0/10 Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-disentangling-physiology-from-fidelity-latent/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-disentangling-physiology-from-fidelity-latent/ 音频生成 | 7.5/10 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-mambaformer-state-space-augmented-self-attention/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-mambaformer-state-space-augmented-self-attention/ 语音增强 | 7.0/10 Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-neuromamba-adaptive-frequency-filtering-with-a/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-neuromamba-adaptive-frequency-filtering-with-a/ 语音合成 | 8.0/10 Respire-Mamba C-UNet: Consistency-Trained Autoencoder for High-Fidelity Respiratory Sound Compression https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-respire-mamba-c-unet-consistency-trained/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-respire-mamba-c-unet-consistency-trained/ 音频压缩 | 7.0/10 Spring Reverb Emulation with Hybrid Gated Convolutional Networks and State Space Models https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-spring-reverb-emulation-with-hybrid-gated/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-spring-reverb-emulation-with-hybrid-gated/ 音频生成 | 7.5/10 Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-tri-attention-fusion-joint-temporal-spectral-and/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-tri-attention-fusion-joint-temporal-spectral-and/ 语音伪造检测 | 7.0/10 HCFD: A Benchmark for Audio Deepfake Detection in Healthcare https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-21-hcfd-a-benchmark-for-audio-deepfake-detection-in/ Tue, 21 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-21-hcfd-a-benchmark-for-audio-deepfake-detection-in/ 本文针对医疗健康领域中神经音频编解码器生成的语音深伪检测问题，提出了一个全新的研究任务（HCFD）和基准数据集（HCFK）。研究发现，在健康语音上训练的现有深伪检测模型在病态语音上性能显著下降。为此，论文首先验证了预训练音频模型（如PaSST）能更好地应对病理语音带来的变异性。更重要的是，本文提出了