Transformer on 语音/音频论文速递

Transformer on 语音/音频论文速递 https://nanless.github.io/audio-paper-digest-blog/tags/transformer/ Recent content in Transformer on 语音/音频论文速递 Hugo zh-cn Wed, 29 Apr 2026 00:00:00 +0000 BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on POP and Classical Music https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-bachi-boundary-aware-symbolic-chord-recognition/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-bachi-boundary-aware-symbolic-chord-recognition/ 音乐信息检索 | 7.5/10 DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-ditse-high-fidelity-generative-speech-enhancement/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-ditse-high-fidelity-generative-speech-enhancement/ 语音增强 | 8.5/10 FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-fd-arl-feature-disentanglement-with-adversarial/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-fd-arl-feature-disentanglement-with-adversarial/ 听觉注意力解码 | 7.5/10 Improving Audio Event Recognition with Consistency Regularization https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-improving-audio-event-recognition-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-improving-audio-event-recognition-with/ 音频事件检测 | 7.0/10 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-mambaformer-state-space-augmented-self-attention/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-mambaformer-state-space-augmented-self-attention/ 语音增强 | 7.0/10 Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-multi-task-transformer-for-explainable-speech/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-multi-task-transformer-for-explainable-speech/ 语音伪造检测 | 7.5/10 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-recom-realistic-co-speech-motion-generation-with/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-recom-realistic-co-speech-motion-generation-with/ 音频生成 | 7.0/10 RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-rir-former-coordinate-guided-transformer-for/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-rir-former-coordinate-guided-transformer-for/ 房间脉冲响应 | 7.0/10 SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-siren-spatially-informed-reconstruction-of/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-siren-spatially-informed-reconstruction-of/ 空间音频 | 7.0/10 Transformer-Based Rhythm Quantization of Performance MIDI Using Beat Annotations https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27-transformer-based-rhythm-quantization-of/ Mon, 27 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27-transformer-based-rhythm-quantization-of/ 音乐信息检索 | 8.0/10 语音/音频论文速递 2026-04-27 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27/ Mon, 27 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-27/ 共分析 13 篇语音/AI 论文 Materialistic RIR: Material Conditioned Realistic RIR Generation https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-24-materialistic-rir-material-conditioned-realistic/ Fri, 24 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-24-materialistic-rir-material-conditioned-realistic/ 音频生成 | 7.5/10 语音/音频论文速递 2026-04-24 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-24/ Fri, 24 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-24/ 共分析 21 篇语音/AI 论文 Explicit Dropout: Deterministic Regularization for Transformer Architectures https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-explicit-dropout-deterministic-regularization-for/ Thu, 23 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-explicit-dropout-deterministic-regularization-for/ 这篇论文旨在解决传统Dropout方法依赖随机掩码、正则化效果不透明且难以精确控制的问题。其核心方法是提出一种确定性公式，将Dropout重新表述为一个可直接加入训练损失函数的显式正则化项，并推导出了适用于Transformer架构中注意力机制（Q、K、V）和前馈网络的正则化表达式。与已有方法相比，语音/音频论文速递 2026-04-23 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23/ Thu, 23 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23/ 共分析 27 篇语音/AI 论文