论文速递 | 语音/音乐/音频论文速递

Any-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

📄 Any-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Ariadne's Thread of LipSync: Unraveling Forgeries via Inconsistency between Lip Motions and Head Poses

📄 Ariadne’s Thread of LipSync: Unraveling Forgeries via Inconsistency between Lip Motions and Head Poses ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing

📄 AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AudioMosaic: Contrastive Masked Audio Representation Learning

📄 AudioMosaic: Contrastive Masked Audio Representation Learning ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning

📄 AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

📄 AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation ✅ 7.3/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AVTrack: Audio-Visual Speaker Tracking in Complex Scenes

📄 AVTrack: Audio-Visual Speaker Tracking in Complex Scenes ✅ 7.3/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

BAT: Better Audio Transformer Guided by Convex Gated Probing

📄 BAT: Better Audio Transformer Guided by Convex Gated Probing ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps 🔥 8.0/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递