论文速递 | 语音/音乐/音频论文速递

Learning Tight Rejection Boundaries without Negatives for Strict One-Class Audio Deepfake Detection

📄 Learning Tight Rejection Boundaries without Negatives for Strict One-Class Audio Deepfake Detection ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

LightAVSeg: Lightweight Audio-Visual Segmentation

📄 LightAVSeg: Lightweight Audio-Visual Segmentation ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking

📄 Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Long Grounded Thoughts: Synthesizing Grounded Visual Problems and Distilling Reasoning Chains at Scale

📄 Long Grounded Thoughts: Synthesizing Grounded Visual Problems and Distilling Reasoning Chains at Scale ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

LynX: Token Interface Alignment for Video+X LLMs

MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks

📄 MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks ✅ 7.2/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio ✅ 7.5/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

MetaBio: Learning from metadata for bioacoustics foundation models

📄 MetaBio: Learning from metadata for bioacoustics foundation models ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

MFCL Audio: An Audio Function Calling Evaluation for Large Language Models

📄 MFCL Audio: An Audio Function Calling Evaluation for Large Language Models 📝 3.0/10 | 后50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models 📝 3.8/10 | 后50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递