语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-12 · 3 min · 583 words

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分 前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分 前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分 前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分 前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分 前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分 前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分 前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分 前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分 前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分 前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分 前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分 前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分 前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分 前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分 前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分 前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分 前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分 前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分 前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分 前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

2026-05-29 · 更新于 2026-06-12 · 10 min · 2103 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-12 · 15 min · 3187 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-12 · 19 min · 3918 words

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分 前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分 前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分 前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分 前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分 前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分 前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分 前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分 前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分 前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分 前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分 前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分 前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分 前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分 前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分 前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分 前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分 前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分 前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分 前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分 前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分 前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分 前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分 后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分 前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分 前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分 前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分 后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

2026-05-26 · 更新于 2026-06-12 · 13 min · 2671 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-06-12 · 9 min · 1773 words

语音/音乐/音频论文速递 2026-05-23

语音/音乐/音频论文速递 2026-05-23 共分析 123 篇论文 ⚡ 今日概览 📥 抓取 123 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #** 4篇 ████ 📊 论文评分排行榜(123 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 INFER: Learning Implicit Neural Frequency Response Fiel 8.5分 前25% - 🥈 VocSim A Training-free Benchmark for Zero-shot Content 8.3分 前25% - 🥉 CMI-RewardBench: Evaluating Music Reward Models with Co 8.2分 前25% - 4. Language Model Augmented Semi-Supervised Statistical In 8.2分 前25% - 5. DiscoForcing: A Unified Framework for Real-Time Audio-D 8.2分 前25% - 6. Abstraction Induces the Brain Alignment of Language and 8.0分 前25% #** 7. Alethia: a Foundational Encoder for Voice Deepfakes 8.0分 前25% - 8. OmniDenseCap: Scripting Multi-Scene Videos with Time-Aw 8.0分 前25% - 9. FoeGlass: When Simple In-Context Learning Is Enough for 8.0分 前25% - 10. E-VAds: An E-commerce Short Videos Understanding Benchm 8.0分 前25% - 11. BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.0分 前25% - 12. Pianist Transformer: Towards Expressive Piano Performan 7.8分 前25% - 13. DreamID-Omni: Unified Framework for Controllable Human- 7.8分 前25% - 14. Real-World Unsupervised Models Generalize to Predict Br 7.8分 前25% - 15. AudioMosaic: Contrastive Masked Audio Representation Le 7.5分 前25% - 16. Self-Guidance: Enhancing Neural Codecs via Decoder Mani 7.5分 前25% - 17. LynX: Token Interface Alignment for Video+X LLMs 7.5分 前25% #** 18. Spherical Procrustes Alignment for Reliable Medical Aud 7.5分 前25% - 19. MoST: Mixing Speech and Text with Modality-Aware Mixtur 7.5分 前25% - 20. Self-Supervised Flow Matching for Scalable Multi-Modal 7.5分 前25% - 21. LightAVSeg: Lightweight Audio-Visual Segmentation 7.5分 前25% - 22. Robust Signal Enhancement via Fractional Detail Views a 7.5分 前25% - 23. EchoingPixels: Aliasing-Resistant Joint Token Reduction 7.5分 前25% - 24. Long Grounded Thoughts: Synthesizing Grounded Visual Pr 7.5分 前25% - 25. OmniVideo-R1: Reinforcing Audio-visual Reasoning with Q 7.5分 前25% - 26. Ariadne’s Thread of LipSync: Unraveling Forgeries via I 7.5分 前25% - 27. AVI-Bench: Toward Human-like Audio-Visual Intelligence 7.5分 前25% - 28. Simultaneous Speech-to-Speech Translation Without Align 7.5分 前25% - 29. PhoStream: Benchmarking Real-World Streaming for Omnimo 7.5分 前25% - 30. OmniSIFT: Modality-Asymmetric Token Compression for Eff 7.5分 前25% - 31. Speech-Audio Compositional Attacks on Multimodal LLMs a 7.5分 前25% - 32. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #** 33. PhaseCoder: Microphone Geometry-Agnostic Spatial Audio 7.5分 前25% - 34. Listening Through the Noise: Cauchy-Driven Diffusion Br 7.5分 前25% - 35. Dual-View Predictive Diffusion: Lightweight Speech Enha 7.5分 前25% - 36. Stream RAG: Instant and Accurate Spoken Dialogue System 7.5分 前25% - 37. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.5分 前25% - 38. MedMosaic: A Challenging Large Scale Benchmark of Diver 7.5分 前25% - 39. Verifiable Multimodal Reasoning: Fact-level Attribution 7.5分 前25% - 40. MusicDET: Zero-Shot AI-Generated Music Detection 7.5分 前25% - 41. PCRNet: Phase-aware Complex Refinement Network for EEG- 7.5分 前25% - 42. SARSteer: Safeguarding Large Audio Language Models via 7.5分 前25% - 43. STAR-VAE: Structured Topology-Aware Regularization for 7.5分 前25% - 44. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 7.5分 前25% - 45. AVGen-Bench: A Task-Driven Benchmark for Multi-Granular 7.3分 前50% - 46. Bridging the Stability-Expressivity Gap: Synthetic Data 7.3分 前50% - 47. AVTrack: Audio-Visual Speaker Tracking in Complex Scene 7.3分 前50% - 48. Bioacoustic Geolocation: Species Sounds as Geographic S 7.2分 前50% - 49. ADEPT: RL-Aligned Agentic Decoding of Emotion via Evide 7.2分 前50% - 50. MECAT: A Multi-Experts Constructed Benchmark for Fine-G 7.2分 前50% - 51. SPEAR: A Unified SSL Framework for Learning Speech and 7.2分 前50% - 52. PADS-TAL: Padding-Annealed Diffusion Sampling in Text-A 7.2分 前50% - 53. Multimodal Latent Language Modeling with Next-Token Dif 7.2分 前50% - 54. Query-Based Asymmetric Modeling with Decoupled Input–Ou 7.0分 前50% - 55. AgentSteerTTS: A Multi-Agent Closed-Loop Framework for 7.0分 前50% - 56. Optimality of FSQ tokens for continuous diffusion for c 7.0分 前50% - 57. JAEGER: Joint 3D Audio-Visual Grounding and Reasoning i 7.0分 前50% - 58. SonicMaster: Towards Controllable All-in-One Music Rest 7.0分 前50% - 59. VIBE: Disentangling Social Dynamics via Kinematics-Info 7.0分 前50% - 60. Reasoning LLM Improves Speaker Recognition in Long-form 7.0分 前50% - 61. A Semantically Consistent Dataset for Data-Efficient Qu 7.0分 前50% - 62. The Silent Thought: Modeling Internal Cognition in Full 7.0分 前50% - 63. Learning Tight Rejection Boundaries without Negatives f 7.0分 前50% - 64. Quaternion Self-Attention with Shared Scores 7.0分 前50% - 65. Bridging Your Imagination with Audio-Video Generation v 7.0分 前50% - 66. TextME: Bridging Unseen Modalities Through Text Descrip 7.0分 前50% - 67. ReGen: Hierarchical Multi-Prompt Representation Generat 7.0分 前50% - 68. Polyphonia: Training-Free Context-Aware Music Editing w 7.0分 前50% - 69. TMD-Bench: A Multi-Level Evaluation Paradigm for Music– 7.0分 前50% - 70. Omni-Perception Policy Optimization for Multimodal Emot 7.0分 前50% - 71. Acoustic Interference: A New Paradigm Weaponizing Acous 7.0分 前50% - 72. AudioChat: Unified Audio Storytelling, Editing, and Und 7.0分 前50% - 73. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.9分 前50% - 74. From Talking to Singing: A New Challenge for Audio-Visu 6.8分 前50% - 75. Multiple Choice Learning of Low-Rank Adapters for Langu 6.8分 前50% - 76. Multimodal Fusion via Self-Consistent Task-Gradient Fie 6.8分 前50% - 77. Position: Beyond Text The Text-Centric Bias in Founda 6.8分 前50% - 78. MetaBio: Learning from metadata for bioacoustics founda 6.5分 前50% - 79. Any-Diffusion: Unified Multimodal Understanding and Gen 6.5分 前50% - 80. SAM Audio: Segment Anything in Audio 6.5分 前50% #** 81. CoCoEmo: Composable and Controllable Human-Like Emotion 6.5分 前50% - 82. HyperPotter: Spell the Charm of High-Order Interactions 6.5分 前50% - 83. Joint Enhancement and Classification using Coupled Diff 6.5分 前50% - 84. Hearing Without Noticing? Attention-Aware Stealthy Blac 6.5分 前50% - 85. Two-dimensional quantization for geometry-aware audio c 6.5分 前50% - 86. SALSA-V: Shortcut-Augmented Long-form Synchronized Audi 6.5分 前50% - 87. REST: Diffusion-based Real-time End-to-end Streaming Ta 6.5分 前50% - 88. AuTAgent: A Reinforcement Learning Framework for Tool-A 6.5分 前50% - 89. Characterizing the Predictive Impact of Modalities with 6.5分 前50% - 90. Group Cognition Learning: Making Everything Better Thro 6.5分 前50% - 91. Rethinking Attention in Spiking Transformers: Overcomin 6.5分 前50% - 92. T2AV-Compass: Towards Unified Evaluation for Text-to-Au 6.5分 前50% - 93. S3Audio: Towards Streaming Synchronized Spatial Audio G 6.5分 前50% - 94. Sparse Autoencoders for Interpretable Emotion Control i 6.5分 前50% - 95. BAT: Better Audio Transformer Guided by Convex Gated Pr 6.5分 前50% - 96. AG-REPA: Causal Layer Selection for Representation Alig 6.5分 前50% - 97. CoLA: Cross-Modal Low-rank Adaptation for Multimodal Do 6.5分 前50% - 98. Neural-Inspired Modeling of Auditory Selection and Comp 6.5分 前50% - 99. FutureOmni: Evaluating Future Forecasting from Omni-Mod 6.5分 前50% - 100. ProactiveLLM: Learning Active Interaction for Streaming 6.0分 前50% - 101. video-SALMONN S: Memory-Enhanced Streaming Audio-Visual 6.0分 前50% - 102. Zero-Shot Rankability: Revealing Latent Ordinal Structu 6.0分 前50% - 103. Scaling Transformers for End-to-End Discrete Audio Toke 6.0分 前50% - 104. Evaluating and Rewarding LALMs for Expressive Role-Play 6.0分 前50% - 105. Unlocking Speech–Text Compositional Powers: Instruction 5.8分 前50% - 106. Probing Cross-modal Information Hubs in Audio-Visual LL 5.5分 前50% - 107. OmniShow: Orchestrating Multimodal Conditions for Human 5.5分 前50% - 108. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 5.5分 前50% - 109. PHALAR: Phasors for Learned Musical Audio Representatio 5.5分 前50% - 110. Scaling Laws in Model Fine-tuning for Audio DeepFake De 5.0分 后50% - 111. PRIM:Cooperative Dynamic Token Compression for Efficien 4.8分 后50% - 112. Towards Understanding Modality Interaction in Multimoda 4.5分 后50% - 113. From Inpainting to Editing: Unlocking Robust Mask-Free 4.3分 后50% - 114. SONAR: Spectral‑Contrastive Audio Residuals for General 4.0分 后50% - 115. MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 3.8分 后50% - 116. STARCaster: Spatio-Temporal AutoRegressive Video Diffus 3.5分 后50% - 117. WaveSSM: Multiscale State-Space Models for Non-stationa 3.5分 后50% - 118. \(\tau\)-Voice: Benchmarking Full-Duplex Voice Agents on 3.5分 后50% - 119. FakeWorld 1.0: An Omni modal Benchmark for Fake Media a 3.5分 后50% - 120. LALM-as-a-Judge: Benchmarking Large Audio-Language Mode 3.5分 后50% - 121. IVQ: Structured and Lightweight Vector Quantization via 3.2分 后50% - 122. MFCL Audio: An Audio Function Calling Evaluation for La 3.0分 后50% - 123. Position: Towards Responsible Evaluation for Text-to-Sp 2.6分 后50% - 📋 论文列表 🥇 INFER: Learning Implicit Neural Frequency Response Fields for Confined Acoustic Environments 🔥 8.5/10 | 前25% | arxiv ...

2026-05-23 · 更新于 2026-06-12 · 16 min · 3402 words

语音/音乐/音频论文速递 2026-05-22

语音/音乐/音频论文速递 2026-05-22 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #跨模态 2篇 ██ #大语言模型 1篇 █ #声区控制 1篇 █ #语音合成 1篇 █ #统计信号处理 1篇 █ #语音去噪 1篇 █ #关键词检测 1篇 █ 📊 论文评分排行榜(15 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Factual Recall Mechanisms Carry over from Text to Sp 10.0分 前10% #大语言模型 🥈 Academic Text-to-Music Grand Challenge: Datasets, Basel 9.9分 前10% #音乐生成 🥉 LatentOmni: Rethinking Omni-Modal Understanding via Uni 9.0分 前10% #跨模态 4. Neighbor-Consistent Neural Filters for Robust Personal 8.5分 前25% #声区控制 5. RobustSpeechFlow: Learning Robust Text-to-Speech Trajec 7.8分 前10% #语音合成 6. From Volterra Series to Kunchenko Stochastic Polynomial 7.8分 前25% #统计信号处理 7. Automatic Contextual Audio Denoising 7.5分 前25% #语音去噪 8. Effective User-defined Keyword Spotting with Dual-stage 7.4分 前50% #关键词检测 9. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前50% #音视频 10. Beyond Acoustic Emotion Recognition: Multimodal Pathos 7.0分 前50% #语音情感识别 11. Real-time, EDM-inspired sonfication of the activity of 6.5分 前50% #数据声化 12. In Silico Modeling of the RAMPHO Buffer: Dissociating I 6.5分 前50% #认知科学 13. MM-Conv: A Multimodal Dataset and Benchmark for Context 6.5分 前50% #跨模态 14. Live Music Diffusion Models: Efficient Fine-Tuning and 5.9分 前50% #音乐生成 15. Plug-in Losses for Evidential Deep Learning: A Simplifi 3.5分 后50% #模型评估 📋 论文列表 🥇 Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models? 🔥 10.0/10 | 前10% | #大语言模型 | #模型评估 | #语音语言模型 #机制可解释性 | arxiv ...

2026-05-22 · 更新于 2026-06-12 · 8 min · 1596 words

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分 前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分 前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分 前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分 前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分 前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分 前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分 前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分 前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分 前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分 前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分 前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分 前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分 前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分 前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分 前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分 前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分 前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分 前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分 前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分 前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分 前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分 前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分 前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分 前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分 前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分 前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分 前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分 前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分 前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分 前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分 前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分 前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分 前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分 前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分 前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分 后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分 后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分 前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分 后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

2026-05-21 · 更新于 2026-06-12 · 26 min · 5389 words

语音/音乐/音频论文速递 2026-05-20

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分 前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分 前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分 前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分 前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分 前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分 前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分 前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分 前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分 前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分 前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分 前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分 前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分 前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分 前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分 前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分 前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分 前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分 前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...

2026-05-20 · 更新于 2026-06-12 · 15 min · 2985 words