语音/音频论文速递 2026-04-29

语音/音频论文速递 2026-04-29 共分析 29 篇论文 ⚡ 今日概览 📥 抓取 29 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 4篇 ████ #多模态模型 3篇 ███ #语音情感识别 3篇 ███ #语音识别 3篇 ███ #语音对话系统 2篇 ██ #音乐生成 2篇 ██ #生成模型 1篇 █ #频谱测绘 1篇 █ 📊 论文评分排行榜(28 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D 8.5分 前25% #生成模型 🥈 Accelerating Regularized Attention Kernel Regression fo 8.5分 前25% #频谱测绘 🥉 Nemotron 3 Nano Omni: Efficient and Open Multimodal Int 8.5分 前25% #多模态模型 4. Step-Audio-R1.5 Technical Report 8.0分 前25% #语音对话系统 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. ML-SAN: Multi-Level Speaker-Adaptive Network for Emotio 8.0分 前25% #语音情感识别 7. Unrequited Emotions: Investigating the Gaps in Motivati 8.0分 前25% #语音情感识别 8. UNet-Based Fusion and Exponential Moving Average Adapta 7.5分 前25% #说话人验证 9. Walking Through Uncertainty: An Empirical Study of Unce 7.5分 前25% #音频问答 10. ASAP: An Azimuth-Priority Strip-Based Search Approach t 7.5分 前25% #声源定位 11. Mutual Forcing: Dual-Mode Self-Evolution for Fast Autor 7.5分 前25% #音频生成 12. SymphonyGen: 3D Hierarchical Orchestral Generation with 7.5分 前25% #音乐生成 13. PSP: An Interpretable Per-Dimension Accent Benchmark fo 7.5分 前25% #基准测试 14. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 15. Robust Accent Identification via Voice Conversion and N 7.5分 前25% #语音识别 16. Independent-Component-Based Encoding Models of Brain Ac 7.5分 前25% #神经编码 17. Beyond Isolated Utterances: Cue-Guided Interaction for 7.5分 前25% #多模态模型 18. Mitigating Shared-Private Branch Imbalance via Dual-Bra 7.5分 前25% #多模态模型 19. MMEB-V3: Measuring the Performance Gaps of Omni-Modalit 7.5分 前25% #基准测试 20. Human-1 by Josh Talks: A Full-Duplex Conversational Mod 7.5分 前50% #语音对话系统 21. ClawMark: A Living-World Benchmark for Multi-Turn, Mult 7.0分 前25% #基准测试 22. The Structured Output Benchmark: A Multi-Source Benchma 7.0分 前25% #基准测试 23. WhisperPipe: A Resource-Efficient Streaming Architectur 6.5分 前50% #语音识别 24. S-SONDO: Self-Supervised Knowledge Distillation for Gen 6.5分 前25% #音频分类 25. Monitoring exposure-length variations in submarine powe 6.5分 前50% #音频事件检测 26. Generative UI as an Accessibility Bridge: Lessons from 6.5分 前50% #无障碍 27. Korean aegyo speech shows systematic F1 increase to sig 6.0分 前50% #语音情感识别 28. Huí Sù: Co-constructing a Dual Feedback Apparatus 5.5分 后50% #音乐生成 29 Cross-Linguistic Rhythmic and Spectral Feature-Based An N/A - - 📋 论文列表 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv ...

2026-04-29 · 更新于 2026-05-19 · 19 min · 3856 words

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分 前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分 前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分 前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分 前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分 前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分 前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分 前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分 前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分 前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分 前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分 前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分 前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分 前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分 前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分 前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分 前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分 前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分 前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分 前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分 前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分 前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

2026-04-28 · 更新于 2026-05-19 · 12 min · 2428 words

语音/音频论文速递 2026-04-27

语音/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-04-27 · 更新于 2026-05-19 · 8 min · 1673 words

语音/音频论文速递 2026-04-25

语音/音频论文速递 2026-04-25 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #机器人技能学习 1篇 █ #语音合成 1篇 █ 📊 论文评分排行榜(2 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人技能学习 🥈 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 📋 论文列表 🥇 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation ✅ 7.5/10 | 前25% | #机器人技能学习 | #多模态模型 | #大语言模型 #工业应用 | arxiv ...

2026-04-25 · 更新于 2026-05-19 · 2 min · 225 words

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24 · 更新于 2026-05-19 · 11 min · 2180 words

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-05-19 · 13 min · 2679 words

语音/音频论文速递 2026-04-22

语音/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-05-19 · 8 min · 1620 words

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21 · 更新于 2026-05-19 · 13 min · 2659 words

语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-05-19 · 10 min · 2068 words

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19 · 更新于 2026-05-19 · 15 min · 3104 words