语音/音乐/音频论文速递 2026-05-23

语音/音乐/音频论文速递 2026-05-23 共分析 123 篇论文 ⚡ 今日概览 📥 抓取 123 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #** 4篇 ████ 📊 论文评分排行榜(123 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 INFER: Learning Implicit Neural Frequency Response Fiel 8.5分 前25% - 🥈 VocSim A Training-free Benchmark for Zero-shot Content 8.3分 前25% - 🥉 CMI-RewardBench: Evaluating Music Reward Models with Co 8.2分 前25% - 4. Language Model Augmented Semi-Supervised Statistical In 8.2分 前25% - 5. DiscoForcing: A Unified Framework for Real-Time Audio-D 8.2分 前25% - 6. Abstraction Induces the Brain Alignment of Language and 8.0分 前25% #** 7. Alethia: a Foundational Encoder for Voice Deepfakes 8.0分 前25% - 8. OmniDenseCap: Scripting Multi-Scene Videos with Time-Aw 8.0分 前25% - 9. FoeGlass: When Simple In-Context Learning Is Enough for 8.0分 前25% - 10. E-VAds: An E-commerce Short Videos Understanding Benchm 8.0分 前25% - 11. BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.0分 前25% - 12. Pianist Transformer: Towards Expressive Piano Performan 7.8分 前25% - 13. DreamID-Omni: Unified Framework for Controllable Human- 7.8分 前25% - 14. Real-World Unsupervised Models Generalize to Predict Br 7.8分 前25% - 15. AudioMosaic: Contrastive Masked Audio Representation Le 7.5分 前25% - 16. Self-Guidance: Enhancing Neural Codecs via Decoder Mani 7.5分 前25% - 17. LynX: Token Interface Alignment for Video+X LLMs 7.5分 前25% #** 18. Spherical Procrustes Alignment for Reliable Medical Aud 7.5分 前25% - 19. MoST: Mixing Speech and Text with Modality-Aware Mixtur 7.5分 前25% - 20. Self-Supervised Flow Matching for Scalable Multi-Modal 7.5分 前25% - 21. LightAVSeg: Lightweight Audio-Visual Segmentation 7.5分 前25% - 22. Robust Signal Enhancement via Fractional Detail Views a 7.5分 前25% - 23. EchoingPixels: Aliasing-Resistant Joint Token Reduction 7.5分 前25% - 24. Long Grounded Thoughts: Synthesizing Grounded Visual Pr 7.5分 前25% - 25. OmniVideo-R1: Reinforcing Audio-visual Reasoning with Q 7.5分 前25% - 26. Ariadne’s Thread of LipSync: Unraveling Forgeries via I 7.5分 前25% - 27. AVI-Bench: Toward Human-like Audio-Visual Intelligence 7.5分 前25% - 28. Simultaneous Speech-to-Speech Translation Without Align 7.5分 前25% - 29. PhoStream: Benchmarking Real-World Streaming for Omnimo 7.5分 前25% - 30. OmniSIFT: Modality-Asymmetric Token Compression for Eff 7.5分 前25% - 31. Speech-Audio Compositional Attacks on Multimodal LLMs a 7.5分 前25% - 32. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #** 33. PhaseCoder: Microphone Geometry-Agnostic Spatial Audio 7.5分 前25% - 34. Listening Through the Noise: Cauchy-Driven Diffusion Br 7.5分 前25% - 35. Dual-View Predictive Diffusion: Lightweight Speech Enha 7.5分 前25% - 36. Stream RAG: Instant and Accurate Spoken Dialogue System 7.5分 前25% - 37. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.5分 前25% - 38. MedMosaic: A Challenging Large Scale Benchmark of Diver 7.5分 前25% - 39. Verifiable Multimodal Reasoning: Fact-level Attribution 7.5分 前25% - 40. MusicDET: Zero-Shot AI-Generated Music Detection 7.5分 前25% - 41. PCRNet: Phase-aware Complex Refinement Network for EEG- 7.5分 前25% - 42. SARSteer: Safeguarding Large Audio Language Models via 7.5分 前25% - 43. STAR-VAE: Structured Topology-Aware Regularization for 7.5分 前25% - 44. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 7.5分 前25% - 45. AVGen-Bench: A Task-Driven Benchmark for Multi-Granular 7.3分 前50% - 46. Bridging the Stability-Expressivity Gap: Synthetic Data 7.3分 前50% - 47. AVTrack: Audio-Visual Speaker Tracking in Complex Scene 7.3分 前50% - 48. Bioacoustic Geolocation: Species Sounds as Geographic S 7.2分 前50% - 49. ADEPT: RL-Aligned Agentic Decoding of Emotion via Evide 7.2分 前50% - 50. MECAT: A Multi-Experts Constructed Benchmark for Fine-G 7.2分 前50% - 51. SPEAR: A Unified SSL Framework for Learning Speech and 7.2分 前50% - 52. PADS-TAL: Padding-Annealed Diffusion Sampling in Text-A 7.2分 前50% - 53. Multimodal Latent Language Modeling with Next-Token Dif 7.2分 前50% - 54. Query-Based Asymmetric Modeling with Decoupled Input–Ou 7.0分 前50% - 55. AgentSteerTTS: A Multi-Agent Closed-Loop Framework for 7.0分 前50% - 56. Optimality of FSQ tokens for continuous diffusion for c 7.0分 前50% - 57. JAEGER: Joint 3D Audio-Visual Grounding and Reasoning i 7.0分 前50% - 58. SonicMaster: Towards Controllable All-in-One Music Rest 7.0分 前50% - 59. VIBE: Disentangling Social Dynamics via Kinematics-Info 7.0分 前50% - 60. Reasoning LLM Improves Speaker Recognition in Long-form 7.0分 前50% - 61. A Semantically Consistent Dataset for Data-Efficient Qu 7.0分 前50% - 62. The Silent Thought: Modeling Internal Cognition in Full 7.0分 前50% - 63. Learning Tight Rejection Boundaries without Negatives f 7.0分 前50% - 64. Quaternion Self-Attention with Shared Scores 7.0分 前50% - 65. Bridging Your Imagination with Audio-Video Generation v 7.0分 前50% - 66. TextME: Bridging Unseen Modalities Through Text Descrip 7.0分 前50% - 67. ReGen: Hierarchical Multi-Prompt Representation Generat 7.0分 前50% - 68. Polyphonia: Training-Free Context-Aware Music Editing w 7.0分 前50% - 69. TMD-Bench: A Multi-Level Evaluation Paradigm for Music– 7.0分 前50% - 70. Omni-Perception Policy Optimization for Multimodal Emot 7.0分 前50% - 71. Acoustic Interference: A New Paradigm Weaponizing Acous 7.0分 前50% - 72. AudioChat: Unified Audio Storytelling, Editing, and Und 7.0分 前50% - 73. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.9分 前50% - 74. From Talking to Singing: A New Challenge for Audio-Visu 6.8分 前50% - 75. Multiple Choice Learning of Low-Rank Adapters for Langu 6.8分 前50% - 76. Multimodal Fusion via Self-Consistent Task-Gradient Fie 6.8分 前50% - 77. Position: Beyond Text The Text-Centric Bias in Founda 6.8分 前50% - 78. MetaBio: Learning from metadata for bioacoustics founda 6.5分 前50% - 79. Any-Diffusion: Unified Multimodal Understanding and Gen 6.5分 前50% - 80. SAM Audio: Segment Anything in Audio 6.5分 前50% #** 81. CoCoEmo: Composable and Controllable Human-Like Emotion 6.5分 前50% - 82. HyperPotter: Spell the Charm of High-Order Interactions 6.5分 前50% - 83. Joint Enhancement and Classification using Coupled Diff 6.5分 前50% - 84. Hearing Without Noticing? Attention-Aware Stealthy Blac 6.5分 前50% - 85. Two-dimensional quantization for geometry-aware audio c 6.5分 前50% - 86. SALSA-V: Shortcut-Augmented Long-form Synchronized Audi 6.5分 前50% - 87. REST: Diffusion-based Real-time End-to-end Streaming Ta 6.5分 前50% - 88. AuTAgent: A Reinforcement Learning Framework for Tool-A 6.5分 前50% - 89. Characterizing the Predictive Impact of Modalities with 6.5分 前50% - 90. Group Cognition Learning: Making Everything Better Thro 6.5分 前50% - 91. Rethinking Attention in Spiking Transformers: Overcomin 6.5分 前50% - 92. T2AV-Compass: Towards Unified Evaluation for Text-to-Au 6.5分 前50% - 93. S3Audio: Towards Streaming Synchronized Spatial Audio G 6.5分 前50% - 94. Sparse Autoencoders for Interpretable Emotion Control i 6.5分 前50% - 95. BAT: Better Audio Transformer Guided by Convex Gated Pr 6.5分 前50% - 96. AG-REPA: Causal Layer Selection for Representation Alig 6.5分 前50% - 97. CoLA: Cross-Modal Low-rank Adaptation for Multimodal Do 6.5分 前50% - 98. Neural-Inspired Modeling of Auditory Selection and Comp 6.5分 前50% - 99. FutureOmni: Evaluating Future Forecasting from Omni-Mod 6.5分 前50% - 100. ProactiveLLM: Learning Active Interaction for Streaming 6.0分 前50% - 101. video-SALMONN S: Memory-Enhanced Streaming Audio-Visual 6.0分 前50% - 102. Zero-Shot Rankability: Revealing Latent Ordinal Structu 6.0分 前50% - 103. Scaling Transformers for End-to-End Discrete Audio Toke 6.0分 前50% - 104. Evaluating and Rewarding LALMs for Expressive Role-Play 6.0分 前50% - 105. Unlocking Speech–Text Compositional Powers: Instruction 5.8分 前50% - 106. Probing Cross-modal Information Hubs in Audio-Visual LL 5.5分 前50% - 107. OmniShow: Orchestrating Multimodal Conditions for Human 5.5分 前50% - 108. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 5.5分 前50% - 109. PHALAR: Phasors for Learned Musical Audio Representatio 5.5分 前50% - 110. Scaling Laws in Model Fine-tuning for Audio DeepFake De 5.0分 后50% - 111. PRIM:Cooperative Dynamic Token Compression for Efficien 4.8分 后50% - 112. Towards Understanding Modality Interaction in Multimoda 4.5分 后50% - 113. From Inpainting to Editing: Unlocking Robust Mask-Free 4.3分 后50% - 114. SONAR: Spectral‑Contrastive Audio Residuals for General 4.0分 后50% - 115. MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 3.8分 后50% - 116. STARCaster: Spatio-Temporal AutoRegressive Video Diffus 3.5分 后50% - 117. WaveSSM: Multiscale State-Space Models for Non-stationa 3.5分 后50% - 118. \(\tau\)-Voice: Benchmarking Full-Duplex Voice Agents on 3.5分 后50% - 119. FakeWorld 1.0: An Omni modal Benchmark for Fake Media a 3.5分 后50% - 120. LALM-as-a-Judge: Benchmarking Large Audio-Language Mode 3.5分 后50% - 121. IVQ: Structured and Lightweight Vector Quantization via 3.2分 后50% - 122. MFCL Audio: An Audio Function Calling Evaluation for La 3.0分 后50% - 123. Position: Towards Responsible Evaluation for Text-to-Sp 2.6分 后50% - 📋 论文列表 🥇 INFER: Learning Implicit Neural Frequency Response Fields for Confined Acoustic Environments 🔥 8.5/10 | 前25% | arxiv ...

2026-05-23 · 更新于 2026-07-02 · 16 min · 3402 words

语音/音乐/音频论文速递 2026-05-22

语音/音乐/音频论文速递 2026-05-22 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #跨模态 2篇 ██ #大语言模型 1篇 █ #声区控制 1篇 █ #语音合成 1篇 █ #统计信号处理 1篇 █ #语音去噪 1篇 █ #关键词检测 1篇 █ 📊 论文评分排行榜(15 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Factual Recall Mechanisms Carry over from Text to Sp 10.0分 前10% #大语言模型 🥈 Academic Text-to-Music Grand Challenge: Datasets, Basel 9.9分 前10% #音乐生成 🥉 LatentOmni: Rethinking Omni-Modal Understanding via Uni 9.0分 前10% #跨模态 4. Neighbor-Consistent Neural Filters for Robust Personal 8.5分 前25% #声区控制 5. RobustSpeechFlow: Learning Robust Text-to-Speech Trajec 7.8分 前10% #语音合成 6. From Volterra Series to Kunchenko Stochastic Polynomial 7.8分 前25% #统计信号处理 7. Automatic Contextual Audio Denoising 7.5分 前25% #语音去噪 8. Effective User-defined Keyword Spotting with Dual-stage 7.4分 前50% #关键词检测 9. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前50% #音视频 10. Beyond Acoustic Emotion Recognition: Multimodal Pathos 7.0分 前50% #语音情感识别 11. Real-time, EDM-inspired sonfication of the activity of 6.5分 前50% #数据声化 12. In Silico Modeling of the RAMPHO Buffer: Dissociating I 6.5分 前50% #认知科学 13. MM-Conv: A Multimodal Dataset and Benchmark for Context 6.5分 前50% #跨模态 14. Live Music Diffusion Models: Efficient Fine-Tuning and 5.9分 前50% #音乐生成 15. Plug-in Losses for Evidential Deep Learning: A Simplifi 3.5分 后50% #模型评估 📋 论文列表 🥇 Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models? 🔥 10.0/10 | 前10% | #大语言模型 | #模型评估 | #语音语言模型 #机制可解释性 | arxiv ...

2026-05-22 · 更新于 2026-07-02 · 8 min · 1596 words

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分 前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分 前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分 前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分 前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分 前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分 前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分 前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分 前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分 前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分 前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分 前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分 前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分 前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分 前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分 前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分 前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分 前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分 前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分 前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分 前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分 前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分 前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分 前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分 前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分 前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分 前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分 前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分 前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分 前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分 前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分 前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分 前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分 前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分 前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分 前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分 后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分 后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分 前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分 后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

2026-05-21 · 更新于 2026-07-02 · 26 min · 5389 words

语音/音乐/音频论文速递 2026-05-20

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分 前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分 前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分 前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分 前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分 前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分 前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分 前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分 前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分 前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分 前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分 前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分 前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分 前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分 前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分 前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分 前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分 前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分 前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...

2026-05-20 · 更新于 2026-07-02 · 15 min · 2985 words

语音/音乐/音频论文速递 2026-05-19

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分 前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分 前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分 前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分 前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分 前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分 前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分 前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分 前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分 前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分 前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分 前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分 前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分 前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分 前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分 前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分 前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分 前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分 前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分 前50% #语音合成 20. Stable Audio 3 6.8分 前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分 前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分 前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分 前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分 前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分 中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分 前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分 前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分 前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分 前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分 前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分 前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分 前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分 前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分 后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

2026-05-19 · 更新于 2026-07-02 · 23 min · 4805 words

语音/音乐/音频论文速递 2026-05-18

语音/音乐/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分 前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分 前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分 前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分 前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分 前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分 前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分 前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分 前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分 前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分 前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分 前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分 前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分 前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

2026-05-18 · 更新于 2026-07-02 · 11 min · 2305 words

语音/音乐/音频论文速递 2026-05-17

语音/音乐/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜(2 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分 前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

2026-05-17 · 更新于 2026-07-02 · 3 min · 515 words

语音/音乐/音频论文速递 2026-05-15

语音/音乐/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分 前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分 前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分 前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分 前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分 前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分 前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分 前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分 前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分 前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分 前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分 前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分 前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分 前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分 前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分 前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分 前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分 前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分 前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分 后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分 后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

2026-05-15 · 更新于 2026-07-02 · 15 min · 3187 words

语音/音乐/音频论文速递 2026-05-14

语音/音乐/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-07-02 · 11 min · 2240 words

语音/音乐/音频论文速递 2026-05-13

语音/音乐/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分 前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分 前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分 前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分 前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分 前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分 前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分 前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分 前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分 前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分 前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分 前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分 前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分 前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分 前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分 前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分 前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分 前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分 前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分 前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分 前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分 前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

2026-05-13 · 更新于 2026-07-02 · 14 min · 2798 words