语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分 前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分 前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分 前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分 前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分 前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分 前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分 前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分 前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分 前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分 前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分 前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分 前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分 前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分 前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分 后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分 前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分 前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分 前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分 前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分 前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分 前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分 前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分 前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分 前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分 前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分 前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分 前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分 前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分 前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分 前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分 前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分 前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分 前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分 前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分 前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分 前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分 前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分 后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分 后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分 后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-19 · 更新于 2026-07-02 · 23 min · 4844 words

Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction

📄 Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction #语音合成 #语音识别 #流式处理 #多任务学习 #自监督学习 #参数高效微调 #实时处理 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #多任务学习 | #语音识别 #流式处理 | arxiv 👥 作者与机构 Tristan Tsoi, Jiajun Deng, Yingke Zhu, Huu Quyen Dang, Tianxiang Cao, Nikita Kuzmin, Tao Zhong, Simon Lui 华为中央媒体技术学院, 香港中文大学, 南洋理工大学 ...

2026-06-17 · 更新于 2026-07-02 · 3 min · 585 words

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分 前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分 前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分 前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分 前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分 前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分 前25% - 7. Are you speaking my languages? On spoken language adher 8.0分 后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分 前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分 前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分 前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分 前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分 前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分 前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分 前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分 前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分 前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分 前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分 前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分 前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分 前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分 前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分 前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分 前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分 前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分 前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分 前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分 前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分 前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分 前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分 前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分 前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分 前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分 前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分 前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分 前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-17 · 更新于 2026-07-02 · 21 min · 4445 words

MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

📄 MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation #说话人识别 #图神经网络 #多任务学习 9.2/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.2/10 | 前25% | #说话人识别 | #多任务学习 | #图神经网络 | arxiv 👥 作者与机构 Ayoub Elkhouzari, Youssef Iraqi, Loubna Mekouar College of Computing, University Mohammed VI Polytechnic, Ben Guerir, Morocco ...

2026-06-15 · 更新于 2026-07-02 · 2 min · 301 words

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜(26 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分 前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分 前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分 前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分 前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分 前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分 前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分 前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分 前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分 前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分 前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分 前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分 前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分 前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分 前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分 前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分 前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分 前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分 前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分 前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分 前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分 前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分 前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分 前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分 前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分 前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分 后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

2026-06-15 · 更新于 2026-07-02 · 15 min · 3122 words

Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier

📄 Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier #音频分类 #生物声学 #多任务学习 #知识蒸馏 #自监督学习 #数据集 8.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前50% | #音频分类 | #多任务学习 | #生物声学 #知识蒸馏 | arxiv 👥 作者与机构 奥尔加·伊苏波娃(Olga Isupova),丹尼尔·库津(Danil Kuzin),埃拉·布朗宁(Ella Browning),汤姆·米尔斯(Tom Mills),史蒂文·里斯(Steven Reece)。 作者团队来自剑桥大学(University of Cambridge)。 💡 毒舌点评 这篇论文像一份精心包装的“集成学习套餐”,将多任务、自监督、知识蒸馏等流行技术打包成一个针对特定生态监测问题的解决方案。其优点在于目标明确、工程实现完整,并提供了新的数据集。然而,其主要短板在于方法论创新性不足——本质上是现有技术的组合,缺乏机器学习层面的理论或架构突破。实验对比过于单一,仅与一个通用模型比较,未能充分验证框架内各组件的贡献和必要性。绝对性能(F1=0.34)虽然对比基线有提升,但在实际野外多物种重叠场景下仍然很低,论文对此瓶颈分析不足。此外,关于“迁移能力”的声明(测试集来自未见站点)可能因训练数据来自同一地区(牛津郡)的少量站点而存在潜在偏倚,实际泛化能力有待在更广泛地理和生态条件下验证。 📌 核心摘要 针对被动声学监测(PAM)中直翅目昆虫自动分类面临的标注数据稀缺、领域偏移以及现有工具非通用等问题,本文提出了PULSE,一个半监督、多任务学习框架。该框架联合优化三个损失函数:1)基于弱标签数据的监督分类损失(多标签二元交叉熵);2)通过知识蒸馏与预训练的通用鸟声模型(BirdNET)嵌入对齐的生态先验损失(L2距离);3)利用大量无标签野外录音进行自监督学习(Bootstrap Your Own Latent, BYOL)以适应本地声景的损失。通过主动学习,从野外数据中获取少量标签,进一步提升了模型性能。实验表明,PULSE在仅使用“物种库”标签时,其宏F1分数(0.21)显著优于直接使用通用模型Perch 2.0(0.07);当加入少量野外标注数据后,其宏F1达到0.34,性能与使用同样数据微调的Perch 2.0(0.33)持平。论文还展示了学习到的嵌入空间编码了有意义的生态结构,并提供了交互式可视化工具用于生态发现。 ...

2026-06-12 · 更新于 2026-07-02 · 2 min · 318 words

Endpoint Anticipation for Low-Latency Spoken Dialogue

📄 Endpoint Anticipation for Low-Latency Spoken Dialogue #多任务学习 #流式处理 8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.2/10 | 前25% | #多任务学习 | #多任务学习 | #流式处理 | arxiv 👥 作者与机构 Udupa (Sathvik Udupa), Watanabe (Shinji Watanabe), Schwarz (Petr Schwarz), Cernocky (Jan Černocký)。 1 Brno University of Technology, Czechia 2 Carnegie Mellon University, United States 联系邮箱:{udupa, schwarzp, cernocky}@fit.vut.cz, shinjiw@ieee.org ...

2026-06-12 · 更新于 2026-07-02 · 2 min · 340 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-07-02 · 16 min · 3281 words

SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

📄 SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations #语音合成 #变分自编码器 #自监督学习 #语音识别 #多任务学习 #语音生成 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #变分自编码器 | #自监督学习 #语音识别 | arxiv 👥 作者与机构 作者:Peijie Chen*, Wenhao Guan, Weijie Wu, Kadi Wang, Daiyu Huang, Zhuanling Zha, Junbo Li, Jun Fang, Qingyang Hong†, Lin Li 机构:1 厦门大学信息学院,中国;2 厦门大学电子科学与工程学院,中国;3 滴滴全球公司,北京,中国 联系邮箱:peijiechen@stu.xmu.edu.cn ...

2026-06-11 · 更新于 2026-07-02 · 3 min · 429 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-07-02 · 22 min · 4642 words