语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ZONOS2 Technical Report 10.0分 前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分 前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分 前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分 后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分 前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分 前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分 前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分 前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分 前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分 前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分 前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分 前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分 前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分 前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分 前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分 前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分 前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分 前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分 前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分 前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分 前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分 前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分 前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分 前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分 前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分 前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分 前50% - 28. Statistical validation and full-sphere extension of a B 6.7分 前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分 前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分 前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分 前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分 前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分 前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分 前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分 前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分 前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分 后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分 后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分 前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-24 · 更新于 2026-07-02 · 21 min · 4472 words

Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages

📄 Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages #语音识别 #多语言 #多任务学习 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #多任务学习 | #多语言 | arxiv 👥 作者与机构 Pavan Kumar J^{1}, Agneedh Basu^{2}, Pranav Bhat^{2}, Sujith Pulikodan^{2}, Visruth Sanka^{2}, Nihar Desai^{2}, Prasanta Kumar Ghosh^{2} 1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India 2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India 邮箱: pavanjk@artpark.in ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 397 words

FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS

📄 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS #语音合成 #语音增强 #参数高效微调 #持续学习 #低资源 #数据增强 #多语言 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前25% | #语音合成 | #参数高效微调 | #语音增强 #持续学习 | arxiv 👥 作者与机构 作者:Harshit Singh (1), Ayush Pratap Singh (2), Nityanand Mathur (3) 机构:1 University Of Maryland, 2 TU Darmstadt, 3 Smallest AI 联系邮箱:nityanandmathur@gmail.com ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 423 words

语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分 前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分 前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分 前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分 前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分 前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分 前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分 前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分 前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分 前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分 前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分 前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分 前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分 前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分 前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分 后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分 前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分 前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分 前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分 前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分 前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分 前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分 前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分 前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分 前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分 前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分 前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分 前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分 前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分 前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分 前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分 前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分 前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分 前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分 前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分 前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分 前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分 前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分 后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分 后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分 后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-19 · 更新于 2026-07-02 · 23 min · 4844 words

IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

📄 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages #语音识别 #基准测试 #低资源 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.5/10 | 前25% | #语音识别 | #基准测试 | #低资源 #多语言 | arxiv 👥 作者与机构 作者:Sakshi Joshi, Rathi, Singh, George, Hari, Bhogale, Khapra, Dhruv Subhash, Sanskar, Eldho Ittan, R J, Kaushal, Mitesh M。 机构:1 AI4Bharat, Indian Institute of Technology Madras, India; 2 Sarvam AI, India。 第一作者邮箱:sakshijcom@gmail.com。通讯作者邮箱:miteshk@dsai.iitm.ac.in。 ...

2026-06-18 · 更新于 2026-07-02 · 3 min · 450 words

SingFox: A Multi-Lingual Singfake Detection Corpus

📄 SingFox: A Multi-Lingual Singfake Detection Corpus #语音伪造检测 #多语言 #数据集 5.4/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.5/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 📝 5.4/10 | 后50% | #语音伪造检测 | #多语言 | #数据集 | arxiv 👥 作者与机构 Arth J. Shah, Devanshi K. Trivedi, Himanshi U. Borad, Hemant A. Patil Dhirubhai Ambani University (DAU), Gandhinagar, India; Sarvajanik College of Engineering & Technology, Surat, India ...

2026-06-18 · 更新于 2026-07-02 · 2 min · 297 words

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分 前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分 前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分 前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分 前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分 前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分 前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分 前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分 前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分 前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分 前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分 前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分 前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分 前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分 前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分 前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分 前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分 前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分 前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分 前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分 前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分 前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分 前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分 前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分 前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分 前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分 前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分 前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分 前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分 前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分 前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分 前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分 前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分 前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分 前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分 前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分 后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-18 · 更新于 2026-07-02 · 21 min · 4449 words

Are you speaking my languages? On spoken language adherence in multimodal LLMs

📄 Are you speaking my languages? On spoken language adherence in multimodal LLMs #多语言 #语音识别 #大语言模型 8/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 后50% | #语音识别 | #多语言 | #大语言模型 | arxiv 👥 作者与机构 作者:Hyungwon Kim, Kandarp Joshi, Lillian Zhou, Pavel Golik, Petar Aleksic 机构:未明确说明,从作者背景推测与Google/DeepMind相关。 💡 毒舌点评 这篇论文像是在为大厂现有系统的一次“用户体验优化”写报告,而非一项基础研究突破。核心工作是将三种已知的“补丁”(提示、微调、思维链)打包比较,用以解决一个工程上常见但学术上不够性感的问题——模型“说错话”。虽然结论“给个正确提示就行”听起来实用,但这更像是产品经理的发现,而非计算机科学家的贡献。依赖无法公开复现的专有模型和数据集,使得整个验证过程像个黑箱演示,严重削弱了学术说服力。LAVR度量标准的提出有一定价值,但其字符级的粗糙性与论文讨论的复杂语言现象(如代码混合)之间存在张力,限制了分析的深度。 📌 核心摘要 本文聚焦于多模态大语言模型(LLM)在自动语音识别(ASR)中存在的“语言遵循性”问题,即模型常生成与输入音频语言不符的转录文本。作者将此问题形式化定义为“语言遵循违规”,并提出了字符级的“语言遵循违规率”(LAVR)作为量化度量。为缓解该问题,论文系统性地比较了三种策略:零样本提示工程、监督微调(SFT)和链式思维(CoT)推理。实验在专有的单语和语码切换数据集上进行,覆盖多种语言。主要发现包括:提供正确的语言提示能显著降低LAVR和词错率(WER);三种方法在同等提示条件下性能相近,凸显了提示本身的决定性作用;SFT和CoT在无提示条件下因训练数据比例问题性能下降。论文最终建议集成上游语言识别模块以提供可靠的语言提示。 ...

2026-06-17 · 更新于 2026-07-02 · 2 min · 401 words

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

📄 When Multiple Scripts Matter: Evaluating ASR in Clinical Settings #语音识别 #多语言 #数据集 #基准测试 #低资源 9.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1.1/1 | 影响 1.0/1.5 | 开源 1.3/1.5 | 复现 1.2/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #多语言 | #数据集 #基准测试 | arxiv 👥 作者与机构 Jean Seo (1,2), Minkyu Kim (1), Jeonguk Lee (1), Jisoo Jung (1), Wooseok Han (3), Eunho Yang (1)。机构:1 AITRICS, 2 University of Copenhagen, 3 KAIST。 ...

2026-06-17 · 更新于 2026-07-02 · 2 min · 398 words

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分 前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分 前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分 前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分 前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分 前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分 前25% - 7. Are you speaking my languages? On spoken language adher 8.0分 后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分 前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分 前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分 前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分 前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分 前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分 前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分 前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分 前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分 前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分 前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分 前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分 前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分 前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分 前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分 前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分 前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分 前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分 前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分 前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分 前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分 前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分 前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分 前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分 前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分 前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分 前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分 前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分 前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-17 · 更新于 2026-07-02 · 21 min · 4445 words