Benchmarking Neural Speech Compression from a Rate-Distortion Perspective

📄 Benchmarking Neural Speech Compression from a Rate-Distortion Perspective #基准测试 9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9/10 | 前25% | #基准测试 | #基准测试 | arxiv 👥 作者与机构 作者:Jun Xu, Zhengxue Cheng, Fengxi Zhang, Yuhan Liu, Li Song (通讯作者), Wenjun Zhang 机构:上海交通大学信息科学与电子工程学院 💡 毒舌点评 这篇论文的工作量是扎实的,对神经语音编解码器的现状进行了一次有价值的梳理,并提出了一个具体的方法。但所谓“Benchmarking”的定位稍显高调——它更像是一个“改进型”或“方法论文”,其核心贡献是提出的ECC模型,而非一个中立、全面的基准测试平台(代码和统一评估框架未开源)。实验结果不错,但对比的基线主要是已发布的、可能未针对相同数据集和训练设置优化的模型,这削弱了“公平基准”的说服力。创新点(如熵跳过)虽然实用,但并非原理性突破。论文行文有些冗长,图表可以更直观。总体来说,是一篇合格的、甚至优于平均水平的工作,但距离顶会标杆性文章还有差距。 📌 核心摘要 本文从率失真理论出发,系统分析了当前神经语音编解码器中普遍存在的“表示学习与概率建模解耦”问题。为解决此问题,论文首先构建了一个统一的学习型语音编码框架,并对近期主流编解码器进行了分类学分析。随后,作者提出了熵约束编解码器(ECC),其核心创新在于:1)采用标量量化结合可学习的概率熵模型进行端到端训练;2)设计了通道级上下文建模与潜在残差预测机制;3)引入了无需额外传输信息的熵跳过机制,以提高编码效率。大量实验证明,ECC在多个公开数据集和评估指标上,实现了优于传统及神经网络基线的低比特率率失真性能。 🔗 开源详情 代码:论文中未提供ECC的代码仓库链接。但提供了多个对比基线模型的开源实现链接。 模型权重:论文中未提及ECC模型权重的具体获取链接。 数据集: LibriTTS: 用于训练和评估。 VCTK: 用于域外评估。 AISHELL-3: 用于跨语言泛化评估。 (论文中未提供这些数据集的具体下载链接,但它们是公开可用的标准数据集。) Demo:项目主页:https://avery-xu.github.io/ECC-demo/ 复现材料:论文提供了详细的训练配置和超参数(见论文表II),但未提供官方训练脚本或完整配置文件。 论文中引用的开源项目(部分): SoundStream: https://github.com/google/lyra EnCodec: https://github.com/facebookresearch/encodec DAC: https://github.com/descriptinc/descript-audio-codec SNAC: https://github.com/hubertsiuzdak/snac FunCodec: https://github.com/modelscope/FunCodec SpeechTokenizer: https://github.com/ZhangXInFD/SpeechTokenizer Mimi: https://github.com/kyutai-labs/moshi BigCodec: https://github.com/Aria-K-Alethia/BigCodec SemantiCodec: https://github.com/haoheliu/SemantiCodec-inference TAAE: https://github.com/Stability-AI/stable-codec 🏗️ 方法概述和架构 ECC的核心思想是将比特率作为可微分项直接纳入训练目标,从而联合优化编码器、量化器和熵模型,生成易于压缩的潜在表示。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 236 words

Overcoming State Inertia in Full-Duplex Spoken Language Models via Activation Steering

📄 Overcoming State Inertia in Full-Duplex Spoken Language Models via Activation Steering #基准测试 5.5/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.5/10 | 前50% | #基准测试 | #基准测试 | arxiv 👥 作者与机构 作者:Cheng-Kuang Chang (共同一作), Kai-Wei Chang (共同一作), Alexander H. Liu, James Glass 机构:MIT CSAIL 💡 毒舌点评 一篇切入点有趣的工作,将激活引导从纯文本LLM延伸到多模态全双工模型。核心观察“状态惰性”直观且有一定洞察力,ZBB基准的设计也精准地戳中了当前模型在精细时间粒度上的理解短板。然而,方法的核心——构建感知向量——过于依赖启发式定义的状态(生成/感知状态)和阈值选择,其“训练免费”的优势在实际部署中可能被对能量检测器的依赖所抵消。实验仅在三个模型上进行,且提升幅度因模型而异(Raon-SpeechChat的提升虽然百分比高,但绝对值过低),结论的普适性存疑。最遗憾的是,论文未开源任何代码、模型或数据集,极大地限制了其可验证性和影响力。整体而言,这是一篇概念清晰、实验尚可但缺乏深度验证和工程落地细节的早期探索性工作。 📌 核心摘要 本文研究了全双工语音语言模型在处理用户打断时出现的内部状态转换延迟问题,作者将其命名为“状态惰性”。通过对模型隐藏表示的分析,发现其内部存在与用户输入流对齐的“感知状态”和与模型输出流对齐的“生成状态”,而打断发生时从生成状态到感知状态的转换存在滞后,导致模型丢失用户输入的早期关键信息。为量化此问题,提出了零缓冲基准,通过将关键语义词置于打断话语的最前端来测试模型的瞬时理解能力。最后,提出了一种无需微调的激活引导方法,通过注入“感知向量”来加速状态转换。在三个开源FD-SLM上的实验表明,该方法能有效提升模型在零缓冲基准上的表现。 🔗 开源详情 代码:论文未提及提供任何代码仓库链接。虽然文中详细描述了激活引导、亲和力计算、数据集构建(附录A)的方法和参数,但未提供用于复现这些分析或实验的代码。 模型权重:论文未提供所评估的三个全双工语音语言模型(PersonaPlex, Moshi, Raon-SpeechChat)的权重下载链接。仅说明它们是开源模型,但未指明具体版本或获取地址。 数据集:论文未提及构建的数据集(轮次交互数据集、打断分析数据集、零缓冲基准数据集)是否开源或提供下载地址。附录A详细描述了创建方法。 Demo:论文未提及。 复现材料:论文未提供完整的复现指南、训练脚本或检查点。 论文中引用的开源项目(非论文自身贡献): Dia2-2B (TTS模型): https://huggingface.co/nari-labs/Dia2-2B Parakeet-TDT-0.6B-v2 (ASR模型): https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 Claude Opus 4.5 (用于数据生成的LLM): 论文中仅提及名称,未提供链接。 激活��向相关参考文献: 引用了多篇先前工作,但未列出具体项目链接。 🏗️ 方法概述和架构 论文的方法主要围绕问题诊断、基准构建和干预解决三个层面展开,其核心是利用模型的隐藏表示进行分析和操控。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 292 words

RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark

📄 RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark #基准测试 #多模态模型 9.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.6/10 | 前10% | #音频问答 | #基准测试 | #多模态模型 | arxiv 👥 作者与机构 论文作者来自多个机构,包括: 墨尔本大学(The University of Melbourne):Hongyu Jin, Siyi Wang, Yang Xiao, Jiaheng Dong, Kaiyuan Peng, Eun-Jung Holden, Ting Dang (通讯作者) 亚历山大·约安·库扎大学(Alexandru Ioan Cuza University of Iași):Georgiana Juravle 武汉大学(Wuhan University):Shihong Tan, Gongping Huang 香港大学(The University of Hong Kong):Shanquan Chen 奥克兰大学(The University of Auckland):Hong Jia 莫纳什大学(Monash University):James Bailey 💡 毒舌点评 这篇论文就像给音频AI做了一次全面的“认知体检”,而不是只看它会不会听写或分类。作者们很聪明地借用了心理学中成熟的CHC理论框架,把评估维度从简单的任务表现拆解成了感知、推理、记忆、效率、知识五大能力,这比市面上那些七拼八凑的基准要科学得多。26个模型的大规模“体检报告”确实揭示了当前LALM们的“偏科”问题:背课文(知识)还行,但真要听懂复杂场景、记住长对话、又快又好地思考,还差得远。特别是发现了推理和记忆强相关、效率跟模型大小没啥关系这些点,挺有意思。 ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 551 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-06-12 · 22 min · 4642 words

GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models

📄 GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models #数据集 #基准测试 #多语言 #多模态模型 #低资源 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音识别 | #数据集 | #基准测试 #多语言 | arxiv 👥 作者与机构 作者:Ryner Tan, Wenxuan Zhang 机构:Singapore University of Technology and Design (新加坡科技设计大学) 💡 毒舌点评 审稿人:一位匿名的顶会审稿人。 这论文瞄准了LALM评估中一个真实存在的痛点——缺乏自然、多语言、多文化的测试场景,这个动机值得肯定。作者们收集数据、设计问题、进行质量控制的工作看起来也相当扎实。然而,这终究是一个“评测集”工作,而非提出新的模型或算法。在当前这个“Benchmark疲劳”的时代,如果只是提供一个新的数据集,其边际贡献需要仔细掂量。论文的最大亮点或许在于“自然发生音频”和“文化根基问题”的结合,但实验分析部分(尤其是错误案例分析)的缺失,使得这种结合的优势没能被充分证明。整体而言,这是一篇稳妥的、必要的工作,但距离“令人兴奋”或“突破性”还有差距。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 381 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-12 · 26 min · 5465 words

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs #语音识别 #多模态模型 #基准测试 8.8/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | #语音识别 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构 作者:Yaoting Wang, Ziyi Zhang, Wenming Tu, Shaoxuan Xu, Wenjie Du, Cheng Liang, Weijun Wang, Yuanchao Li, Guangyao Li, Hao Fei, Yuanchun Li, Henghui Ding†, Yunxin Liu 机构:未在文中明确列出所有作者所属机构,但项目网站为 fudancvl.github.io,可能关联复旦大学视觉与学习实验室。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 325 words

Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding

📄 Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding #音乐生成 #音乐理解 #基准测试 #大语言模型 7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音乐生成 | #音乐理解 | #基准测试 #大语言模型 | arxiv 👥 作者与机构 Matteo Spanio, Mohammad Torabi, Andrea Poltronieri, Antonio Rodà。 主要机构:Centro di Sonologia Computazionale, University of Padova, Italy;Music Technology Group, Universitat Pompeu Fabra, Barcelona, Spain。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 352 words

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 360 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-06-12 · 29 min · 6000 words