语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-06-12 · 23 min · 4800 words

Age-Aware Adapter Tuning for Children's Speech Recognition

📄 Age-Aware Adapter Tuning for Children's Speech Recognition #语音识别 #参数高效微调 #自监督学习 #低资源 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #语音识别 | #参数高效微调 | #自监督学习 #低资源 | arxiv 👥 作者与机构 论文中未明确列出作者及机构信息。 💡 毒舌点评 增量改进,包装先行:论文标题中的“Age-Aware”听起来很前沿,但核心贡献是为不同年龄组训练多个小适配器并进行路由。这本质上是“为不同子群体微调不同模块”的工程实践,学术创新有限。最大的卖点——性能提升,从12.6%到12.3%的WER(0.3%的绝对改进)在语音识别领域属于微弱改善,说服力不足。 实验设计存在疑问:12+组的WER极低(4.5%-5.1%),但论文自己也承认该组“仅包含单次发音样本”,与其他组的句子级识别任务完全不同。将不同难度、不同格式的任务混合计算宏WER,并以此论证方法在“所有年龄组”的改进,有混淆视听之嫌。方法在最具挑战的3-4岁组的改进(从8.5%到8.3%)同样微不足道。 “接近”的阈值在哪?:论文反复强调预测年龄路由性能“接近”真实年龄路由。但具体到数字,Top-1预测路由的宏WER(17.9%)比真实路由(17.6%)差0.3%,整体WER差0.1%。这种差距是否可接受取决于实际部署成本,但论文未讨论路由器可能带来的额外延迟和错误传播风险。 FiLM作为对比组显得疲软:FiLM适配器的性能甚至不如简单的“堆叠适配器”(stacked adapter),这要么说明FiLM实现存在问题,要么说明在当前设定下这种动态调制机制对儿童语音的年龄差异过于复杂或无效。论文用它作为主要对比,削弱了“年龄专用适配器更优”这一结论的力度。 局限性轻描淡写:作者在结论中承认“不同年龄组的录音和任务构成可能影响分组结果”,但这恰恰是实验设计的核心漏洞,却被一笔带过。没有消融实验验证年龄组划分的合理性,也没有探索其他划分方式。 📌 核心摘要 本文研究了在参数高效适配框架下,年龄信息如何改进儿童语音识别(ASR)。研究在预训练的NVIDIA Parakeet-tdt-0.6B-v2模型上进行,首先训练一个适用于所有儿童语音的共享适配器作为基线。随后,提出了两种年龄感知适配策略:1)年龄专用适配器,为每个年龄组训练独立的残差适配器,通过预测的年龄路由器进行选择;2)统一FiLM适配器,使用一个受年龄条件调制的共享适配器。在On Top of Pasketti儿童ASR挑战赛的Word Track数据集(包含3-12岁及以上儿童语音)上的实验表明,使用真实年龄进行路由的年龄专用适配器在所有年龄组上均优于共享适配器基线,将整体WER从12.6%降至12.3%,宏WER从18.4%降至17.6%。使用预测年龄路由的性能接近真实年龄路由(整体WER 12.3%,宏WER 17.8%)。统一FiLM适配器的效果弱于年龄专用适配器。研究结论表明,年龄专用残差适配是改善儿童ASR鲁棒性的有前景且实用的方向。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 408 words

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis

📄 Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis #多模态模型 #参数高效微调 #低资源 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #多模态模型 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构 作者:Bin Wen, Tien-Ping Tan。 机构:School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia。 ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 634 words

FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

📄 FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition #语音识别 #参数高效微调 #低资源 #语音问答 8.0/10 | 创新 6/2 | 严谨 7/1.5 | 实验 6/1.5 | 清晰 8/1 | 影响 5/1.5 | 开源 7/1.5 | 复现 7/0.5 | 工程 6/1.5 🔥 8.0/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #语音问答 | arxiv 👥 作者与机构 Fernando López, Santosh Kesiraju, Jordi Luque Telefónica Innovación Digital Spain, Universidad Autónoma de Madrid Spain, Brno University of Technology Czech Republic ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 514 words

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval

📄 FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval #参数高效微调 #对比学习 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前25% | #参数高效微调 | #参数高效微调 | #对比学习 | arxiv 👥 作者与机构 作者:Arghya Pal, Sailaja Rajanala 机构:Monash University 💡 毒舌点评 这篇工作试图用一阶逻辑(FOL)给跨模态检索注入“形式化理性”,想法很有野心,像是要给充满直觉的深度学习模型戴上一副逻辑眼镜。其核心流程(FOL精炼 -> 投影对齐 -> 谓词重排)设计得相当工整,消融实验也做得扎实,证明了每一环都不是摆设。但问题在于,这副“眼镜”太重且太挑剔:FOL解析器的性能直接决定了上限,对音频本体的覆盖(642个谓词)依然有限,遇到“electrical interference”这种词就趴窝了。更关键的是,论文在展示结果时,对绝对数值的解读有些过于乐观,比如在Clotho上R@1从16.75%提到20.4%是显著进步,但离真正“解决”细粒度检索还很远。总的来说,这是一个有价值的、工程上颇为完整的尝试,展示了符号推理的潜力,但距离成为通用、鲁棒的解决方案还有明显差距。 📌 核心摘要 本文提出了FORTE(FOL-guided Optimal Refinement for Text-audio rEtrieval),一个用于改进文本到音频检索的三阶段统一框架。其核心思想是将自然语言查询转化为形式化的一阶逻辑表示,并通过结构化搜索进行精炼,以引入更具区分性的声学属性,同时保持核心语义不变。精炼后的查询通过一个轻量级投影模块与音频嵌入进行参数高效对齐,最后在推理时应用一个基于谓词重叠的重排序步骤,以进一步提升语义一致性。在AudioCaps和Clotho数据集上的实验表明,FORTE在多个骨干网络(CLAP, LAION-CLAP, Pengi)上均能带来一致的性能提升,尤其在细粒度检索场景下。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 381 words

GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech

📄 GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech #语音合成 #强化学习 #参数高效微调 8.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前25% | #语音合成 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构 作者:Jaehoon Kang, Yejin Lee, Kyuhong Shim 单位:Department of Artificial Intelligence, Sungkyunkwan University, Korea 联系邮箱:{morateng, yj.lee, khshim}@skku.edu 💡 毒舌点评 “这篇工作就像给一个功能完备的智能音箱装上了几个精心调校的‘情绪旋钮’。思路清晰、模块化做得不错,实验也扎实地证明了‘旋钮’拧得动。但旋钮种类目前只有两个(语速和音高),且背后的‘电机’(奖励函数)设计得有点简陋——主要靠查字数(WER)和量音调(F0),这让‘情绪’的丰富性大打折扣。最大的槽点在于,作者自己都承认在组合多个旋钮时可能会‘翻车’(过冲),这使得其宣称的‘可组合性’打了折扣。整体而言,是一篇合格的工程优化论文,离‘优雅的学术突破’还差那么点意思。” ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 519 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-06-12 · 28 min · 5851 words

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 569 words

Video2LoRA: Parametric Video Internalization for Vision-Language Models

📄 Video2LoRA: Parametric Video Internalization for Vision-Language Models #参数高效微调 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.5/10 | 前50% | #参数高效微调 | #参数高效微调 | arxiv 👥 作者与机构 作者:Manan Suri (†Equal contribution.), Sarvesh Baskar (†Equal contribution.), Dinesh Manocha (†) 机构:†University of Maryland, College Park 💡 毒舌点评 这篇工作在“参数化上下文内化”这个思路上做了有趣的跨模态扩展,从文本延伸到了视频,想法本身有一定新意。作者通过一个超网络预测LoRA权重,规避了视觉Token的重复计算,效率提升的实验数据看起来很亮眼。然而,这篇论文的“硬伤”在于其评估的深度和广度都严重不足。首先,所有实验仅在两个SmolVLM2模型(500M和2.2B)上进行,这代表的是非常弱的开源模型基线,无法证明方法在当今主流或更强大的VLM上的有效性。其次,零样本QA任务上的性能不稳定,尤其是在PLM-SGQA上2.2B模型的灾难性失败(LLM Judge分数暴跌-0.198),这被轻描淡写地归咎于“风格不匹配”,但实际上可能揭示了该方法在处理特定类型推理任务时的根本缺陷。此外,与更强大的token压缩、长上下文或流式处理方法(如各种视觉token压缩方案、StreamingLLM等)的对比完全缺失,这使得其宣称的“正交性”和“效率优势”缺乏坚实的证据支撑。论文的实验设计更像一个技术可行性的验证(PoC),离支撑一个“通用且稳健的视频理解新范式”的结论相去甚远。开源了代码和权重是加分项,但无法弥补方法泛化性和评估深度上的重大不足。 📌 核心摘要 Video2LoRA旨在解决视觉语言模型处理视频时重复编码带来的巨大计算开销问题。其核心是训练一个Perceiver超网络,该超网络读取一个冻结VLM编码视频时产生的逐层隐藏状态,并在一次前向传播中生成一个特定于该视频的LoRA适配器。在查询阶段,冻结的VLM加载此适配器,无需在上下文中提供任何视觉Token即可回答问题。论文声称该方法在多个视频描述基准上与基于视觉Token的推理在统计上无差异,并展示了高达1500倍的输入Token减少和显著的推理时间加速。此外,独立生成的视频片段适配器可在秩空间组合,为长视频处理提供了可能。 🔗 开源详情 代码仓库:github.com/MananSuri27/vid2lora (已验证存在) ...

2026-06-04 · 更新于 2026-06-12 · 1 min · 139 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-06-12 · 14 min · 2920 words