参数高效微调

Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation

📄 Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation #语音合成 #扩散模型 #参数高效微调 7.9/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #参数高效微调 | #扩散模型 | arxiv 👥 作者与机构作者：Rostislav Makarov, Timo Gerkmann 机构：汉堡大学（University of Hamburg, Germany） 💡 毒舌点评这篇论文的出发点不错，想把分类器“废物利用”做生成，想法挺有吸引力。但“废物”这个词可能不准确，人家分类器好好的。论文声称“高语音质量”和“单骨干模型”带来了好处，但在某些指标上，尤其是FID，Score Subnet并不总是赢，有时还略逊于需要单独分类器的U-Net+Classifier。在“参数高效”和“计算高效”的卖点上，确实省了一些参数和计算量，但代价是引入了更复杂的训练流程（需要先训练好一个分类器，再训练子网络）和推理时对JEM风格梯度计算的依赖。作者在低数据和零样本引导上的消融实验是个亮点，显示了方法的潜力，但这部分实验规模较小。总体而言，这是一个扎实的工程改进，但离“颠覆性”或“新范式”还有距离，更像是一个在特定约束下（如内存、计算预算有限）的优雅解决方案。 📌 核心摘要本文研究了一种紧凑的替代方案，将常规训练的噪声条件语音分类器重新用于基于扩散的语音生成。作者从冻结的、在log-Mel空间训练的噪声条件分类器骨干网络出发，附加一个轻量级的生成子网络（Score Subnet）。该子网络重用分类器的中间表示（前向taps），并通过反向传播分类器的基于能量模型（JEM）风格的边际对数密度来获得梯度taps。仅训练这个子网络，采用去噪分数匹配（DSM）目标。该方法证明了一个预训练的分类器可以被重新用于条件生成，在单骨干模型中架起了判别建模与条件语音合成之间的桥梁，实现了高语音质量，同时减少了内存占用和计算成本。 🔗 开源详情代码：论文提供了明确的项目主页链接，其中包含代码：https://sp-uhh.github.io/classifier-to-diffusion/。 ...

语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Constraining to Generalize: Subspace Tuning for Few-shot Generalization of Audio-Language Models

📄 Constraining to Generalize: Subspace Tuning for Few-shot Generalization of Audio-Language Models #多模态模型 #参数高效微调 7.5/10 | 清晰是/1 | 复现是，论文提供了详细的实验设置和超参数。/0.5 ✅ 7.5/10 | 前25% | #音频分类 | #参数高效微调 | #多模态模型 | arxiv 👥 作者与机构作者：Jaehyuk Jang, Kangwook Ko, Wonjun Lee, Changick Kim 机构：韩国科学技术院（KAIST）邮箱：{jhyuk, kw.ko, dpenguin, changick}@kaist.ac.kr 💡 毒舌点评论文的核心矛盾在于：声称是为音频语言模型设计的通用方法，但最大短板却是对预训练音频-文本对齐质量的绝对依赖。如果上游预训练模型本身就是个“瘸子”，你这个精妙的几何约束无异于在沙子上雕刻。参数量随类别数线性增长的问题被轻描淡写地用“在窄标签任务中高效”带过。这本质上是将方法的应用场景做了硬约束，而非解决了可扩展性问题。当面对真实世界可能出现的成千上万音频类别时，这个方法恐怕会先把自己“参数死”。跨数据集迁移结果（表2）堪称“不稳定之王”。在Emotion Recognition和Sound Event Classification上，改进忽高忽低，甚至部分低于零样本。这强烈暗示，所谓的“共享基变换”在跨域时可能转移的不是“知识”，而是“偏见”。附录B.6的分析虽然坦诚，但也坐实了该方法在域差异较大时的脆弱性。在ImageNet（表5）上略逊于CoOp，以及在跨数据集迁移上的挣扎，共同勾勒出SubT的“舒适区”：任务相对简单、类别空间窄小且同质、预训练模型在该领域已有良好表征。这是一种精准的“降维打击”，但也暴露了其普适性的天花板。 📌 核心摘要本文深入分析了在音频语言模型（ALM）小样本适应中普遍存在的基类-新类性能权衡问题，并将其根源归结为文本嵌入空间的“零样本漂移”，即适应过程破坏了预训练的类间结构（Gram漂移）并使嵌入偏离了零样本锚点（大小漂移）。为解决此问题，作者提出了子空间调谐（SubT），一个几何约束的适应框架。SubT包含两个互补机制：1）结构化子空间参数化，通过对基类文本嵌入矩阵进行SVD分解并冻结类别相关坐标，仅学习共享的语义基变换，从而限制类间关系的任意变形；2）残差锚定，将适应后的嵌入与原始零样本嵌入进行残差连接，以稳定适应过程并限制漂移幅度。在推理时，学习到的基变换被全局转移到新类的零样本嵌入上，并通过子空间感知门控机制，根据新类与基子空间的对齐程度（β分数）来抑制负迁移。在11个音频基准测试上的实验表明，SubT在保持参数高效和无需文本编码器反向传播的同时，显著优于现有方法，取得了最佳的平均调和平均精度，并提供了关于漂移控制、组件贡献和跨域迁移失败案例的深入分析。 🔗 开源详情代码：论文未提供自身代码的开源链接。但详细引用了所有基线方法的代码仓库，链接见论文原文。模型权重：论文未提供预训练模型（Pengi, CLAP, CLIP）或适应后模型权重的具体下载链接。数据集：论文详细列出了11个音频数据集及ImageNet的来源、许可协议。具体信息如下： Beijing-Opera: MIT 许可，托管于 Hugging Face。 NS-Instruments: CC BY 4.0 许可，托管于 Hugging Face。 ESC50: CC BY-NC 3.0 许可，托管于 GitHub。 ESC50-Actions: CC BY-NC 3.0 许可，托管于 GitHub。 UrbanSound8K: CC BY-NC 4.0 许可，托管于 UrbanSound8K 网站。 CREMA-D: ODbL 1.0 许可，托管于 GitHub。 RAVDESS: CC BY-SA 4.0 许可，托管于 Zenodo。 SESA: CC BY 4.0 许可，托管于 Zenodo。 GT-Music-Genre: MIT 许可，托管于 Hugging Face。 VocalSound: CC BY-SA 4.0 许可，托管于 GitHub。 TUT2017: Non-commercial 许可，托管于 Zenodo。 ImageNet: Non-commercial 许可，托管于 ImageNet 网站。 Demo：论文中未提及。复现材料：论文提供了详细的复现信息，包括数据集划分、提示模板（表6）、实现细节（附录A.2, A.3）、训练超参数（附录A.3）以及评估协议。这些信息分散在正文和附录中，可用于复现实验。论文中引用的开源项目： Pengi: MIT 许可，链接：https://github.com/microsoft/Pengi CLAP: MIT 许可，链接：https://github.com/LAION-AI/CLAP CLIP: MIT 许可，链接：https://github.com/openai/CLIP CoOp: MIT 许可，链接：https://github.com/KaiyangZhou/CoOp CoCoOp: MIT 许可，链接：https://github.com/KaiyangZhou/CoCoOp KgCoOp: 许可未知，链接：https://github.com/y0ug/KgCoOp DePT: GPL-2.0 许可，链接：https://github.com/taozhiyu/DePT SEPT: 许可未知，链接：https://github.com/wonjunlee/SEPT CLIP-Adapter: 许可未知，链接：https://github.com/raoyongming/CLIP-Adapter 🏗️ 方法概述和架构 SubT是一个在预训练ALM的冻结文本嵌入空间中进行的小样本适应框架，其核心思想是通过几何约束来控制适应过程中的漂移，从而提升对新类的泛化能力。整个方法分为训练阶段和推理阶段，包含以下核心组件： ...

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（36 篇，按分数降序）排名论文总分分档主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Grounding Spoken LLMs in Multi-Speaker Audio via Diarization Conditioning

📄 Grounding Spoken LLMs in Multi-Speaker Audio via Diarization Conditioning #语音识别 #语音问答 #语音摘要 #多模态模型 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.5/10 | 前25% | #语音识别 | #参数高效微调 | #语音问答 #语音摘要 | arxiv 👥 作者与机构作者：Alexander Polok, Samuele Udupa, Sathvik Udupa, Jan Černocký, Shinji Watanabe, Lukáš Burget 机构：Speech@FIT, Brno University of Technology, Czechia；Language Technologies Institute, Carnegie Mellon University, USA ...

Learning task-specific subspaces via interventional post-training of speech foundation models

📄 Learning task-specific subspaces via interventional post-training of speech foundation models #自监督学习 #对比学习 #数据增强 #参数高效微调 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 6.2/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #数据增强 | arxiv 👥 作者与机构作者：Jack Cox (通讯作者), Jon Barker 机构：University of Sheffield, United Kingdom (英国谢菲尔德大学) 💡 毒舌点评这篇工作就像一个巧妙的玩具：想法（用TTS做可控干预数据来分离表示）很有趣，但玩具本身太小（32个训练说话人，合成数据），玩出来的结果（内容子空间性能下降）也未能完全证明其价值。论文像一篇扎实的课程项目报告，而非一篇能说服顶会审稿人的研究。最大的“惊喜”是内容子空间在关键任务上性能不升反降，这直接挑战了“联合学习能更好分离”的初衷。作者将此归因于预训练目标与下游任务不匹配，但这恰恰暴露了该方法的核心局限：它依赖于一个完美的、与任务无关的干预数据集，而这在现实中很难获得。总体而言，创新点值得鼓励，但实验的规模和深度严重不足，结论的普适性存疑。 📌 核心摘要本文针对语音基础模型表示信息纠缠的问题，提出了一种基于因果干预思想的后训练方法。核心是使用一个通过零样本TTS（F5-TTS）合成的、可密集控制内容和说话人变量的数据集，并设计一个多部分对比损失（干预对比学习）来联合学习两个正交子空间：内容子空间和说话人子空间。实验在wav2vec 2.0, HuBERT, WavLM三个骨干上进行，评估任务包括VoxCeleb1上的域外说话人验证和Speech Commands上的关键词识别。结果显示，所学说话人子空间能显著提升域外说话人验证性能，证明其有效分离了说话人信息；然而，内容子空间在关键词识别任务上性能下降，表明其未能有效保留或增强任务所需的内容信息。联合学习两个子空间相比单独学习未显示出明显优势。 ...

Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction

📄 Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction #语音合成 #语音识别 #流式处理 #多任务学习 #自监督学习 #参数高效微调 #实时处理 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #多任务学习 | #语音识别 #流式处理 | arxiv 👥 作者与机构 Tristan Tsoi, Jiajun Deng, Yingke Zhu, Huu Quyen Dang, Tianxiang Cao, Nikita Kuzmin, Tao Zhong, Simon Lui 华为中央媒体技术学院, 香港中文大学, 南洋理工大学 ...

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分前25% - 7. Are you speaking my languages? On spoken language adher 8.0分后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Confidence Score Guided Incremental and Speaker Adaptive Pseudo-Labeling for Semi-Supervised Elderly Speech Recognition

📄 Confidence Score Guided Incremental and Speaker Adaptive Pseudo-Labeling for Semi-Supervised Elderly Speech Recognition #语音识别 #参数高效微调 #低资源 #数据增强 #课程学习 7.2/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #数据增强 | arxiv 👥 作者与机构作者：Chengxi Deng, Xurong Xie, Shujie Hu, Jiajun Deng, Mengzhe Geng, Youjun Chen, Huimeng Wang, Haoning Xu, Guinan Li, Xunying Liu。机构：1. 香港中文大学；2. 中国科学院软件研究所；3. 加拿大国家研究委员会。 ...

Decoding while Adapting: Zero-Shot Online Speaker Adaptation via Audio-Textual Prompts for Elderly Speech Recognition

📄 Decoding while Adapting: Zero-Shot Online Speaker Adaptation via Audio-Textual Prompts for Elderly Speech Recognition #语音识别 #提示学习 #低资源 #参数高效微调 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音识别 | #提示学习 | #低资源 #参数高效微调 | arxiv 👥 作者与机构作者列表（按论文顺序）： Chengxi Deng, Xurong Xie, Shujie Hu, Mengzhe Geng, Tianzi Wang, Youjun Chen, Huimeng Wang, Haoning Xu, Jiajun Deng, Xunying Liu 机构： ...