参数高效微调

How to Leverage Synthetic Speech for LLM-Based ASR Systems?

📄 How to Leverage Synthetic Speech for LLM-Based ASR Systems? #语音识别 #数据增强 #参数高效微调 8.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音识别 | #数据增强 | #参数高效微调 | arxiv 👥 作者与机构 Yanis Labrak1, Dairazalia Sanchez-Cortes1, Sergio Burdisso1, Séverin Baroudi2, Shashi Kumar1,3, Esaú Villatoro-Tello1, Srikanth Madikeri4, Manjunath K E5, Oldřich Plchot6, Kadri Hacioğlu5, Petr Motlicek1,6, Andreas Stolcke5 机构：1. Idiap Research Institute (推测), 2. 未知, 3. 未知, 4. 未知, 5. 未知, 6. 未知。（注：原文未明确列出所有作者对应机构，分析中不编造） ...

LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features

📄 LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features #参数高效微调 #大语言模型 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 7.5/10 | 前50% | #参数高效微调 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构作者：Jonghyeon Park, Olivier Jiyoun Jung, Myungwoo Oh 机构：1 NAVER Cloud, South Korea；2 Division of Communication and Media, Ewha Womans University, South Korea ...

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

📄 Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean #语音合成 #参数高效微调 #低资源 #扩散模型 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6/10 | 后50% | #语音合成 | #参数高效微调 | #低资源 #扩散模型 | arxiv 👥 作者与机构 Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn 机构：柬埔寨数字研究与创新研究所、韩国相关机构（论文未明确列出具体机构全称） ...

Listening Like a Judge: A Music-Aware Framework for Automatic Singing Performance Evaluation

📄 Listening Like a Judge: A Music-Aware Framework for Automatic Singing Performance Evaluation #多模态模型 #参数高效微调 #数据增强 #信号处理基础 8.8/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.8/10 | 前25% | 歌唱评估 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 👥 作者与机构作者：Neelam Saini, Sourav Ghosh 机构：Samsung R&D Institute Bangalore, India 💡 毒舌点评这篇工作试图解决歌唱评估这个“众口难调”的问题，想法不错。MG-LoRA算是个有用的工程技巧，让Whisper在唱歌时少犯点错。但问题在于，你号称“Judging like a human”，可人类评委听歌时脑子里装的可不只是音高和歌词。论文用全局调性来评判所有段落的音准，这就像让一个只会用A调吉他的人去评判爵士乐里的转调和即兴，过于简单粗暴。另外，SwaraLyrics数据集虽然贴出来了，但只有420个印度音乐样本，以此宣称“跨语言、跨风格”的泛化能力，说服力就像说“我吃过北京烤鸭，所以我懂中餐”一样。最后，框架里用的gpt-oss-120b和all-MiniLM-L6-v2这些组件，论文只说用，没说怎么调、效果如何，复现起来得靠猜。整体是个扎实的工程实现，但离真正的“智能评委”还有距离。 ...

SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages

📄 SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages #语音识别 #对比学习 #参数高效微调 #多语言 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #对比学习 | #参数高效微调 #多语言 | arxiv 👥 作者与机构作者：Subham Kumar, Prakrithi Shivaprakash, Abhishek Manoharan, Astut Kurariya, Diptadhi Mukherjee, Prabhat Chand, Pratima Murthy, Koustav Rudra, Lekhansh Shukla, Animesh Mukherjee 机构：印度理工学院卡拉格普尔分校（IIT Kharagpur），国家心理健康与神经科学研究所（NIMHANS, Bangalore），卢加德·邦迪亚拉地区精神病学研究所（LGBRIMH, Tezpur） ...

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文总分分档主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

📄 Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models #语音识别 #语音翻译 #参数高效微调 #多模态模型 #低资源 5.8/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #语音翻译 #多模态模型 | arxiv 👥 作者与机构 Tomoya Mizumoto, Yusuke Fujita, Hao Shi, Lianbo Liu, Atsushi Kojima, Yui Sudo. （作者所属机构未在提供的原文片段中明确提及） 💡 毒舌点评这篇文章就像一个精心设计的“方言压力测试”。它思路清晰，实验控制得当，像个规规矩矩的优等生作业，把“SLM继承LLM能力”和“数据/微调有用”这两个直觉验证得漂漂亮亮。但问题在于，这个“压力测试”的跑道（翻译任务）太窄，沙坑（CPJD数据集）太小，连计时器（TTS标准语音）都可能不准。结果就是，你得到了一份关于“如何在特定小跑道上跑得更稳”的精致报告，但对于“方言问题到底有多复杂、在真实世界中如何解决”的宏大命题，贡献就比较有限了。它证明了一些常识，但缺乏让人“Wow”的突破或深刻的洞见。分数给高了对不起那些真正硬核的创新，给低了又委屈了它的严谨和工整，所以卡在中间。 ...

Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection

📄 Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection #语音伪造检测 #自监督学习 #参数高效微调 #低资源 #鲁棒性 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.6/10 | 前50% | #语音伪造检测 | #自监督学习 | #参数高效微调 #低资源 | arxiv 👥 作者与机构作者：Zihan Pan, Hardik Sailor, Jinyang Wu 机构：新加坡科技研究局 (A*STAR) 信息通信研究院 (I2R) 💡 毒舌点评这篇论文在特定赛道（单模型无增强）刷了SOTA，看起来不错。但仔细一想，这所谓的“监督后训练”不就是个精心设计的、分阶段的微调策略吗？创新性被高估了。论文把“混合帧扰动”包装得很厉害，但本质是数据层面的一种增强手段，只是换了个名字叫“post-training”。更让人皱眉的是，方法论部分写得像在绕迷宫，公式列了一堆但关键直觉阐述不清，比如为什么帧级标签分配要依据中心样本（公式3）？这个设计选择缺乏足够的动机论证。另外，在ASV21上只比别人好了一丢丢（gap从0.34降到0.16），但论文却大书特书其“平衡的鲁棒性”，有过度claim之嫌。总之，这是一篇工程上做了不少工作（值得肯定），但理论洞察和叙事都有提升空间的论文。 ...

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...