参数高效微调

语音/音乐/音频论文速递 2026-07-21

语音/音乐/音频论文速递 2026-07-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音情感识别 3篇 ███ #音频理解 3篇 ███ #语音伪造检测 2篇 ██ #语音翻译 2篇 ██ #说话人验证 2篇 ██ #音频事件检测 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜（34 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 HARP: Harmonic-Aware Residual Partitioning for Neural A 9.6分前10% 方法研究 #音频编码 🥈 SALMONN-2: Advancing General-Purpose Hearing Abilities 9.4分前10% 模型报告 #音频理解 🥉 Pseudo-label distillation for discriminative anomalous 9.0分前10% 方法研究 #音频事件检测 4. ESCUCHA: A Spanish Speech Benchmark for Heterogeneous A 8.8分前25% 数据集与基准 #基准测试 5. RealDESED: A Real-World Domestic Sound Event Detection 7.9分前25% 数据集与基准 #音频事件检测 6. FlowSonic: Stable Zero-Shot Music Editing via High-Orde 7.9分前25% 方法研究 #音乐生成 7. Time-Frequency Consistency Learning for Robust Speech D 7.9分前25% 方法研究 #语音伪造检测 8. AMECxSV: Adaptive Metadata-Driven Embedding-Fusion Cali 7.8分前25% 方法研究 #说话人验证 9. X-Translator: A Real-Time Multilingual Speaker-Aware Sp 7.8分前25% 系统技术报告 #语音翻译 10. Dense-Sparse Dynamic Time Warping for Customizing Piano 7.8分前25% 系统技术报告 #音乐源分离 11. Do Speech Tokens Leak Voiceprints? Speaker Inversion At 7.7分前25% 方法研究 #说话人验证 12. Is One Score Enough? Assessing Singing Quality of Songs 7.6分前25% 方法研究 #音乐理解 13. FlashRT: Agent Harness for Guiding Agents to Deploy Rea 7.5分前25% 系统技术报告 #音视频生成 14. AI_LectureNote: A Retrospective Pilot Study of a Post-A 7.2分前50% 系统技术报告 #语音识别 15. Should Missing Modalities Always Be Necessary to Repair 7.0分前50% 方法研究 #多模态模型 16. Re-Sonance: A Dysarthric Asynchronous Real-Time Speech 6.9分前50% 系统技术报告 #语音转换 17. NABEATs: Noise-Aware Audio Representation Learning 6.7分前50% 方法研究 #音频理解 18. When to Use Extra Context: Evidence-Grounded Terminolog 6.7分前50% 系统技术报告 #语音翻译 19. How Reliable Are Multimodal Signals of Conversational S 6.6分前50% 方法研究 #鲁棒性 20. SSTMark: Robust Training-Free Semantic-Level Speech Wat 6.5分前50% 系统技术报告 #音频水印 21. The tttAI System for the TSA-ASR Task of the SmartGlass 6.5分前50% 系统技术报告 #说话人日志 22. Audio Cross Verification Using Dual Alignment Likelihoo 6.5分前50% 方法研究 #音频伪造检测 23. Component-Level Ensemble Fusion for Speech and Environm 6.4分前50% 系统技术报告 #语音伪造检测 24. Adaptive Momentum Enhanced Distributed Multichannel Act 6.3分前50% 应用研究 #音频理解 25. Robust Summarization of Doctor-Patient Conversations: T 6.3分前50% 系统技术报告 #语音交互 26. An Audio Language Model-Based Voice Concept Bottleneck 6.2分前50% 应用研究 #语音质量评估 27. FillGauss: Fine-Grained Filling-Aware Impact Sound Gene 6.2分前50% 方法研究 #音频生成 28. Harness TTS: Towards Context-Aware Expressive Speech Sy 6.2分前50% 方法研究 #语音合成 29. Modeling turn-taking with distant viewing: investigatin 6.2分前50% 系统技术报告 #音视频 30. Efficient Audio-Visual Event Recognition via Knowledge 5.8分前50% 方法研究 #音视频理解 31. Multi-Level Privacy-Preserving Dementia Detection from 5.5分前50% 方法研究 #语音属性识别 32. Explainable Lightweight Compact Deep Models for Speech 5.4分后50% 方法研究 #语音情感识别 33. Team RAS in 11th ABAW Competition: Multimodal Ambivalen 5.3分后50% 系统技术报告 #语音情感识别 34. EII-SCL: Harnessing Emotional Inertia for Multimodal Em 5.2分后50% 方法研究 #语音情感识别 📋 论文列表 🥇 HARP: Harmonic-Aware Residual Partitioning for Neural Audio Codecs 9.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Large Audio Language Models for Spoofing-Aware Speaker Verification

📄 Large Audio Language Models for Spoofing-Aware Speaker Verification 标签：#音频大模型 #语音伪造检测 #参数高效微调 #多任务学习 #音频理解 6.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.2/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音伪造检测 | #音频大模型 | #参数高效微调 #多任务学习 | arxiv 👥 作者与机构第一作者：Sofya Savelyeva（Applied AI Institute）通讯作者：Dmitrii Korzh（AXXX， MTUCI）作者列表：Sofya Savelyeva（Applied AI Institute）、Mariia Perunova（MIRAI）、Evgeny Kushnir（AXXX， HSE； Applied AI Institute）、Artem Dvirniak（MIRAI）、Dmitrii Korzh（AXXX， MTUCI）、Oleg Y. Rogov（AXXX， Applied AI Institute； MTUCI） 💡 毒舌点评本文首次将大型音频语言模型系统性地引入欺骗感知说话人验证（SASV）这一重要安全领域，框架设计周密，实验消融详实，展示了通过组合多项损失和训练策略来平衡ASV与CM任务的有效路径。然而，论文在影响力上稍显克制——尽管在受控协议下取得了有竞争力的结果，但未与当前最优的强基线在官方基准上进行直接对比，且全部闭源，使得其宣称的“有前景的基石”难以被社区快速验证和跟进。此外，对模型生成推理链质量的“可解释性”声称，因缺乏系统的人类评估而略显空洞。 ...

语音/音乐/音频论文速递 2026-07-17

语音/音乐/音频论文速递 2026-07-17 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 3篇 ███ #多模态模型 2篇 ██ #语音合成 2篇 ██ #语音伪造检测 1篇 █ #语音分离 1篇 █ #音视频理解 1篇 █ #音视频生成 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（15 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 Can Tokens Compete? Token Representations against Super 8.3分前25% 系统技术报告 #音频事件检测 🥈 SLT 2026 REAL-TSE Challenge: Real-world Target Speaker 8.1分前25% 系统技术报告 #语音分离 🥉 MIDI-RAE-JEPA: Hierarchical Representation Learning and 7.9分前25% 系统技术报告 #音乐生成 4. RW-Voice-EQ Bench: A Real World Benchmark for Evaluatin 7.9分前25% 数据集与基准 #语音合成 5. Dialogs: a studio-quality expressive conversational Rus 7.8分前25% 数据集与基准 #语音合成 6. WanSong v1.0 Technical Report 7.6分前25% 系统技术报告 #音乐生成 7. InCarEmo: A Multimodal Dataset for In-Cabin Emotion Rec 7.3分前50% 数据集与基准 #多模态模型 8. What does the model actually see? Evaluation protocols 7.2分前50% 方法研究 #音频质量评估 9. SceneBind: Binding What and Where Across Vision, Audio 6.6分前50% 方法研究 #音视频理解 10. ITGPT: A Transformer Based Architecture for the Generat 6.5分前50% 系统技术报告 #音乐生成 11. AlphaWiSE: Adaptive Weight Interpolation for Continual 6.4分前50% 方法研究 #音频检索 12. MultiRef-Compass: Towards Comprehensive Evaluation of M 6.3分前50% 数据集与基准 #音视频生成 13. Large Audio Language Models for Spoofing-Aware Speaker 6.2分前50% 方法研究 #语音伪造检测 14. Stop Thinking, Start Looking: Efficient Post-Training f 5.6分前50% 方法研究 #多模态模型 15. Video = World + Event Stream 4.9分后50% 系统技术报告 #音频理解 📋 论文列表 🥇 Can Tokens Compete? Token Representations against Supervised CNN Backbones for BirdCLEF+ 2026 8.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Bring Music The Horizon: Music-Driven 360^\circ Video Generation

📄 Bring Music The Horizon: Music-Driven 360^\circ Video Generation 标签：#生成模型 #音视频生成 #扩散模型 #参数高效微调 #音频理解 5.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.3/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 📝 5.3/10 | 后50% | 文档类型：系统技术报告 | 评分置信度：高 | #音视频生成 | #生成模型 | #扩散模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Kai Hsu Tsai（National Yang Ming Chiao Tung University, Department of Computer Science）通讯作者：未说明作者列表：Kai Hsu Tsai（National Yang Ming Chiao Tung University, Department of Computer Science）、Yong Wei Fu（National Yang Ming Chiao Tung University, Department of Computer Science）、Hung I Yang（National Yang Ming Chiao Tung University, Department of Computer Science）、Yu-Chih Chen（National Yang Ming Chiao Tung University, Department of Computer Science） 💡 毒舌点评将音乐情感驱动的生成与360度沉浸式视频结合，提出了一个有吸引力的应用问题。然而，整个工作更像一个初步的工程可行性验证（Proof-of-Concept），而非严谨的研究论文——关键实验、定量评估和复现细节几乎全部缺失，使其贡献停留在了“想法”层面。 ...

语音/音乐/音频论文速递 2026-07-16

语音/音乐/音频论文速递 2026-07-16 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 3篇 ███ #声源定位 2篇 ██ #音乐理解 2篇 ██ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音情感识别 1篇 █ #语音翻译 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 AVSCap: Orchestrating Audio-Visual Synergy for Omni-mod 9.2分前10% 方法研究 #音视频理解 🥈 MetaPerch: Learning from metadata for bioacoustics foun 9.0分前10% 方法研究 #音频分类 🥉 Auditing Protocol-Level Shortcuts in Large Audio Langua 8.2分前25% 系统技术报告 #语音质量评估 4. Self-supervised Speech Comparison for L2 Phone, Rhythm, 7.7分前25% 方法研究 #音频理解 5. Efficient Text-to-Audio Generation via Pruning 7.6分前25% 方法研究 #音频生成 6. From Prediction to Collaboration: Interactive Symbolic 7.5分前25% 系统技术报告 #音乐理解 7. Live Gurbani Tracking: A Benchmark and Reference System 7.4分前50% 系统技术报告 #音频字幕生成 8. Music-to-Dance Generation via Atomic Movements 7.4分前50% 方法研究 #音乐生成 9. Improving Text-to-Audio Instruction Following via Fine- 7.2分前50% 方法研究 #音频生成 10. Cover First, Disagree Softly: Rethinking Mismatch-First 6.7分前50% 方法研究 #音频事件检测 11. Rethinking Speech Foundation Model Fine-tuning: Better 6.7分前50% 方法研究 #语音情感识别 12. VIP-MINGLE: A Corpus for Videoconference and In-Person 6.5分前50% 数据集与基准 #音频理解 13. A Hybrid Mamba for Audio-Visual Navigation 6.3分前50% 方法研究 #声源定位 14. Greedy Volume Maximization of Gradient Embeddings for L 6.3分前50% 方法研究 #音频分类 15. From Continuous Deployment to Queryable Dataset: Teraby 6.1分前50% 系统技术报告 #音频理解 16. Adapting a Diffusion-Based Music Synthesis Model to Hum 6.0分前50% 方法研究 #语音转换 17. Genre Bias or Aesthetic Perception? Identifying and Mit 6.0分前50% 方法研究 #音乐理解 18. Do LLMs Need Architectural Changes for Simultaneous Spe 5.7分前50% 方法研究 #语音翻译 19. Bring Music The Horizon: Music-Driven 360\(^\circ\) Video 5.3分后50% 系统技术报告 #音视频生成 20. Task-Oriented Sensing and Covert Transmissions for Coll 4.9分后50% 方法研究 #声源定位 📋 论文列表 🥇 AVSCap: Orchestrating Audio-Visual Synergy for Omni-modal Video Captioning 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Audio-Native Speech Recognition with a Frozen Discrete-Diffusion Language Model

📄 Audio-Native Speech Recognition with a Frozen Discrete-Diffusion Language Model 标签：#语音识别 #扩散模型 #参数高效微调 #多语言 #音频理解 5.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 5.7/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #扩散模型 | #参数高效微调 #多语言 | arxiv 👥 作者与机构第一作者：Harsha Vardhan Khurdula (Interfaze AI) 通讯作者：未说明作者列表：Harsha Vardhan Khurdula (Interfaze AI), Abhinav Kumar Singh (Interfaze AI), Yoeven D Khemlani (Interfaze AI), Vineet Agarwal (Interfaze AI) 💡 毒舌点评本文最核心的卖点——“音频原生”和“长度无关成本”——在论文所展示的实验结果下显得苍白无力。一个在仅219小时数据上训练、性能全面落后于同等规模自回归基线的系统，其“可行性证明”的意义大于实用价值。关键创新CTC接地技巧是一个聪明的工程补救，但更像是在掩盖一个根本性问题：用一个为文本设计的、未针对语音模态预训练的冻结大模型做ASR，是否是一条高效路径？作者将性能瓶颈归咎于“数据规模”，这是一个典型的未经验证的“未来可期”声明，在缺乏任何数据缩放实验的情况下，这更像是为当前不佳性能的开脱。更致命的是，核心依赖的26B DiffusionGemma模型虽被描述为“open-weight”，但本文并未提供其适配器权重或训练代码，使得任何复用或深入研究都无从谈起。这篇论文本质上是一个有趣但昂贵的玩具，展示了一种可能，但离改变现状相距甚远。 ...

语音/音乐/音频论文速递 2026-07-15

语音/音乐/音频论文速递 2026-07-15 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐理解 3篇 ███ #声源定位 2篇 ██ #语音伪造检测 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #语音识别 2篇 ██ #说话人日志 2篇 ██ #音频事件检测 2篇 ██ 📊 论文评分排行榜（25 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedb 8.8分前25% 方法研究 #音乐生成 🥈 Contrasting statistical patterns in melodic and molecul 8.7分前25% 方法研究 #音乐理解 🥉 Open-Source Intelligence and Music Information Retrieva 7.9分前25% 应用研究 #音乐理解 4. HSEmotion Team at the 11th ABAW Challenge: Multi-Task L 7.9分前25% 系统技术报告 #音视频 5. Low-Latency Neural Models for Real-Time Music Enhanceme 7.7分前25% 系统技术报告 #音乐源分离 6. Do We Really Need Multimodal Emotion Language Models La 7.4分前50% 方法研究 #语音情感识别 7. ZipL-Dialog: Memory-Efficient Long-Form Spoken Dialog S 7.3分前50% 系统技术报告 #语音合成 8. The Sound of Absence: Audio-Language Embedding Models S 7.1分前50% 系统技术报告 #音频检索 9. Real-time Generation of Listener Nodding via Prediction 6.9分前50% 方法研究 #语音交互 10. Spatial-Frequency Cued Generative Fixed-Filter Active N 6.9分前50% 方法研究 #声源定位 11. UD-ASD: A Unified Diffusion Model for Anomalous Sound D 6.6分前50% 方法研究 #音频事件检测 12. Investigating the Integration of Spatial Information in 6.6分前50% 方法研究 #说话人日志 13. Segregate, Refine, Integrate: Decomposing Multimodal Fu 6.5分前50% 方法研究 #音频事件检测 14. AutoSIFT: Automatic Style Sifting for Controllable Spee 6.5分前50% 方法研究 #语音合成 15. Listen first: Output-based multi-microphone speech enha 6.4分前50% 方法研究 #语音增强 16. Neural Morphing: Sequence-Optimized Token-Level Morphin 6.4分前50% 系统技术报告 #音频编码 17. Hybrid Continual Learning for Low-Resource Australian A 6.3分前50% 方法研究 #语音识别 18. Explainable-by-Design Audio Deepfake Detection via Wien 6.1分前50% 方法研究 #语音伪造检测 19. Traceback Translators Against Forgetting in Continual F 6.0分前50% 方法研究 #语音伪造检测 20. Automated Synthesis of Facial Mechanisms for Conversati 5.9分前50% 系统技术报告 #音频理解 21. PolarBM: Complex-valued Boltzmann Machine for Modeling 5.8分前50% 方法研究 #语音增强 22. Audio-Native Speech Recognition with a Frozen Discrete- 5.7分前50% 方法研究 #语音识别 23. What is a Musical Scale? Regularity and Convention in t 5.6分前50% 理论研究 #音乐理解 24. DOA Estimation from One-Bit Magnitude-Only Measurements 5.1分后50% 方法研究 #声源定位 25. Audio Diarization: A New Paradigm for Exploring Audio R 4.5分后50% 方法研究 #说话人日志 📋 论文列表 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedback for Rhythm-Game Chart Generation 8.8/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Breaking the Quality--Intelligibility Trade-off in Streaming Target Speaker Extraction via Deep-Feature-Anchored Preference Optimization

📄 Breaking the Quality–Intelligibility Trade-off in Streaming Target Speaker Extraction via Deep-Feature-Anchored Preference Optimization 标签：#语音分离 #语音大模型 #流式处理 #参数高效微调 #音频理解 6.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音分离 | #语音大模型 | #流式处理 #参数高效微调 | arxiv 👥 作者与机构第一作者：Shuhai Peng（清华大学）通讯作者：Zhiyong Wu（清华大学）作者列表：Shuhai Peng（清华大学）、Jinjiang Liu（清华大学，共同一作）、Hui Lu（清华大学）、Liyang Chen（香港中文大学）、Guiping Zhong（商汤科技）、Jiakui Li（清华大学）、Shiyin Kang（清华大学）、Zhiyong Wu（清华大学） 💡 毒舌点评论文对问题的诊断深刻：揭示了流式生成式TSE中“质量-可懂度”权衡源于直接优化感知指标（如DNSMOS）引发的“奖励黑客攻击”，模型通过抑制对可懂度至关重要的辅音来最大化评分。提出的WavLM深度特征锚定的DPO微调方案是一个巧妙、可验证的解决方案，实验设计（特别是控制变量对比三种DPO变体）极具说服力，清晰展示了锚点选择的核心作用。主要短板在于验证的广度与深度：仅在相对干净的合成数据集Libri2Mix上评估，缺乏真实复杂场景的验证；核心贡献完全依赖未开源的基线模型和代码，严重影响社区复现和后续研究。 ...

Efficiently Adapting Spoken Language Models for the Singaporean Context

📄 Efficiently Adapting Spoken Language Models for the Singaporean Context 标签：#语音交互 #参数高效微调 #语音识别 #低资源 #音频理解 6.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音交互 | #LoRA | #参数高效微调 #语音识别 | arxiv 👥 作者与机构第一作者：Ng Jia Sheng Jason（Home Team Science & Technology Agency (HTX), Singapore，Language AI R&D）通讯作者：Ng Jia Sheng Jason（Home Team Science & Technology Agency (HTX), Singapore，Language AI R&D）作者列表：Ng Jia Sheng Jason（Home Team Science & Technology Agency (HTX), Singapore，Language AI R&D） 💡 毒舌点评本文最大亮点在于针对新加坡政府敏感部门的具体需求，扎实地构建了一整套实用的工程流水线，从数据（HTD-multilingual-QA）到适配策略（LoRA + CoBa），最终产出了性能有竞争力的HT-Moonstone模型，对垂直领域的工业落地有明确参考价值。主要短板在于技术上的“组合创新”多于“原生创新”，LoRA、代理数据集、多任务加权等均为成熟技术，且未能开源核心产物，使其影响力大打折扣。 ...

Teaching Speech Enhancement Models to Sing: Domain Adaptation from Speech Enhancement to Singing Voice Separation

📄 Teaching Speech Enhancement Models to Sing: Domain Adaptation from Speech Enhancement to Singing Voice Separation 标签：#音乐源分离 #参数高效微调 #语音增强 #领域适应 #低资源 6.7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音乐源分离 | #LoRA | #参数高效微调 #语音增强 | arxiv 👥 作者与机构第一作者：Paul A. Bereuter (Graz University of Technology, Signal Processing and Speech Communication Laboratory) 通讯作者：未说明作者列表：Paul A. Bereuter (Graz University of Technology, Signal Processing and Speech Communication Laboratory), Mark D. Plumbley (Centre for Vision, Speech and Signal Processing, University of Surrey), Alois Sontacchi (Graz University of Technology, Signal Processing and Speech Communication Laboratory) 💡 毒舌点评论文将语音增强模型迁移到歌唱声音分离的框架清晰，LoRA平衡性能与遗忘的验证扎实，但本质是现有技术（预训练+微调）在特定音频子域的应用研究。主要短板在于：1）声称揭示了生成模型更强的泛化性，但仅凭单一域外测试集（MSRBench）的有限提升，结论支撑不足；2）与参照模型MelRoFo (L)差距显著，且承认非SOTA目标，削弱了影响力；3）未能深入分析SE与SVS的“域”究竟在何处异同，迁移有效性止于性能数字对比。 ...