LoRA | 语音/音乐/音频论文速递

Audio Sentiment Analysis via Distillation and Cross-Modal Integration of Generated Multilingual Transcripts

📄 Audio Sentiment Analysis via Distillation and Cross-Modal Integration of Generated Multilingual Transcripts #语音情感识别 #知识蒸馏 #多语言 #多模态模型 #LoRA 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #语音情感识别 | #知识蒸馏 | #多语言 #多模态模型 | arxiv 👥 作者与机构第一作者：Andrei-George Durdun（罗马尼亚布加勒斯特大学计算机科学系，PPC Romania 数据科学部）通讯作者：Radu Tudor Ionescu（罗马尼亚布加勒斯特大学计算机科学系）作者列表：Andrei-George Durdun（布加勒斯特大学，PPC Romania）、Victor Constantinescu（布加勒斯特大学，PPC Romania）、Radu Tudor Ionescu（布加勒斯特大学） 💡 毒舌点评这篇论文的卖点是“ASR→NMT全自动生成多语种文本”作为特权信息，让多模态教师吃香喝辣，然后蒸馏出一个纯音频学生来零额外开销推理。想法本身是讨巧的工程设计，但深究下去就发现问题不少。教师模型加入了自动生成的多语种文本后，相比纯音频基线确实有约5.9个百分点的F1跃升，证明多模态信号真香。可一到蒸馏阶段，知识就像被漏斗卡住了，学生只拿到区区1.5个百分点的提升。教师辛辛苦苦学到的跨模态知识，绝大部分在转移过程中蒸发，蒸馏效率堪称惨淡。更令人不安的是，论文完全没有跟领域内其他多模态融合方法（MulT、SUMMER等）或蒸馏方案进行对比，读者根本判断不出这个CCMT教师本身算不算强基线，蒸馏效率低究竟是方法问题还是任务难度问题。所有实验只挂在一棵树上——MSP-Podcast一个英文数据集，多语种翻译的跨语言泛化性连影子都没见着。方法工程痕迹偏重，科学洞察有限，适合发在偏应用的会议，顶会级别还需补大量对比实验和深入分析。 ...

语音/音乐/音频论文速递 2026-07-09

语音/音乐/音频论文速递 2026-07-09 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐理解 2篇 ██ #基准测试 1篇 █ #语音交互 1篇 █ #语音情感识别 1篇 █ #语音活动检测 1篇 █ #音乐生成 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文总分分档主任务 🥇 MMGenre: Benchmarking Singing Voice Synthesis across Mu 8.3分前25% #基准测试 🥈 Decoupling Conversational Dynamics in Full-Duplex Spoke 8.2分前25% #语音交互 🥉 MADB: A Large-Scale Music Aesthetics Dataset with Profe 8.1分前25% #音乐理解 4. Gradient-Based Speech-to-Text Alignment for Any ASR Mod 7.3分前50% #语音识别 5. UBG-Net: An Uncertainty-aware Bayesian Gating Network f 7.1分前50% #语音识别 6. Compress the Cache, Not the Speech Embedding: KV Compre 7.0分前50% #语音识别 7. Audio Sentiment Analysis via Distillation and Cross-Mod 6.9分前50% #语音情感识别 8. Multimodal Voice Activity Projection for Turn-Taking in 6.7分前50% #语音活动检测 9. Extending Xenakis: From Architectural Geometry to Sonif 5.6分前50% #音乐生成 10. Text-Independent Speaker Verification Using Discrete Au 5.2分后50% #说话人验证 11. Transformer-based segmentation of prosodic boundaries i 4.0分后50% #语音识别 12. Rag Classification of Tagore Songs using Symbolic Music 3.0分后50% #音乐理解 13. EscFOA: Enhancing Spatial Learning for Visually Impaire 2.8分后50% #教育 📋 论文列表 🥇 MMGenre: Benchmarking Singing Voice Synthesis across Multiple Musical Genres 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ...

CARD: Cross-component Audio Representation Distillation for Encoder-Free Audio Captioning

📄 CARD: Cross-component Audio Representation Distillation for Encoder-Free Audio Captioning #音频字幕生成 #知识蒸馏 #LoRA #音频理解 #参数高效微调 6.3/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | #音频字幕生成 | #知识蒸馏 | #LoRA #音频理解 | arxiv 👥 作者与机构第一作者：Ganesh Pavan Kartikeya Bharadwaj Kolluri（University of Kent, UK）通讯作者：未明确标注作者列表：Ganesh Pavan Kartikeya Bharadwaj Kolluri（University of Kent）、Yuchen Zhang（University of Kent; Queen Mary University of London）、Michael Kampouridis（University of Kent）、Ravi Shekhar（University of Kent; Queen Mary University of London） 💡 毒舌点评这篇论文提出了一个有趣且直觉合理的洞察：在蒸馏编码器知识到无编码器模型时，将低层感知表征给投影器、高层语义表征给语言模型，这种"按需分配"的策略确实有效。然而，尽管消融实验干净地证明了蒸馏位置的重要性，模型在AudioCaps上与保留编码器的基线仍有11个CIDEr-D点的巨大鸿沟，无编码器方法的实用化依然道阻且长，且全文未提及代码和模型的开源承诺，让"摆脱编码器"这个卖点在复现面前变得脆弱。 ...

语音/音乐/音频论文速递 2026-07-07

语音/音乐/音频论文速递 2026-07-07 共分析 58 篇论文 ⚡ 今日概览 📥 抓取 58 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 11篇 ███████████ #语音伪造检测 5篇 █████ #音频理解 4篇 ████ #语音交互 3篇 ███ #音频事件检测 3篇 ███ #语音转换 3篇 ███ #音视频理解 3篇 ███ #语音合成 3篇 ███ 📊 论文评分排行榜（58 篇，按分数降序）排名论文总分分档主任务 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1分前10% #音频检索 🥈 SPEARBench: A Benchmark for Naturalness Evaluation in S 8.9分前25% #语音交互 🥉 Metronome: Bound the Cache, Keep the Beat for Real-Time 8.7分前25% #语音交互 4. Auto-AEG: Scalable Data Construction for Open-Vocabular 8.3分前25% #音频事件检测 5. RABBiT: Rapidly adaptive BOLD foundation model via brai 8.1分前25% #音频理解 6. TRACE-EVC: Text-Guided Relative Affective Control for Z 8.0分前25% #语音转换 7. Parallelized Autoregressive Decoding for Omni-Modal Den 8.0分前25% #音视频理解 8. Speaker-Disentangled Chunk-Wise Regression for Syllabic 7.9分前25% #语音编码 9. Speaker-Aware Temporal Aggregation Strategies on Segmen 7.9分前25% #语音属性识别 10. REDDIT: Correcting Model-Generated Timestamp Drift in A 7.8分前25% #语音识别 11. Deriving Benchmarking Datasets from Long-Form Recording 7.7分前25% #基准测试 12. ProPS: Prompted Profile Synthesis for Natural Language- 7.6分前25% #语音合成 13. DELTA-TTS: Adapting Autoregressive Model into Diffusion 7.5分前25% #语音合成 14. TokAN: Accent Normalization Using Self-Supervised Speec 7.5分前25% #语音转换 15. Listen, Think, Transcribe: Continuous Latent Test-Time 7.5分前25% #语音识别 16. \(C^3\)ASD: Multi-Level Consistency-Driven Representation 7.5分前25% #音视频理解 17. Training-Free Model Selection and Domain-Aware Score Ca 7.3分前50% #音频事件检测 18. CHILDES-Aligned: A Curated Children's Speech Datase 7.2分前50% #语音识别 19. Taste-aware music retrieval from audio embeddings 6.9分前50% #音乐检索 20. Lights, Camera, Carbon: Architectural Scaling Laws for 6.9分前50% #音视频生成 21. Unified Audio Intelligence Without Regressing on Text I 6.8分前50% #音频交互 22. Ranking the Impact of Contextual Specialization in Neur 6.7分前50% #语音增强 23. SynSFX: Multi-Model Sound Effects Synthesis Dataset for 6.5分前50% #音频伪造检测 24. Evaluating the Effect of Linguistic Relatedness on Cros 6.5分前50% #语音识别 25. MOSAIC: Interpretable Multi-Token Cross-Attention of Bi 6.3分前50% #语音伪造检测 26. CARD: Cross-component Audio Representation Distillation 6.3分前50% #音频字幕生成 27. Probing Low-Level Acoustic Attribute Encoding in CLAP A 6.2分前50% #音频理解 28. Trajectory Variance: AnUnsupervised Measure of Developm 6.2分前50% #音频理解 29. Adaptive Diversity-Uncertainty Active Learning with Red 6.2分前50% #音频事件检测 30. Adaptive Loss Balancing for Multi-Task Bioacoustic Clas 6.1分前50% #音频分类 31. An Intervention-Based Framework for Shortcut Diagnosis 6.1分前50% #语音伪造检测 32. QuaSR: Quality-Aware Sample Reweighting for Pacific Ind 6.0分前50% #语音识别 33. CaReCoS: A Spectrogram based Visual Benchmark for Cardi 6.0分前50% #音频理解 34. Open-Set Source Tracing as Compositional Factors via St 6.0分前50% #语音伪造检测 35. Context-Aware ASR for Mandarin Technical Lectures 6.0分前50% #语音识别 36. Streaming Neural Speech Codecs through Time-Invariant R 6.0分前50% #语音编码 37. Physiological Noise Augmentation Improves Non-Invasive 6.0分前50% #语音识别 38. DuplexChat: Constructing Speaker-Separated Full-Duplex 5.9分前50% #语音交互 39. Noisy Environment Adaptation of Neural Speech Codec via 5.9分前50% #语音增强 40. NouveauVoice: Generating Novel Pseudo Speakers for Voic 5.9分前50% #语音转换 41. OmniFocus: Query-Guided Modality-Balanced Token Compres 5.9分前50% #音视频问答 42. Jointly Improving Dialect Identification and ASR in Ind 5.8分前50% #语音识别 43. S-DiverSe: Spanish Diverse Speech 5.8分前50% #语音识别 44. Towards Robust Uncertainty-Aware Speaker Modeling 5.7分前50% #说话人验证 45. Towards Language-Agnostic Speech Inversion 5.6分前50% #语音属性识别 46. Layer-wise Cross-Lingual Depression Detection from Spee 5.5分前50% #语音情感识别 47. Wan-Streamer v0.2: Higher Resolution, Same Latency 5.4分后50% #音视频交互 48. Mixture-Constrained Max Pooling Improves Separation-Bas 5.3分后50% #音频分类 49. Reinforcement Learning for Data-Efficient Code-Switched 5.3分后50% #语音识别 50. Physics-Informed Direction-of-Arrival Estimation Over D 5.3分后50% #声源定位 51. Sampling Bias Compensation for Robust Evaluation of Aud 4.9分后50% #音频分类 52. UniSkip-Mamba: A Frequency-Aware State Space Model for 4.8分后50% #音视频理解 53. Progressive Refinement: An Iterative Pseudo-Labeling Ap 4.6分后50% #语音识别 54. Weakly Guided and Autoregressive Beamformer Parameteriz 4.3分后50% #语音分离 55. DETECT-3B-Omni is Agnostic of Content and Demographics 4.2分后50% #语音伪造检测 56. Towards Digital Preservation of Efik: TTS for a Low-Res 4.0分后50% #语音合成 57. Quantum-Inspired Harmonic Decision Models: A Computatio 2.3分后50% #音乐生成 58. Information-Geometric Superposed Vowel Evaluation: Part 1.9分后50% #语音伪造检测 📋 论文列表 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ...

CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks

📄 CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks #音视频理解 #参数高效微调 #LoRA #多模态模型 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.3/10 | 前25% | #音视频理解 | #参数高效微调 | #LoRA #多模态模型 | arxiv 👥 作者与机构第一作者：Wish Suharitdamrong（Surrey Institute for People-Centred AI, University of Surrey; Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey）通讯作者：Wish Suharitdamrong（ws00372@surrey.ac.uk）作者列表：Wish Suharitdamrong（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Tony Alex（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Muhammad Awais（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Sara Atito（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey） 💡 毒舌点评 CoLA 将 LoRA 的低秩分解巧妙扩展为双路径结构，为双编码器多模态适配提供了一条简洁的跨模态融合范式；视觉‑语言与音频‑视觉两组任务上的实验也较为扎实，并首次实现了基于 PEFT 的多任务视觉定位。然而，该方法本质上仍是对 LoRA 的线性外推，理论分析仅停留在秩和线性跨度层面，未能给出更深的表征交互机制；且跨模态路径在推理时不可合并带来的开销，在资源敏感场景中会成为硬伤。此外，损失函数完全缺失，复现存在实质性缺口。 ...

V-LynX: Token Interface Alignment for Video+X LLMs

📄 V-LynX: Token Interface Alignment for Video+X LLMs #音视频问答 #LoRA #参数高效微调 #多模态模型 7.8/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 7.8/10 | 前25% | #音视频问答 | #LoRA | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构第一作者：Jungin Park（Yonsei University, Seoul, South Korea）通讯作者：Jiyoung Lee（Ewha Womans University, Seoul, South Korea）、Kwanghoon Sohn（Yonsei University, Seoul, South Korea）作者列表：Jungin Park（Yonsei University）、Jiyoung Lee（Ewha Womans University）、Kwanghoon Sohn（Yonsei University） 💡 毒舌点评这篇论文的立意相当精巧：不搞那些“缝合怪”式的多模态堆叠，而是发现并利用了Video LLM内部天然存在的“Token Interface”——一个连续的几何流形。这相当于告诉你，LLM处理视觉信号时，并不是在翻译词汇，而是在一个“特区”里搞特殊运算。基于此，作者仅用LoRA + 无标签单模态数据，就将音频、3D等新模态像U盘一样即插即用到了视频模型上，参数效率惊人。不过，别高兴太早，这个方法对视觉证据有极强的“路径依赖”，纯音频概念（如BGM里的乐器识别）直接抓瞎，因为它的接口底层逻辑就是“视觉特区”。这限制了它能覆盖的真实世界场景广度。 ...

H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-based Multi-Talker ASR

📄 H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-based Multi-Talker ASR #语音识别 #多任务学习 #LoRA #语音分离 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #多任务学习 | #LoRA #语音分离 | arxiv 👥 作者与机构第一作者：Yujie Guo（南开大学/NKU-HLT）通讯作者：Yong Qin（南开大学/NKU-HLT）作者列表：Yujie Guo（南开大学/NKU-HLT）、Jiaming Zhou（南开大学/NKU-HLT）、Yuhang Jia（南开大学/NKU-HLT）、Yang Chen（南开大学/NKU-HLT）、Yong Qin（南开大学/NKU-HLT） 💡 毒舌点评论文靠显式重叠监督和整体门控给MoE路由强行灌输“场景认知”，消融实验干净利落，把自注意力全局编码和显式损失的必要性扒得很清楚。但性能提升相当温吞，尤其是重中之重的3-mix场景，OA-WER仅从GLAD的20.0%抠到19.8%，基本属于统计误差级别的进步，且低重叠区被SACTC反超，说明这套“显式建模”的优势极度依赖说话人高度纠缠的特定条件；只在讲卫生的LibriSpeechMix读书腔上跑分，放到真实鸡尾酒会里会不会露怯尚完全未知。 📌 核心摘要针对多说话人语音识别中MoE路由普遍依赖帧独立投影、仅靠隐性ASR目标学习而导致时序短视和可解释性缺失的问题，本文提出H-SAGE。其核心是用Speaker-Aware Global Encoder（SA-Encoder）建模长程说话人活动状态，并配套Overlap-Aware Loss对帧级的重叠、单说话人、静音/填充三态施加显式交叉熵监督；在此之上设计了Holistic Gating Mechanism，将SA-Encoder跨层共享的全局上下文与当前层的局部特征拼合，学习动态融合权重以平衡全局与局部路由概率。在LibriSpeechMix基准上，H-SAGE在2-mix和3-mix的高重叠子集取得SOTA，并通过消融证实显式监督和整体门控各自均有实质性收益。该工作将MTASR的专家路由从“隐式+局部”打上了“显式+全局”的声学先验补丁，在高重叠场景下提升了鲁棒性。主要局限在于分离增益不够显著（3-mix客观指标近乎持平GLAD），且仅在人工合成、读书风格的LibriSpeechMix单基准上验证，对真实口语音素变化、噪声及跨语言泛化性未作评估。 ...

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜（31 篇，按分数降序）排名论文总分分档主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...