参数高效微调

DELTA-TTS: Adapting Autoregressive Model into Diffusion Language Model for Text-to-Speech

📄 DELTA-TTS: Adapting Autoregressive Model into Diffusion Language Model for Text-to-Speech #语音合成 #扩散模型 #参数高效微调 #低资源 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #参数高效微调 #低资源 | arxiv 👥 作者与机构第一作者：Junwon Moon（未说明）通讯作者：未说明作者列表：Junwon Moon、Seungbeom Kim、Yejin Lee、Hoseong Ahn、Sewoong Park、Heeseung Kim、Kyuhong Shim（七位作者均未说明所属机构，但从致谢与主观评测部分可推断其隶属韩国学术机构） 💡 毒舌点评本文把“先做容易的”这条直觉从文本领域搬运到语音合成，工程上灵巧干净，仅用585小时数据就在WER上掀翻了自家骨干和若干数据量百倍于己的对手。但数据量的鸿沟是荣耀也是隐忧，零开源更是让所有这些漂亮数字只能停留在纸面上，社区无法验证，只能姑妄听之。 📌 核心摘要要解决的问题：传统自回归（AR）文本转语音（TTS）模型采用严格的从左到右依次生成语音token的方式，推理速度随序列线性增长，且无法利用未来上下文信息，导致在序列起始等证据不足的位置置信度极低，容易产生幻觉和错误累积。方法核心：提出DELTA-TTS，一个基于LoRA的轻量级适配框架。它冻结预训练的AR TTS骨干网络，通过增加双向注意力、块级LoRA适配器和Conformer风格卷积模块，将其转换为一个按置信度排序生成的离散扩散语言模型（dLLM）。新颖性：首次将AR-to-dLLM的转换范式从文本领域迁移到语音TTS。针对语音信号强烈的局部时序相关性，引入了卷积模块来弥补全局双向注意力对局部结构建模的不足，并设计了配套的1/t加权损失和时间偏移推理调度策略，系统性地实现了“先易后难”的生成顺序。主要实验结果：仅使用585小时的LibriTTS数据训练，在Seed-TTS test-en基准上取得了1.75%的词错误率（WER），优于其AR骨干CosyVoice3的2.02%，并超越了多个参数量和数据量远大于它的基线模型，同时推理速度提升3.3倍。类型模型参数量训练数据 (小时) Seed-TTS test-en WER (%) ↓ SIM ↑ AR CosyVoice3 0.5B 1000K Multilingual 2.02 0.692 AR Seed-TTS N/A N/A 2.25 0.762 AR VoxCPM 0.5B 1800K Multilingual 1.85 0.729 NAR MaskGCT (50 NFE) 1.1B 100K Emilia 2.62 0.714 NAR F5-TTS (32 NFE) 0.3B 100K Emilia 2.00 0.647 Ours DELTA-TTS 0.5B+94M 0.585K LibriTTS 1.75 0.688 实际意义：为工业界大规模部署的AR TTS模型提供了一条低成本（仅需15%新增参数和少量适配数据）、高效率的升级路径，能显著提升推理速度并缓解幻觉问题，尤其是在长语音合成场景下加速效果更佳（4.46倍）。主要局限性：目标语音长度目前依赖于一个基于文本长度的启发式规则，不够鲁棒；方法目前仅在英语和CosyVoice3这一单一骨干模型上进行了验证。 🔗 开源详情代码：否。论文中未提及代码链接。模型权重：否。论文中未提及。数据集：训练数据：LibriTTS（585小时），论文中未提供下载链接。评估数据：Seed-TTS test‑en（1088条）、LibriSpeech‑PC test‑clean Subset B（1127条），论文中未提供下载链接。 Demo：否。论文中未提及。复现材料：否。附录A.1提供了部分实现细节（LoRA配置、卷积核大小、学习率、batch size、混合精度训练等），但未提供代码、配置文件或模型检查点。论文引用的开源项目或资源链接： CosyVoice: https://github.com/FunAudioLLM/CosyVoice CosyVoice HuggingFace评估页: https://huggingface.co/FunAudioLLM/CosyVoice-300M Spark TTS: https://github.com/SparkAudio/Spark-TTS FireRedTTS(FireRedTTS2): https://github.com/FireRedTeam/FireRedTTS2 IndexTTS2: https://github.com/IndexTeam/IndexTTS2 Llasa: https://github.com/LlasaTeam/Llasa VoxCPM: https://github.com/VoxCMTeam/VoxCPM DiTAR: https://github.com/DiTAR-project/DiTAR MaskGCT: https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct E2 TTS: https://github.com/SWivid/E2-TTS F5-TTS: https://github.com/SWivid/F5-TTS Whisper: https://github.com/openai/whisper faster-whisper: https://github.com/SYSTRAN/faster-whisper WavLM: https://github.com/microsoft/unilm/tree/master/wavlm SpeechMOS (UTMOS): https://github.com/tarepan/SpeechMOS LoRA (Hu et al., 2022): https://github.com/microsoft/LoRA Conformer (Gulati et al., 2020): 未提供单独开源链接（通常指ESPnet等实现） 🏗️ 方法概述和架构 DELTA-TTS的整体流程是一个将预训练AR TTS模型转换为离散扩散语言模型（dLLM）的框架。其核心思想是冻结原AR模型的主体参数，仅通过添加少量可训练模块来改变其生成范式。输入为标准零样本TTS输入（文本、提示语音等），输出为目标语音波形。 ...

Evaluating the Effect of Linguistic Relatedness on Cross-Lingual Transfer in Large Multilingual Automatic Speech Recognition

📄 Evaluating the Effect of Linguistic Relatedness on Cross-Lingual Transfer in Large Multilingual Automatic Speech Recognition #语音识别 #多语言 #低资源 #迁移学习 #参数高效微调 #自监督学习 6.5/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #迁移学习 | #多语言 #低资源 | arxiv 👥 作者与机构第一作者：Andrei Florian（Princeton University）通讯作者：Andrei Florian（Princeton University）、Happy Buzaaba（Princeton University）作者列表：Andrei Florian（Princeton University）、Cynthia Jayne Amol（Maseno University）、Hope Kerubo Ombaba（Maseno University）、Xiaoyu Cui（Princeton University）、Boniface Mwau（Maseno University）、Biatus Maina Kamau（Maseno University）、Lilian Diana Awuor Wanzare（Maseno University）、Christiane Fellbaum（Princeton University）、Happy Buzaaba（Princeton University） 💡 毒舌点评这是一篇经典的"证伪"论文，作者严谨地证明了在小模型上成立的假设，在大模型上并不成立。六因素受控实验设计堪称方法论范本，但结论的毁灭性力量也扫到了论文自身的价值：如果语言相关性完全没用，那告诉社区此路不通的功劳，能换来多大影响？更致命的是，它只告诉你船漏了，却没给新船。纯负面结果的研究，在顶会博弈中注定处于弱势。 ...

Listen, Think, Transcribe: Continuous Latent Test-Time Scaling for ASR

📄 Listen, Think, Transcribe: Continuous Latent Test-Time Scaling for ASR #语音识别 #参数高效微调 #低资源 #自监督学习 7.5/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #Adapter | #参数高效微调 #低资源 | arxiv 👥 作者与机构第一作者：Ho Lam Chung（台湾大学，华硕）通讯作者：Hung-yi Lee（台湾大学）作者列表：Ho Lam Chung（台湾大学，华硕）、Yiming Chen（新加坡国立大学）、Dau-Cheng Lyu（华硕）、Hsiao-Tsung Hung（华硕）、Hung-yi Lee（台湾大学） 💡 毒舌点评这篇论文将连续潜在测试时缩放巧妙地引入冻结ASR骨干网，稳定注入机制的设计颇具匠心，实验覆盖面广、消融充分，证明了在极小数据量下该方法明显优于传统微调。然而，WER的绝对下降幅度仅有千分之一到百分之一量级，实际收益偏薄，且所有实验都基于同一个0.6B的Qwen3-ASR模型，方法的可推广性尚存疑；此外零代码开源，令审稿人对其复现成本深感担忧。 📌 核心摘要问题：端到端ASR模型一次前向完成转录，无法对困难输入进行额外的“思考”。本文探究能否在冻结ASR骨干网上添加连续的潜在计算环，实现输入依赖的测试时计算分配。方法核心：LatentASR引入两个可训练模块——Latent Adapter 和 Value Head。Latent Adapter 通过有界循环更新精炼少量潜在前缀嵌入，并采用三种稳定机制（归一化、门控、固定锚点）防止冻结解码器崩溃；Value Head 预测每个话语的潜在计算效用并提前停止循环。新颖点：不同于在全部参数上微调或修改输入分布，该方法仅训练约4M参数，保持骨干完全冻结，通过受限的、可选的残差更新在连续空间内进行迭代优化，无需中间推理文本。主要结果：在500条话语的极小训练集下，LatentASR 是唯一不提升WER的方法，在 FLEURS (en_us) 上相对WER降低2.54% (4.900→4.776)，VoxPopuli (en) 降低0.47% (9.038→8.995)；口音/语码切换 (ASCEND) 上相对CER降低16.0% (57.81→48.55)；在30种语言的多语言评估中WER均匀下降，无过拟合。实际意义：提供了一种无需修改预训练ASR骨干即可为其注入自适应计算量的方法，可将固定算力转变为按需分配的软调度。主要局限：干净语音上的绝对提升很小，方法对激活集大小和构成敏感（最优窗口仅500条），未见在更大ASR模型上的验证，零开源降低了即时工业采纳的可能性，且未探讨流式/实时场景的可行性。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重的发布链接（如 HuggingFace 或 ModelScope）数据集：训练使用 500 条混合样本，来源于以下公开数据集： Common Voice 16.0 FLEURS VoxPopuli LibriSpeech GigaSpeech The People’s Speech ASCEND 上述数据集均为公开可获取的研究语料，但论文未给出具体下载链接或预处理脚本的仓库地址。 Demo：论文中未提及复现材料：论文中未提及提供训练配置、检查点或补充附录等专门复现材料；训练细节（优化器、超参数、数据构造原则）在正文第 4.1 节有描述，但未指向独立的配置文件或代码仓库。论文中引用的开源项目： Whisper (Radford et al.) —— 原始模型为 OpenAI 发布，未提供链接，通常获取方式为 GitHub: https://github.com/openai/whisper OWSM v4 —— 基于 ESPnet 的开源语音模型，通常获取方式为 GitHub: https://github.com/espnet/espnet Qwen3-ASR (0.6B) —— 论文中作为基础模型，技术报告为 arXiv:2601.21337，未给出权重链接；通常可通过 HuggingFace 或 ModelScope 获取 Coconut (Hao et al.) —— 论文 arXiv:2412.06769，未提供项目链接 Quiet-STaR (Zelikman et al.) —— 论文 arXiv:2403.09629，未提供项目链接 Pause tokens (Goyal et al.) —— 论文发表于 ICLR 2024，未提供项目链接（注：以上仅列出在论文中被直接引用且涉及开源工具/模型的条目，无具体链接指向作者提供的仓库时，给出常见获取渠道；没有提及的项目则写“未提及”） 🏗️ 方法概述和架构 LatentASR 在完全冻结的编码器‑解码器ASR骨干上叠加两个轻量可训练模块：Latent Adapter 和 Value Head。整体流程：给定语音a，编码器输出声学状态Z并传入解码器；在解码器输入的系统提示与需转录的文本之间，插入N个隐式前缀位置（不产生任何文本token）。Latent Adapter 逐个位置对这些隐式嵌入进行迭代精炼，Value Head 监控解码器隐状态，判断是否继续或提前停止循环。若Value Head在起始锚点判定无益，则全跳过N步，直接回退到冻结基线的输出；否则逐步执行，并可在中间任意步停下。 ...

REDDIT: Correcting Model-Generated Timestamp Drift in ASR without Forgetting via Replay-Based Distribution Editing

📄 REDDIT: Correcting Model-Generated Timestamp Drift in ASR without Forgetting via Replay-Based Distribution Editing #语音识别 #知识蒸馏 #参数高效微调 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #知识蒸馏 | #参数高效微调 | arxiv 👥 作者与机构第一作者：Cheng-Kang Chou（未说明）/ Ming-To Chuang（未说明）(注: 标注为共同第一作者) 通讯作者：未说明作者列表： Cheng-Kang Chou（未说明） Ming-To Chuang（未说明） Ke-Han Lu（未说明） Chan-Jan Hsu (机构未说明) Hung-yi Lee (National Taiwan University) 机构信息：除Hung-yi Lee外，其他作者在论文中未提及所属的具体大学、实验室或公司名称。 💡 毒舌点评这篇论文敏锐地捕捉到了一个被主流ASR评测忽视的关键问题——模型生成的时间戳在长段非语音区域会发生灾难性漂移，实验设计极具诊断价值。但坦率地说，其标注数据构造方式过于理想化（VAD拼接），且仅在Whisper架构的最后一层做极少量参数编辑，这种强假设在实际复杂声学场景（如多人抢话、背景噪音、音乐）下的泛化能力令人存疑。 ...

S-DiverSe: Spanish Diverse Speech

📄 S-DiverSe: Spanish Diverse Speech #语音识别 #低资源 #参数高效微调 5.8/10 | 创新 0.9/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构第一作者：Fernando López（Scientific Research, Telefónica Innovación Digital, Spain）通讯作者：论文中仅给出第一作者邮箱 fernando.lopez@telefonica.com，未明确标注通讯作者，故推断 Fernando López 同为通讯作者。作者列表：Fernando López（Scientific Research, Telefónica Innovación Digital, Spain）、Fernando Ibañez（机构未在作者列表中明确说明，根据论文开头推断可能同属 Telefónica 或 UAM）、Ana Martínez（同前）、Iván Alonso（同前）、Pablo Gómez（同前）、Santosh Kesiraju（Brno University of Technology, Czech Republic）、Jordi Luque（论文开头列有 Universidad Autónoma de Madrid, Spain 和 Telefónica Innovación Digital, Spain，具体归属未按作者逐一说明，仅在首页底部笼统标注了三个机构）。 💡 毒舌点评这篇论文做了一件对西班牙语病理语音社区来说"有总比没有强"的工作——构建了首个多疾病、真实场景（in-the-wild）的西班牙语病理语音数据集，并发现了一个有趣的反直觉结论：简单的规则后处理比昂贵的参数微调更鲁棒。然而，这3.2小时、22个说话人的袖珍语料库，无论作者如何辩解"与其他语料库规模相当"都显得苍白。实验部分对PD/ALS/中风三种疾病的对比分析严重缺位，中风数据仅占5.8%却撑起了"多疾病"的旗帜，Whisper微调后WER飙升至125%的灾难性结果也缺乏深入诊断和解释。更关键的是，“后处理优于微调"这一核心卖点，在如此小的数据规模下更像是对过拟合的另类证明，其可推广性值得打上一个大大的问号。 ...

语音/音乐/音频论文速递 2026-07-07

语音/音乐/音频论文速递 2026-07-07 共分析 58 篇论文 ⚡ 今日概览 📥 抓取 58 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 11篇 ███████████ #语音伪造检测 5篇 █████ #音频理解 4篇 ████ #语音交互 3篇 ███ #音频事件检测 3篇 ███ #语音转换 3篇 ███ #音视频理解 3篇 ███ #语音合成 3篇 ███ 📊 论文评分排行榜（58 篇，按分数降序）排名论文总分分档主任务 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1分前10% #音频检索 🥈 SPEARBench: A Benchmark for Naturalness Evaluation in S 8.9分前25% #语音交互 🥉 Metronome: Bound the Cache, Keep the Beat for Real-Time 8.7分前25% #语音交互 4. Auto-AEG: Scalable Data Construction for Open-Vocabular 8.3分前25% #音频事件检测 5. RABBiT: Rapidly adaptive BOLD foundation model via brai 8.1分前25% #音频理解 6. TRACE-EVC: Text-Guided Relative Affective Control for Z 8.0分前25% #语音转换 7. Parallelized Autoregressive Decoding for Omni-Modal Den 8.0分前25% #音视频理解 8. Speaker-Disentangled Chunk-Wise Regression for Syllabic 7.9分前25% #语音编码 9. Speaker-Aware Temporal Aggregation Strategies on Segmen 7.9分前25% #语音属性识别 10. REDDIT: Correcting Model-Generated Timestamp Drift in A 7.8分前25% #语音识别 11. Deriving Benchmarking Datasets from Long-Form Recording 7.7分前25% #基准测试 12. ProPS: Prompted Profile Synthesis for Natural Language- 7.6分前25% #语音合成 13. DELTA-TTS: Adapting Autoregressive Model into Diffusion 7.5分前25% #语音合成 14. TokAN: Accent Normalization Using Self-Supervised Speec 7.5分前25% #语音转换 15. Listen, Think, Transcribe: Continuous Latent Test-Time 7.5分前25% #语音识别 16. \(C^3\)ASD: Multi-Level Consistency-Driven Representation 7.5分前25% #音视频理解 17. Training-Free Model Selection and Domain-Aware Score Ca 7.3分前50% #音频事件检测 18. CHILDES-Aligned: A Curated Children's Speech Datase 7.2分前50% #语音识别 19. Taste-aware music retrieval from audio embeddings 6.9分前50% #音乐检索 20. Lights, Camera, Carbon: Architectural Scaling Laws for 6.9分前50% #音视频生成 21. Unified Audio Intelligence Without Regressing on Text I 6.8分前50% #音频交互 22. Ranking the Impact of Contextual Specialization in Neur 6.7分前50% #语音增强 23. SynSFX: Multi-Model Sound Effects Synthesis Dataset for 6.5分前50% #音频伪造检测 24. Evaluating the Effect of Linguistic Relatedness on Cros 6.5分前50% #语音识别 25. MOSAIC: Interpretable Multi-Token Cross-Attention of Bi 6.3分前50% #语音伪造检测 26. CARD: Cross-component Audio Representation Distillation 6.3分前50% #音频字幕生成 27. Probing Low-Level Acoustic Attribute Encoding in CLAP A 6.2分前50% #音频理解 28. Trajectory Variance: AnUnsupervised Measure of Developm 6.2分前50% #音频理解 29. Adaptive Diversity-Uncertainty Active Learning with Red 6.2分前50% #音频事件检测 30. Adaptive Loss Balancing for Multi-Task Bioacoustic Clas 6.1分前50% #音频分类 31. An Intervention-Based Framework for Shortcut Diagnosis 6.1分前50% #语音伪造检测 32. QuaSR: Quality-Aware Sample Reweighting for Pacific Ind 6.0分前50% #语音识别 33. CaReCoS: A Spectrogram based Visual Benchmark for Cardi 6.0分前50% #音频理解 34. Open-Set Source Tracing as Compositional Factors via St 6.0分前50% #语音伪造检测 35. Context-Aware ASR for Mandarin Technical Lectures 6.0分前50% #语音识别 36. Streaming Neural Speech Codecs through Time-Invariant R 6.0分前50% #语音编码 37. Physiological Noise Augmentation Improves Non-Invasive 6.0分前50% #语音识别 38. DuplexChat: Constructing Speaker-Separated Full-Duplex 5.9分前50% #语音交互 39. Noisy Environment Adaptation of Neural Speech Codec via 5.9分前50% #语音增强 40. NouveauVoice: Generating Novel Pseudo Speakers for Voic 5.9分前50% #语音转换 41. OmniFocus: Query-Guided Modality-Balanced Token Compres 5.9分前50% #音视频问答 42. Jointly Improving Dialect Identification and ASR in Ind 5.8分前50% #语音识别 43. S-DiverSe: Spanish Diverse Speech 5.8分前50% #语音识别 44. Towards Robust Uncertainty-Aware Speaker Modeling 5.7分前50% #说话人验证 45. Towards Language-Agnostic Speech Inversion 5.6分前50% #语音属性识别 46. Layer-wise Cross-Lingual Depression Detection from Spee 5.5分前50% #语音情感识别 47. Wan-Streamer v0.2: Higher Resolution, Same Latency 5.4分后50% #音视频交互 48. Mixture-Constrained Max Pooling Improves Separation-Bas 5.3分后50% #音频分类 49. Reinforcement Learning for Data-Efficient Code-Switched 5.3分后50% #语音识别 50. Physics-Informed Direction-of-Arrival Estimation Over D 5.3分后50% #声源定位 51. Sampling Bias Compensation for Robust Evaluation of Aud 4.9分后50% #音频分类 52. UniSkip-Mamba: A Frequency-Aware State Space Model for 4.8分后50% #音视频理解 53. Progressive Refinement: An Iterative Pseudo-Labeling Ap 4.6分后50% #语音识别 54. Weakly Guided and Autoregressive Beamformer Parameteriz 4.3分后50% #语音分离 55. DETECT-3B-Omni is Agnostic of Content and Demographics 4.2分后50% #语音伪造检测 56. Towards Digital Preservation of Efik: TTS for a Low-Res 4.0分后50% #语音合成 57. Quantum-Inspired Harmonic Decision Models: A Computatio 2.3分后50% #音乐生成 58. Information-Geometric Superposed Vowel Evaluation: Part 1.9分后50% #语音伪造检测 📋 论文列表 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ...

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

📄 CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction #音乐生成 #基准测试 #数据集 #参数高效微调 6.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.3/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #音乐生成 | #参数高效微调 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Yinghao Ma (Queen Mary University of London) 和 Haiwen Xia (Peking University) 为同等贡献通讯作者：Yinghao Ma (yinghao.ma@qmul.ac.uk), Emmanouil Benetos (emmanouil.benetos@qmul.ac.uk) 作者列表：Yinghao Ma (Queen Mary University of London), Haiwen Xia (Peking University), Hewei Gao (Technical University of Munich; Technical University of Denmark), Weixiong Chen (Queen Mary University of London), Yuxin Ye (Beijing University of Post and Telecommunications), Yuchen Yang (Soochow University), Sungkyun Chang (Queen Mary University of London), Mingshuo Ding (Peking University), Yizhi Li (University of Manchester), Ruibin Yuan (Hong Kong University of Science and Technology), Simon Dixon (Queen Mary University of London), Emmanouil Benetos (Queen Mary University of London) 💡 毒舌点评论文构建了一套相对完整的音乐RM评估体系，数据规模可观，基准设计用心。但方法本质上是双塔+Transformer融合范式的领域迁移，创新性有限；代码、模型和数据集均只给出一纸声明而无具体链接，开源态度令人失望；对单一预训练编码器的强绑定使得RM的上限被锁死，歌词与跨模态理解能力仍是硬伤。 ...

CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks

📄 CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks #音视频理解 #参数高效微调 #LoRA #多模态模型 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.3/10 | 前25% | #音视频理解 | #参数高效微调 | #LoRA #多模态模型 | arxiv 👥 作者与机构第一作者：Wish Suharitdamrong（Surrey Institute for People-Centred AI, University of Surrey; Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey）通讯作者：Wish Suharitdamrong（ws00372@surrey.ac.uk）作者列表：Wish Suharitdamrong（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Tony Alex（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Muhammad Awais（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey）、Sara Atito（Surrey Institute for People-Centred AI, University of Surrey; CVSSP, University of Surrey） 💡 毒舌点评 CoLA 将 LoRA 的低秩分解巧妙扩展为双路径结构，为双编码器多模态适配提供了一条简洁的跨模态融合范式；视觉‑语言与音频‑视觉两组任务上的实验也较为扎实，并首次实现了基于 PEFT 的多任务视觉定位。然而，该方法本质上仍是对 LoRA 的线性外推，理论分析仅停留在秩和线性跨度层面，未能给出更深的表征交互机制；且跨模态路径在推理时不可合并带来的开销，在资源敏感场景中会成为硬伤。此外，损失函数完全缺失，复现存在实质性缺口。 ...

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

📄 JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments #声源定位 #多模态模型 #空间音频 #参数高效微调 #数据集 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #声源定位 | #多模态模型 | #空间音频 #参数高效微调 | arxiv 👥 作者与机构第一作者：Zhan Liu（清华大学、腾讯AI Lab）通讯作者：Chao Zhang（清华大学）作者列表：Zhan Liu（清华大学、腾讯AI Lab）、Changli Tang（清华大学）、Yuxin Wang（香港科技大学）、Zhiyuan Zhu（浙江大学）、Youjun Chen（香港中文大学）、Yiwen Shao（腾讯AI Lab）、Tianzi Wang（腾讯AI Lab）、Lei Ke（腾讯AI Lab）、Zengrui Jin（清华大学）、Chao Zhang（清华大学） 💡 毒舌点评本文提出了在3D模拟物理环境中进行联合音视频定位与推理的框架 JAEGER，其核心贡献 Neural IV 和 SpatialSceneQA 数据集为空间音频理解研究提供了有价值的工具和基准。亮点在于系统性整合了 RGB-D 视觉与多通道 FOA，并在附录中通过 SimpleFuse 基线实验初步证明了其架构设计的有效性，而非仅依赖于多模态输入的堆砌。然而，实验设计存在明显的“避重就轻”：正文主表（Table 2）回避了 SimpleFuse 基线，将其置于附录，这使得核心主张——即架构的优越性——在主叙述中缺乏最直接的量化支撑。此外，3D 视觉接地任务中，专门针对 3D 的模型 N3D-VLM 竟获得 0.0 IoU，这一零样本、无适配的对比方式极不公正，更像是对基线的“处决”而非“比较”。更严重的是，多说话人推理任务在正文中汇报了接近 100% 的准确率，营造出任务已被解决的假象，而论文在附录中承认，当干扰项增至 4-6 个时性能迅速下降，这种对任务天花板效应（ceiling effect）的深度分析本应是正文的核心内容，却被掩盖于近乎完美的数字之下。 ...

PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs

📄 PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs #空间音频 #Transformer #大语言模型 #参数高效微调 #多通道 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前25% | #空间音频 | #Transformer | #大语言模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Artem Dementyev (Google DeepMind, Cambridge, USA) 通讯作者：Artem Dementyev (Google DeepMind, Cambridge, USA) 作者列表：Artem Dementyev (Google DeepMind, Cambridge, USA)、Wazeer Zulfikar (Media Lab, MIT, Cambridge, USA)、Sinan Hersek (Google AR, Seattle, WA)、Pascal Getreuer (Google DeepMind, Cambridge, USA)、Anurag Kumar (Google DeepMind, Cambridge, USA)、Vivek Kumar (Google DeepMind, Cambridge, USA) 💡 毒舌点评在LLM普遍缺乏空间听觉的当下，提出几何无关的空间音频编码器并与Gemma集成，切入点精准，但实验验证过分依赖合成数据，如同在声学真空里练出绝世武功，一到真实环境的混响、遮挡和噪声面前就难免露怯。定向转录准确率仅44%-52%，离实用还很遥远，更像是给LLM装上了一副度数不太准的眼镜。 ...