后训练 | 语音/音乐/音频论文速递

OPOD: On-Policy Omni Distillation

📄 OPOD: On-Policy Omni Distillation 标签：#多模态模型 #知识蒸馏 #后训练 #强化学习 #自监督学习 7.1/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #多模态模型 | #知识蒸馏 | #后训练 #强化学习 | arxiv 👥 作者与机构第一作者：Tong Zhao（工作于腾讯实习期间完成）通讯作者：Zhicheng Dou 作者列表：Tong Zhao（腾讯）、Yuyang Hu（腾讯）、Reed Li（腾讯）、Yu Lu（腾讯）、Haibo Shi（腾讯）、Yutao Zhu（腾讯）、Zhicheng Dou（腾讯）。所有作者机构均标注为腾讯，但未说明具体实验室或部门。 💡 毒舌点评论文将“多教师路由”与“精细过程奖励”结合，提出了一个逻辑自洽的框架来解决全模态模型融合中的能力冲突问题，在多个骨干网络上均取得了显著提升，实验设计和消融分析扎实。然而，其核心贡献——三个专项教师模型及其训练流程——完全未开源，训练数据、代码、模型权重均未公开，关键训练细节（如优化器、学习率、完整超参数）也缺失，这使得这项工作的“可复现性”和“实际影响力”大打折扣，更像是一份缺乏透明度的技术报告，而非一项可复现的学术研究。 📌 核心摘要要解决什么问题：在训练能够处理文本、图像和音频的全模态大模型时，简单地将多模态数据混合进行强化学习（如GRPO）训练，会导致不同模态能力相互冲突，难以达到各模态专项教师模型的性能水平。方法核心是什么：提出“On-Policy Omni Distillation (OPOD)”框架，通过一个基于输入模态标签的路由机制，将学生模型的生成轨迹分发到对应模态（文本/图像/音频）的专项教师模型进行评估。教师的评估信号被转化为三个互补的损失组件：单边token级指导、模态自适应权重控制以及教师验证的推理过程奖励，共同更新学生模型。与已有方法相比新在哪里：相较于标准的On-Policy Distillation (OPD)和ExOPD，OPOD通过路由解决了教师冲突；通过单边引导（仅保留教师比学生自信的token指导）避免了学生超越教师后被拉回；通过模态自适应控制（为每种模态维护独立的约束预算和权重）避免了不同模态训练速度不一致导致的性能此消彼长；并通过教师作为验证器，设计了“答案置信度”和“推理增益”两个过程奖励，提供了超越最终答案正确性的密集监督信号。主要实验结果如何：在Qwen3-Omni-30B-A3B、Qwen2.5-Omni-7B和3B三个骨干上进行了评估。在30B模型上，OPOD的12个基准测试平均得分为70.8，比最强的基线（ExOPD，68.6）高2.2分，在所有12个基准上均优于基础模型和混合数据GRPO，且在11个基准上排名第一或第二（包含单独教师对比）。跨尺度实验显示，OPOD在3B和7B骨干上也分别以46.2和51.7的平均分领先，优势明显。实际意义是什么：提供了一种有效的方法，将多个在不同模态上表现优异的专家模型的能力，整合到一个统一的、可部署的模型中，避免了推理时的集成开销。主要局限性是什么：论文未开源任何代码、模型或数据，使得完整复现极为困难。实验主要在特定系列模型（Qwen-Omni）上进行，对其他架构的泛化性有待验证。方法对教师模型的质量有强依赖。评估基准主要集中在知识问答和推理任务上，对开放生成任务的效果未知。验证奖励的计算增加了训练时的计算开销。论文观察到，不同模态的专项教师具有互补优势，但直接混合数据训练会导致冲突。 ...

语音/音乐/音频论文速递 2026-07-24

语音/音乐/音频论文速递 2026-07-24 共分析 18 篇论文 ⚡ 今日概览 📥 抓取 18 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音交互 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #数据集 1篇 █ #语音伪造检测 1篇 █ #语音分离 1篇 █ #语音合成 1篇 █ 📊 论文评分排行榜（18 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 DONDO: Open w2v-BERT Speech-Recognition Base Models for 8.1分前25% 系统技术报告 #语音识别 🥈 Designed Vocalizations Dataset: Sound-Designed Human an 7.9分前25% 数据集与基准 #语音转换 🥉 VibeVoice-ASR-BitNet Technical Report 7.8分前25% 系统技术报告 #语音识别 4. Faster IndexTTS-2: Accelerating and Streaming Autoregre 7.6分前25% 系统技术报告 #语音合成 5. From Read Speech to Spoken Digits: A Task-Specific Eval 7.5分前25% 应用研究 #语音识别 6. Instruct-FD: Can Your Full-Duplex Speech System Follow 7.2分前50% 数据集与基准 #语音交互 7. OPOD: On-Policy Omni Distillation 7.1分前50% 方法研究 #多模态模型 8. X\(^3\)-OPD: Distilling Reasoning into Large Audio-Langua 7.1分前50% 方法研究 #音频理解 9. Toward Interpretable Speech Deepfake Detection using Ar 7.0分前50% 方法研究 #语音伪造检测 10. Toward Generalizable Cognitive Impairment Detection wit 7.0分前50% 方法研究 #语音情感识别 11. Safeguards for Speech2Speech LLM-Assistants: A Case Stu 6.5分前50% 系统技术报告 #语音交互 12. Investigating Codec-Internal Latent Audio Watermarking 6.4分前50% 系统技术报告 #音频水印 13. TF-MossFormer: Integrating Convolution Gated Local-Glob 6.3分前50% 模型报告 #语音分离 14. Phonetic forced alignment for low-resource language var 6.2分前50% 方法研究 #语音识别 15. SCoPE: Shift-Aware Speaker-Conditioned Priors for Emoti 6.0分前50% 方法研究 #语音情感识别 16. Word meaning co-determines vowel-inherent spectral chan 5.9分前50% 方法研究 #语音属性识别 17. An Evaluation Framework for Structured Audio Captions V 5.3分后50% 数据集与基准 #数据集 18. Improving the performance of an ASV system using hybrid 5.0分后50% 方法研究 #说话人验证 📋 论文列表 🥇 DONDO: Open w2v-BERT Speech-Recognition Base Models for African Languages 8.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ...

FdAudio: MeanFlow-Anchored Fréchet-Distance Post-Training for One-Step Text-to-Audio Generation

📄 FdAudio: MeanFlow-Anchored Fréchet-Distance Post-Training for One-Step Text-to-Audio Generation 标签：#音频生成 #后训练 #流匹配 #生成模型 #高效推理 8.6/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 🔥 8.6/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #音频生成 | #后训练 | #流匹配 #生成模型 | arxiv 👥 作者与机构第一作者/通讯作者：Kuan-Po Huang（论文作者列表中带有⋆标注，按学术惯例通常为通讯作者或等同贡献）作者列表：Kuan-Po Huang（⋆标注，未说明机构）、Bo-Ru Lu（†标注，论文注明“This work is unrelated to the author’s position at Amazon”，未说明研究时所属机构）、Ho-Lam Chung（⋆标注，未说明机构）、Shih-Hsin Wang（⋆标注，未说明机构）、Hung-yi Lee（⋆标注，未说明机构） 💡 毒舌点评论文敏锐地发现了FD后训练与流匹配模型多步生成能力之间的根本矛盾，并用一个轻巧的MeanFlow锚点漂亮地解决了它。工作逻辑自洽，实验立竿见影，堪称一次成功的“微调手术”。然而，这柄手术刀只在120M参数的“小手术台”和8万样本的“微型数据集”上挥舞，其有效性在真正的大规模（数十亿参数）、海量数据场景下是否依然成立，是一个亟待回答的“X光片”问题。论文标题声称“一步文本到音频生成”，但实验局限在10秒音频和单一数据集，其泛化能力有待更严格的拷问。 ...

语音/音乐/音频论文速递 2026-07-14

语音/音乐/音频论文速递 2026-07-14 共分析 53 篇论文 ⚡ 今日概览 📥 抓取 53 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #音乐生成 5篇 █████ #音频理解 5篇 █████ #音频生成 4篇 ████ #多模态模型 3篇 ███ #语音伪造检测 3篇 ███ #语音分离 3篇 ███ #语音质量评估 3篇 ███ 📊 论文评分排行榜（53 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 Simple Features and Honest Calibration for Ambivalence 9.0分前10% 系统技术报告 #模型集成 🥈 PC-Mix: Partial-Component Audio Spoofing Detection unde 8.9分前25% 数据集与基准 #音频伪造检测 🥉 BeatEdit: Symbolic Music Generation as Explicit Editing 8.9分前25% 方法研究 #音乐生成 4. CHARM: Charge Calibration and Acoustic Rescue for LLM-b 8.8分前25% 方法研究 #提示学习 5. FdAudio: MeanFlow-Anchored Fréchet-Distance Post-Traini 8.6分前25% 方法研究 #音频生成 6. Evaluating SSL and ViViT Architectures for Cross-Corpus 8.3分前25% 系统技术报告 #语音质量评估 7. ECHOv2: Two-Level Band-Splitting Representation Learnin 8.2分前25% 方法研究 #音频事件检测 8. GigaAM Multilingual: Foundation Model for Underrepresen 8.1分前25% 系统技术报告 #语音识别 9. Evidence Subspace Projection: Measuring How Much Eviden 8.1分前25% 方法研究 #语音伪造检测 10. VoxENES 2026: Benchmarking Generalization of Speech Spo 8.1分前25% 数据集与基准 #语音伪造检测 11. WaveNet-Style Guitar Amplifier Model Pruning for Real-T 8.0分前25% 系统技术报告 #音频生成 12. TabPFN beyond Tabular Data: Calibration and Accuracy on 7.9分前25% 应用研究 #音频分类 13. ARIMA: Reconstruction-Grounded Predictive Representatio 7.7分前25% 方法研究 #自监督学习 14. Qwen-Audio-VAE Technical Report 7.7分前25% 系统技术报告 #音频编码 15. Local Multimodal Music Alignment from Global Supervisio 7.6分前25% 方法研究 #对比学习 16. MeloBottleneck: Self-Supervised Melody Skeleton Extract 7.5分前25% 方法研究 #音乐理解 17. Dance to Music Generation leveraging Pre-training with 7.5分前25% 方法研究 #音乐生成 18. GigaChat Audio: Time-aware Large Audio Language Model 7.4分前50% 系统技术报告 #音频理解 19. Difference-Driven Gating: Adaptive Feature Fusion for U 7.4分前50% 方法研究 #语音分离 20. BackgroundMellow: A Multi-Modal Cohesive Framework for 7.4分前50% 系统技术报告 #音频生成 21. Qwen-Music Technical Report 7.4分前50% 系统技术报告 #音乐生成 22. CoFi-Lite: Pushing the Limits of Ultra-Lightweight Spee 7.3分前50% 方法研究 #语音增强 23. MusicMark: A Robust Generative Watermarking Framework f 7.3分前50% 方法研究 #音频水印 24. Unified Gradient Projection: Language-Balanced Continua 7.2分前50% 方法研究 #语音识别 25. Data Augmentation for L2 English Speaking Assessment us 7.0分前50% 方法研究 #语音质量评估 26. A Production-Oriented Framework for Evaluation of SFX G 6.9分前50% 系统技术报告 #音频生成 27. Learn2Chat: Rethinking Dyadic Talking Heads via Interac 6.8分前50% 方法研究 #音视频生成 28. Tight-Frame Reconstruction for Acoustic Intensity Estim 6.8分前50% 理论研究 #声源定位 29. The SonicAGI System for the REAL-TSE Challenge 6.8分前50% 系统技术报告 #语音分离 30. Anysynth:Zero-Shot Instrument Cloning via In-Context Le 6.8分前50% 方法研究 #音乐生成 31. Where Speech Enhancement Hurts Recognition: An Inferenc 6.7分前50% 方法研究 #语音识别 32. Teaching Speech Enhancement Models to Sing: Domain Adap 6.7分前50% 方法研究 #音乐源分离 33. What You Train Is What You Get: Gender Bias, Training C 6.6分前50% 应用研究 #语音伪造检测 34. Listen to the Features: Voice Anonymization Driven by C 6.5分前50% 方法研究 #语音克隆 35. Efficiently Adapting Spoken Language Models for the Sin 6.5分前50% 系统技术报告 #语音交互 36. Which Languages Transfer Best to Warlpiri? A Similarity 6.5分前50% 应用研究 #语音识别 37. Encoder-Side Neuron Identification and Amplification fo 6.4分前50% 方法研究 #音频理解 38. Breaking the Quality–Intelligibility Trade-off in Stre 6.3分前50% 方法研究 #语音分离 39. An Objective Intelligibility Metric Evaluation on Spani 6.2分前50% 数据集与基准 #语音质量评估 40. Hearing Like Humans? Sound Symbolism and Perceptual Ali 6.1分前50% 方法研究 #多模态模型 41. Anamnesis: An Open-Source Platform for Large-Scale Back 6.1分前50% 系统技术报告 #提示学习 42. LOGOS: A Living Logic for AI Agent Teams That Evolve Wi 6.1分前50% 系统技术报告 #多模态模型 43. Verifier-Guided Twelve-Tone Composition: A Generate-Ver 6.0分前50% 系统技术报告 #音乐生成 44. MRUF: Multi-granularity Routing with Uncertainty-Aware 5.9分前50% 方法研究 #多模态模型 45. Omni-Decision: A Progressive Evidence-State Agent Syste 5.9分前50% 系统技术报告 #音频理解 46. Graph Representation of RaagBase: A Unique Dataset for 5.7分前50% 数据集与基准 #音乐理解 47. Synchronized Three-Dimensional Vocal-Tract Motion for S 5.7分前50% 系统技术报告 #语音合成 48. LightMem-Ego: Your AI Memory for Everyday Life 5.6分前50% 系统技术报告 #流式处理 49. Casting Everything to Online API Services? A Survey of 5.4分后50% 综述 #语音识别 50. A Closed-Form Noise-Sensitivity Asymmetry for Causal Br 5.3分后50% 理论研究 #音频理解 51. Semantic Sampling via Learnable Observation Front Ends 5.1分后50% 方法研究 #音频理解 52. Transcript-Free Lightweight Detection of Alzheimer’s Di 4.9分后50% 方法研究 #语音属性识别 53. Perceived Annoyance in Multi-source Electric Vehicle AV 3.5分后50% 应用研究 #音频质量评估 📋 论文列表 🥇 Simple Features and Honest Calibration for Ambivalence and Hesitancy Recognition in Video 9.0/10 | 创新 1.2/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Fréchet Distance Loss on Speech Representations for Text-to-Speech Synthesis

📄 Fréchet Distance Loss on Speech Representations for Text-to-Speech Synthesis #语音合成 #流匹配 #后训练 #参数高效微调 6.5/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #流匹配 | #后训练 #参数高效微调 | arxiv 👥 作者与机构第一作者：Ho-Lam Chung（未说明机构，作者编号1）通讯作者：未说明作者列表：Ho-Lam Chung (1)、Kuan-Po Huang (1)、Bo-Ru Lu (2)、Hung-yi Lee (1)，机构1和2未详细说明 💡 毒舌点评将Fréchet距离从离线评估指标改造为可微训练损失，思路简洁有效，用多个精心设计的锚点约束少步采样的内容漂移，在VoxCPM2上以零推理开销换来了可信的WER下降和感知等价性。但只在单一模型上跑通，未与一致性模型、渐进蒸馏等主流加速方案正面对比，泛化性缺乏实证；协方差估计的队列偏差和高斯假设在语音空间中的合理性均未深入讨论；完全闭源使得社区验证和工程复用的价值大打折扣。 📌 核心摘要本文解决少步流匹配TTS在推理步数压缩后因分布漂移导致内容错误（WER升高）的问题。核心方法是SR-FD损失：微调时使用四步部署采样器生成语音，通过冻结的Whisper和CTC编码器提取句级特征，并与离线预计算的三组互补参考矩（低步成功锚、教师十步、真实语音）计算Fréchet距离，作为正则项驱动生成分布靠近高质量语音分布，无需对抗训练且推理时零额外开销。在Seed-TTS英文测试集上，四步SR-FD微调将WER从原四步基线的2.23%降至1.41%（相对降低36.5%），且显著优于十步基线的1.74%。盲听测试表明四步SR-FD与十步基线无可靠听感差异，TOST验证了实际等效性。消融实验证实三个参考目标均有贡献，错误分析表明改善主要源于内容替换错误的减少。实用性在于为低延迟TTS部署提供了即插即用的内容保真度提升手段。主要局限是仅在一个模型上验证、缺乏与其他少步加速方法的直接对比、完全闭源。 ...

语音/音乐/音频论文速递 2026-07-08

语音/音乐/音频论文速递 2026-07-08 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音属性识别 3篇 ███ #音频分类 3篇 ███ #语音合成 3篇 ███ #语音识别 3篇 ███ #声源定位 2篇 ██ #音乐生成 2篇 ██ #语音交互 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Hierarchical Acoustic-Semantic Modeling: Modality Separ 9.2分前10% #语音交互 🥈 Propose and Attend: Training-free MLLM Grounding Confid 8.2分前25% #音频事件检测 🥉 Music I Care About: Automated Multimodal Benchmarking o 7.8分前25% #音乐理解 4. Escaping the Procrustean Bed: Groupwise Orthogonal Conn 7.8分前25% #语音属性识别 5. TriA Pipeline: A Large-Scale Automatic Audio Annotation 7.4分前50% #音频分类 6. InsideSSL: Understanding Self-Supervised Speech Represe 7.4分前50% #语音属性识别 7. Precise Video-to-Audio Generation with Cross-Modal Alig 7.4分前50% #音视频生成 8. WordVoice: Explicit and Decoupled Multi-Dimensional Wor 7.2分前50% #语音合成 9. ForestIR: Physics-Informed Forest Sound Simulation for 7.2分前50% #声源定位 10. Uncovering Latent Depression Severity for Binary Depres 7.0分前50% #音视频理解 11. Determinantal point process sampling for bioacoustic ac 6.9分前50% #音频分类 12. From Sinhala to Dhivehi: Cross-Lingual Transfer Learnin 6.6分前50% #语音识别 13. Goodbye Equal Error Rate, Hello Local Information Discl 6.5分前50% #语音转换 14. BlueMagpie-TTS: A Token-Efficient Tokenizer, Language M 6.5分前50% #语音合成 15. Fréchet Distance Loss on Speech Representations for Tex 6.5分前50% #语音合成 16. NAVER LABS System Re-implementation for the IWSLT 2026 6.4分前50% #语音翻译 17. Few-Shot Class-Incremental Audio Classification Using P 6.3分前50% #音频分类 18. Gemma 4 Technical Report 6.2分前50% #语音识别 19. Revisiting the Relation Between Language Model Perplexi 6.0分前50% #语音识别 20. Multimodal Video-to-Music Recommendation via Semantic R 5.4分后50% #音乐检索 21. Designing Maintainable Hybrid Generative Systems: A Qua 5.3分后50% #音乐生成 22. Learning-based Physics-Constrained Neural Kernel for So 5.2分后50% #声源定位 23. Distributed Multichannel Wiener Filtering for Topology- 5.1分后50% #语音增强 24. Flow Matching-Based Speech Source Separation with Best- 4.9分后50% #语音分离 25. Umm… With Transformers? Insights from Filled Pause Us 4.8分后50% #语音属性识别 26. From Textural Counterpoint to Feature Encoding: A Multi 2.1分后50% #音乐生成 📋 论文列表 🥇 Hierarchical Acoustic-Semantic Modeling: Modality Separation and Semantic Coherence for Full-Duplex SLMs 9.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

📄 Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models #语音合成 #后训练 #自监督学习 #低资源 #多语言 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 🔥 8/10 | 前25% | #语音合成 | #后训练 | #自监督学习 #低资源 | arxiv 👥 作者与机构第一作者：Yizhong Geng（北京邮电大学）通讯作者：Xiaoyu Shen（Eastern Institute of Technology, Ningbo）作者列表：Yizhong Geng（北京邮电大学）、Yanliang Li（Beijing Logic Intelligence Technology）、Jinghan Yang（北京邮电大学）、Tianhan Jiang（University of California, USA）、Boxun An（Northwestern University, USA）、Ya Li（北京邮电大学）、Xiaoyu Shen（Eastern Institute of Technology, Ningbo） 💡 毒舌点评本文敏锐地抓住低资源SLM中合成数据泛滥引发的“越稳定越单调”的分布塌缩现象，并将Flow-Matching架构的内在解耦设计巧妙地转化为无需人工标注的自对齐信号，思路相当漂亮。然而，TDSC对目标语言ASR模块的硬依赖限制了其在最极端的语言上的用武之地，且整个pipeline的计算开销在资源受限场景下的性价比分析仍然缺席。 ...

Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox

📄 Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox #语音属性识别 #后训练 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 🔥 8/10 | 前25% | #语音属性识别 | #后训练 | arxiv 👥 作者与机构第一作者：Jiacheng Pang（University of Southern California, Institute for Creative Technologies）通讯作者：Ashutosh Chaubey（University of Southern California, Institute for Creative Technologies）作者列表：Jiacheng Pang、Ashutosh Chaubey、Mohammad Soleymani（均为 USC Institute for Creative Technologies） 💡 毒舌点评作者用精心设计的对抗基准 VoxParadox 漂亮地揭露了 Audio LLM 对非语言声学线索的视而不见，这种“语言-声学矛盾”的构造思路比现有任何副语言评测都更致命。随后提出的 PCLM+DPO 方案在两项基线上带来超过 47 个百分点的绝对准确率提升，效果令人印象深刻，“听而非读”的转向肉眼可见。然而，PCLM 终究是事后补丁，层选择靠直觉而非系统验证，DPO 负样本构造过于简单，且 200 例人工验证的基准本身在部分主观任务上一致性堪忧。 ...

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

📄 OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention #音视频问答 #强化学习 #后训练 #对比学习 #自监督学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #音视频问答 | #强化学习 | #后训练 #对比学习 | arxiv 👥 作者与机构第一作者：Zhangquan Chen（清华大学，THU；实习于腾讯HY）通讯作者：Ruqi Huang（清华大学深圳国际研究生院，sz.tsinghua.edu.cn）、Jiale Tao（腾讯HY，jialetao.std@gmail.com）作者列表：Zhangquan Chen（清华大学）、Jiale Tao（腾讯HY）、Ruihuang Li（腾讯HY）、Yihao Hu（湖南大学，HNU）、Ruitao Chen（腾讯HY）、Zhantao Yang（腾讯HY）、Xinlei Yu（新加坡国立大学，NUS）、Haodong Jing（西安交通大学，XJTU）、Manyuan Zhang（香港中文大学，CUHK）、Shuai Shao（腾讯HY）、Biao Wang（腾讯HY）、Qinglin Lu（腾讯HY）、Ruqi Huang（清华大学深圳国际研究生院） 💡 毒舌点评这篇论文精准地抓住了“多模态模型一加音频就变傻”的痛点，提出的两阶段RL框架，特别是用自监督时间-字幕对齐来驱动查询密集型局部定位，设计思路相当巧妙，拿掉了过程级标注这个昂贵的门槛。然而，死穴和亮点一样突出：整个奖励函数几乎把身家性命都押在了外部judge模型的质量上，论文对judge偏差传播和reward hacking的风险几乎没有展开讨论，这让人对训练信号的可靠性打上一个大大的问号；更致命的是，所有代码、模型权重和训练数据均未开源，号称“第一个RL框架”却把复现门槛拉满，使得那些漂亮的SOTA数字目前只能被视为“纸上SOTA”，在第三方验证之前说服力大打折扣。 ...

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度中 👥 作者与机构第一作者：Che Liu (根据作者列表顺序推断) 通讯作者：Fei Tian (tianfei@stepfun.com， StepFun) 作者列表：Che Liu (StepFun, Imperial College London)， Lichao Ma (StepFun, Peking University)， Xiangyu Tony Zhang (StepFun, The University of New South Wales)， Yuxin Zhang (StepFun, Shanghai Jiao Tong University)， Haoyang Zhang (StepFun, Peking University)， Xuerui Yang (StepFun)， Fei Tian (StepFun，通讯作者) 💡 毒舌点评论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高，并为此提出了系统化的去偏评测协议(OmniClean)，这为社区提供了急需的、更干净的评估工具，具有明确的实用价值；然而，作为核心方法贡献的OmniBoost方案，本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优，缺乏在算法或模型架构层面的根本性创新，且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上，极大地削弱了其结论的普适性与指导意义。 ...