多模态模型

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #语音识别 #多模态模型 #低资源 ✅ 6.0/10 | 前50% | #语音识别 | #多模态模型 | #低资源 | arxiv 学术质量 6.0/7 | 影响力 6.5/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构作者：Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构：Thaka, Advanced AI and Information Technology (Riyadh, Saudi Arabia) 💡 毒舌点评这篇论文本质上是一份“调参报告”加上一个“集成技巧展示”。其核心论点——“在低资源下，正则化比架构重要”——是正确的，但也是相当可预期的。论文的亮点在于严谨地实施并报告了这些策略，使其成为了一个获胜系统，但这更多地体现了工程上的细致和对现有技术的熟练运用，而非方法论上的突破。论文声称其系统排名第一，但缺乏与最强竞争系统的详细技术对比（除了数字）。消融实验虽然存在，但不够深入，无法让我们真正理解每个组件的独立贡献。最大的遗憾是缺乏开源，这对于一篇以“技术分享”为名的竞赛论文来说是致命的缺点。 📌 核心摘要本文介绍了KSAA-2026共享任务（Task 2：阿拉伯语音转写与自动音标）的获胜系统。该任务仅提供2,327个训练样本且不允许使用外部数据，是一个典型的低资源场景。作者的系统对CATT-Whisper多模态架构（结合文本编码器CATT和冻结的语音编码器Whisper）进行微调。其核心贡献在于强调并系统化地应用了训练时的正则化策略：R-Drop一致性正则化、Optuna优化的超参数（包括高权重衰减）、以及Focal Loss。在推理阶段，他们使用基于Monte Carlo Dropout的集成方法：4个不同检查点（3个不同种子，1个不同配置）各进行50次随机前向传播，平均200次softmax概率。该系统在测试集上取得了23.26%的WER（带词尾音标，包含无声调位置），在所有参赛系统中排名第一。论文通过累积消融实验证明，正则化训练策略（带来3.25个百分点的WER下降）是性能提升的主要驱动力，而推理集成进一步贡献了1.16个百分点。 🔗 开源详情代码：论文未提供代码链接。致谢中提到“Abjad AI团队开源CATT-Whisper模型”，但未提供其代码仓库的URL。模型权重：论文未提供训练好的模型检查点文件或HuggingFace/ModelScope等平台的链接。仅提到CATT-Whisper由Abjad AI团队开源，但同样未给出具体链接。数据集：论文未提供KSAA-2026共享任务数据集的获取链接。 Demo：论文未提及。复现材料：论文提供了详细的训练配置信息（表1），包括所有关键超参数（学习率、R-Drop \(\alpha\)、Focal \(\gamma\)、权重衰减等）和训练策略（Optuna优化、多检查点训练、MC Dropout集成细节）。理论上，拥有数据集和基础代码的读者可以依据此信息复现实验。然而，由于缺少代码和模型，实际复现难度很高。论文中引用的开源项目： CATT-Whisper: 由Abjad AI团队开源，论文未提供具体仓库链接。引用了其原始论文 (Ghannam et al., 2025)。 Optuna: 超参数优化框架。链接：https://github.com/optuna/optuna （论文引用了其2019年论文）。 SpecAugment: 数据增强方法。论文引用了其2019年论文，未提供工具链接。 Focal Loss: 论文中使用的损失函数。论文引用了其2017年论文，未提供代码链接。 R-Drop: 正则化技术。论文引用了其2021年论文，未提供代码链接。 Whisper: OpenAI的语音识别模型。论文未提供链接，但论文引用了其2023年论文。 AraBERT: 阿拉伯语预训练模型。论文未提供链接，但论文引用了其2020年论文。 CATT: 字符级阿拉伯语模型。论文未提供链接，但论文引用了其2024年论文。 🏗️ 方法概述和架构本系统构建于CATT-Whisper多模态架构之上。其核心思想是将阿拉伯语文本信息与语音音频信息进行融合，以解决纯文本模型在音标标注任务上的歧义性问题。 ...

Why Can't They Remember? Uncovering Representation and Retrieval Bottlenecks in Multi-Turn Acoustic Memory

📄 Why Can’t They Remember? Uncovering Representation and Retrieval Bottlenecks in Multi-Turn Acoustic Memory #语音识别 #多模态模型 ✅ 7/10 | 前50% | #语音识别 | #多模态模型 | arxiv 学术质量 5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Yang Xiao, Siyi Wang, Han Yin, Hong Jia, Vidhyasaharan Sethu, Eun-Jung Holden, Ting Dang 机构： The University of Melbourne KAIST The University of Auckland UNSW Sydney 💡 毒舌点评这篇文章像一个技术娴熟的医生，给“大型音频语言模型（LALMs）的多轮声学健忘症”做了一次详尽的体检报告。报告本身写得条理清晰、诊断工具先进（线性探针、CKA、因果干预），也得出了一个明确的结论：病根不在“信息丢失”（记忆力下降），而在“表征路径跑偏”（格式不匹配导致信息无法被正确使用）。这种“系统分析+白盒诊断+因果验证”的研究范式值得肯定。然而，作为一篇瞄准顶会的论文，其“贡献”感觉更像是对一个已知现象的精细化确认，而非开创性的发现或根本性的解决。“声学信息保留但表征漂移”这一核心发现，对于理解模型内部动态有价值，但创新性略显不足。更重要的是，论文提出的“修复表征比调整注意力更有效”这一关键主张，其验证手段（激活补丁）是一种非常规的、难以部署的“上帝视角”干预，说服力有限，也未能指明一条可行的训练改进路径。实验环境（EnvMem）的极度受控性是一把双刃剑：它隔离了变量，但也严重限制了结论的普适性和外部效度。作者坦诚了局限，但讨论部分未能充分回应这些局限可能带来的影响。总的来说，这是一份合格的、工整的诊断报告，但距离一个能引发范式转变或提供明确解决方案的顶级工作还有差距。开源程度（仅承诺发布数据集）也降低了其即时影响力。 📌 核心摘要本文针对大型音频语言模型在多轮交互中难以保留非语音环境声学信息的“声学健忘症”问题，构建了一个名为EnvMem的受控多轮对话分析基准。通过严格的实验设计，论文量化了声学记忆相较于语义记忆的快速衰减。研究的核心在于使用一套白盒诊断方法（包括逐层线性探针、CKA表征相似性分析和注意力机制诊断），从表征和检索两个层面剖析失败原因。主要发现表明，失败并非源于声学信息在隐状态中的丢失，而是由于长上下文处理中，环境声学表征的计算轨迹发生了“漂移”——其表征格式逐渐偏离了成功的处理路径，更接近短上下文处理路径，导致深层虽保留信息但无法被正确路由至输出。通过激活补丁和注意力操纵的因果干预实验进一步证实，修复表征比调整注意力更能有效恢复预测能力，从而确立了“表征轨迹漂移”作为核心瓶颈的论点。 ...

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

📄 A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning #语音情感识别 #多模态模型 #自监督学习 ✅ 7/10 | 前50% | #语音情感识别 | #自监督学习 | #多模态模型 | arxiv 学术质量 5.1/7 | 影响力 1/2 | 可复现性 0.9/2 | 置信度高 👥 作者与机构 Loukas Ilias, Dimitris Askounis。作者来自雅典国立技术大学电气与计算机工程学院决策支持系统实验室（Decision Support Systems Laboratory, School of Electrical and Computer Engineering, National Technical University of Athens）。 💡 毒舌点评这篇论文是一篇典型的“工程整合型”工作，而非“原理创新型”工作。其核心贡献在于将已有的、强大的预训练模型（BERT, HuBERT）和若干现成技术（注意力池化、MINE）组合成一个多模态管道，并在两个公开数据集上验证了其有效性。作者在方法描述和消融实验上投入了大量笔墨，显得比较“扎实”，但这也恰恰凸显了其原始创新的不足——所有组件都不是他们提出的。MINE在2026年的新颖性确实值得商榷。更关键的是，论文在讨论局限性时避重就轻，未深入反思其方法对实际临床诊断场景的适用性（如对短音频、非英语语音的泛化能力），也未探讨其多模态融合在何种程度上真的捕捉到了“互补”的生物标记物，还是仅仅进行了统计上的对齐。对于一篇声称解决“开放性挑战”的论文来说，这种自我批判的深度是欠缺的。 📌 核心摘要本文针对阿尔茨海默病（AD）及相关痴呆症的早期诊断问题，提出了一种端到端的多模态深度学习框架。该框架旨在联合利用自发性语音中互补的语言和声学生物标志物。核心方法是将预训练HuBERT模型提取的声学特征（经注意力统计池化聚合）与预训练BERT模型提取的文本特征（[CLS] token表示）进行融合。融合机制为一种基于注意力的音频-文本融合（AT-Fusion）模块。此外，论文引入了一个基于神经互信息估计（MINE）的损失函数，以最大化两种模态表示之间的互信息，从而增强跨模态对齐。在ADReSS Challenge和PROCESS-2两个公开数据集上的实验表明，该方法在痴呆症检测任务上取得了具有竞争力的性能，消融研究验证了注意力池化、HuBERT、MINE损失和AT-Fusion机制的有效性。 🔗 开源详情代码：论文中未提及代码开源。模型权重：论文中未提及提供作者微调后的模型权重下载链接。使用的预训练模型（HuBERT, BERT, wav2vec2.0, XLS-R）为公开模型。数据集： ADReSS Challenge：论文引用了该数据集，但未提供直接获取链接。数据集本身为公开挑战赛数据。 PROCESS-2：论文提供了明确的HuggingFace链接：https://huggingface.co/datasets/CognoSpeak/PROCESS-2。 Demo：论文中未提及。复现材料：论文在实验设置部分提供了具体的训练配置（学习率调度器、权重参数λ=0.25、批次大小、硬件环境），但未提供完整的复现代码包、模型检查点或详细的数据预处理脚本。论文中引用的开源项目：未提及。论文引用的HuBERT、BERT、wav2vec2.0、XLS-R等模型为学术界广泛使用的预训练模型，但论文未将它们作为自己开发的工具进行引用。论文中提出的方法（如MINE、AT-Fusion）是本文的核心贡献，并非外部开源项目。 🏗️ 方法概述和架构本文提出的多模态框架旨在通过联合建模语音信号和转录文本，实现端到端的痴呆症自动检测。其整体架构（如Fig. 1所示）包含四个核心组件：文本编码器、声学编码器、跨模态融合模块以及基于互信息最大化的对齐正则化。各组件详细描述如下： ...

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #音频生成 #多模态模型 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | arxiv 学术质量 5.3/7 | 影响力 1/2 | 可复现性 0.7/2 | 置信度中 👥 作者与机构论文作者：Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。机构：清华大学，香港中文大学。 💡 毒舌点评这篇论文试图为快速增长的音频-视频生成领域建立一个“急需”的自动化评估基准，其工程系统性值得肯定。然而，其核心贡献——训练的专用评估器——本质上是用一个大型模型（基于Qwen2.5-Omni）去评估其他生成模型，这引发了关于“用魔法打败魔法”的深层问题。论文声称解决了“粗糙使用通用模型”的痛点，但训练数据严重局限于OpenHumanVid这个以人类为中心的视频库，这无疑为评估器引入了强烈的归纳偏置。当面对非人类主体或更复杂的长视频时，这些评估器可能比它们试图取代的“通用模型”更加“偏科”。此外，论文在关键实验分析（如消融研究、失败案例分析）上的缺失，使其提出的10个维度和“连续分数”机制的优越性论证显得有些单薄，更像是一个精心搭建但内部黑箱的评测流水线。 📌 核心摘要本文针对人类场景下的文本到音频-视频生成模型，提出了自动化评估基准AVBench。其核心工作包括：1) 设计了涵盖跨模态一致性与单模态质量的10个人类中心细粒度评估维度；2) 通过大规模负样本挖掘（300KK样本），对多模态大语言模型进行监督微调，训练出专门的音频-视频（AV）、音频-文本（AT）、视频-文本（VT）一致性评估器；3) 构建了包含“正常”和“困难”子集的分层测试集。实验表明，专用SFT评估器在检测细粒度不一致方面显著优于零样本基线，其自动评分与人类专家判断展现出强相关性（如AT一致性 \(\rho=0.9488\)）。 🔗 开源详情代码：未提��。模型权重：未提供。评估器基于Qwen2.5-Omni和Qwen2-Audio微调，但微调后模型未公开。数据集：未提供。训练数据来自OpenHumanVid，自行构建的300KK训练集及470条测试集均未公开。 Demo：未提供。复现材料：未提供。论文描述了训练流程，但未提供代码、配置文件或检查点以支持复现。论文中引用的开源项目（如VBench, T2AV-Compass, VABench, JointAVBench, CLAP, ViCLIP, ImageBind, SyncNet/LatentSync, Whisper, DF_Arena, NISQAv2, Audiobox-Aesthetics, DOVER++, LAION-Aesthetics, OpenHumanVid, Qwen系列）均未在文中提供具体项目链接。 🏗️ 方法概述和架构 AVBench的整体架构由两个并行支柱构成：基准测试集构建与专用自动化评估器训练。 ...

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #语音识别 #多模态模型 ✅ 6.0/10 | 前50% | #语音识别 | #持续学习 | #多模态模型 | arxiv 👥 作者与机构作者：Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang 机构：未在论文摘要中明确说明具体机构 💡 毒舌点评观点不错，但论证力度像是在“空中楼阁”。整篇论文在概念上兜圈子，把一个很实际的工程问题（如何让大模型持续学习）包装得过于哲学化，却又拿不出任何实锤（实验）来证明这个新框架比旧框架好用。对“LALMs”的定义含糊不清，参考文献列表还有窟窿，这在严谨的顶会审稿中是重大扣分项。把现有的LALM多阶段训练直接等同于“隐式持续学习”是一个有趣的观察，但需要更严谨的分析来支撑这个类比，而不是简单映射。如果作者能补充哪怕一个简单的、基于公开模型的案例研究，用数据说话，这篇论文的说服力能上一个大台阶。 📌 核心摘要本文针对基础模型时代语音与音频领域的持续学习（CL）问题，提出了一种以“表示几何演化”为中心的新分类法。作者指出，现代语音基础模型（如wav2vec 2.0, HuBERT, Whisper）和大型音频语言模型（LALMs）学习到的高度纠缠的共享表示，使得传统CL方法（回放、正则化、架构隔离）的核心假设失效。论文据此提出了四种表示演化形式：几何保持、几何扩展、几何对齐和几何特化，并辅以“自适应位置”维度。文章进一步揭示，当前LALM的多阶段后训练流程（从文本LLM到语音对齐，再到多任务指令微调和RLHF）实质上是一种隐式的跨模态持续学习实践，其工程上的混合策略（冻结、回放、蒸馏）恰恰反映了单一方法的不足。最后，论文指出了隐私约束下的可扩展持续预训练、模态缺失下的持续学习等关键开放问题。 🔗 开源详情代码：论文中未提及提供作者团队的代码仓库。模型权重：论文中未提及提供作者团队的模型权重。论文引用了多个第三方开源基础模型，如 wav2vec 2.0、HuBERT、Whisper 等，但未提供这些模型的直接下载链接。数据集：论文中未提及作者团队发布或使用的具体数据集。论文讨论了用于预训练的大型音频语料库，但未指明具体名称。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及训练配置、检查点、附录等具体的复现材料。论文中引用的开源项目： Wav2vec 2.0：自监督语音表示模型。 HuBERT：自监督语音表示模型。 Whisper：通用语音识别模型。 LALMs：大型音频语言模型，这是一个研究方向，未指向特定单一开源项目。 LoRA：参数高效微调方法。 Adapters：参数高效微调方法。 EWC：正则化方法。 LwF：正则化方法。补充链接（自动提取）：代码仓库：https://github.com/swagshaw/Awesome-Speech-and-Audio-Continual-Learning 🏗️ 方法概述和架构本文的核心“方法”并非一个具体的算法模型，而是一个用于分析和组织语音持续学习问题的概念框架。其架构可以从两个相互正交的维度来理解： ...

SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing

📄 SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing #语音编辑 #多模态模型 🔥 8.6/10 | 前25% | #语音编辑 | #多模态模型 | arxiv 学术质量 6.6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Sen Liang, Cong Wang, Fengbin Guan, Zhentao Yu, Yiting Lu, Yuanzhi Wang, Yuan Zhou, Xin Li, Zhibo Chen。单位为中国科学技术大学（University of Science and Technology of China）和腾讯混元（Tencent Hunyuan）。 💡 毒舌点评这篇工作在“音视频联合编辑”这个相当具体的交叉赛道上做得相当扎实，堪称一次系统性的“工程+科研”组合拳。优点很明显：抓住了现有级联方法“各玩各的”这个痛点，提出了端到端的双向交互框架，并且用一套自洽的自动化数据流水线解决了训练数据稀缺这个老大难问题，还贴心地搭建了专门的评测集SpongeBob-Bench。消融实验和用户研究做得也比较规范。但缺点也不容忽视：1）框架深度绑定了特定的视频生成基础模型（Wan2.2）和音频VAE（MMAudio），通用性存疑；2）虽然叫“音视频联合编辑”，但论文更偏重“视频编辑+同步音频生成”，对音频模态本身的编辑能力（如改变音色、保持韵律）着墨不多，音频更像是视频编辑的“附属产物”；3）实验中使用的部分基线（如AvED）是零样本方法，对比说服力略弱；4）作者在局限性中提到的长视频处理和推理效率问题，在实际应用中可能非常突出。总的来说，这是一篇完成度很高、在特定子领域有推动作用的工作，但离解决更广泛的、高质量的“音视频任意编辑”还有距离。 📌 核心摘要本文提出了SpongeBob，首个基于双向跨模态交互的端到端音视频联合编辑框架。针对现有编辑方法因模态解耦导致的音视频失同步与上下文冲突两大问题，SpongeBob采用双流Diffusion Transformer (DiT)架构进行统一去噪。其核心设计包括：1) 同步感知编辑机制，通过双向跨模态注意力实现交互，通过统一三路时间位置编码（RoPE）实现时间对齐，并利用掩码引导的非对称空间路由实现空间约束。2) 上下文感知模块，通过视觉上下文注意力和声学上下文注意力两个零初始化交叉注意力层，使目标音频能感知未编辑的视觉背景和基础音频，防止语义冲突。3) 同步保持训练与引导（SPTG）策略，包含四种训练模式（联合编辑、音频驱动、视频驱动、上下文为空）和两阶段推理引导（上下文冲突解决与时间同步增强）。为解决训练数据稀缺问题，论文构建了一个六阶段可扩展数据管道，从无标签网络视频中自动合成了约40万样本的Subject-level数据集。同时提出了SpongeBob-Bench进行系统评估。实验表明，该方法在SpongeBob-Bench上全面超越所有基线，在Sync-C和Ctx-F1上分别取得了30%和12.5%的提升。 🔗 开源详情代码：论文未提供代码链接。模型权重：论文未提供模型权重下载。数据集：论文提及构建了约40万样本、总时长约390小时的数据集，但未提供下载地址或开源协议。 Demo：提供了项目主页 https://hy-spongebob.github.io/。复现材料：论文在附录B（Implementation Details）和正文第4节提供了极其详细的训练与推理配置，包括模型架构（基于Wan2.2-TI2V-5B和MMAudio的VAE）、训练超参数（240 GPUs， batch size 240，学习率1e-5， 10K步）、数据配置、SPTG的引导强度等，可作为复现参考。论文中引用的开源项目：Wan2.2-TI2V-5B, MMAudio, Grounding DINO, SAM2, Gemini, SAM-Audio, pyannote, AudioBox-Aesthetics, CLAP, ImageBind, AvED, VACE, HunyuanVideo-Foley, Coherent, Chatterbox-Turbo, Stable Audio Open。其中部分项目有知名开源实现，但论文本身未提供具体链接。 🏗️ 方法概述和架构 SpongeBob的核心是一个双流Diffusion Transformer (DiT)架构，旨在单一去噪过程中同时编辑视频和合成同步音频，实现双向跨模态交互。该架构基于Wan2.2-TI2V-5B构建，输入包括参考图像、带掩码的条件视频（即上下文）和视觉噪声，通过交叉注意力注入文本描述来引导原始视频片段的重建。音频流则从音频噪声中重建目标音频，其条件包括音频描述、语音文本以及通过专门交叉注意力层输入的基础音频（即目标音频分离后的环境音）。目标音频被分为语音和非语音流处理：语音任务中，音频描述固定，语音文本提供具体内容；非语音事件中，音频描述提供语义描绘，语音文本为空。 ...

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #模型融合 #多模态模型 #低资源 📝 5.5/10 | 前50% | #语音增强 | #模型融合 | #多模态模型 #低资源 | arxiv 学术质量 3.0/7 | 影响力 3.0/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构作者: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构: Thaka, Advanced AI and Information Technology, Riyadh, Saudi Arabia 论文未提供作者主页、所属部门、资助信息或机构主页。 💡 毒舌点评这篇论文是一篇典型的竞赛系统描述（“winning system description”），其核心价值在于工程技巧的组合与超参调优，而非提出新的学术思想或模型架构。作者诚实地将工作定位为在现有CATT-Whisper架构上，通过“正则化”这一“优化策略”来最大化有限数据下的性能。这本身没有错，但论文的学术贡献相当有限。创新性仅体现在将R-Drop、Focal Loss、Optuna调优和MC Dropout集成等已有技术“打包”应用到一个特定竞赛任务上，并报告了最优结果。技术细节描述尚可，但缺乏深度分析：消融实验仅做了累积添加，未真正分离每个正则化组件的独立贡献；对MC Dropout推理成本（200次前向传播）的讨论一笔带过，未提出任何效率优化方案。整体而言，这是一篇合格的“how we won”的竞赛报告，但作为一篇研究论文，其深度和启发性不足以在顶级会议中脱颖而出。 📌 核心摘要本文描述了在KSAA-2026共享任务“阿拉伯语语音听写与自动消音化”Task 2中获胜的系统。任务要求在仅有2,327个训练样本且不允许使用外部数据的条件下，从语音音频和未加消音符的文本生成完全消音化的阿拉伯语文本。系统基于CATT-Whisper多模态模型进行微调，该模型结合了预训练的CATT文本编码器和冻结的Whisper语音编码器。工作的关键在于通过训练正则化（R-Drop一致性正则化、Optuna优化的超参数与高权重衰减、Focal Loss）来充分利用有限数据。在推理阶段，使用蒙特卡洛Dropout在四个模型检查点上进行200次随机前向传播，并在softmax概率层面进行平均。系统在主要排行榜指标（WER，含词尾，包含无消音符位置）上达到23.26%，在所有参与者中排名第一。 ...

Toward Native Multimodal Modeling: A Roadmap

📄 Toward Native Multimodal Modeling: A Roadmap #多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型 🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度高 👥 作者与机构 Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构： [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学 ...

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models

📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #多模态模型 #多语言 📝 5/10 | 前50% | #大语言模型 | #多模态模型 | #多语言 | arxiv 学术质量 3.8/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度高 👥 作者与机构 Kabir, M., Munira, M., Sirajam, M. A. (作者姓名与单位未在已有分析中列出，现根据原文补充) School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评这篇论文像一位勤奋但缺乏巧思的学生，把所有能找到的大模型都拿来在几个小数据集上跑了一遍，然后仔细比较了成绩。它的工作是扎实的，但就像用锤子、螺丝刀和扳手去敲钉子，然后写一篇关于“敲击工具比较”的报告——我们知道结果会因工具而异，但这个结论本身并不让人意外。最大的问题在于，它试图比较“输入模态”，却让“模型能力”这个混杂变量肆无忌惮地影响结果。一个通用文本LLM（LLaMA 3）和专用音频模型（Qwen2-Audio）本身就不是同一起跑线上的选手。这让整个比较的科学性大打折扣，结论的强度被严重削弱。它更适合出现在一个专注于临床语音处理的Workshop，而非NeurIPS这种追求突破的殿堂。 ...