Decoding Strategies for Diffusion-Based ASR: A Systematic Evaluation of Confidence-Based Thresholding

📄 Decoding Strategies for Diffusion-Based ASR: A Systematic Evaluation of Confidence-Based Thresholding #扩散模型 #自回归模型 ✅ 6.8/10 | 前50% | #语音识别 | #扩散模型 | #自回归模型 | arxiv 学术质量 4.6/7 | 影响力 1.2/2 | 可复现性 1/2 | 置信度 中 👥 作者与机构 Jeong Hun Yeo: KAIST (韩国科学技术院),通讯/主要联系作者。 Minsu Kim: Google DeepMind (东京),合作者(论文注明贡献为咨询角色)。 Hyeongseop Rha: KAIST。 Yong Man Ro: KAIST,通讯作者。 💡 毒舌点评 这是一篇“工整”但缺乏突破性的实证分析论文。作者们非常聪明地选择了一个“安全区”——用已有的扩散语言模型解码策略,在另一个领域(ASR)进行“搬家”式验证,并套用了一套听起来高大上的分析框架(NLL不确定性轨迹)。论文最大的问题在于创新性的严重不足:三种解码策略本身均非本文提出,核心贡献仅在于“比较”和“解释”。将论文包装成“系统评估”虽有一定价值,但本质上是在填补一个由先前研究(主要是DLM在NLP中的应用)留下的、并非关键的知识空白。实验仅在单一、干净的LibriSpeech数据集上进行,严重限制了结论的普适性和影响力,作者自己也承认了这点,但审稿人必须强调这极大地削弱了其作为“系统评估”的分量。分析部分看似精细,但核心洞察(ASR置信度分数高度集中)更像是一种现象观察而非深刻的机制解析。总而言之,这是一篇合格的、中规中矩的领域应用分析,但离顶会要求的“significant contribution”尚有距离。 📌 核心摘要 本文针对基于扩散语言模型(DLM)的自动语音识别(ASR)解码策略进行了系统性评估。研究比较了三种解码方案:固定数量解码(top-k)、静态置信度阈值解码和动态置信度阈值解码,在准确率(WER)与速度(RTF)的权衡上,阈值策略(尤其是静态阈值)显著优于固定数量解码。作者提出使用基于负对数似然(NLL)的不确定性轨迹来量化分析并行解码的逐轮进展。研究发现,ASR任务中置信度分数高度集中于高值区域(>90%的令牌置信度超过0.9),这解释了阈值策略为何能高效利用早期高置信度令牌,从而加速解码。静态阈值策略在块大小为4、阈值\(C=0.95\)时,达到了接近自回归基线的WER(2.81% vs. 2.78%),同时速度快1.7倍。 🔗 开源详情 代码:论文指出可通过其arXiv页面(https://arxiv.org/abs/2605.29613v1)上的“Code”按钮访问作者提供的代码仓库。但在论文正文、参考文献或附录中均未直接给出代码仓库的URL。 模型权重: Whisper-medium.en:在HuggingFace Hub公开,链接如 https://huggingface.co/openai/whisper-medium.en。 LLaDA-8B-Instruct:在HuggingFace Hub公开,链接如 https://huggingface.co/MLNLPCN/LLaDA-8B-Instruct。 论文训练的Whisper-LLaDA模型:未提供下载链接。 数据集: LibriSpeech:公开数据集,可从 https://www.openslr.org/12 获取。 GSM8K:公开数据集,可从 https://huggingface.co/datasets/gsm8k 获取。 复现材料:论文提供了主要的训练超参数(100k步,8xA6000 GPU),但未提供���整的训练脚本、详细配置或预训练检查点。完整复现强烈依赖作者未在文中详述的代码仓库。 🏗️ 方法概述和架构 本文采用并评估的基线DLM-ASR系统为 Whisper-LLaDA。其核心架构包含以下组件: ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 359 words

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

📄 Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking #数据集 #数据增强 #多语言 #低资源 #语音合成 #语音识别 🔥 8.6/10 | 前25% | #语音合成 | #数据增强 | #数据集 #多语言 | arxiv 学术质量 5.3/7 | 影响力 1.3/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Songbo Hu1, Yinhong Liu1, Ej Zhou1*, Evgeniia Razumovskaia1, Xiaobin Wang2, Alexander Fraser3, Ivan Vulić1†, Anna Korhonen1† 1语言技术实验室,剑桥大学,英国 2独立研究者 3计算、信息与技术学院,慕尼黑工业大学,德国 *共同第一作者,†共同通讯作者 💡 毒舌点评 这篇论文做了一件“正确但保守”的事:为多语言对话系统构建了一个大规模、高质量的基准数据集。其方法论清晰,开源彻底,是社区需要的基础设施。然而,主要问题在于其“合成”本质和“管道式”评估框架。用LLM生成对话再由人录音,虽然解决了隐私和成本问题,但得到的终究是“假设性”的健康咨询,与真实世界复杂、混乱的患者交互相去甚远。更关键的是,所有基准测试都基于传统的ASR->检索->LLM->TTS管道,这固然是当前的技术现实,但使得数据集的核心价值——支持原生语音对话模型研究——大打折扣。论文在揭示跨语言性能差异上做得不错,但这更多是现有模型(如Whisper, GPT)多语言能力不均衡的反映,而非数据集本身的独特发现。总体而言,这是一篇扎实的资源论文,但未能在方法论或系统评估上带来突破性视角,更像是一份详尽的“使用说明书”。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 358 words

DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation

📄 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation #基准测试 #大语言模型 🔥 9.8/10 | 前25% | #基准测试 | #大语言模型 | arxiv 学术质量 6.4/7 | 影响力 1.7/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Jiamin Chen 机构:ByteDance Inc., City University of Hong Kong 通讯作者:Wangchunshu Zhou (chunshu@bytedance.com) arXiv ID: 2605.30090 💡 毒舌点评 这篇论文精准地戳中了当前长视频生成评估的痛点——大家都在卷单帧质量或短片,但长视频真正的败笔往往在镜头间的“缝合”和“转场”,以及千人千面的用户偏好被粗暴地平均化。DirectorBench 提供了一个系统、可诊断且个性化的评估框架,这比给出一个单一的、看起来很漂亮但毫无解释力的总分要有用得多。作者的实验设计逻辑清晰,三个RQ层层递进,得出了关于工作流设计比模型选择更重要、瓶颈在“单元间”等具有指导意义的结论。然而,该基准自身的可靠性验证(评估者间一致性、工具准确性)尚未充分展示,且个性化评估的深度(如何影响瓶颈识别)还有挖掘空间。总的来说,这是一个扎实且及时的工作,为长视频生成的迭代改进提供了关键的诊断工具。 📌 核心摘要 本文提出了DirectorBench,一个用于诊断长视频生成的个性化多智能体评估基准。该基准旨在克服现有评估方法聚焦短片视觉质量、忽略工作流故障诊断和用户偏好差异的局限。核心设计是将评估形式化为 \(f(\mathbf{m}, \mathbf{u}, \mathcal{G}) \rightarrow \mathcal{R}\),即根据结构化元数据(\(\mathbf{m}\))和用户配置(\(\mathbf{u}\))来评估生成系统(\(\mathcal{G}\))并产出诊断报告(\(\mathcal{R}\))。Benchmark由80个结构化元数据条目、7个用户配置文件和40个检查点标准构成,涵盖脚本、视觉、音频、跨模态和稳定性五大维度。其核心创新在于:1) 诊断式评估:通过动态激活适用的检查点,定位具体的失败瓶颈(如镜头间过渡质量差),而非仅输出聚合分数;2) 个性化评估:引入用户配置文件,表明同一生成内容在不同用户偏好下质量评分存在显著差异,单一通用分数无法捕捉这种变化。通过对4种工作流、6个基础LLM和7个用户配置的实验,发现:工作流架构是生成质量的主要决定因素;当前各工作流的共同瓶颈在于单元间的过渡和跨模态一致性,而非单帧质量;基础LLM的选择主要影响叙事推理和跨模态对齐;个性化评估揭示了显著的用户依赖型质量差异。人工评估验证了DirectorBench在维度层面与人类判断的对齐。 🔗 开源详情 代码:https://github.com/jiaminchen-1031/DirectorBench 模型权重:未提供(评估使用的基座大语言模型均为闭源模型,如GPT-5.4等)。 数据集:https://huggingface.co/datasets/Jiamin1031/DirectorBench Demo:未提及 复现材料:论文提供了详细的复现材料,包括: 元数据条目:80个结构化元数据条目(完整示例见附录A)。 用户配置文件:7个详细的用户配置文件规范(见附录B,包含优先级权重、硬约束和用户品味描述)。 检查点分类法:40个检查点的完整分类注册表(见附录C,组织为维度、子指标、检查点)。 内容分析属性:用于动态检查点激活的18个内容分析属性列表(见附录D)。 评估流水线:基于LangGraph的多智能体评估流水线的详细描述(DAG结构、四个阶段)。 论文中引用的开源项目(未提供具体GitHub链接): ViMax:一个开源的“分解-拼接”视频生成流水线。 MovieAgent:一个开源的角色感知视频生成规划器。 PySceneDetect:用于镜头分割。 OpenCV:用于视频处理和边界度量计算。 Librosa:用于音频特征提取。 MobileViCLIP-Small:用于文本-视频相似度计算。 Sentence-BERT:用于文本-音频语义相似度计算。 LangGraph:用于构建评估流水线的有向无环图(DAG)。 ffprobe/ffmpeg:用于视频探测和音频提取。 🏗️ 方法概述和架构 DirectorBench的评估框架(如图1所示)是一个分层、多阶段的系统,其核心是将“生成-评估”循环形式化。框架的核心组件和流程如下: ...

2026-05-29 · 更新于 2026-06-19 · 1 min · 209 words

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

📄 HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding #语音合成 #语音识别 #自监督学习 #知识蒸馏 #多任务学习 #模型压缩 🔥 8.6/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #知识蒸馏 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu. 机构: 1. 上海交通大学 X-LANCE 实验室;2. 小红书 Hi-lab。 ...

2026-05-29 · 更新于 2026-06-19 · 4 min · 673 words

MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables

📄 MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables #语音合成 #语音识别 #变分推断 ✅ 7.3/10 | 前50% | #语音合成 | #变分推断 | #语音识别 | arxiv 学术质量 5.9/7 | 影响力 1.4/2 | 可复现性 0/2 | 置信度 中 👥 作者与机构 Sung-Lin Yeh\(^{1}\), Wei Zhou\(^{2}\), Gil Keren\(^{3}\), Duc Le\(^{3}\), Zhong Meng\(^{3}\), Hao Tang\(^{3}\), Jay Mahadeokar\(^{3}\), Ozlem Kalinli\(^{3}\), Alexandre Mourachko\(^{3}\) (\(^{1}\)University of Edinburgh, \(^{2}\)Google DeepMind, \(^{3}\)Meta Superintelligence Labs) 📌 核心摘要 本文提出了MELD(Mel-Spectrogram-Based Discrete Latent Language Model),一种基于梅尔频谱图和离散潜变量的语音语言模型框架。其核心创新在于联合优化一个量化编码器和一个自回归语言模型,直接对连续的梅尔频谱帧进行建模,从而避免了传统两阶段方法(先训练独立的编码器/编解码器,再训练语言模型)中编码器无法感知下游任务目标的问题。MELD通过引入离散潜变量空间进行采样,有效缓解了直接自回归建模梅尔频谱时常见的静音延长和单词遗漏问题。模型在单一框架内通过不同的控制令牌(<TTS> 和 <STT>)支持零样本文本到语音(TTS)合成和语音到文本(STT)识别任务,并在LibriSpeech数据集上展示了相比基线方法(如Codec-LM、MELLE、dMel)的优势,特别是在STT性能和联合TTS-STT建模方面。 ...

2026-05-29 · 更新于 2026-06-19 · 1 min · 115 words

Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions

📄 Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions #联邦学习 #数据增强 #多模态模型 #音频分类 🔥 8.5/10 | 前25% | #音频分类 | #联邦学习 | #数据增强 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 中 👥 作者与机构 未提及论文作者和机构信息。 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题——呼吸声分类模型在跨听诊器设备时的性能下降,并提出了一个包含因果干预、反事实文本增强和梯度对齐的联邦学习框架(BTS-CAFE)。其核心动机(打破设备风格与病理内容的虚假关联)是合理的。然而,评审感觉论文在几个关键方面存在不足:1) “首次提出”的声明过于绝对,对相关工作的综述和定位不够严谨;2) 实验设置虽模拟了联邦场景,但“单客户端”的评估与实际大规模联邦应用存在差距;3) 作者声称的“最佳”性能有时仅比次优方法高零点几,统计显著性存疑;4) 讨论部分对局限性的挖掘流于表面,未深入探讨方法在更复杂异质场景下的潜在失效模式。总体而言,这是一份扎实的工作,但在深度和说服力上仍有提升空间。 📌 核心摘要 本文针对呼吸声分类(RSC)模型因听诊器设备异质性导致的分布偏移问题,提出了一个联邦域泛化(FedDG)框架BTS-CAFE。其核心观察是,听诊器特有的设备风格(S)与疾病相关内容(C)在表征中高度纠缠,传统的确定性风格移除方法会损害病理信息。为此,BTS-CAFE集成了三个关键组件:1)因果启发式的生成式设备风格干预网络(GIN),通过可控的增益、随机分组卷积和频率掩码进行内容保持的风格扰动,近似于因果干预 do(S);2)反事实文本增强,中和文本元数据中可能携带的设备捷径;3)基于单样本全模型梯度的对齐正则化,鼓励跨客户端的设备不变决策边界。基于CLAP多模态预训练模型,该方法在ICBHI和SPRSound数据集的“留一设备外”(LODO)联邦验证设置下,相比传统数据增强和联邦学习基线,在域外(OOD)性能上取得了一致的提升。 🔗 开源详情 代码:论文中未提及具体代码仓库链接。文中明确声明“Code will be released upon publication”。 模型权重:未提及。 数据集: ICBHI:论文引用了原始数据集 [24],但未提供获取链接。通常可通过PhysioNet获取。 SPRSound:论文引用了数据集 [30],未提供获取链接。 Demo:未提及。 复现材料:提供了关键训练配置(学习率、轮次、硬件)、评估协议(LODO, Score指标)和超参数。但未提供模型权重或完整代码包。 论文中引用的开源项目: CLAP:提供了HuggingFace链接 https://huggingface.co/laion/clap。 AST, BTS, FedAvg, FedSR, FedIIR, PromptFL, FedCAug, CutMix, Mixup, RepAugment, SpecAugment:仅提供了文献引用,未提供代码仓库链接。 🏗️ 方法概述和架构 BTS-CAFE框架构建在BTS多模态音频-语言预训练模型之上,旨在解决联邦学习(FL)场景下,由客户端(每个客户端使用单一听诊器设备)异质性引起的域偏移问题。其核心思想是,通过因果启发式的干预和正则化,使全局模型学习与设备风格S无关、只依赖疾病内容C的表征,从而泛化至未见设备d⋆。整个框架包含以下三个核心组件,它们在本地训练循环中协同作用: ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 481 words

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构:首尔大学,索尼集团,索尼AI 💡 毒舌点评 这篇工作像一位认真但略显保守的工程师:它发现了一个重要的问题(音乐LLM缺乏时序定位能力),并搭建了一套完整、系统但不够性感的解决方案(构建基准+提出四阶段训练流程)。优点是踏实、全面,消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻:MusTBench的构建严重依赖自动化的、可能存在噪声的管道(用模型预测边界和情绪),这让人对其“专家验证”的成色打个折扣;提出的MusT训练流程本质上是现有技术(LoRA、时间戳描述、SFT、GRPO)在音乐时序任务上的有序组合,创新性有限。最令人不满的是,对于一篇强调“时序定位”重要性的论文,竟然完全没有提供模型计算开销(训练/推理时间、显存)的数据,这在实际应用中是关键考量。此外,强化学习部分使用的奖励函数设计(指数衰减、软F1)参数(如15秒尺度、σ=15)的选择缺乏理论或充分消融支撑,显得有些“拍脑袋”。总的来说,这是一篇扎实的系统性工作,但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)在音乐理解中缺乏精确时序定位能力的问题,做出了三项贡献:1)识别并明确了“音乐时序定位”这一关键能力缺失;2)提出了MusTBench,一个由音乐专家验证的、包含五个时序定位问答任务的基准;3)提出了MusT,一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程,有效提升了模型的时序定位性能。 🔗 开源详情 代码:论文在摘要结尾提及“Code and benchmark data will be available soon”,但未提供任何具体的代码仓库链接(如GitHub)。 模型权重:论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。 数据集:论文详细描述了“MusTBench”基准的构建过程,但正文中仅指出其数据“will be available soon”,未提供具体的下载链接、托管平台或开源协议。 Demo:论文中未提及。 复现材料:论文在附录(§A.4和§A.5.2)提供了详细的训练配置和超参数表格(Table 11),包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外,附录包含具体的实现细节(如动态采样、损失函数、奖励函数公式)。但这些材料无法替代缺失的代码和数据集。 论文中引用的开源项目: MERT (音频编码器):论文引用 Li et al. (2024),未提供直接项目链接。 LoRA (高效微调):论文引用 Hu et al. (2022),未提供直接项目链接。 Qwen2.5 Omni (基础模型):论文引用 Xu et al. (2025),未提供直接项目链接。 其他工具与数据集:论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集),但均未提供具体版本或获取链接。 🏗️ 方法概述和架构 本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”(MusT encoder)与原有的Qwen音频编码器构成双编码器系统,并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下: ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 447 words

Native Audio-Visual Alignment for Generation

📄 Native Audio-Visual Alignment for Generation #音频生成 #多模态模型 #扩散模型 ✅ 7.8/10 | 前50% | #音频生成 | #多模态模型 | #扩散模型 | arxiv 学术质量 8.0/7 | 影响力 7.0/2 | 可复现性 0.2/2 | 置信度 高 👥 作者与机构 作者:Longbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He 单位:ERNIE Team, Baidu Inc. 💡 毒舌点评 这篇论文的工作是扎实的,但在某些关键细节的阐述上如同雾里看花。所谓“原生对齐”和“上下文条件解耦”听起来很美,但具体的模态交互机制(自注意力的具体实现、位置编码的细节)和“对齐”是如何通过优化目标学习到的,描述得不够透明,这让方法的可复现性和理论深度打了折扣。评估部分,尽管指标全面,但自家提出的指标(如IB-Score)和自家模型拿最优,而通用指标(如FD)并非最佳,这种选择性最优需要更审慎的解读。此外,声称“显著优于”基线,但在部分关键指标(如TI2AV任务下的总体质量)上优势并不明显,结论稍显强势。开源方面,除了一个项目主页,代码、权重、数据均未见踪影,这对于一篇声称复现重要性的论文来说是重大减分项。总体而言,这是一篇工程完成度高、有一定启发性的工作,但距离“完美”或“无可辩驳的优越”还有距离,其“严苛”之处在于对技术黑箱和评估话术的审视。 📌 核心摘要 本文针对音视频联合生成中同步性与语义条件控制耦合的问题,提出了NAVA(Native Audio-Visual Alignment)框架。该框架的核心思想是将音频-视频的同步对齐与外部文本/音色条件的注入解耦:首先在一个专用的“对齐空间”内让音频和视频令牌通过自注意力交互,建立原生的事件级对应关系;随后,通过交叉注意力注入文本和音色等上下文条件,指导去噪过程。这一解耦由“Align-then-Fuse MMDiT”架构实现,前10层为分层对齐层(HAL),后20层为统一融合层(UFL)。为实现可控的多说话人生成,论文提出了“Timbre-in-Context Conditioning”机制,将参考音色表示为上下文令牌并绑定到对应的语音片段。训练采用三阶段渐进式多任务策略。实验在Verse-Bench和Seed-TTS基准上进行,结果表明,NAVA以6.3B参数在音视频同步性(Sync-C)和视频质量(IB-Score)上达到了最优水平,并在音色控制任务中取得了最佳的说话人相似度,同时保持了有竞争力的音频质量。 🔗 开源详情 代码:论文中未提供代码仓库链接。仅给出项目主页 ernie-research.github.io/NAVA,通常此类主页会链接到代码,但当前页面未直接提供开源代码地址。 模型权重:论文中未提供模型权重的下载链接。虽提及从Wan2.2-5B初始化,但未说明Wan2.2系列模型的具体获取方式。 数据集:论文中未提供训练数据集的下载链接。详细描述了构建约1500万片段的训练语料库的流程,但未提供这些数据的公开获取地址。 复现材料:附录详细描述了数据构建流程、数据统计信息、提示词工程模板以及训练基础设施与成本(约107,520 H100 GPU小时)。但未提供具体的训练超参数配置文件、中间检查点或最终模型的下载。 🏗️ 方法概述和架构 NAVA框架旨在实现“原生音视频对齐”(Native Audio-Visual Alignment),即在生成过程中直接建立音频和视频的同步对应,同时将外部条件(如文本、音色)作为独立于同步过程的引导信号。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 386 words

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构:CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 416 words

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition

📄 State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition #语音情感识别 #多模态模型 #知识蒸馏 🔥 8/10 | 前50% | #语音情感识别 | #知识蒸馏 | #多模态模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Zhaoyan Pan, Xiangdong Li, Wenke Wu*, Mengting Ma, Ye Lou, Ji Zhou, Jiatong Pan, Wei Zhang† 机构:1 浙江大学软件技术学院,2 浙江大学计算机科学与技术学院 表示同等贡献,† 表示通讯作者。 💡 毒舌点评 这篇论文的工作是扎实的,但包装得过于完美,以至于一些内在的脆弱性被精心掩盖了。作者提出的“高斯启发状态”像是在概率模型和确定性匹配之间走钢丝,理论根基略显模糊。NCE组件用batch内的“捐赠者”来模拟现实世界中复杂多变的非语言冲突,这种简化虽然聪明,但也像是在用理想化的实验室条件去预测混沌的真实对话场景。整篇论文的“贡献”部分像一份完美的产品说明书,但审稿人需要的是对科学发现本质的探讨,而不仅仅是功能的罗列。实验很全面,但当一个方法在所有指标上都“显著”优于基线时,我们更应该警惕这是否是实验设计或评估指标本身的局限,而非方法的绝对优越性。成本效益分析的缺失也让人质疑,在资源敏感的应用中,这额外的183%训练成本是否真的值得。 📌 核心摘要 本文针对对话多模态情感识别(MER)在模态缺失或不可靠场景下的鲁棒性问题,提出了一个名为CoRe-KD(完整视图参考引导的知识蒸馏)的新框架。核心思想是避免对缺失模态进行直接重建,而是利用一个在完整视图数据上训练并冻结的教师模型,为学生模型提供结构化的参考信号。该框架包含两个关键组件:1)完整视图状态锚定(CSA),通过预测层、融合状态层和模态特定状态层三个层级的对齐,将学生模型的不完整视图预测和状态与教师参考进行匹配;2)非语言冲突暴露(NCE),在训练时构造保持目标标签但替换非语言模态的冲突视图,以增强模型对误导性非语言线索的鲁棒性。在IEMOCAP(4类和6类)、MELD-7数据集上的实验,以及CMU-MOSEI上的补充检查表明,CoRe-KD在固定缺失和随机缺失协议下均显著优于现有的重建、蒸馏和适配等基线方法。消融研究验证了CSA和NCE各组件的贡献。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文使用了以下公开基准数据集,并说明了获取方式: IEMOCAP:通过官方申请程序获取,仅用于许可的学术研究。链接:https://www.sci.usc.edu/software/iemocap/ MELD:公开发布的研究基准。链接:https://github.com/declare-lab/MELD CMU-MOSEI:公开发布的研究基准。链接:https://github.com/CMU-MultiComp/CMU-MultimodalSDK Demo:论文中未提及。 复现材料:论文在附录中提供了详细的复现信息,包括: 实验设置与协议:详见附录A,包括数据集划分(表A.1)、特征维度(表A.2)、缺失模态评估协议、训练视角构建和非冲突视角构建。 超参数与优化:详见附录A.6,优化器为Adam,学习率为\(1e-5\),权重衰减\(1e-5\),批大小16。IEMOCAP和MELD训练150个epoch,CMU-MOSEI训练100个epoch。KD温度\(\tau=2\),损失权重\(\lambda_{\text{kd}}=1.0, \lambda_{\text{state}}=0.5, \lambda_{\text{mstate}}=0.5, \lambda_{\text{NCE}}=1.0\)。NCE视角采样概率为0.2。 教师模型架构:详见附录C,包括完整的Transformer编码器结构、高斯启发状态头实现(式C.1-C.12)和PoE融合公式。 基线公平性控制:详见附录B,说明了复现设置、特征和教师控制以及训练稳定性(表B.1)。 硬件环境:所有实验在四块NVIDIA RTX A5000 24GB GPU上运行。 推理:推理时仅使用学生模型,教师模型和训练组件被丢弃。 论文中引用的开源项目: openSMILE:用于提取声学特征。论文链接:https://ieeexplore.ieee.org/document/5745357 RoBERTa:用于提取文本特征。论文链接:https://arxiv.org/abs/1907.11692 DenseNet:用于提取视觉特征。论文链接:https://arxiv.org/abs/1608.06993 data2vec:用于MELD声学特征提取。论文链接:https://arxiv.org/abs/2202.03555 TimeSformer:用于MELD视觉特征提取。论文链接:https://arxiv.org/abs/2102.05095 Wav2Vec:用于CMU-MOSEI声学特征提取。论文链接:https://arxiv.org/abs/2006.11477 DeBERTa:用于CMU-MOSEI文本特征提取。论文链接:https://arxiv.org/abs/2006.03650 MA-Net:用于CMU-MOSEI视觉特征提取。论文链接:https://arxiv.org/abs/2104.14200 MulT:作为教师骨架之一。论文链接:https://arxiv.org/abs/1905.09283 MISA:作为教师骨架之一。论文链接:https://arxiv.org/abs/2002.09854 Corr-KD:作为对比基线。论文链接:https://arxiv.org/abs/2405.11685 MoMKE:作为对比基线。论文链接:https://arxiv.org/abs/2401.11938 MCULoRA:作为对比基线。论文链接:https://arxiv.org/abs/2502.13076 ComP:作为对比基线。论文链接:https://arxiv.org/abs/2506.01573 IMDer:作为对比基线。论文链接:https://arxiv.org/abs/2312.15040 LNLN:作为对比基线。论文链接:https://arxiv.org/abs/2407.01474 🏗️ 方法概述和架构 本文提出的CoRe-KD框架采用教师-学生架构进行训练,旨在提升对话多模态情感识别模型在模态缺失条件下的鲁棒性。其核心流程与组件如下: ...

2026-05-29 · 更新于 2026-06-19 · 5 min · 986 words