多模态模型

Multimodal Speaker Identification in Classroom Environments

📄 Multimodal Speaker Identification in Classroom Environments #说话人识别 #多模态模型 6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #说话人识别 | #多模态模型 | arxiv 👥 作者与机构 Michael Leon Chrzan1, Meghavarshini Krishnaswamy1, Robert Gibboni2, Katie Wetstone2, Wei Ai3, Jing Liu1 未明确具体机构名称（论文中未说明）未明确具体机构名称（论文中未说明）未明确具体机构名称（论文中未说明）（论文作者列表及机构信息未在提供的原文片段中明确列出） 💡 毒舌点评这篇论文就像给课堂分析系统装上了一个“顺风耳”加“读心术”的混合引擎。它试图解决一个真实痛点：教室里小朋友们叽叽喳喳，老师声音被淹没，纯靠声音识别谁在说话简直是噩梦。作者的想法很直接：把声音特征和说话内容结合起来猜。用现成的ECAPA-TDNN模型提取声音指纹，再让GPT-5-mini这个“大语文课代表”从转录文本里猜猜是谁在说话，最后把这些特征塞给XGBoost这个“分类老手”。想法朴实，但实现上确实有点“缝合怪”——ECAPA-TDNN是别人的，XGBoost是别人的，LLM的提示词也简单得像是课堂练习题。最让人哭笑不得的是，花了这么大劲，对于最难也最有价值的学生识别，整体准确率才勉强过半（50.3%），还不如抛硬币（考虑多个学生）稍微强点。不过，论文也坦诚得可爱，老老实实分析了为什么对短语句没辙，为什么老师识别比学生识别准得多——毕竟老师话多，声音特征更稳定，LLM也更容易从“同学们”之类的词猜出是老师。总的来说，这是一篇工程意义大于科学创新的“集成创新”论文，在教育技术这个特定领域提供了一个可行的baseline，但要离真正的“课堂AI助教”还有十万八千里。 📌 核心摘要本文针对K-12教室环境中背景噪声大、儿童语音可变性强导致纯声学说话人识别（SID）效果差的问题，提出了一种多模态说话人识别框架。该框架将ECAPA-TDNN提取的声学嵌入与基于GPT-5-mini从转录文本推断的语义上下文（称为“语义锚点”）相结合，并通过XGBoost分类器进行最终预测。在EDSI数据集的8个数学课堂（2801个标注语句）上进行的留一课堂交叉验证表明，该多模态方法在教师-学生角色区分上达到99.3%的准确率，远超纯声学基线（88.0%）；在具体学生身份识别上，总体Top-1准确率为50.3%，较基线（39.0%）提升11.3个百分点，对于超过5秒的语句准确率可达76.9%。研究证实，在声学信号不足的短语句中识别个体学生仍是主要挑战，而结合语义上下文能显著提升对长时、有意义发言的识别能力，为构建可扩展的课堂个体参与分析系统提供了基础。 🔗 开源详情代码：论文中未提及任何代码仓库或链接。模型权重：论文中未提供其使用的具体模型权重链接。论文所用的ECAPA-TDNN基础模型（spkrec-ecapa-voxceleb）是SpeechBrain项目的开源组件，其官方权重托管于 HuggingFace Hub: https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb。数据集：论文使用了 EDSI (Educational Data Science and Innovation) Dataset 的一个子集。论文未提供该数据集的公开获取链接或明确的开源协议，通常需要向相关机构申请。 Demo：论文中未提及。复现材料：论文详细描述了实验设置（特征、超参数、交叉验证），但未提供任何训练脚本、配置文件、预处理代码或模型检查点。论文中引用的开源项目： SpeechBrain: ECAPA-TDNN模型的来源。官方项目：https://github.com/speechbrain/speechbrain。 XGBoost: 核心分类模型。官方项目：https://github.com/dmlc/xgboost。 Optuna: 用于超参数优化的框架。官方项目：https://github.com/optuna/optuna。 TranscribeMe: 论文中提及用于生成转录文本的商业服务，非开源项目。 🏗️ 方法概述和架构本文提出的方法是一个融合声学与文本语义的多模态说话人识别系统，旨在将每个语句归类到具体的说话人（教师或学生）。其核心流程包含声学嵌入提取、多维度特征工程、以及基于梯度提升树的分类预测。 ...

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

📄 OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains #数据增强 #自监督学习 #预训练 #指令微调 #多模态模型 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 #预训练 | arxiv 👥 作者与机构 Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan。南京大学，中国科学院自动化研究所。 💡 毒舌点评这篇论文的出发点很好，瞄准了当前音频-视觉QA数据合成中的“叙事断裂”和“浅层推理”痛点。提出的两阶段管道（实体锚定脚本+线索引导QA）在技术路线上是合理的。论文的实验部分做得相当扎实，在多个基准上展示了微调后的显著增益，且消融实验提供了有力的证据链。然而，其核心贡献更偏向于一个“数据工程”的工作包，而非具有强大理论新颖性或技术突破的方法。创新性在于精心的系统设计和组件的巧妙组合，但单个组件（如实体列表、线索挖掘）并非全新概念。最大的短板在于，其数据合成完全依赖于商用黑盒模型，这使得方法的可复现性和对数据质量的控制存在根本性隐患。论文在影响力上有所妥协，因为其核心贡献（数据集）直接服务的“音频-视觉推理”领域相对狭窄，对广大语音/音乐领域的读者直接助益有限。 ...

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构作者：Qixu Chen，Satoshi Nakamura 机构：School of Data Science 和 School of Artificial Intelligence，The Chinese University of Hong Kong, Shenzhen, China ...

M*: A Modular, Extensible, Serving System for Multimodal Models

📄 M*: A Modular, Extensible, Serving System for Multimodal Models #多模态模型 8.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前25% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Atindra Jha1, Naomi Sagan1, Keisuke Kamahori2†, Irmak Sivgin1†, Rohan Sanda1, Steven Gao2, Mark Horowitz1, Luke Zettlemoyer2, Olivia Hsu1,3, Jure Leskovec1‡, Baris Kasikci2‡, Stephanie Wang2‡ 1 Stanford University 2 University of Washington 3 Carnegie Mellon University *共同第一作者，†第二作者，‡同等指导 ...

MiniMax Sparse Attention

📄 MiniMax Sparse Attention #高效推理 #多模态模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #高效推理 | #多模态模型 | arxiv 👥 作者与机构 Xunhao Lai (MiniMax, Peking University), Weiqi Xu (MiniMax), Yufeng Yang (MiniMax), Qiaorui Chen (NVIDIA), Yang Xu (MiniMax, Zhejiang University), Lunbin Zeng (MiniMax, Huazhong University of Science and Technology), Xiaolong Li (MiniMax, Zhejiang University), Haohai Sun (MiniMax), Haichao Zhu (MiniMax), Vito Zhang (MiniMax, Peking University), Pengyu Zhao (MiniMax) ...

Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification

📄 Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification #多模态模型 #说话人识别 #知识蒸馏 8.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #说话人识别 | #知识蒸馏 | #多模态模型 | arxiv 👥 作者与机构 Peng Jia, Li Dai, Jia Li, Zhenzhen Hu, Ye Zhao, Richang Hong Hefei University of Technology 💡 毒舌点评这篇论文就像一份精心包装的竞赛技术报告。它准确地解决了POLY-SIM 2026挑战赛中定义明确的工程问题——在特定数据集上处理面部缺失的多语言说话人识别，并取得了优秀的竞赛成绩（第二名）。然而，从顶级学术会议的视角审视，其学术贡献显得相当单薄。所谓的“核心创新”——可学习的缺失token和可靠性感知融合——在更广泛的多模态学习文献中已非新鲜事，论文未能提供足够的理论深度来证明其在该任务上优于这些通用方法的原理。关键模块（如可靠性评分器）的设计和监督方式含糊不清，实验评估完全局限于单一竞赛数据集，且基线设置过于简单，使得“有效性”的证明力度大打折扣。论文更像是一份成功的工程优化总结，而非一篇提出具有广泛启发性的新原理或新技术的学术论文。 ...

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分前25% #语音合成 15. MiniMax Sparse Attention 7.7分前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

BadRobot: Jailbreaking Embodied LLM Agents in the Physical World

📄 BadRobot: Jailbreaking Embodied LLM Agents in the Physical World #大语言模型 #多模态模型 5.2/10 | 创新 1.3/2 | 严谨 0.8/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.2/10 | 后50% | #语音合成 | #大语言模型 | #多模态模型 | arxiv 👥 作者与机构第一作者及通讯作者：Hangtao Zhang，华中科技大学。合作者：Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Shengshan Hu (共同通讯作者)，均来自华中科技大学； Leo Yu Zhang 来自格里菲斯大学。 💡 毒舌点评这篇论文像是给机器人安全社区的一次“开箱测评”，只不过开的是“潘多拉魔盒”。作者成功证明了“用大语言模型当大脑的机器人，很容易被忽悠去干坏事”，这确实是个值得警惕的问题。但这份分析报告和论文本身一样，更像是一份“风险预告”而非严谨的“安全审计报告”。分析报告对论文核心贡献的梳理基本到位，但犯了两个典型毛病：一是对论文自身声称的“发布基准测试集”过于乐观，原文只是说提供文档，实际资源可得性存疑；二是对论文的软肋——实验深度不足、缺乏量化评估——挖掘得还不够狠。整篇论文（和分析）都在强调“我们发现了问题”，但对于“问题有多严重”、“现有防御有多大差距”这些顶会审稿人最关心的问题，却语焉不详。给6.5分，是认可其提出议题的重要性，但对其技术深度和实验证据强度深表怀疑。 ...

Context-Aware Multimodal Claim Verification in Spoken Dialogues

📄 Context-Aware Multimodal Claim Verification in Spoken Dialogues #多模态模型 #自监督学习 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.1/10 | 前50% | #多模态模型 | #自监督学习 | arxiv 👥 作者与机构作者：Chaewan Chun， Delvin Ce Zhang， Dongwon Lee 机构：美国宾夕法尼亚州立大学，英国谢菲尔德大学 💡 毒舌点评论文最大的“阿喀琉斯之踵”在于其合成数据集的本质。声称用“高保真”合成音频来研究真实世界的播客验证，这本身就是个悖论。无论MoonCast生成的语音多么逼真，它依然是在一个高度受控、无真实噪声、无自然口误和重叠的“无菌室”里产生的。结论的外推性需要打上一个巨大的问号。 “校准条件融合”听起来很高级，但本质上是一种事后融合（Post-hoc Fusion）策略，其性能高度依赖于单模态基线模型和验证集的选择。论文坦承联合训练效果不佳，这暗示了方法在整合能力上的局限，更像是一个精心设计的启发式规则搜索，而非一个端到端学习的鲁棒框架。核心发现“音频在文本受干扰时贡献最大”的结论有些循环论证的味道。因为“干扰”本身就是通过文本模型在特定上下文下的性能下降来定义的，而音频的“帮助”是通过融合模型的提升来度量的。缺乏对“干扰”本身（如特定词汇、句法结构）的深入声学或语言学分析。领域相关性偏弱。虽然任务是“语音对话验证”，但方法的核心创新点——上下文建模和校准融合——在文本NLP领域已有大量研究。论文对语音特性的挖掘（如具体哪些声学线索有用）不够深入，对于纯语音处理领域的研究者来说，增量价值有限。 📌 核心摘要本文针对播客等口语对话中未经核查的事实性声明验证问题，提出了MAD2基准数据集与校准多模态融合框架。MAD2是一个合成的英文双人对话数据集，包含1000个对话（约10小时音频）、3368个已标注真伪的声明，并提供了通过WhisperX实现的声明-音频精确时间对齐。为验证声明，论文提出了三个模型变体：仅音频模型（基于WavLM-base+，采用声明感知注意力池化）、仅文本模型（基于RoBERTa-base，编码ASR转录文本）以及校准条件融合模型。校准融合通过对独立训练的单模态模型输出概率进行Platt校准，并在验证集上搜索最优组合策略。在不同对话上下文窗口下的系统实验表明：1）上下文对所有模态均有帮助，且在许多情况下，仅使用前序上下文（实时设置）即可达到接近离线处理（使用前后文）的性能，支持实时审核场景；2）音频并非提供均匀的性能提升，而是一种选择性校正信号，主要在文本模型因对话上下文变得不稳定时（如“协作质疑”场景）贡献显著增益；3）对话的互动结构（场景类型）比声明的引入方式（传播风格）对验证性能的影响更大。论文的局限性在于数据集的合成性以及未能明确驱动音频增益的具体声学线索。 🔗 开源详情代码：论文中提及“Source code and the MAD2 benchmark will be released upon publication.”，承诺发布但尚未提供具体链接。模型权重：论文中未提及发布模型权重。数据集：论文中提及“the MAD2 benchmark will be released upon publication.”，承诺发布但尚未提供具体链接。数据集构建基于LIAR基准（https://huggingface.co/datasets/liar）。 Demo：论文中未提及。复现材料：论文中提供了详细的超参数、训练设置和评估协议，但未提供训练好的检查点或完整训练脚本。论文中引用的开源项目： LIAR: 事实核查声明基准数据集。HuggingFace链接：https://huggingface.co/datasets/liar FEVER: 事实核查数据集。项目主页：https://fever.ai/ DialFact: 对话事实核查数据集。项目主页：http://dialfact.github.io/ XTTS-v2: 文本转语音模型。HuggingFace链接：https://huggingface.co/coqui/XTTS-v2 MoonCast: 两说话人播客合成模型。论文引用链接：https://arxiv.org/abs/2503.02249 (Ju et al., 2025)。 WhisperX: 带有词级时间戳的语音识别模型。GitHub链接：https://github.com/m-bain/whisperX WavLM-base+: 语音编码器。模型在HuggingFace Hub上：https://huggingface.co/microsoft/wavlm-base-plus RoBERTa-base: 文本编码器。模型在HuggingFace Hub上：https://huggingface.co/roberta-base AdamW: 优化器。原始论文链接：https://arxiv.org/abs/1711.05101 (Loshchilov and Hutter, 2019)。 🏗️ 方法概述和架构论文的任务定义为：给定一段对话中对齐的特定声明语句（包含其在音频中的时间戳），预测其真伪（y∈{0,1}）。为此，提出了一套包含单模态编码器与后期校准融合的完整系统架构（见图2）。 ...