Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 作者:Qixu Chen,Satoshi Nakamura 机构:School of Data Science 和 School of Artificial Intelligence,The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 356 words

M*: A Modular, Extensible, Serving System for Multimodal Models

📄 M*: A Modular, Extensible, Serving System for Multimodal Models #多模态模型 8.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前25% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Atindra Jha1, Naomi Sagan1, Keisuke Kamahori2†, Irmak Sivgin1†, Rohan Sanda1, Steven Gao2, Mark Horowitz1, Luke Zettlemoyer2, Olivia Hsu1,3, Jure Leskovec1‡, Baris Kasikci2‡, Stephanie Wang2‡ 1 Stanford University 2 University of Washington 3 Carnegie Mellon University *共同第一作者,†第二作者,‡同等指导 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 366 words

MiniMax Sparse Attention

📄 MiniMax Sparse Attention #高效推理 #多模态模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #高效推理 | #多模态模型 | arxiv 👥 作者与机构 Xunhao Lai (MiniMax, Peking University), Weiqi Xu (MiniMax), Yufeng Yang (MiniMax), Qiaorui Chen (NVIDIA), Yang Xu (MiniMax, Zhejiang University), Lunbin Zeng (MiniMax, Huazhong University of Science and Technology), Xiaolong Li (MiniMax, Zhejiang University), Haohai Sun (MiniMax), Haichao Zhu (MiniMax), Vito Zhang (MiniMax, Peking University), Pengyu Zhao (MiniMax) ...

2026-06-12 · 更新于 2026-06-12 · 5 min · 1003 words

Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification

📄 Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification #多模态模型 #说话人识别 #知识蒸馏 8.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #说话人识别 | #知识蒸馏 | #多模态模型 | arxiv 👥 作者与机构 Peng Jia, Li Dai, Jia Li, Zhenzhen Hu, Ye Zhao, Richang Hong Hefei University of Technology 💡 毒舌点评 这篇论文就像一份精心包装的竞赛技术报告。它准确地解决了POLY-SIM 2026挑战赛中定义明确的工程问题——在特定数据集上处理面部缺失的多语言说话人识别,并取得了优秀的竞赛成绩(第二名)。然而,从顶级学术会议的视角审视,其学术贡献显得相当单薄。所谓的“核心创新”——可学习的缺失token和可靠性感知融合——在更广泛的多模态学习文献中已非新鲜事,论文未能提供足够的理论深度来证明其在该任务上优于这些通用方法的原理。关键模块(如可靠性评分器)的设计和监督方式含糊不清,实验评估完全局限于单一竞赛数据集,且基线设置过于简单,使得“有效性”的证明力度大打折扣。论文更像是一份成功的工程优化总结,而非一篇提出具有广泛启发性的新原理或新技术的学术论文。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 304 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

BadRobot: Jailbreaking Embodied LLM Agents in the Physical World

📄 BadRobot: Jailbreaking Embodied LLM Agents in the Physical World #大语言模型 #多模态模型 5.2/10 | 创新 1.3/2 | 严谨 0.8/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.2/10 | 后50% | #语音合成 | #大语言模型 | #多模态模型 | arxiv 👥 作者与机构 第一作者及通讯作者:Hangtao Zhang, 华中科技大学。 合作者:Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Shengshan Hu (共同通讯作者), 均来自华中科技大学; Leo Yu Zhang 来自格里菲斯大学。 💡 毒舌点评 这篇论文像是给机器人安全社区的一次“开箱测评”,只不过开的是“潘多拉魔盒”。作者成功证明了“用大语言模型当大脑的机器人,很容易被忽悠去干坏事”,这确实是个值得警惕的问题。但这份分析报告和论文本身一样,更像是一份“风险预告”而非严谨的“安全审计报告”。分析报告对论文核心贡献的梳理基本到位,但犯了两个典型毛病:一是对论文自身声称的“发布基准测试集”过于乐观,原文只是说提供文档,实际资源可得性存疑;二是对论文的软肋——实验深度不足、缺乏量化评估——挖掘得还不够狠。整篇论文(和分析)都在强调“我们发现了问题”,但对于“问题有多严重”、“现有防御有多大差距”这些顶会审稿人最关心的问题,却语焉不详。给6.5分,是认可其提出议题的重要性,但对其技术深度和实验证据强度深表怀疑。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 229 words

Context-Aware Multimodal Claim Verification in Spoken Dialogues

📄 Context-Aware Multimodal Claim Verification in Spoken Dialogues #多模态模型 #自监督学习 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.1/10 | 前50% | #多模态模型 | #自监督学习 | arxiv 👥 作者与机构 作者:Chaewan Chun, Delvin Ce Zhang, Dongwon Lee 机构:美国宾夕法尼亚州立大学, 英国谢菲尔德大学 💡 毒舌点评 论文最大的“阿喀琉斯之踵”在于其合成数据集的本质。声称用“高保真”合成音频来研究真实世界的播客验证,这本身就是个悖论。无论MoonCast生成的语音多么逼真,它依然是在一个高度受控、无真实噪声、无自然口误和重叠的“无菌室”里产生的。结论的外推性需要打上一个巨大的问号。 “校准条件融合”听起来很高级,但本质上是一种事后融合(Post-hoc Fusion)策略,其性能高度依赖于单模态基线模型和验证集的选择。论文坦承联合训练效果不佳,这暗示了方法在整合能力上的局限,更像是一个精心设计的启发式规则搜索,而非一个端到端学习的鲁棒框架。 核心发现“音频在文本受干扰时贡献最大”的结论有些循环论证的味道。因为“干扰”本身就是通过文本模型在特定上下文下的性能下降来定义的,而音频的“帮助”是通过融合模型的提升来度量的。缺乏对“干扰”本身(如特定词汇、句法结构)的深入声学或语言学分析。 领域相关性偏弱。虽然任务是“语音对话验证”,但方法的核心创新点——上下文建模和校准融合——在文本NLP领域已有大量研究。论文对语音特性的挖掘(如具体哪些声学线索有用)不够深入,对于纯语音处理领域的研究者来说,增量价值有限。 📌 核心摘要 本文针对播客等口语对话中未经核查的事实性声明验证问题,提出了MAD2基准数据集与校准多模态融合框架。MAD2是一个合成的英文双人对话数据集,包含1000个对话(约10小时音频)、3368个已标注真伪的声明,并提供了通过WhisperX实现的声明-音频精确时间对齐。为验证声明,论文提出了三个模型变体:仅音频模型(基于WavLM-base+,采用声明感知注意力池化)、仅文本模型(基于RoBERTa-base,编码ASR转录文本)以及校准条件融合模型。校准融合通过对独立训练的单模态模型输出概率进行Platt校准,并在验证集上搜索最优组合策略。在不同对话上下文窗口下的系统实验表明:1)上下文对所有模态均有帮助,且在许多情况下,仅使用前序上下文(实时设置)即可达到接近离线处理(使用前后文)的性能,支持实时审核场景;2)音频并非提供均匀的性能提升,而是一种选择性校正信号,主要在文本模型因对话上下文变得不稳定时(如“协作质疑”场景)贡献显著增益;3)对话的互动结构(场景类型)比声明的引入方式(传播风格)对验证性能的影响更大。论文的局限性在于数据集的合成性以及未能明确驱动音频增益的具体声学线索。 🔗 开源详情 代码:论文中提及“Source code and the MAD2 benchmark will be released upon publication.”,承诺发布但尚未提供具体链接。 模型权重:论文中未提及发布模型权重。 数据集:论文中提及“the MAD2 benchmark will be released upon publication.”,承诺发布但尚未提供具体链接。数据集构建基于LIAR基准(https://huggingface.co/datasets/liar)。 Demo:论文中未提及。 复现材料:论文中提供了详细的超参数、训练设置和评估协议,但未提供训练好的检查点或完整训练脚本。 论文中引用的开源项目: LIAR: 事实核查声明基准数据集。HuggingFace链接:https://huggingface.co/datasets/liar FEVER: 事实核查数据集。项目主页:https://fever.ai/ DialFact: 对话事实核查数据集。项目主页:http://dialfact.github.io/ XTTS-v2: 文本转语音模型。HuggingFace链接:https://huggingface.co/coqui/XTTS-v2 MoonCast: 两说话人播客合成模型。论文引用链接:https://arxiv.org/abs/2503.02249 (Ju et al., 2025)。 WhisperX: 带有词级时间戳的语音识别模型。GitHub链接:https://github.com/m-bain/whisperX WavLM-base+: 语音编码器。模型在HuggingFace Hub上:https://huggingface.co/microsoft/wavlm-base-plus RoBERTa-base: 文本编码器。模型在HuggingFace Hub上:https://huggingface.co/roberta-base AdamW: 优化器。原始论文链接:https://arxiv.org/abs/1711.05101 (Loshchilov and Hutter, 2019)。 🏗️ 方法概述和架构 论文的任务定义为:给定一段对话中对齐的特定声明语句(包含其在音频中的时间戳),预测其真伪(y∈{0,1})。为此,提出了一套包含单模态编码器与后期校准融合的完整系统架构(见图2)。 ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 433 words

Frozen Multimodal Embeddings for Personality and Cognitive Ability Assessment in Asynchronous Video Interviews

📄 Frozen Multimodal Embeddings for Personality and Cognitive Ability Assessment in Asynchronous Video Interviews #多模态模型 #集成学习 #正则化微调 #模型评估 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #语音情感识别 | #集成学习 | #多模态模型 #正则化微调 | arxiv 👥 作者与机构 Kuo-En Hung: 台湾师范大学科技应用与人力资源发展学系,HRDA.pro(台湾) Hung-Yue Suen: 台湾师范大学科技应用与人力资源发展学系 Shih-Ching Yeh: 中央大学计算机资讯工程学系 Hsiang-Wen Wang: 阳明交通大学光电系统研究所 💡 毒舌点评 赛道选择巧妙,但深度有限:论文选择参加ACM Multimedia AVI Challenge 2026,这是一个明确的赛道。其核心创新点在于针对人格预测任务提出“特质特异性建模”和“冻结嵌入”策略,这在给定数据约束下(小样本)是务实且有效的工程优化。然而,这种“拼接”式创新(使用现有预训练模型+简单下游模型)在学术深度上略显不足,更像一份出色的竞赛技术报告,而非一篇具有深刻理论或方法突破的研究论文。 诊断性分析是亮点,但略显单薄:对Track 2认知能力分类任务的分析是本文最大的亮点。作者诚实地指出,一个仅使用主体属性(如年龄、教育)的简单基线模型性能优于复杂的多模态模型,从而揭示了验证集可能存在的“捷径”问题。这种批判性思维值得称赞。但分析本身不够深入,例如,没有量化主体属性与认知标签的相关性,也没有提出具体的“捷径”是什么,使得这一发现更像是一个警示而非一个扎实的结论。 实验部分扎实,但泛化性存疑:消融实验设计清晰,一步步展示了从全局模型到特质特异性模型再到晚期融合的改进路径,逻辑严谨。然而,所有性能提升(如19.1%的MSE降低)均在官方提供的、小规模的验证集(n=64)上评估,且关键的校准参数也在其上优化。这极大地增加了结果过拟合到该特定验证集的风险。作者在局限性中提到了这一点,但实验设计本身未能缓解这一担忧。对于一个声称要解决“小样本”问题的研究,其结论的泛化性证据是薄弱的。 领域相关性与影响力评估:虽然论文方法涉及了音频特征(Whisper)和文本特征,但其核心任务——从视频面试预测人格和认知能力——更偏向于计算机视觉、多模态学习和计算心理学的交叉领域,而非传统的核心语音/音频处理(如语音合成、识别、增强)。因此,对于专注于语音技术的读者,其直接技术借鉴价值有限。其影响力主要在于为“AI赋能的招聘评估”这一特定应用场景提供了一个可行的技术方案和一份诚实的错误分析。 完全缺乏可复现性:论文未提供任何代码、模型权重或数据集的公开链接。这在顶会论文中是一个显著的缺陷,严重阻碍了同行验证和方法的后续发展。尽管引用了多个开源模型,但其具体的特征提取流程、下游模型配置、融合策略的实现细节完全黑箱,无法复现。 📌 核心摘要 本文提出了一种用于ACM Multimedia AVI Challenge 2026的冻结多模态嵌入框架,以解决异步视频面试(AVI)中人格特质预测(Track 1)和认知能力评估(Track 2)任务中标签数据有限、多模态信号高维的挑战。核心方法是不进行大模型微调,而是采用冻结的视觉(CLIP)、声学(Whisper)和文本(RoBERTa, E5, DeBERTaV3)编码器提取多模态嵌入,并连接低容量下游模型。对于Track 1,通过特质特异性建模和晚期融合,将验证集平均MSE从官方基线0.3334降至0.2696,相对降低19.1%。消融实验证明该提升主要归因于特质特异性设计。对于Track 2,研究发现仅使用主体属性(如性别、年龄)的简单分类器性能优于复杂的多模态模型,作者将此解读为验证集存在主体属性-认知标签的“捷径”关联,而非模型真正从AVI内容中推理出认知能力,因此将其视为一项诊断性分析。论文的主要贡献是展示了在数据受限的AVI评估场景中,冻结多模态管道与特质特异性下游设计结合的有效性,并强调了对基准测试中潜在捷径进行诊断的重要性。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 352 words

RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark

📄 RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark #基准测试 #多模态模型 9.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.6/10 | 前10% | #音频问答 | #基准测试 | #多模态模型 | arxiv 👥 作者与机构 论文作者来自多个机构,包括: 墨尔本大学(The University of Melbourne):Hongyu Jin, Siyi Wang, Yang Xiao, Jiaheng Dong, Kaiyuan Peng, Eun-Jung Holden, Ting Dang (通讯作者) 亚历山大·约安·库扎大学(Alexandru Ioan Cuza University of Iași):Georgiana Juravle 武汉大学(Wuhan University):Shihong Tan, Gongping Huang 香港大学(The University of Hong Kong):Shanquan Chen 奥克兰大学(The University of Auckland):Hong Jia 莫纳什大学(Monash University):James Bailey 💡 毒舌点评 这篇论文就像给音频AI做了一次全面的“认知体检”,而不是只看它会不会听写或分类。作者们很聪明地借用了心理学中成熟的CHC理论框架,把评估维度从简单的任务表现拆解成了感知、推理、记忆、效率、知识五大能力,这比市面上那些七拼八凑的基准要科学得多。26个模型的大规模“体检报告”确实揭示了当前LALM们的“偏科”问题:背课文(知识)还行,但真要听懂复杂场景、记住长对话、又快又好地思考,还差得远。特别是发现了推理和记忆强相关、效率跟模型大小没啥关系这些点,挺有意思。 ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 551 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-06-12 · 22 min · 4642 words