Stage-adaptive Token Selection for Efficient Omni-modal LLMs

📄 Stage-adaptive Token Selection for Efficient Omni-modal LLMs #多模态模型 #高效推理 #音频视觉 #大语言模型 ✅ 7.7/10 | 前25% | #多模态模型 | #高效推理 | #音频视觉 #大语言模型 | arxiv 学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Zijie Xin (Renmin University of China) 通讯作者:Xirong Li (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.) 作者列表:Zijie Xin (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.), Ruixiang Zhao (Renmin University of China), Tianyi Wang (WeChat Vision, Tencent Inc.), Fengyun Rao (WeChat Vision, Tencent Inc.), Jing Lyu (WeChat Vision, Tencent Inc.), Xirong Li (Renmin University of China) 注:论文脚注说明 Zijie Xin 和 Ruixiang Zhao 在腾讯实习期间完成了这项工作。 💡 毒舌点评 该工作的核心洞察——om-LLM中跨模态token的依赖性随深度衰减——清晰且有说服力,实验设计也足够扎实(跨模型、多基准、消融分析)。然而,其提出的“阶段自适应”策略在实现上高度依赖于精心调参的启发式规则(如层级划分、衰减函数),这既限制了方法的泛化性(需为每个新模型重新调参),也使得其“自适应”的声称略显薄弱,本质上更像是一种精心设计的、分阶段的启发式调度,而非真正能动态适应输入内容的机制。 ...

2026-05-21 · 更新于 2026-06-19 · 3 min · 527 words

Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models

📄 Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models #语音对话系统 #模型评估 #端到端 #语音大模型 #模拟对话 #认知启发式分析 ✅ 7.6/10 | 前25% | #语音对话系统 | #模型评估 | #端到端 #语音大模型 | arxiv 学术质量 5.3/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:Pablo Riera (ASAPP Inc., USA;Departamento de Computación, FCEyN, Universidad de Buenos Aires, Argentina) (注:原文中机构顺序需校正) 通讯作者:未说明 作者列表:Pablo Riera (ASAPP Inc., USA;Departamento de Computación, FCEyN, Universidad de Buenos Aires, Argentina)†, Pablo Brusco (ASAPP Inc., USA), Cristina Kuo (ASAPP Inc., USA), Marcelo Sancinetti (ASAPP Inc., USA), S. R. K. Branavan (ASAPP Inc., USA) (†表示该工作在ASAPP进行) 📌 核心摘要 问题:全双工语音对话模型(SDMs)能够同时听与说,但如何量化理解其交互过程中内部表示如何协调(如同步)并支持轮替时机预测,是当前评估中的空白。论文旨在借鉴人类对话中观察到的神经耦合现象,对此进行计算建模与分析。 方法:提出了一个基于模拟和探针的分析框架。通过连接两个Moshi模型实例构建模拟对话,在受控条件下(不同信道噪声、解码偏差、模型版本)生成大量对话数据。分析分两部分:a) 使用线性中心化核对齐(CKA) 量化两个模型内部表示在不同时间延迟下的同步性;b) 训练因果LSTM探针,从“生产者”(说话人)和“感知者”(听者)两个视角,预测即将到来的语音片段结束(EOI)和轮替决策(Hold vs. Non-Hold)。 创新:将认知科学中的神经耦合与同步概念系统性地应用于评估全双工语音对话模型的内部动态;提出了一个超越传统表面行为评估,深入模型表示层面的交互分析框架。 主要结果: 同步性:在无噪声条件下,内部表示在0延迟附近呈现强同步(CKA峰值平均约0.5,特定对话可达0.8)。噪声增大、人为调整解码偏差或使用未经微调的模型对,都会降低同步性。即使在高延迟下,无噪声对话也存在一定基础水平的表示对齐(CKA约0.25),而高噪声下则很低(<0.1)。 轮替预测:探针在生产者和感知者视角下,均能以显著高于随机水平的AUC-ROC预测EOI和Hold/Non-Hold。无噪声条件优于有噪声条件。性能随预测延迟增加而下降,但在所测试的长延迟范围内未降至随机水平,表明内部表示包含了提前的轮替预期信息。 实际意义:为诊断和评估端到端语音对话系统的交互协调性提供了新的量化工具和视角,有助于理解模型如何支持自然的对话节奏。 主要局限性:实验场景局限于基于相同提示、短时长、角色固定的模拟医疗预约对话,数据多样性不足;所有分析仅针对Moshi模型,结论的跨模型普适性未知;探针在大延迟下仍高于随机的表现,可能源于模拟对话中固有的时间规律性,而非纯粹的内部表示信息,需在更多样化场景下验证。 🔗 开源详情 代码:论文中未提供本文所用的分析代码、探针训练代码或模拟对话生成脚本的链接。 模型权重:论文中提到了使用官方的Moshi模型检查点(Moshika 和 Moshiko),并提供了其开源链接:https://huggingface.co/kyutai/moshi。论文未提供其微调版本的具体权重或微调代码。 数据集:论文中未提供生成的模拟对话数据的下载链接。数据集由2880段对话(约80小时音频)组成,在论文所述条件下生成。 Demo:论文中未提及。 复现材料:论文未提供具体的训练脚本、配置文件或完整的复现指南。仅提供了关键的实验设置和超参数(如对话长度100秒,每条件20个种子,数据分割32/8,Adam优化器学习率1e-3,批量大小16,训练200 epochs)。 论文中引用的开源项目: Moshi:一个用于实时双向对话的预训练语音-文本基础模型。项目主页和模型权重可通过以下链接访问:https://github.com/kyutai/moshi (GitHub) 和 https://huggingface.co/kyutai/moshi (HuggingFace)。 dGSLM (Generative Spoken Dialogue Language Modeling):论文中提及的一项可以从原始音频中学习轮次转换等行为的开创性工作。论文中未提供该项目的代码或数据集链接。 Full-Duplex-Bench:一个评估基准。论文中未提供该项目的代码或数据集链接。 Talking Turns:另一个评估基准。论文中未提供该项目的代码或数据集链接。 🏗️ 方法概述和架构 整体流程概述:本文提出了一个用于分析全双工语音对话模型内部动态的框架,主要包含三个阶段:1)在受控条件下生成模拟对话并收集内部表示;2)计算两个对话模型内部表示间的同步性;3)训练探针预测轮替事件。这是一个非端到端的分析评估框架,旨在“解剖”现有模型的行为,而非提出新模型。 ...

2026-05-21 · 更新于 2026-06-19 · 2 min · 285 words

Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation

📄 Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation #语音对话系统 #强化学习 #实时处理 #语言模型 ✅ 6.9/10 | 前50% | #语音对话系统 | #强化学习 | #实时处理 #语言模型 | arxiv 学术质量 5.5/7 | 影响力 1.2/2 | 可复现性 0.2/2 | 置信度 中 👥 作者与机构 第一作者:Xuan Du (华为) 通讯作者:Xinghao Chen (华为) 作者列表:Xuan Du (华为), Qiangyu Yan (华为), Wenshuo Li (华为), Borui Jiang (华为), Changming Xiao (华为), Han Shu (华为), Xinghao Chen (华为)。机构信息为“Huawei Technologies”,未提供更具体的实验室或部门信息。 💡 毒舌点评 论文将“边思考边说话”模式形式化为一个可控的交错生成框架,通过TA-Balance奖励函数管理推理片段长度以匹配语音播放时间,思路清晰且针对实时交互的痛点。然而,其核心贡献更偏向于一个针对特定基座模型(Qwen2.5-Omni-3B)的工程化优化方案。方法强依赖于精心构建的离线交错数据,这种数据构建管线本身的通用性和可扩展性存疑。实验仅在一个3B模型上验证,缺乏对方法泛化性(如更大模型、不同架构)的深入探讨。此外,流畅度评估完全依赖LLM打分器,缺乏人类听感评测,说服力不足。 ...

2026-05-21 · 更新于 2026-06-19 · 3 min · 428 words

Verifiable Provenance and Watermarking for Generative AI: An Evidentiary Framework for International Operational Law and Domestic Courts

📄 Verifiable Provenance and Watermarking for Generative AI: An Evidentiary Framework for International Operational Law and Domestic Courts #多媒体取证 #合成媒体与深度伪造检测 #数字水印与数据隐藏 #认证与出处 #证据法 #国际人道法 #人工智能法规 🔥 8.6/10 | 前25% | #多媒体取证 | #合成媒体与深度伪造检测 | #数字水印与数据隐藏 #认证与出处 | arxiv 学术质量 6.5/7 | 影响力 0.5/2 | 可复现性 1.6/2 👥 作者与机构 Gustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov (通讯作者): 瑞典国防大学军事研究系,斯德哥尔摩。邮箱: olal0604@student.fhs.se; ORCID: 0009-0006-5184-0810。 Nurana Abdullayeva: ADA大学法学院,巴库,阿塞拜疆。邮箱: nabdullayeva20516@ada.edu.az。 论文注明作者未获得外部资助,且无利益冲突。 💡 毒舌点评 这是一篇典型的“法律-技术交叉”论文,野心勃勃地试图用一套技术框架统一三个风马牛不相及的法律体系的证据标准。技术部分(Dempster-Shafer聚合)本身并不新颖,真正的“卖点”是那套详尽的法律分析、阈值建议和模型附件(比如附录E的作战规则附录)。对于纯技术读者而言,可能会觉得“就这?”——因为核心的检测结果(Table II)显示,面对Tier 4攻击,最好的组合方案TPR也只有0.413。论文的价值更多体现在其系统性的跨学科映射和提供的实用工具(如Jury Instruction模板),而非推动检测技术本身的边界。另外,所有“代码和数据”都需向作者请求,这在大谈“可复现性”的同时略显讽刺。 📌 核心摘要 问题:生成式AI内容真实性验证需要满足三个不同法律体系(国际作战法、国内诉讼、产品法规)的证明要求,目前缺乏统一框架。 方法:构建统一证据对象元组 π=(σ, ω, ζ, λ) ,通过Dempster-Shafer聚合器(公式2)将加密出处(σ)、水印检测(ω)、零知识证明(ζ)及洗涤描述符(λ)组合为单一充分性得分 ℒ_R(π)。针对每个法律体系R,设定不同的法律阈值 τ_R(如作战法中,人口稠密区动能行动要求后验概率P(H|E)≥0.95)。 威胁模型:定义从Tier 1(简单再生成)到Tier 5(内部人士伪造出处)的五级对手能力阶梯。 实验:在包含图像、音频、视频各4,000项(经6种洗涤管道,共72,000样本)的基准上评估四种方案(C2PA Ed25519、Stable Signature、Tree Ring Watermark、Gaussian Shading)。核心发现是任何单一方案均不足,组合方案在Tier 2/3攻击下对部分阈值满足要求,在Tier 4下表现仍有限(见Table II, V)。 贡献:提出映射框架、发布基准、提供法律阈值建议及可操作的模型附件(规则、陪审团指示、披露模板)。 🔗 开源详情 代码:论文声明整个流程(包括生成种子、清洗参数、真值标签、评估脚本和统计引导程序)均公开,作为补充材料发布,但未提供具体的代码仓库URL(如GitHub、GitLab链接)。 模型权重:论文未提出新的模型权重。评估使用了现有方案的公开参考检查点(如Stable Signature的48位公开检查点、Tree Ring Watermark的默认配置等),但未提供这些预训练权重的具体下载链接。生成样本所用的生成模型(如SDXL, FLUX.1等)的检查点也被声明为公开可用,同样未提供具体链接。 数据集:论文描述了一个包含12,000个生成项目(图像、音频、视频各4,000个)和72,000个评估样本的基准数据集。数据集采用Creative Commons Attribution 4.0 International许可证。数据集的获取方式为“可向通讯作者提出合理请求”,论文中未提供公开的直接下载URL(如HuggingFace或GitHub链接)。同行评审期间可通过编辑部获取匿名快照。 Demo:论文未提及在线演示链接。 复现材料:论文明确声明提供了完整的复现材料,包括:生成种子、清洗参数、真值标签、评估脚本、统计引导程序、容器镜像规范以及参考实现的验证器。这些将作为本文的补充材料发布。论文中未提供这些复现材料的具体下载链接。 论文中引用的开源项目: C2PA (Coalition for Content Provenance and Authenticity):论文引用了其开放规范。官方规范主页:https://c2pa.org/ c2pa-rs:论文在实现细节中提及使用了版本为0.32的参考实现。这是一个用于处理C2PA标准的Rust库,其开源仓库为:https://github.com/contentauth/c2pa-rs arkworks:论文在实现细节中提及使用了版本为0.4的库,用于zk-SNARK后端。这是一个用于构建零知识证明的Rust生态系统,其官网为:https://arkworks.rs/ Stable Signature:论文评估了此水印方案,其原文引用为[6]。这是一个基于稳定扩散的解码器水印方案,论文未提供其具体代码链接,但指出了其使用公开的48位检查点。 Tree Ring Watermark:论文评估了此水印方案,其原文引用为[7]。这是一个基于初始噪声张量的环形水印方案,论文未提供其具体代码链接。 Gaussian Shading:论文评估了此水印方案,其原文引用为[8]。这是一个基于约束高斯区域的统计校准水印方案,论文未提供其具体代码链接。 Zhao et al. 攻击:论文引用了其关于水印移除的攻击(扩散净化)[11],未提供具体代码链接。 Saberi et al. 攻击:论文引用了其关于水印移除的攻击(再生攻击)[12],并提到了其公开的参考实现,但未提供具体链接。 An et al. WAVES:论文在对比中提到了此工作[13],其包含压力测试基准,未提供具体代码链接。 🏗️ 方法概述和架构 本文提出一个统一证据框架,核心是构建一个可聚合多种验证源的“证明对象”,并将其输出映射到不同法律体系的充分性阈值上。 ...

2026-05-21 · 更新于 2026-06-19 · 3 min · 498 words

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

📄 π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows #长期助手 #代理基准测试 #主动AI #多轮交互 #评估方法 #LLM评估 📝 5.2/10 | 后50% | #长期助手 | #代理基准测试 | #主动AI #多轮交互 | arxiv 学术质量 3.8/7 | 影响力 0.3/2 | 可复现性 1.1/2 👥 作者与机构 论文作者来自上海交通大学、上海人工智能实验室、复旦大学、中国科学技术大学、北京大学、南京大学、浙江大学、同济大学、苏州大学、香港中文大学等多所中国顶尖高校与研究机构。 💡 毒舌点评 这篇论文做了一件正确但略显“取巧”的事:把一个大家都觉得重要但难以测量的软能力(“主动性”)包装成了一个看起来很硬核的基准测试。论文结构工整,实验图表丰富,读起来像一篇合格的顶会论文。然而,最大的槽点在于其“可复现性”的宣称与实际情况的差距——论文号称提供了一个基准,但这个基准的核心数据集(那100个任务到底长什么样)和最关键的“模拟用户”与“评估者”(GPT-5.4)的完整提示词都没有公开。这就好比发布了一个号称最权威的考试,却只公布了平均分和部分考题示例,而没给完整试卷和答案。这让其他研究者如何验证你的结论?如何在此基础上改进?因此,虽然论文在概念上做出了贡献,但其作为“可复用基准”的实际价值大打折扣。评分中“开源”和“可复现性”两项的低分主要源于此。 📌 核心摘要 本研究针对个人助手代理在长期、多轮工作流中缺乏主动性的评估空白,推出了π-Bench基准。其核心在于形式化定义了“主动性”(Proactivity)和“完整性”(Completeness)两个独立维度。主动性衡量代理主动揭示或满足用户未明说需求的能力,通过分析对话轨迹中隐藏意图的解决状态(完成、推断、提供)来量化。完整性则基于一个详细的检查清单,评估最终交付成果是否满足所有可验证要求。该基准包含100个任务,每个任务起始于一个不完全明确的请求,要求代理在包含文件、工具的持久化项目环境中,通过多轮交互逐步满足隐藏意图并产出正确成果。实验在9个前沿LLM上进行,系统评估了它们在两个维度上的表现,并通过消融实验证明了跨会话历史对解决后续隐藏意图的重要性。 🏗️ 方法概述和架构 本文的核心贡献是π-Bench评估基准的设计与构建,而非提出新的代理模型。其方法框架围绕“评估代理系统”与“模拟用户代理”的交互展开,在持久化工作区中进行。 评估代理系统(Evaluated Agent System):这是被测试的对象,通常是一个采用ReAct范式的长期个人助手代理。其核心能力是在持久化项目环境中,通过规划、工具调用(如Web搜索、文件操作、购物工具)和技能调用,迭代地创建和修改工件(如代码、文档、结构化输出)来推进任务。代理可以跨会话访问共享的工作区文件和记忆,以维持上下文一致性。 模拟用户代理(User Agent):这是基准中的关键创新组件,用于模拟真实用户的交互行为。它由GPT-5.4驱动,扮演一个拥有固定角色(职业、偏好、习惯)的用户。其核心职责是: 意图状态追踪:在每个任务中,维护一组预定义的“隐藏意图”集合。每条意图初始状态为“未陈述”。 两阶段意图分配:在每轮代理响应后,用户代理会执行两步判定: 第一阶段(完成检查):判断代理的最新响应(包括工具调用和文件修改)是否已直接满足某个隐藏意图。若是,则将该意图标记为“已完成”。此步骤优先级最高,因为它代表了最强的主动性形式。 第二阶段(澄清检查):判断代理的响应是否包含针对某个隐藏意图的明确、聚焦的询问。若是,则将该意图标记为“已推断”,并在下一轮用户消息中回答该问题。如果代理既未完成也未询问,则用户代理会主动提供与当前任务阶段相关的一个隐藏意图信息,将其标记为“已提供”。 会话终止控制:当一个会话中所有隐藏意图都已被标记为三种终端状态之一(已完成、已推断、已提供)时,用户代理终止该会话。这确保了评估覆盖了所有隐藏意图的解决过程。 任务构建与工作流设计: 用户角色与剧情:设计了5个领域特定的角色(研究员、营销员、法律实习生、药剂师、金融从业者),每个角色在一个包含20个会话的“剧情”中展开工作,模拟长期、真实的个人工作流程。 隐藏意图与检查清单:每个任务都包含两部分标注:1) 隐藏意图,代表用户未明说但应影响代理行为的潜在需求(偏好、约束、依赖);2) 检查清单,定义了最终交付成果必须满足的可验证标准(文件、格式、内容)。两者概念不同:前者衡量过程主动性,后者衡量结果完整性。 依赖结构:在20个任务中,设计了6个“强依赖组”,每组2-3个任务共享关键的前后信息,用于评估代理利用跨会话历史的能力。其余为独立任务。 评估协议: 主动性得分(Proc):计算公式为 (|已完成| + |已推断|) / |总意图|。该分数衡量代理主动驱动需求发现的比例。 完整性得分(Comp):基于检查清单计算,每个项目通过规则验证(如文件存在性)或基于LLM的评分标准评估,最终得分为满足项的平均值。 两个指标被明确区分:一个反应性代理可能在用户逐步提供所有需求后获得高完整性分,但主动性分很低;反之,一个能早期发现意图的代理也可能因执行错误而完整性分不高。 💡 核心创新点 定义并量化“主动性”:首次在一个标准化基准中,将长期助手代理的“主动性”形式化为一个可计算的度量(Proc),并与任务的“完整性”(Comp)解耦。通过精细的意图状态分配(完成/推断/提供)提供了更细粒度的分析视角。 构建面向长期工作流的评估环境:π-Bench模拟了真实场景:起始于不完全的请求、在持久化工作区中迭代工作、意图随交互逐渐显现、任务间存在跨会话依赖。这区别于以往聚焦于单次或短期交互的基准。 系统化实验与多维分析:在多个前沿模型上进行了全面评估,并通过任务类型分解、意图状态分布分析、交互轮次分析以及跨会话依赖消融实验,深入揭示了当前模型在主动性方面的具体短板和模式。 📊 实验结果 论文在9个前沿LLM上进行了评估,主要结果如Table 1所示(平均Proc/Comp,%,三次运行均值±标准差): ...

2026-05-21 · 更新于 2026-06-19 · 2 min · 227 words

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分 前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分 前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分 前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分 前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分 前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分 前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分 前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分 前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分 前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分 前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分 前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分 前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分 前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分 前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分 前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分 前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分 前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分 前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分 前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分 前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分 前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分 前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分 前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分 前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分 前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分 前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分 前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分 前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分 前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分 前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分 前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分 前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分 前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分 前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分 前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分 后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分 后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分 前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分 后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

2026-05-21 · 更新于 2026-06-19 · 26 min · 5389 words

A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources

📄 A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources #声源定位 #强化学习 #音频场景理解 📝 5/10 | 前50% | #声源定位 | #强化学习 | #音频场景理解 | arxiv 学术质量 4.2/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Andreas Triantafyllopoulos(Technical University of Munich, Chair of Health Informatics; MCML – Munich Center for Machine Learning) 通讯作者:论文中未明确标注通讯作者,但第一作者邮箱为 andreas.triantafyllopoulos@tum.de。 作者列表: Andreas Triantafyllopoulos(Technical University of Munich, Chair of Health Informatics; MCML – Munich Center for Machine Learning) Jakub Šťastný(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Alexios Terpinas(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Tianyi Liu(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Yuanqi Wang(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Björn W. Schuller(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning; MDSI – Munich Data Science Institute; GLAM – Group on Language, Audio, & Music, Imperial College, London, UK) 💡 毒舌点评 本文提出了一个清晰且符合直觉的“通过奖励倾听”的RL概念框架,为将强化学习引入音频领域提供了一个系统的思路和理论讨论。然而,作为一篇定位为“概念框架”的论文,其核心缺陷在于,支撑这一宏大愿景的“概念验证”实验过于初级和简化(单个静态声源、极小的网格世界),与论文引言中提及的“通用音频基础模型”的远景之间存在巨大鸿沟。论文未能充分证明该框架在面对更复杂、更真实的音频挑战时的有效性和扩展潜力,使其更像一篇“路线图”或研究呼吁,而非一个完整的技术贡献。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 449 words

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

📄 Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German ✅ 6.2/10 | 前50% | #语音识别 | #基准测试 | arxiv 学术质量 5.2/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Sajjad Abdoli (Perle AI) 通讯作者:Sajjad Abdoli (sajjad@perle.ai) 作者列表:Sajjad Abdoli (Perle AI), Ghassan Al-Sumaidaee (Perle AI), Clayton W. Taylor (Perle AI), Ahmad (MAD) ElShiekh (Perle AI), Ahmed Rashad (Perle AI) (所有作者均来自同一机构,分析正确,无需修正。) 💡 毒舌点评 这篇论文精准地切中了工业界的一个痛点:多语言代码切换场景下商业ASR的评估缺失。它设计的“启发式+LLM”两阶段基准构建流水线是一个工程上巧妙且成本意识很强的方案,尤其是对H_Score的详细定义和LLM评分维度的设计,展现了清晰的思考。然而,其“严苛”程度更多体现在构建流程的复杂度上,而非对评估对象的深度剖析。作为一篇NeurIPS/ICML级别的论文,它最大的弱点在于满足于给出一个“谁更好”的排名,却几乎完全回避了“为什么好/差”的根本性问题。论文缺乏任何对识别错误的声学或语言学归因分析,例如,模型是在切换点处混淆了语言边界,还是对特定口音的英语/阿拉伯语建模不足?它未能将商业系统的性能与其公开或推测的架构(如E2E vs. LID)进行深入的联系与解释。这种停留在黑箱性能表层的分析,使得其科学贡献大打折扣,更像是一份详尽的行业评测报告,而非一篇有深度的学术研究。作者提出的BERTScore优势论点虽然有价值,但缺乏足够的对照实验(如与Whisper等开源模型对比)来巩固其普适性,显得孤立。 📌 核心摘要 要解决什么问题:现实世界中广泛存在的多语言说话者“代码切换”(一句话中混用两种语言)现象,对自动语音识别(ASR)构成巨大挑战,但现有的商业ASR基准测试主要针对干净的单语语音,无法评估系统在真实多语言场景下的性能。 方法核心是什么:构建了一个专门用于评估商业ASR系统在代码切换语音上表现的基准数据集,涵盖阿拉伯语(埃及、沙特方言)、波斯语、德语与英语的四组语言对。采用两阶段样本选择流程:首先使用基于启发式规则的过滤器(H_Score)筛选出结构上高度混合的语料,然后使用GPT-4o和Gemini 1.5 Pro组成的LLM集成模型进行六维度的语言学难度评分,最终选出每个语言对最困难的300个样本。 与已有方法相比新在哪里:1) 填补了商业ASR在阿拉伯-英语、波斯-英语和海湾阿拉伯-英语等特定语言对代码切换评估的空白。2) 强烈主张并论证了对于涉及不同文字系统的代码切换,BERTScore是比传统的词错误率(WER)更可靠的主评估指标,因为WER会错误惩罚语义正确但采用了不同转写规则(如音译)的输出。3) 提出了一个可复现的、结合启发式与LLM的语料筛选流水线,将LLM评分成本降低约91%。 主要实验结果如何:对五家主流商业ASR系统进行了评估。结果表明,ElevenLabs Scribe v2在所有四个语言对上均表现最佳(整体WER 13.2%,整体BERTScore 0.936)。其他系统(OpenAI, Google, Azure)的WER显著更高(38.6%-43.6%)。难度分层分析显示,聚合平均WER会掩盖在最难样本上的巨大性能差距(ElevenLabs在Q4难度样本WER为20%,而Google为61.5%)。WER与BERTScore的排名一致性(Kendall’s τ)在德语中最高(0.80),在波斯语中最低(0.40),量化证实了转写变体对WER的干扰。 实际意义是什么:为需要选择ASR供应商以处理多语言(尤其是包含阿拉伯语、波斯语)客服、会议转录等场景的企业提供了直接的性能参考。强调了在评估此类场景时,不能只看单一的聚合WER,而应关注分难度、分语言对的表现,并考虑采用BERTScore等语义指标。 主要局限性:1) 基准规模有限(每个语言对300样本)。2) 评估完全基于商业系统的API“黑箱”输出,无法分析模型内部机制。3) 缺乏对转写错误类型的深入语言学分析。4) 训练数据(语音)来自配音演员朗读脚本,而非完全自然发生的对话,可能影响生态效度。5) 未提供任何开源模型或方法的对比。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:Perle-ai/ASR_Code_Switch (https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch) Demo:论文中未提及。 复现材料:论文中提供了完整的评估方法论、基准构建流程(两阶段选择管道)、H_Score计算公式、LLM评分维度、API参数(表8和表9),以及所有系统在四个语言对上的详细结果(表4-6,图2-3)和定性比较(表10)。这些材料足以复现论文中的评估工作(即使用其公开数据集调用商业API)。 论文中引用的开源项目: jiwer: 用于计算WER的Python库。通常获取方式为 pip install jiwer,项目地址为 https://github.com/jitsi/jiwer。 BERTScore: 用于评估文本生成质量的Python库。项目地址为 https://github.com/Tiiiger/bert_score。 bert-base-multilingual-cased (mBERT): BERTScore使用的基础多语言模型。可通过Hugging Face Transformers库获取。 Sentence-BERT: 用于生成句嵌入(图4)。项目地址为 https://github.com/UKPLab/sentence-transformers。 UMAP: 用于降维可视化(图4)。项目地址为 https://github.com/lmcinnes/umap。 商业ASR系统:论文评估了五种商业系统,并提供了各自的文档链接。 🏗️ 方法概述和架构 整体流程概述:本文的核心工作是设计并实施一个基准测试流水线,用于评估商业ASR系统在代码切换语音上的性能。该流水线包含三个主要阶段:1) 从现有的对话转录数据集中,通过两阶段筛选流程选取最具挑战性的代码切换样本;2) 为这些样本录制匹配的语音;3) 使用多个商业ASR系统对这些语音进行转写,并计算WER和BERTScore等指标进行对比评估。 ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 371 words

Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian

📄 Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian #语音识别 #大语言模型 #低资源 #数据污染 #评估方法 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #低资源 #数据污染 | arxiv 学术质量 6.1/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Yun Hao(University of Groningen, The Netherlands) 通讯作者:未说明 作者列表:Yun Hao(University of Groningen, The Netherlands)、Reihaneh Amooie(University of Groningen, The Netherlands)、Wietse de Vries(University of Groningen, The Netherlands)、Rik van Noord(University of Groningen, The Netherlands)、Martijn Wieling(University of Groningen, The Netherlands) 💡 毒舌点评 论文敏锐地捕捉到了一个在低资源ASR纠错评估中至关重要却常被忽视的问题——数据污染,并通过构建一个精巧的私有数据集来进行“干净”的对照实验,这种方法论设计堪称典范。然而,其核心技术方案(N-best列表+LLM prompting)本身并无新意,更像是一项扎实、严谨且具有重要警示意义的实证研究,而非一项技术方法的突破性创新。论文的价值在于为领域建立了一个更可信的评估标准,而非提出一个全新的算法。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 500 words

CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation

📄 CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation #音频生成 #流匹配 #多模态模型 #音视频 ✅ 6/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频 | arxiv 学术质量 4.9/8 | 影响力 0.5/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST) 通讯作者:Juhan Nam(Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST)[注:论文未明确标注,但基于惯例与贡献推断] 作者列表:Gyubin Lee(Kim Jaechul Graduate School of AI, KAIST),Junwon Lee(Kim Jaechul Graduate School of AI, KAIST),Juhan Nam(Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST) 💡 毒舌点评 论文精准地捕捉到了VT2A模型在视频与文本条件冲突时“视觉优先”的痛点,并提出了一个简洁且有效的推理时解决方案(两阶段采样+分解引导),在反事实音频生成这一细分任务上展示了明确的改进。然而,其核心方法本质上是对已有CFG、负提示和对采样过程洞察的工程化组合与调参,属于方法论层面的精巧设计而非底层算法突破。此外,所提的ΔFLAM评估指标虽然新颖,但对“听感正确性”的验证仍显间接,且评估仅在一个定制数据集上进行。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 430 words