Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas

📄 Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas #强化学习 #多模态模型 #基准测试 #数据集 #音视频理解 7.2/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.2/10 | 前50% | #音视频理解 | #强化学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 第一作者:Yuxuan Li(未说明所属机构) 通讯作者:未明确标注 其他作者:Lingxi Xie, Xinyue Huo, Jihao Qiu, Jiacheng Shao, Pengfei Chen, Jiannan Ge, Kaiwen Duan, Qi Tian(均未提供完整机构信息) 💡 毒舌点评 这篇论文做了一个很扎实的马鞍,但配了一匹昂贵的瘸马。DramaSR-532K 数据集构建用心,填补了长剧集复杂场景下说话人识别的空白,工程上值得肯定。但 DramaSR-LRM 方法本质上是用一个推理 LLM 做多模态证据的“阅读理解”和纠错,依赖昂贵的 Gemini-3-Pro 蒸馏和 RL 微调,还绑定了一堆大模型做周边工具。更关键的是,开源承诺目前还是张空头支票,复现门槛高得离谱。2.3% 的绝对提升聊胜于无,但为了这点收益投入的计算成本,工业界看了大概要摇头。 ...

2026-07-03 · 更新于 2026-07-03 · 3 min · 598 words

TurnNat: Automatic Evaluation of Turn-Taking Naturalness in Dyadic Spoken Dialogue

📄 TurnNat: Automatic Evaluation of Turn-Taking Naturalness in Dyadic Spoken Dialogue #语音交互 #自监督学习 #基准测试 #模型评估 7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音交互 | #Transformer | #自监督学习 #基准测试 | arxiv 👥 作者与机构 第一作者:Hao Zhang(未说明) 通讯作者:Hao Zhang(未说明)、Laureano Moro-Velázquez(未说明) 作者列表:Hao Zhang(未说明)、Thomas Thebaud(未说明)、Georgi Tinchev(未说明)、Venkatesh Ravichandran(未说明)、Laureano Moro-Velázquez(未说明) 💡 毒舌点评 将轮次预测模型重用作自然度评估器是个巧妙的思路,用似然度统一多种时序故障避免了为每种行为单独设计指标。但这种方法论上的重组创新性有限,且实验完全局限于人工构造的局部扰动,从未在真实全双工对话系统的输出上验证。在缺乏与Full-Duplex-Bench等现有行为特定基准直接对比的情况下,宣称的“统一评分”优势仍停留在纸面上,令人怀疑其在实际嘈杂、混合故障场景中的鲁棒性。 📌 核心摘要 论文提出TurnNat,一种基于似然度的自动评估框架,旨在统一量化双人对话中的轮次自然度。其核心是一个仅由自然对话训练得到的因果轮次预测模型,该模型逐帧估计未来2秒内双说话人语音活动的状态分布。通过计算观测到的真实未来活动状态的负对数似然(NLL)来度量时序的非典型性。为避免全局平均稀释局部异常,TurnNat设计了“轮次边界单元”(TBU),在发言起始和结束前的2秒窗口内集中评分,并通过合并NLL均值和尾部高分NLL的均值(TailNLL)聚合为对话级自然度分数。作者构建了一个经人工验证的轮次扰动基准,包含五种局部时序扰动(延迟响应、过早插话等)。实验显示,最佳配置(基于DualTurn的D4变体)在自然-扰动配对判别准确率达到88.0%,相较VAP基线提升7-8个百分点。主要局限性在于:评测对象仅为人工构造的单点扰动,未在真实系统输出上验证,且未与任何现有的行为特定基准进行对比。 ...

2026-07-03 · 更新于 2026-07-03 · 2 min · 284 words

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜(31 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分 前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分 前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分 前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分 前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分 前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分 前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分 前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分 前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分 前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分 前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分 前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分 前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分 前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分 前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分 前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分 前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分 前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分 前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分 前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分 前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分 前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分 前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分 前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分 后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分 后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分 后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分 后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分 后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分 后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分 后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分 后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

2026-07-03 · 更新于 2026-07-03 · 25 min · 5320 words

ORCA: Open-ended Response Correctness Assessment for Audio Question Answering

📄 ORCA: Open-ended Response Correctness Assessment for Audio Question Answering #音频理解 #大语言模型 #基准测试 #模型评估 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.9/10 | 前25% | #音频理解 | #大语言模型 | #基准测试 #模型评估 | arxiv 👥 作者与机构 第一作者:Šimon Sedláček(Brno University of Technology, Speech@FIT)、Sara Barahona(Universidad Autónoma de Madrid)、Bolaji Yusuf(Brno University of Technology, Speech@FIT)、Laura Herrera-Alarcón(Universidad Autónoma de Madrid)、Santosh Kesiraju(Brno University of Technology, Speech@FIT)(注明同等贡献) 通讯作者:未说明 作者列表:Šimon Sedláček(Brno University of Technology, Speech@FIT)、Sara Barahona(Universidad Autónoma de Madrid)、Bolaji Yusuf(Brno University of Technology, Speech@FIT)、Laura Herrera-Alarcón(Universidad Autónoma de Madrid)、Santosh Kesiraju(Brno University of Technology, Speech@FIT)、Cecilia Bolaños(University of Buenos Aires)、Alicia Lozano-Diez(Universidad Autónoma de Madrid)、Sathvik Udupa(Brno University of Technology, Speech@FIT)、Fernando López(Universidad Autónoma de Madrid)、Allison Ferner(Tufts University)、Ramani Duraiswami(University of Maryland)、Jan Černocký(Brno University of Technology, Speech@FIT) 💡 毒舌点评 亮点:将Beta分布引入音频QA评估,巧妙地把人类评分的均值和分歧度同时建模,并提供了一套完整的三阶段标注-修正流程,数据集价值较高。短板:框架严重依赖由Gemini生成的rationale和Whisper转录文本,这些文本grounding的质量直接影响评估上限;方法在大规模、多类型、多语言音频QA上的泛化能力完全未知,且关键训练超参数意外缺失,削弱了复现信心。 ...

2026-07-02 · 更新于 2026-07-03 · 3 min · 468 words

语音/音乐/音频论文速递 2026-07-02

语音/音乐/音频论文速递 2026-07-02 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 3篇 ███ #说话人验证 2篇 ██ #语音合成 2篇 ██ #语音识别 1篇 █ #音视频理解 1篇 █ #语音增强 1篇 █ #语音情感识别 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 NPUsper: Eliminating Redundant Computation for Real-Tim 9.0分 前10% #语音识别 🥈 AV-SyncBench: Decoupled Benchmarking of Temporal and Se 8.5分 前25% #音视频理解 🥉 ORCA: Open-ended Response Correctness Assessment for Au 7.9分 前25% #音频理解 4. AmbiDrop: Ambisonics-Based Array-Agnostic Neural Speech 7.5分 前25% #语音增强 5. From Objectives to Applications: Aligning Architectural 7.5分 前25% #音频理解 6. Positive-Incentive Noise Predictor for Adversarial Puri 7.4分 前50% #说话人验证 7. Automatic Detection of Stress from Speech in the Trier 7.4分 前50% #语音情感识别 8. Enhancing Flow Matching with A Unified Guidance Framewo 7.1分 前50% #语音合成 9. MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal 6.9分 前50% - 10. A Text-Steerable Instrument for Sketching Procedural So 6.8分 前50% #音乐生成 11. A Geometric Perspective on Composable Emotion Steering 6.6分 前50% #语音合成 12. Do Multimodal Large Language Models Need Reasoning to C 6.5分 前50% #语音属性识别 13. Evaluating Pretrained Music Embeddings for Cross-Perfor 5.8分 前50% #音乐检索 14. Disentangling Speaker and Language Effects in Cross-Lin 5.6分 前50% #说话人验证 15. Adaptive Perturbation Selection for Contrastive Audio D 5.3分 后50% #音频理解 16. Speech Playground: An Interactive Tool for Speech Analy 4.1分 后50% - 📋 论文列表 🥇 NPUsper: Eliminating Redundant Computation for Real-Time Whisper on Mobile NPUs 9.0/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.0/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-02 · 更新于 2026-07-03 · 13 min · 2691 words

Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets

📄 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets #数据集 #数据增强 #基准测试 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #数据集 | #数据增强 | #基准测试 | arxiv 👥 作者与机构 Johannes Hentschel,Emmanouil Karystinaios,Gerhard Widmer,Markus Neuwirth。其中Hentschel和Neuwirth来自林茨计算音乐分析研究组(LCMA),安东·布鲁克纳大学;Karystinaios和Widmer来自约翰·开普勒大学林茨分校计算感知研究所(CP)。 💡 毒舌点评 这是一篇典型的“数据集/工具”论文,核心贡献是解决了两个流行但格式不同的和声数据集(AND和DLC)的合并问题,发布了更大的Dilemmadata。它就像一篇详细的“数据清洗”报告,诚实、有用,但缺乏让人眼前一亮的新方法或深入的理论分析。论文清晰地展示了合并过程中的“坑”和解决方案,对社区有实际价值。但审稿人必须问:这真的够得上一篇顶会论文吗?它没有提出新的预测模型,没有进行任何下游任务的评估,甚至没有验证合并后的数据与原始数据的一致性。其最大的价值(发布的数据集)需要其他研究者用起来才能体现。作者提出的关于“概率目标标签”的观点很有前瞻性,但仅是展望,未在本文实现。因此,它是一篇扎实的、对社区有帮助的资源论文,但学术贡献的“天花板”相对有限。 📌 核心摘要 本文介绍了Dilemmadata,一个通过整合和协调两个具有不同编码范式(RomanText和DCML)的主要罗马数字和声标注数据集(AND和DLC)而构建的大型同质化数据集。该数据集包含1621首乐曲,超过280万个音符级别的注释,提供了统一的CSV表示和丰富的元数据。论文详细阐述了从数据解析、特征协调(如和弦类型词汇表统一、将cadential 6/4统一为Cad)到处理重叠作品的完整流程,旨在解决音乐信息检索(MIR)领域在利用现有标注数据时面临的互操作性挑战。最终发布了一个标准化的资源,并呼吁社区开发通用数据模型和基于概率的目标标签。 🔗 开源详情 代码:https://github.com/napulen/AugmentedNet (包含AND原始处理脚本),https://github.com/DCMLab/distant_listening_corpus (包含DLC原始数据)。论文中核心的整合流水线代码未明确提供独立仓库。 模型权重:未提及。 数据集:Dilemmadata(最终整合数据集):https://zenodo.org/records/19661224;AugmentedNet Dataset (AND):https://github.com/napulen/AugmentedNet;Distant Listening Corpus (DLC):https://github.com/DCMLab/distant_listening_corpus。 Demo:论文中未提及。 复现材料:论文提及最终数据集的所有TSV文件、元数据描述符和预计算的测试划分均可从Zenodo下载。 论文中引用的开源项目:music21, ms3, dimcat, Frictionless Data标准, 以及多个作为数据源的语料库(TAVERN, Yale-Classical Archives等)。 🏗️ 方法概述和架构 论文的核心方法是一个精心设计的多阶段数据对齐与整合流水线,旨在将采用不同编码标准(RomanText与DCML)和存储格式(TSV切片与嵌入MSCX的注解)的两个原始数据集(AND与DLC)统一为一个协调的、逐音符的CSV格式。该流水线的具体架构和实现如下: ...

2026-07-01 · 更新于 2026-07-03 · 1 min · 154 words

LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish

📄 LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish #语音合成 #语音识别 #自监督学习 #低资源 #基准测试 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构 Nina Hosseini-Kivanani Sandipana Dowerah 💡 毒舌点评 这篇论文好在选题切中要害——低资源语言+表达性语音+真实场景数据,确实是块缺肉的骨头。LuxEmo语料库的构建和公开(附带采样链接)是实打实的贡献,工作流描述也算清楚。但“严苛审稿人”视角下,槽点不少:语料库就4位主播,还来自同一个青年节目,说能代表“卢森堡语”有点勉强,作者自己也承认了,但评审意见应更尖锐地指出这直接限制了论文声称的“系统性评估”的普适性上限。情绪分布那“0.5%的愤怒”简直是个事故级数据倾斜,论文仅在结论提一句,审稿人应该追问这如何影响了模型训练与评估的有效性,以及基准测试结论在多大程度上是“可泛化的”。评估方面,20人主观听测且无显著性检验,置信区间大幅重叠,这个“基准”的排名可靠性打个大问号。论文反复强调代码混合是挑战,但分析部分却没拿出任何细粒度的分析(比如混合段vs纯语种段的WER对比),这属于典型的“提了但没分析”,深度不足。另外,像情绪检测分类器的训练数据、置信度阈值选取这些影响复现的关键细节一笔带过,不够“严谨”。总的来说,是一篇合格的资源发布和基准测试论文,但离顶会要求的深度分析和严谨论证还有距离,其影响力主要局限在资源本身,而非方法论或深刻洞察。 📌 核心摘要 本文介绍了LuxEmo,一个用于卢森堡语的表达性语音语料库和TTS基准测试集。该语料库包含从RTL青年广播档案中通过半自动工作流提取的21小时自发语音,标注了语言、说话人身份和四种情绪(中性、快乐、悲伤、愤怒)。作者在LuxEmo上评估了五种TTS系统,涵盖跨语言迁移、多语言支持和卢森堡语适配等方案。主要发现包括:没有单一TTS系统在所有评估维度(音频质量、可懂度、韵律、说话人相似度、情感自然度)上最优;目标语言适配在部分指标上有效但非全面;基于ASR的客观可懂度与人类主观感知的自然度、情感表现存在差异。论文同时指出了语料库在说话人覆盖、情绪分布均衡性以及评估统计显著性方面的局限性。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提供模型权重链接。 数据集:LuxEmo语料库。论文中未提供公开获取链接,但提供了语料库采样链接:https://anonymous.4open.science/r/LuxEmo_Sample-445F/。 Demo:论文中未提及。 复现材料:论文中未提供完整的训练配置、检查点或附录,但提及了数据划分使用的固定随机种子为42。 论文中引用的开源项目:论文中提及了以下项目,但未提供具体链接。 DeepFilterNet [32] NISQA v2.0 [24] DNSMOS [30] LuxASR [9, 26, 35] Wav2Vec2-based mms-lid-4017 model [27] Whisper [28] SpeechBrain ECAPA-TDNN [29] pYIN [21] Sequitur G2P (用于LuxEmo): https://github.com/PeterGilles/sequitur-g2p German gruut (用于EmoDB比较): https://github.com/sequitur-g2p/sequitur-g2p 🏗️ 方法概述和架构 本文的方法可分为两大核心部分:LuxEmo语料库构建和TTS基准测试评估。 ...

2026-07-01 · 更新于 2026-07-03 · 2 min · 376 words

What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR

📄 What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR #语音识别 #自监督学习 #基准测试 #数据集 7.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #语音识别 | #自监督学习 | #基准测试 #数据集 | arxiv 👥 作者与机构 作者:Hawau Olamide Toyin1, Srinivasan Umesh2, Hanan Aldarmaki1 机构:1MBZUAI, UAE; 2SPRING Lab, IIT Madras, India 电子邮件:{hawau.toyin,hanan.aldarmaki}@mbzuai.ac.ae 💡 毒舌点评 这篇文章好比是给ASR领域做了一次“体检”,但它查出的不是病,而是一个长期被忽视的“诊断标准混乱”问题。作者没有发明什么新模型,而是像一个严谨的审计员,把11个现有模型放在两套不同的账本(意图转录 vs. 逐字转录)下重新算了一遍。结果很有意思:在“意图”账本下排名靠前的“优等生”,到了“逐字”账本下可能就泯然众人。这记耳光打得响亮,直接指向了当前评估实践的盲区——我们总在问“哪个模型最好?”,却忘了先问“‘好’的标准是什么?”。当然,审计报告也有局限:只审计了英语病房(FluencyBank)的病例,没去多语言社区医院(更多数据集)交叉验证;也没深入剖析“优等生”和“差生”的大脑构造(模型机制)到底有何不同。但作为一份“行业标准自查报告”,它的警示价值远大于技术花活。 ...

2026-07-01 · 更新于 2026-07-03 · 4 min · 682 words

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分 前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分 前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分 前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分 前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分 前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分 前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分 前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分 前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分 前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分 前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分 前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分 前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分 前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分 前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分 前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分 前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分 前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分 前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分 前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分 前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分 前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分 前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分 前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分 前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分 前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分 前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分 前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分 前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分 前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分 前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分 前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分 前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分 后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分 后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分 后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-01 · 更新于 2026-07-03 · 20 min · 4207 words

Agent-Computer Observation Interfaces Enable Dynamic Computer Use

📄 Agent-Computer Observation Interfaces Enable Dynamic Computer Use #语音识别 #基准测试 8.4/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前10% | #语音识别 | #基准测试 | arxiv 👥 作者与机构 论文作者:Bojie Li, Noah Shi。机构:Pine AI, University of Washington(华盛顿大学)。 💡 毒舌点评 这篇论文清晰地识别并切入了计算机使用代理(CU Agent)一个被长期忽视但至关重要的设计维度:观察接口。与SWE-agent在行动接口上的开创性工作相呼应,论文提出的AOI(代理-计算机观察接口)作为一个模型无关的“中间件”层,巧妙且系统地解决了现有CU代理在动态视觉和音频感知上的“盲聋”问题。其核心价值不在于训练新模型,而在于为现有模型赋能,这是一个工程上更务实、推广门槛更低的思路。 然而,审稿人必须指出,论文的评估环境存在明显的“温室效应”。所有实验均在高度可控的Chromium浏览器和合成音频中进行,这与真实世界中充斥着原生应用、复杂音频环境(背景噪音、多人对话)、系统级弹窗和多显示器交互的桌面使用场景相去甚远。虽然作者承认了外部有效性的局限,但这一局限极大地削弱了其声称的“通用性”和“实用性”。此外,每个配置仅进行一次100任务试验,统计功效有限,尤其对于那些差异不大的组件间比较(如不同关键帧选择策略),结论的稳健性需要更多重复实验来支撑。 最后,论文最深刻的洞察之一——“视觉叙述是价值核心,而关键帧图像本身重要性有限,甚至可能有害(如Gemini 3)”——虽然极具启发性,但也暴露了当前多模态模型在处理视觉信息时的脆弱性和低效性。AOI本质上是在“修补”模型感知层的缺陷,而非从根本上提升模型对动态世界的理解能力。这篇论文为社区贡献了一个优秀的工程解决方案和一个高质量的动态感知基准,但通往真正“动态计算机使用”的道路,仍然需要模型侧和接口侧的共同革新。 📌 核心摘要 本文指出,当前的计算机使用代理(CU Agent)在观察接口上存在系统性缺陷:它们将观察与行动绑定(每3-5秒一张截图,无音频),导致在截图之间对动态视觉内容(视频、动画、通知)和音频(语音、提示音)完全“盲聋”。为此,作者提出了代理-计算机观察接口(AOI),一个模型无关的感知层。AOI通过三个门控组件解耦了连续、自适应的观察与离散的行动:1)自适应关键帧捕获(像素变化门控),2)音量门控音频转录(Whisper),3)CU模型生成的、作为持久文本记忆的视觉叙述。在静态无声内容上,AOI几乎无额外开销,保持了标准循环。 作者同时提出了DynaCU-Bench,一个包含100个动态浏览器任务和50个静态对照任务的基准测试。在涵盖7B到前沿规模的多个闭源和开源CU模型上的实验表明,AOI在不进行任何模型重训的情况下,将所有模型在动态任务上的成功率提升了17至48个百分点。消融实验揭示了关键洞察:关键帧的选择策略不重要;视觉信息的主要价值来自将其转化为持久文本叙述的过程;AOI组件并非固定组合,其最优配置因模型而异(例如,在Gemini 3 Flash上,关键帧图像流会因图像令牌稀释而降低性能)。 🔗 开源详情 代码:是,已开源。仓库地址:https://github.com/19PINE-AI/aoi (论文中明确给出)。 模型权重:否。AOI是一个模型无关的感知层,用于包装和增强现有模型。论文评估的模型(Claude, GPT, Gemini, Grok, EvoCUA, Fara, Qwen3-VL)均来自其各自的官方或第三方渠道,非本文作者发布。 数据集:是,已开源。论文引入了 DynaCU-Bench(100个动态浏览器任务 + 50个静态对照任务)作为评估基准。根据论文“我们发布AOI以及DynaCU-Bench”的表述,该数据集应随代码仓库一同开源。 Demo:是,提供了在线演示。地址:https://01.me/research/aoi (论文中明确给出)。 复现材料:论文在附录I中提供了详细的实现细节,包括软件环境、硬件配置、超参数设置等。具体材料应包含在上述代码仓库中。 论文中引用的开源项目: SWE-agent:https://github.com/princeton-nlp/SWE-agent (论文参考文献中引用)。 CLIP:OpenAI CLIP ViT-B/16 用于关键帧提取。 Whisper:OpenAI Whisper large-v3 用于语音转录。 EvoCUA:https://github.com/meituan/EvoCUA (论文中提及,Meituan发布)。 Agent S3:https://github.com/simular-ai/Agent-S (论文中提及,Simular AI发布)。 OpenCUA:https://github.com/xingyaoww/opencua (论文中提及,Wang et al.发布)。 NLWeb:https://github.com/microsoft/NLWeb (论文中提及,Microsoft发布)。 🏗️ 方法概述和架构 AOI是一个轻量级的Python层(约2600行代码),作为中间件插入在环境与任何现有的、基于图像的CU模型之间。其核心设计原则是解耦连续、自适应、多模态的观察与离散的行动。标准CU代理的观察空间S被限制为单一RGB帧(S = {一张截图}),且每个行动间隔(3-5秒)仅采样一次。AOI扩展了S,使其能够覆盖间隔期间发生的动态视觉变化和音频输入。 ...

2026-06-30 · 更新于 2026-07-03 · 2 min · 302 words