基准测试 | 语音/音乐/音频论文速递

TurnNat: Automatic Evaluation of Turn-Taking Naturalness in Dyadic Spoken Dialogue

📄 TurnNat: Automatic Evaluation of Turn-Taking Naturalness in Dyadic Spoken Dialogue #语音交互 #自监督学习 #基准测试 #模型评估 7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音交互 | #Transformer | #自监督学习 #基准测试 | arxiv 👥 作者与机构第一作者：Hao Zhang（未说明）通讯作者：Hao Zhang（未说明）、Laureano Moro-Velázquez（未说明）作者列表：Hao Zhang（未说明）、Thomas Thebaud（未说明）、Georgi Tinchev（未说明）、Venkatesh Ravichandran（未说明）、Laureano Moro-Velázquez（未说明） 💡 毒舌点评将轮次预测模型重用作自然度评估器是个巧妙的思路，用似然度统一多种时序故障避免了为每种行为单独设计指标。但这种方法论上的重组创新性有限，且实验完全局限于人工构造的局部扰动，从未在真实全双工对话系统的输出上验证。在缺乏与Full-Duplex-Bench等现有行为特定基准直接对比的情况下，宣称的“统一评分”优势仍停留在纸面上，令人怀疑其在实际嘈杂、混合故障场景中的鲁棒性。 📌 核心摘要论文提出TurnNat，一种基于似然度的自动评估框架，旨在统一量化双人对话中的轮次自然度。其核心是一个仅由自然对话训练得到的因果轮次预测模型，该模型逐帧估计未来2秒内双说话人语音活动的状态分布。通过计算观测到的真实未来活动状态的负对数似然（NLL）来度量时序的非典型性。为避免全局平均稀释局部异常，TurnNat设计了“轮次边界单元”（TBU），在发言起始和结束前的2秒窗口内集中评分，并通过合并NLL均值和尾部高分NLL的均值（TailNLL）聚合为对话级自然度分数。作者构建了一个经人工验证的轮次扰动基准，包含五种局部时序扰动（延迟响应、过早插话等）。实验显示，最佳配置（基于DualTurn的D4变体）在自然-扰动配对判别准确率达到88.0%，相较VAP基线提升7-8个百分点。主要局限性在于：评测对象仅为人工构造的单点扰动，未在真实系统输出上验证，且未与任何现有的行为特定基准进行对比。 ...

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜（31 篇，按分数降序）排名论文总分分档主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

ORCA: Open-ended Response Correctness Assessment for Audio Question Answering

📄 ORCA: Open-ended Response Correctness Assessment for Audio Question Answering #音频理解 #大语言模型 #基准测试 #模型评估 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.9/10 | 前25% | #音频理解 | #大语言模型 | #基准测试 #模型评估 | arxiv 👥 作者与机构第一作者：Šimon Sedláček（Brno University of Technology, Speech@FIT）、Sara Barahona（Universidad Autónoma de Madrid）、Bolaji Yusuf（Brno University of Technology, Speech@FIT）、Laura Herrera-Alarcón（Universidad Autónoma de Madrid）、Santosh Kesiraju（Brno University of Technology, Speech@FIT）（注明同等贡献）通讯作者：未说明作者列表：Šimon Sedláček（Brno University of Technology, Speech@FIT）、Sara Barahona（Universidad Autónoma de Madrid）、Bolaji Yusuf（Brno University of Technology, Speech@FIT）、Laura Herrera-Alarcón（Universidad Autónoma de Madrid）、Santosh Kesiraju（Brno University of Technology, Speech@FIT）、Cecilia Bolaños（University of Buenos Aires）、Alicia Lozano-Diez（Universidad Autónoma de Madrid）、Sathvik Udupa（Brno University of Technology, Speech@FIT）、Fernando López（Universidad Autónoma de Madrid）、Allison Ferner（Tufts University）、Ramani Duraiswami（University of Maryland）、Jan Černocký（Brno University of Technology, Speech@FIT） 💡 毒舌点评亮点：将Beta分布引入音频QA评估，巧妙地把人类评分的均值和分歧度同时建模，并提供了一套完整的三阶段标注-修正流程，数据集价值较高。短板：框架严重依赖由Gemini生成的rationale和Whisper转录文本，这些文本grounding的质量直接影响评估上限；方法在大规模、多类型、多语言音频QA上的泛化能力完全未知，且关键训练超参数意外缺失，削弱了复现信心。 ...

语音/音乐/音频论文速递 2026-07-02

语音/音乐/音频论文速递 2026-07-02 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 3篇 ███ #说话人验证 2篇 ██ #语音合成 2篇 ██ #语音识别 1篇 █ #音视频理解 1篇 █ #语音增强 1篇 █ #语音情感识别 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜（16 篇，按分数降序）排名论文总分分档主任务 🥇 NPUsper: Eliminating Redundant Computation for Real-Tim 9.0分前10% #语音识别 🥈 AV-SyncBench: Decoupled Benchmarking of Temporal and Se 8.5分前25% #音视频理解 🥉 ORCA: Open-ended Response Correctness Assessment for Au 7.9分前25% #音频理解 4. AmbiDrop: Ambisonics-Based Array-Agnostic Neural Speech 7.5分前25% #语音增强 5. From Objectives to Applications: Aligning Architectural 7.5分前25% #音频理解 6. Positive-Incentive Noise Predictor for Adversarial Puri 7.4分前50% #说话人验证 7. Automatic Detection of Stress from Speech in the Trier 7.4分前50% #语音情感识别 8. Enhancing Flow Matching with A Unified Guidance Framewo 7.1分前50% #语音合成 9. MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal 6.9分前50% - 10. A Text-Steerable Instrument for Sketching Procedural So 6.8分前50% #音乐生成 11. A Geometric Perspective on Composable Emotion Steering 6.6分前50% #语音合成 12. Do Multimodal Large Language Models Need Reasoning to C 6.5分前50% #语音属性识别 13. Evaluating Pretrained Music Embeddings for Cross-Perfor 5.8分前50% #音乐检索 14. Disentangling Speaker and Language Effects in Cross-Lin 5.6分前50% #说话人验证 15. Adaptive Perturbation Selection for Contrastive Audio D 5.3分后50% #音频理解 16. Speech Playground: An Interactive Tool for Speech Analy 4.1分后50% - 📋 论文列表 🥇 NPUsper: Eliminating Redundant Computation for Real-Time Whisper on Mobile NPUs 9.0/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.0/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets

📄 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets #数据集 #数据增强 #基准测试 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #数据集 | #数据增强 | #基准测试 | arxiv 👥 作者与机构 Johannes Hentschel，Emmanouil Karystinaios，Gerhard Widmer，Markus Neuwirth。其中Hentschel和Neuwirth来自林茨计算音乐分析研究组（LCMA），安东·布鲁克纳大学；Karystinaios和Widmer来自约翰·开普勒大学林茨分校计算感知研究所（CP）。 💡 毒舌点评这是一篇典型的“数据集/工具”论文，核心贡献是解决了两个流行但格式不同的和声数据集（AND和DLC）的合并问题，发布了更大的Dilemmadata。它就像一篇详细的“数据清洗”报告，诚实、有用，但缺乏让人眼前一亮的新方法或深入的理论分析。论文清晰地展示了合并过程中的“坑”和解决方案，对社区有实际价值。但审稿人必须问：这真的够得上一篇顶会论文吗？它没有提出新的预测模型，没有进行任何下游任务的评估，甚至没有验证合并后的数据与原始数据的一致性。其最大的价值（发布的数据集）需要其他研究者用起来才能体现。作者提出的关于“概率目标标签”的观点很有前瞻性，但仅是展望，未在本文实现。因此，它是一篇扎实的、对社区有帮助的资源论文，但学术贡献的“天花板”相对有限。 📌 核心摘要本文介绍了Dilemmadata，一个通过整合和协调两个具有不同编码范式（RomanText和DCML）的主要罗马数字和声标注数据集（AND和DLC）而构建的大型同质化数据集。该数据集包含1621首乐曲，超过280万个音符级别的注释，提供了统一的CSV表示和丰富的元数据。论文详细阐述了从数据解析、特征协调（如和弦类型词汇表统一、将cadential 6/4统一为Cad）到处理重叠作品的完整流程，旨在解决音乐信息检索（MIR）领域在利用现有标注数据时面临的互操作性挑战。最终发布了一个标准化的资源，并呼吁社区开发通用数据模型和基于概率的目标标签。 🔗 开源详情代码：https://github.com/napulen/AugmentedNet (包含AND原始处理脚本)，https://github.com/DCMLab/distant_listening_corpus (包含DLC原始数据)。论文中核心的整合流水线代码未明确提供独立仓库。模型权重：未提及。数据集：Dilemmadata（最终整合数据集）：https://zenodo.org/records/19661224；AugmentedNet Dataset (AND)：https://github.com/napulen/AugmentedNet；Distant Listening Corpus (DLC)：https://github.com/DCMLab/distant_listening_corpus。 Demo：论文中未提及。复现材料：论文提及最终数据集的所有TSV文件、元数据描述符和预计算的测试划分均可从Zenodo下载。论文中引用的开源项目：music21, ms3, dimcat, Frictionless Data标准, 以及多个作为数据源的语料库（TAVERN, Yale-Classical Archives等）。 🏗️ 方法概述和架构论文的核心方法是一个精心设计的多阶段数据对齐与整合流水线，旨在将采用不同编码标准（RomanText与DCML）和存储格式（TSV切片与嵌入MSCX的注解）的两个原始数据集（AND与DLC）统一为一个协调的、逐音符的CSV格式。该流水线的具体架构和实现如下： ...

LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish

📄 LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish #语音合成 #语音识别 #自监督学习 #低资源 #基准测试 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构 Nina Hosseini-Kivanani Sandipana Dowerah 💡 毒舌点评这篇论文好在选题切中要害——低资源语言+表达性语音+真实场景数据，确实是块缺肉的骨头。LuxEmo语料库的构建和公开（附带采样链接）是实打实的贡献，工作流描述也算清楚。但“严苛审稿人”视角下，槽点不少：语料库就4位主播，还来自同一个青年节目，说能代表“卢森堡语”有点勉强，作者自己也承认了，但评审意见应更尖锐地指出这直接限制了论文声称的“系统性评估”的普适性上限。情绪分布那“0.5%的愤怒”简直是个事故级数据倾斜，论文仅在结论提一句，审稿人应该追问这如何影响了模型训练与评估的有效性，以及基准测试结论在多大程度上是“可泛化的”。评估方面，20人主观听测且无显著性检验，置信区间大幅重叠，这个“基准”的排名可靠性打个大问号。论文反复强调代码混合是挑战，但分析部分却没拿出任何细粒度的分析（比如混合段vs纯语种段的WER对比），这属于典型的“提了但没分析”，深度不足。另外，像情绪检测分类器的训练数据、置信度阈值选取这些影响复现的关键细节一笔带过，不够“严谨”。总的来说，是一篇合格的资源发布和基准测试论文，但离顶会要求的深度分析和严谨论证还有距离，其影响力主要局限在资源本身，而非方法论或深刻洞察。 📌 核心摘要本文介绍了LuxEmo，一个用于卢森堡语的表达性语音语料库和TTS基准测试集。该语料库包含从RTL青年广播档案中通过半自动工作流提取的21小时自发语音，标注了语言、说话人身份和四种情绪（中性、快乐、悲伤、愤怒）。作者在LuxEmo上评估了五种TTS系统，涵盖跨语言迁移、多语言支持和卢森堡语适配等方案。主要发现包括：没有单一TTS系统在所有评估维度（音频质量、可懂度、韵律、说话人相似度、情感自然度）上最优；目标语言适配在部分指标上有效但非全面；基于ASR的客观可懂度与人类主观感知的自然度、情感表现存在差异。论文同时指出了语料库在说话人覆盖、情绪分布均衡性以及评估统计显著性方面的局限性。 🔗 开源详情代码：论文中未提供代码链接。模型权重：论文中未提供模型权重链接。数据集：LuxEmo语料库。论文中未提供公开获取链接，但提供了语料库采样链接：https://anonymous.4open.science/r/LuxEmo_Sample-445F/。 Demo：论文中未提及。复现材料：论文中未提供完整的训练配置、检查点或附录，但提及了数据划分使用的固定随机种子为42。论文中引用的开源项目：论文中提及了以下项目，但未提供具体链接。 DeepFilterNet [32] NISQA v2.0 [24] DNSMOS [30] LuxASR [9, 26, 35] Wav2Vec2-based mms-lid-4017 model [27] Whisper [28] SpeechBrain ECAPA-TDNN [29] pYIN [21] Sequitur G2P (用于LuxEmo): https://github.com/PeterGilles/sequitur-g2p German gruut (用于EmoDB比较): https://github.com/sequitur-g2p/sequitur-g2p 🏗️ 方法概述和架构本文的方法可分为两大核心部分：LuxEmo语料库构建和TTS基准测试评估。 ...

What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR

📄 What Counts as an Error? Dual-Reference Benchmarking for Atypical ASR #语音识别 #自监督学习 #基准测试 #数据集 7.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #语音识别 | #自监督学习 | #基准测试 #数据集 | arxiv 👥 作者与机构作者：Hawau Olamide Toyin1, Srinivasan Umesh2, Hanan Aldarmaki1 机构：1MBZUAI, UAE; 2SPRING Lab, IIT Madras, India 电子邮件：{hawau.toyin,hanan.aldarmaki}@mbzuai.ac.ae 💡 毒舌点评这篇文章好比是给ASR领域做了一次“体检”，但它查出的不是病，而是一个长期被忽视的“诊断标准混乱”问题。作者没有发明什么新模型，而是像一个严谨的审计员，把11个现有模型放在两套不同的账本（意图转录 vs. 逐字转录）下重新算了一遍。结果很有意思：在“意图”账本下排名靠前的“优等生”，到了“逐字”账本下可能就泯然众人。这记耳光打得响亮，直接指向了当前评估实践的盲区——我们总在问“哪个模型最好？”，却忘了先问“‘好’的标准是什么？”。当然，审计报告也有局限：只审计了英语病房（FluencyBank）的病例，没去多语言社区医院（更多数据集）交叉验证；也没深入剖析“优等生”和“差生”的大脑构造（模型机制）到底有何不同。但作为一份“行业标准自查报告”，它的警示价值远大于技术花活。 ...

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Agent-Computer Observation Interfaces Enable Dynamic Computer Use

📄 Agent-Computer Observation Interfaces Enable Dynamic Computer Use #语音识别 #基准测试 8.4/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前10% | #语音识别 | #基准测试 | arxiv 👥 作者与机构论文作者：Bojie Li, Noah Shi。机构：Pine AI, University of Washington（华盛顿大学）。 💡 毒舌点评这篇论文清晰地识别并切入了计算机使用代理（CU Agent）一个被长期忽视但至关重要的设计维度：观察接口。与SWE-agent在行动接口上的开创性工作相呼应，论文提出的AOI（代理-计算机观察接口）作为一个模型无关的“中间件”层，巧妙且系统地解决了现有CU代理在动态视觉和音频感知上的“盲聋”问题。其核心价值不在于训练新模型，而在于为现有模型赋能，这是一个工程上更务实、推广门槛更低的思路。然而，审稿人必须指出，论文的评估环境存在明显的“温室效应”。所有实验均在高度可控的Chromium浏览器和合成音频中进行，这与真实世界中充斥着原生应用、复杂音频环境（背景噪音、多人对话）、系统级弹窗和多显示器交互的桌面使用场景相去甚远。虽然作者承认了外部有效性的局限，但这一局限极大地削弱了其声称的“通用性”和“实用性”。此外，每个配置仅进行一次100任务试验，统计功效有限，尤其对于那些差异不大的组件间比较（如不同关键帧选择策略），结论的稳健性需要更多重复实验来支撑。最后，论文最深刻的洞察之一——“视觉叙述是价值核心，而关键帧图像本身重要性有限，甚至可能有害（如Gemini 3）”——虽然极具启发性，但也暴露了当前多模态模型在处理视觉信息时的脆弱性和低效性。AOI本质上是在“修补”模型感知层的缺陷，而非从根本上提升模型对动态世界的理解能力。这篇论文为社区贡献了一个优秀的工程解决方案和一个高质量的动态感知基准，但通往真正“动态计算机使用”的道路，仍然需要模型侧和接口侧的共同革新。 📌 核心摘要本文指出，当前的计算机使用代理（CU Agent）在观察接口上存在系统性缺陷：它们将观察与行动绑定（每3-5秒一张截图，无音频），导致在截图之间对动态视觉内容（视频、动画、通知）和音频（语音、提示音）完全“盲聋”。为此，作者提出了代理-计算机观察接口（AOI），一个模型无关的感知层。AOI通过三个门控组件解耦了连续、自适应的观察与离散的行动：1）自适应关键帧捕获（像素变化门控），2）音量门控音频转录（Whisper），3）CU模型生成的、作为持久文本记忆的视觉叙述。在静态无声内容上，AOI几乎无额外开销，保持了标准循环。作者同时提出了DynaCU-Bench，一个包含100个动态浏览器任务和50个静态对照任务的基准测试。在涵盖7B到前沿规模的多个闭源和开源CU模型上的实验表明，AOI在不进行任何模型重训的情况下，将所有模型在动态任务上的成功率提升了17至48个百分点。消融实验揭示了关键洞察：关键帧的选择策略不重要；视觉信息的主要价值来自将其转化为持久文本叙述的过程；AOI组件并非固定组合，其最优配置因模型而异（例如，在Gemini 3 Flash上，关键帧图像流会因图像令牌稀释而降低性能）。 🔗 开源详情代码：是，已开源。仓库地址：https://github.com/19PINE-AI/aoi （论文中明确给出）。模型权重：否。AOI是一个模型无关的感知层，用于包装和增强现有模型。论文评估的模型（Claude, GPT, Gemini, Grok, EvoCUA, Fara, Qwen3-VL）均来自其各自的官方或第三方渠道，非本文作者发布。数据集：是，已开源。论文引入了 DynaCU-Bench（100个动态浏览器任务 + 50个静态对照任务）作为评估基准。根据论文“我们发布AOI以及DynaCU-Bench”的表述，该数据集应随代码仓库一同开源。 Demo：是，提供了在线演示。地址：https://01.me/research/aoi （论文中明确给出）。复现材料：论文在附录I中提供了详细的实现细节，包括软件环境、硬件配置、超参数设置等。具体材料应包含在上述代码仓库中。论文中引用的开源项目： SWE-agent：https://github.com/princeton-nlp/SWE-agent （论文参考文献中引用）。 CLIP：OpenAI CLIP ViT-B/16 用于关键帧提取。 Whisper：OpenAI Whisper large-v3 用于语音转录。 EvoCUA：https://github.com/meituan/EvoCUA （论文中提及，Meituan发布）。 Agent S3：https://github.com/simular-ai/Agent-S （论文中提及，Simular AI发布）。 OpenCUA：https://github.com/xingyaoww/opencua （论文中提及，Wang et al.发布）。 NLWeb：https://github.com/microsoft/NLWeb （论文中提及，Microsoft发布）。 🏗️ 方法概述和架构 AOI是一个轻量级的Python层（约2600行代码），作为中间件插入在环境与任何现有的、基于图像的CU模型之间。其核心设计原则是解耦连续、自适应、多模态的观察与离散的行动。标准CU代理的观察空间S被限制为单一RGB帧（S = {一张截图}），且每个行动间隔（3-5秒）仅采样一次。AOI扩展了S，使其能够覆盖间隔期间发生的动态视觉变化和音频输入。 ...

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...