基准测试 | 语音/音乐/音频论文速递

DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation

📄 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation #基准测试 #大语言模型 🔥 9.8/10 | 前25% | #基准测试 | #大语言模型 | arxiv 学术质量 6.4/7 | 影响力 1.7/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构第一作者：Jiamin Chen 机构：ByteDance Inc., City University of Hong Kong 通讯作者：Wangchunshu Zhou (chunshu@bytedance.com) arXiv ID: 2605.30090 💡 毒舌点评这篇论文精准地戳中了当前长视频生成评估的痛点——大家都在卷单帧质量或短片，但长视频真正的败笔往往在镜头间的“缝合”和“转场”，以及千人千面的用户偏好被粗暴地平均化。DirectorBench 提供了一个系统、可诊断且个性化的评估框架，这比给出一个单一的、看起来很漂亮但毫无解释力的总分要有用得多。作者的实验设计逻辑清晰，三个RQ层层递进，得出了关于工作流设计比模型选择更重要、瓶颈在“单元间”等具有指导意义的结论。然而，该基准自身的可靠性验证（评估者间一致性、工具准确性）尚未充分展示，且个性化评估的深度（如何影响瓶颈识别）还有挖掘空间。总的来说，这是一个扎实且及时的工作，为长视频生成的迭代改进提供了关键的诊断工具。 📌 核心摘要本文提出了DirectorBench，一个用于诊断长视频生成的个性化多智能体评估基准。该基准旨在克服现有评估方法聚焦短片视觉质量、忽略工作流故障诊断和用户偏好差异的局限。核心设计是将评估形式化为 \(f(\mathbf{m}, \mathbf{u}, \mathcal{G}) \rightarrow \mathcal{R}\)，即根据结构化元数据（\(\mathbf{m}\)）和用户配置（\(\mathbf{u}\)）来评估生成系统（\(\mathcal{G}\)）并产出诊断报告（\(\mathcal{R}\)）。Benchmark由80个结构化元数据条目、7个用户配置文件和40个检查点标准构成，涵盖脚本、视觉、音频、跨模态和稳定性五大维度。其核心创新在于：1) 诊断式评估：通过动态激活适用的检查点，定位具体的失败瓶颈（如镜头间过渡质量差），而非仅输出聚合分数；2) 个性化评估：引入用户配置文件，表明同一生成内容在不同用户偏好下质量评分存在显著差异，单一通用分数无法捕捉这种变化。通过对4种工作流、6个基础LLM和7个用户配置的实验，发现：工作流架构是生成质量的主要决定因素；当前各工作流的共同瓶颈在于单元间的过渡和跨模态一致性，而非单帧质量；基础LLM的选择主要影响叙事推理和跨模态对齐；个性化评估揭示了显著的用户依赖型质量差异。人工评估验证了DirectorBench在维度层面与人类判断的对齐。 🔗 开源详情代码：https://github.com/jiaminchen-1031/DirectorBench 模型权重：未提供（评估使用的基座大语言模型均为闭源模型，如GPT-5.4等）。数据集：https://huggingface.co/datasets/Jiamin1031/DirectorBench Demo：未提及复现材料：论文提供了详细的复现材料，包括：元数据条目：80个结构化元数据条目（完整示例见附录A）。用户配置文件：7个详细的用户配置文件规范（见附录B，包含优先级权重、硬约束和用户品味描述）。检查点分类法：40个检查点的完整分类注册表（见附录C，组织为维度、子指标、检查点）。内容分析属性：用于动态检查点激活的18个内容分析属性列表（见附录D）。评估流水线：基于LangGraph的多智能体评估流水线的详细描述（DAG结构、四个阶段）。论文中引用的开源项目（未提供具体GitHub链接）： ViMax：一个开源的“分解-拼接”视频生成流水线。 MovieAgent：一个开源的角色感知视频生成规划器。 PySceneDetect：用于镜头分割。 OpenCV：用于视频处理和边界度量计算。 Librosa：用于音频特征提取。 MobileViCLIP-Small：用于文本-视频相似度计算。 Sentence-BERT：用于文本-音频语义相似度计算。 LangGraph：用于构建评估流水线的有向无环图（DAG）。 ffprobe/ffmpeg：用于视频探测和音频提取。 🏗️ 方法概述和架构 DirectorBench的评估框架（如图1所示）是一个分层、多阶段的系统，其核心是将“生成-评估”循环形式化。框架的核心组件和流程如下： ...

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构：CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

📄 AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks? #基准测试 #多模态模型 ✅ 7.0/10 | 前50% | #基准测试 | #多模态模型 | arxiv 👥 作者与机构作者：Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu 机构：Philo Labs Research (research@philolabs.ai) 💡 毒舌点评这篇论文做了一个视频后期制作的AI智能体评测基准，这事儿挺有意思，因为之前的评测要么是问答，要么是写代码，没人认真搞过这种“从剪辑到成片”的全流程活儿。作者拉了20个行业专家来设计任务，看起来挺像那么回事。但是，顶会审稿人会一眼看穿：这本质上是一个工程驱动的评测集构建工作，而非方法创新。论文最大的价值在于“发现”和“定义”了当前AI智能体在视频制作领域的无能——最佳模型组合得分才31%，人类能到90%左右，这差距大得令人尴尬。然而，这种发现本身并不令人意外，更像是对现状的一次确认。论文在框架（harness）上的分析（如图4）是亮点，指出了“框架作为一等公民变量”这个被忽视的点。但分析深度有限，更多是现象描述而非机制挖掘。最大的槽点在于，作为一个评测基准，其可复现性和生态构建严重不足——没有公开的代码、模型权重、数据集包，只有一个官网链接。这在2025年的顶会是难以接受的。此外，对“过程智能”评估的缺失，使得这个基准更像一个“黑箱输出评分器”，而非理解AI行为的透镜。总结：一篇合格但不出彩的系统工作，适合作为行业参考，但离顶会追求的“深刻洞见”或“可复用框架”尚有距离。 📌 核心摘要本文提出了AgenticVBench，一个用于评估AI智能体在真实世界视频后期制作工作流中能力的基准测试。该基准包含100个任务，涵盖组装（Assembly）、修复（Repair）、排序（Sequencing）和再利用（Repurpose）四个任务家族，任务由20位平均拥有6年专业经验的行业专家设计并提供评估标准。对7个前沿视觉语言模型（VLM）和5种工具框架（harness）的评估表明，当前最先进的智能体系统在这些复杂、长时程的多模态任务上表现远未达到人类专家水平，最佳智能体组合的平均得分仅为31%，而人类专家得分在81%-95%之间，存在43-65个百分点的差距。研究进一步揭示，智能体框架的设计对最终性能有显著影响，甚至能决定模型能力的发挥程度。 🔗 开源详情代码：论文中未提及 AgenticVBench 基准测试代码本身的具体仓库链接（如 GitHub）。论文仅提供了一个项目主页：https://agenticvbench.com。模型权重：论文中未提及。论文评估的模型（如 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Qwen3-VL-235B-A22B-Instruct）均为商业模型或通过 API 访问的开源模型，未提供其权重文件的直接下载链接。数据集：论文中未提及独立的可下载数据集包链接。论文说明任务构建所用的源视频均来自公开渠道（例如：2025 Runway AI Film Festival 提交作品、电影、动画、新闻、YouTube 内容等），但未提供这些原始素材或处理后的基准测试数据的打包下载地址（如 HuggingFace 数据集页面）。论文声称在发布时提供源视频、任务提示和评估脚本，但未指明具体托管位置。 Demo：论文中未提及在线演示链接。仅提供了项目主页：https://agenticvbench.com。复现材料：论文中未提及单独的复现材料包（如检查点、配置文件）。论文在附录中详细描述了实验设置（模型、硬件、工具链版本、评估配置等），但未提供复现所需的代码和数据。论文中引用的开源项目： OpenClaw：论文中评估的开源 harness，未给出具体 URL。 OpenCode：论文中评估的开源 harness，未给出具体 URL。 Claude Code CLI：Anthropic 提供的原生 CLI 工具，未给出具体 URL。 Codex CLI：OpenAI 提供的原生 CLI 工具，未给出具体 URL。 Gemini CLI：Google 提供的原生 CLI 工具，未给出具体 URL。 ffmpeg/ffprobe：用于视频/音频处理的知名开源工具，官网链接：https://ffmpeg.org/。 Whisper：OpenAI 开源的语音识别模型，GitHub 链接：https://github.com/openai/whisper。 gTTS (Google Text-to-Speech)：Python 文本转语音库，PyPI 链接：https://pypi.org/project/gTTS/。 Nano Banana Pro：用于生成干扰项的图像生成模型，论文中未给出具体链接。 Seedance 2.0：用于生成干扰项的视频生成模型，论文中未给出具体链接。 🏗️ 方法概述和架构本文提出的方法是一个基于专家经验的视频后期制作智能体评测基准（Benchmark）的构建与评估流程，而非一个新的AI模型或算法。其核心架构是构建一个能系统测试AI智能体在多步骤、多模态生产任务中表现的标准化环境。 ...

MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation

📄 MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation #语音生成 #多模态模型 #基准测试 🔥 9.9/10 | 前25% | #语音生成 | #多模态模型 | #基准测试 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度高 👥 作者与机构 Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng。机构包括：上海大学、北京理工大学、上海戏剧学院、清华大学、合肥工业大学、字节跳动(Inkeverse)、阿德莱德大学、北京工业大学、北京人工智能研究院、OpenNLP Lab。 ...

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜（30 篇，按分数降序）排名论文评分分档主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #多模态模型 #基准测试 #多模态模型 🔥 9.7/10 | 前25% | #多模态模型 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.6/2 | 置信度高 👥 作者与机构作者：Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。机构：清华大学、香港中文大学。 💡 毒舌点评这篇论文旨在解决音视频生成领域一个真实存在的痛点——评估。作者们观察到现有评估方法（如VBench, VABench）的不足：要么只关注单模态，要么依赖通用的VQA模型，无法捕捉人像场景下微妙的跨模态错误。AVBench提出了一套“全自动、专有化、与人类对齐”的评估方案，其核心在于用精心设计的困难负样本对多模态大模型进行监督微调，使其成为“专业裁判”。这个思路本身是正确且有实用价值的。然而，作为审稿人，我必须指出其局限性。首先，整套方案的“全自动”高度依赖于基础模型（Qwen系列）和外部评估器（如SyncNet, DOVER++），其性能瓶颈可能转移到了这些组件上，论文对此的讨论不足。其次，虽然构建了庞大的训练集（300KK样本），但“困难负样本”的生成策略（如基于LLM的文本微扰、音视频轨道的人工偏移）在多大程度上覆盖了真实生成模型可能犯的“所有”错误，缺乏理论或更充分的实验验证。最后，论文宣称的“可微分奖励信号”潜力很吸引人，但并未提供任何在实际RLHF流程中应用的案例，更像一个远景声明。论文写作清晰，实验对比了多个主流模型，数据表格详实。但评审意见的深度可以更进一步，例如对评测器自身鲁棒性的分析（如对抗样本）、对训练集分布偏差的讨论等仍有空间。总体来说，这是一篇扎实的、解决实际问题的系统工作，但距离“终极评估框架”还有距离。 📌 核心摘要本文介绍了AVBench，一个针对人像中心音视频生成模型的自动化评估基准。现有评估方法存在忽略细粒度人像相关性、滥用通用模型以及缺乏精确连续评分等问题。AVBench通过两个核心设计来解决：1) 提出了涵盖视觉质量、音频质量及多层跨模态一致性的十维评估指标，专门针对人像场景；2) 构建了大规模（300KK样本）且包含多样化困难负样本（如微小时移、情感错配、LLM驱动的语义突变）的训练集，通过监督微调（SFT）训练出专用的评估器。这些评估器（音视频、音频文本、视频文本）通过归一化预测概率产生连续、可微分的评分。实验表明，AVBench的自动评分与人类偏好判断高度相关（最高皮尔逊相关系数达0.9779），且在硬样本测试中能有效识别模型弱点，为评估和优化音视频生成系统提供了可靠工具。 🔗 开源详情代码：未提供代码仓库链接。模型权重：未提供模型权重链接。数据集：未提供数据集直接下载链接。论文使用了OpenHumanVid数据集构建训练集，但未提供该数据集链接。 Demo：提供了项目主页链接：https://yajialiang.github.io/AVBench-site/ 复现材料：未提及训练配置文件、检查点或可复现材料包。论文中引用的开源项目： OpenHumanVid：未提供链接，仅提及名称。 CLAP：提供了GitHub链接。 ViCLIP：提供了GitHub链接。 ImageBind：提供了GitHub链接。 Qwen3-Omni：未提供链接，仅提及名称。 Qwen-3 Max：未提供链接，仅提及名称。 Qwen2.5-Omni：提供了GitHub链接。 Qwen2-Audio：提供了GitHub链接。 Whisper-large-v3：提供了GitHub链接。 DF_Arena：提供了GitHub链接。 NISQAv2：未提供链接，仅提及名称和论文引用。 Audiobox-Aesthetics：提供了GitHub链接。 DOVER++：提供了GitHub链接。 LAION-Aesthetics：提供了GitHub链接。 SyncNet：提供了项目链接。 LatentSync：未提供链接，仅提及名称和引用。 🏗️ 方法概述和架构 AVBench的框架建立在两个并行支柱上：高质量评测集构建与专用评估器训练。 ...

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

📄 LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV #基准测试 #多模态模型 ✅ 6.0/10 | 前50% | #音频生成 | #基准测试 | #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 6.0/2 | 可复现性 0.3/2 | 置信度高 👥 作者与机构作者包括Tengfei Liu, Yang Shi, Xuanyu Zhu等，来自北京大学（Peking University）、快手团队（Kling Team）、南京大学（Nanjing University）、上海交通大学（SJTU）、香港科技大学（广州）（HKUST(GZ)）、上海人工智能实验室（Shanghai AI Lab）、南洋理工大学（Nanyang Technological University）、中国科学院自动化研究所（CASIA）、清华大学（Tsinghua University）。论文标注了对应的通讯作者和项目负责人，但未明确指出具体是谁。 💡 毒舌点评这篇工作很“讨巧”。它瞄准了当前火热的“分钟级”生成赛道，做了一个看起来很全面的评估框架。但“统合”和“诊断”更多是工程上的排列组合和概念包装。真正让人眼前一亮的、关于长时序生成或音视频同步的底层理论或算法洞察几乎没有。它更像是一个给现有模型“体检”并开具详细“病历”的工具，而不是推动医学进步的新药方。依赖Gemini进行“裁判打分”是最大的阿喀琉斯之踵，这让整个评估的客观性和可重复性都打了折扣。对于音频领域的读者来说，除了作为生成对象的“音频”本身，这项工作提供的关于音频生成模型或音频理解方法的新见解极为有限。 📌 核心摘要本文提出了LongAV-Compass，首个专注于分钟级（>60秒）音视频（AV）生成的统一评估基准。该基准覆盖了文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件生成任务，包含284个按“应用场景”和“生成复杂度”二维分类的测试用例。其核心贡献在于设计了一个分层、细粒度的诊断性评估框架，该框架结合了基于MLLM（Gemini 3.1 Pro）的自动评估与多种感知/多模态模型（DINO-v2， ArcFace， CLIP， ImageBind），并定义了超过20个评估维度，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐和音视频同步。通过对11个代表性生成系统（包括商业、开源和基于代理的模型）的全面评估，论文系统地揭示了当前模型在分钟级生成中普遍存在的瓶颈：无法同时维持事件完成度、时长连贯性、视觉质量、语义对齐和音视频同步。 🔗 开源详情代码：https://github.com/pkucs-Ltf/LongAV-Compass 模型权重：论文未提供这些评估模型的权重下载链接。这些模型是第三方系统（如商业API或独立开源项目）。数据集：论文介绍了基准包含284个测试案例，但未在正文中提供独立的数据集下载链接。根据复现性计划，数据集（标注、评分等）预计将随基准一同发布，但撰写时具体链接未给出。 Demo：论文未提及。复现材料：论文承诺将发布评估脚本、原始MLLM JSON输出、汇总分数文件等，并记录了所有MLLM评估的模型版本和API快照时间。但具体发布链接在撰写时未提供。论文中引用的开源项目：论文引用了多个模型和基准（如VBench, T2AV-Compass, VABench, EvalCrafter等），但均未在正文中提供具体链接。 🏗️ 方法概述和架构 LongAV-Compass的方法体系是一个包含基准构建、统一标注与多维度评估的综合框架。 ...

PitchBench: Measuring Pitch Hearing in Audio-Language Models

📄 PitchBench: Measuring Pitch Hearing in Audio-Language Models #基准测试 🔥 9.7/10 | 前25% | #基准测试 | #基准测试 | arxiv 学术质量 6/7 | 影响力 1.8/2 | 可复现性 1.9/2 | 置信度高 👥 作者与机构 Milan Liessens Dujardin (University of California, Berkeley), Song-Ze Yu (University of California, Berkeley), Craver Corbyn Thomas-Smith (Thoughtful Lab), David M. Chan (University of California, Berkeley), Karina Nguyen (Thoughtful Lab)。Equal contribution。 💡 毒舌点评这篇论文指出了一个实际存在的问题（ALMs音高感知评估的缺失），并设计了一个系统化的解决方案（PitchBench）。其价值在于“诊断”而非“宣称”——它并不声称模型已经很好或很坏，而是提供了一套工具来精确测量它们到底能听到什么、不能听到什么。主要弱点在于其诊断工具本身（合成数据）的“生态效度”存疑，以及评估的模型可能并非当下最顶尖的系统，这使得部分结论的时效性和普适性打折扣。然而，其开源和模块化的设计为未来研究铺平了道路，这在很大程度上弥补了上述不足。 📌 核心摘要本文介绍了PitchBench，一个用于系统测量音频语言模型（ALMs）音高感知能力的评估套件。该基准包含28个实验，分解为三个层级：原子音高感知（单音识别）、上下文音高感知（在序列、和弦及各种声学条件下）和旋律音高感知（在复调织体中追踪旋律线）。通过评估6个前沿ALMs（Gemini 3.1 Pro, Gemini 3 Flash, GPT-4o audio, Qwen-3.5 Omni Plus, Qwen-3.5 Omni Flash, Audio Flamingo Next Instruct），研究发现当前模型的音高感知能力普遍不可靠且脆弱。性能在不同音源、音符时长和记谱格式之间差异巨大，且对轻微的声学变换（如失谐）极为敏感。在最具挑战性的多声部旋律识别任务（F1, F2）上，所有模型准确率均为零。论文同时开源了生成数据和评估的Python包。 ...

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...