多模态模型

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

📄 AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks? #基准测试 #多模态模型 ✅ 7.0/10 | 前50% | #基准测试 | #多模态模型 | arxiv 👥 作者与机构作者：Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu 机构：Philo Labs Research (research@philolabs.ai) 💡 毒舌点评这篇论文做了一个视频后期制作的AI智能体评测基准，这事儿挺有意思，因为之前的评测要么是问答，要么是写代码，没人认真搞过这种“从剪辑到成片”的全流程活儿。作者拉了20个行业专家来设计任务，看起来挺像那么回事。但是，顶会审稿人会一眼看穿：这本质上是一个工程驱动的评测集构建工作，而非方法创新。论文最大的价值在于“发现”和“定义”了当前AI智能体在视频制作领域的无能——最佳模型组合得分才31%，人类能到90%左右，这差距大得令人尴尬。然而，这种发现本身并不令人意外，更像是对现状的一次确认。论文在框架（harness）上的分析（如图4）是亮点，指出了“框架作为一等公民变量”这个被忽视的点。但分析深度有限，更多是现象描述而非机制挖掘。最大的槽点在于，作为一个评测基准，其可复现性和生态构建严重不足——没有公开的代码、模型权重、数据集包，只有一个官网链接。这在2025年的顶会是难以接受的。此外，对“过程智能”评估的缺失，使得这个基准更像一个“黑箱输出评分器”，而非理解AI行为的透镜。总结：一篇合格但不出彩的系统工作，适合作为行业参考，但离顶会追求的“深刻洞见”或“可复用框架”尚有距离。 📌 核心摘要本文提出了AgenticVBench，一个用于评估AI智能体在真实世界视频后期制作工作流中能力的基准测试。该基准包含100个任务，涵盖组装（Assembly）、修复（Repair）、排序（Sequencing）和再利用（Repurpose）四个任务家族，任务由20位平均拥有6年专业经验的行业专家设计并提供评估标准。对7个前沿视觉语言模型（VLM）和5种工具框架（harness）的评估表明，当前最先进的智能体系统在这些复杂、长时程的多模态任务上表现远未达到人类专家水平，最佳智能体组合的平均得分仅为31%，而人类专家得分在81%-95%之间，存在43-65个百分点的差距。研究进一步揭示，智能体框架的设计对最终性能有显著影响，甚至能决定模型能力的发挥程度。 🔗 开源详情代码：论文中未提及 AgenticVBench 基准测试代码本身的具体仓库链接（如 GitHub）。论文仅提供了一个项目主页：https://agenticvbench.com。模型权重：论文中未提及。论文评估的模型（如 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Qwen3-VL-235B-A22B-Instruct）均为商业模型或通过 API 访问的开源模型，未提供其权重文件的直接下载链接。数据集：论文中未提及独立的可下载数据集包链接。论文说明任务构建所用的源视频均来自公开渠道（例如：2025 Runway AI Film Festival 提交作品、电影、动画、新闻、YouTube 内容等），但未提供这些原始素材或处理后的基准测试数据的打包下载地址（如 HuggingFace 数据集页面）。论文声称在发布时提供源视频、任务提示和评估脚本，但未指明具体托管位置。 Demo：论文中未提及在线演示链接。仅提供了项目主页：https://agenticvbench.com。复现材料：论文中未提及单独的复现材料包（如检查点、配置文件）。论文在附录中详细描述了实验设置（模型、硬件、工具链版本、评估配置等），但未提供复现所需的代码和数据。论文中引用的开源项目： OpenClaw：论文中评估的开源 harness，未给出具体 URL。 OpenCode：论文中评估的开源 harness，未给出具体 URL。 Claude Code CLI：Anthropic 提供的原生 CLI 工具，未给出具体 URL。 Codex CLI：OpenAI 提供的原生 CLI 工具，未给出具体 URL。 Gemini CLI：Google 提供的原生 CLI 工具，未给出具体 URL。 ffmpeg/ffprobe：用于视频/音频处理的知名开源工具，官网链接：https://ffmpeg.org/。 Whisper：OpenAI 开源的语音识别模型，GitHub 链接：https://github.com/openai/whisper。 gTTS (Google Text-to-Speech)：Python 文本转语音库，PyPI 链接：https://pypi.org/project/gTTS/。 Nano Banana Pro：用于生成干扰项的图像生成模型，论文中未给出具体链接。 Seedance 2.0：用于生成干扰项的视频生成模型，论文中未给出具体链接。 🏗️ 方法概述和架构本文提出的方法是一个基于专家经验的视频后期制作智能体评测基准（Benchmark）的构建与评估流程，而非一个新的AI模型或算法。其核心架构是构建一个能系统测试AI智能体在多步骤、多模态生产任务中表现的标准化环境。 ...

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox

📄 Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox #语音情感识别 #语音识别 #多模态模型 ✅ 6.8/10 | 前50% | #语音情感识别 | #语音识别 | #多模态模型 | arxiv 学术质量 4.5/7 | 影响力 1.8/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构作者：Jiacheng Pang (南加州大学 USC)，Ashutosh Chaubey (MIT)，Mohammad Soleymani (南加州大学 USC) 机构：信息科学研究所 (USC)，计算机科学与人工智能实验室 (CSAIL, MIT) 💡 毒舌点评合成数据的“温室花朵”效应：VoxParadox 基准虽然精巧，但完全依赖 TTS 合成数据。论文声称其设计“由构造保证”，但这恰恰是它最大的软肋。模型在这个精心控制的对抗性环境中取得的任何提升，在面对真实世界中充满噪声、歧义、文化背景和微小语气变化的“言不由衷”时，可能都只是镜花水月。生态效度（ecological validity）的短板，使得方法的实用价值大打折扣。 “灵丹妙药”式的改进声明：论文将 PCLM+DPO 描述为解决瓶颈的有效方案，但证据链并不完整。在一个模型（Audio Flamingo 3）上取得巨大成功，远不足以证明该方案的普适性。论文未报告其他被评估模型（如 SALMONN, Qwen-Audio 等）的改进情况，这使得方法的“通用性”声明显得仓促。是方法真的巧妙，还是仅仅在 Audio Flamingo 3 的特定架构上“过拟合”了？ “黑箱”模块缺乏透视：PCLM 被描述为“自适应地组合多层信息”，但其内部机制如同黑箱。论文没有提供任何可视化或定量分析，展示在不同任务或输入下，模型究竟如何、以及为何选择了特定的音频层组合。这种“Prompt-Conditioned”的承诺，在缺乏可解释性分析的情况下，说服力有限。消融研究的缺失：将 PCLM 和 DPO 打包提出，却没有进行充分的消融实验，这是方法论上的重大遗漏。我们不知道性能提升有多少归功于表征质量的改善（PCLM），有多少归功于偏好引导（DPO），两者的协同效应究竟如何。这使得方法的贡献难以被准确归因和理解。实验对比的模糊性：虽然声称评估了“多种”Audio LLMs，但 Table 1 的细节在提供的文本中不完整。审稿人需要清晰地看到所有基线模型在所有任务上的具体数字，以判断 VoxParadox 是否真的暴露了模型的共性问题，以及所提方法是否在所有情况下都有效。泛泛的“显著提升”结论，缺乏足够的数据支撑。 📌 核心摘要本文针对 Audio LLMs 在副语言信息理解上的不足（过度依赖文本转录而非声学线索），提出了系统性的分析、评估与改进方案。首先，设计了对抗性基准 VoxParadox（2000 样本，10 类任务），通过控制语音合成制造转录与声学风格的矛盾，以量化模型的模态偏见。实验表明，模型普遍在声学真值上准确率低（AccGT），却对文本暗示的错误标签高度一致（ALA）。其次，通过层级探测（layer-wise probing）分析瓶颈，发现副语言信息在编码器深层及编码器-LLM 接口处可能退化，且即使信息存在于音频 token 中，LLM 也常忽略。为解决此问题，提出 Prompt-Conditioned Layer Mixer（PCLM）以自适应融合多层音频表征，并结合 Direct Preference Optimization（DPO）训练模型偏好声学证据。在 Audio Flamingo 3 上，该方法将 VoxParadox 准确率从 17.40% 提升至 65.20%，MMSU 副语言子集从 37.74% 提升至 54.78%。 ...

EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction

📄 EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction #多模态模型 #多任务学习 🔥 8/10 | 前50% | #多模态模型 | #多任务学习 | arxiv 学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构作者：Chong Jing, Zitong Lan, Junan Zhang, Zhizheng Wu 机构：香港中文大学（深圳）（Chong Jing, Junan Zhang, Zhizheng Wu），宾夕法尼亚大学（Zitong Lan） 💡 毒舌点评这篇工作在工程应用上做得扎实，但理论原创性的天花板清晰可见。它成功地将视觉领域的“交替注意力”机制“移植”到了音频这个新场景，并辅以一个动机良好的物理调制模块，最终在特定任务上取得了SOTA。这种“旧瓶装新酒”的范式在应用层屡试不爽，但作为顶会论文，其核心贡献的“新颖性”需要打折。更令人遗憾的是，作为一篇同时期的工作，却完全回避了与最直接竞争对手FLAC的正面比较（仅以“并发工作”一笔带过），这在实验对比的完整性上留下了无法回避的短板。论文的强项在于细致的消融实验，特别是掩码探针实验设计巧妙，试图解释模型行为，这比单纯刷分更有价值。然而，写作上的细节疏忽（图表引用混乱）和某些技术描述的含糊（如DiT块的具体操作）拉低了整体的精致感。总的来说，这是一篇扎实的系统工作（systems paper），而非一篇具有颠覆性思想的理论突破。 📌 核心摘要本文针对从稀疏观测预测新视角房间脉冲响应（RIR）的逆问题，提出了EigeNet框架。该框架旨在解决现有方法在多视角时空关系建模不足和物理可解释性缺失两大瓶颈。核心创新包括：1）提出交叉视角交替注意力Transformer（CVAT），交替进行视角内局部和跨视角全局注意力，以显式建模局部声学结构和全局空间关系；2）设计几何信息调制模块与基于7倍频带功率谱的辅助损失，显式建立几何特征与RIR功率谱的关联，将单任务转化为多任务学习。在模拟数据集AcousticRooms和真实数据集HAA上的实验表明，EigeNet在EDT、C50、T60等指标上显著优于xRIR等基线，并展现出良好的跨模态泛化性和物理可解释性。 🔗 开源详情代码：https://github.com/FEAfeatherTHER/EigeNet 模型权重：https://github.com/FEAfeatherTHER/EigeNet 数据集： AcousticRooms：论文中声明通过Treble平台获取（https://www.treble.tech/），但未提供直接��预处理数据下载链接。 Hearing-Anything-Anywhere (HAA)：论文中未提供任何公开获取链接。 Demo：论文中未提及。复现材料：未提供单独的复现材料包（如训练脚本、配置文件）。复现依赖于上述GitHub仓库的代码以及自行获取的数据集。 🏗️ 方法概述和架构 EigeNet框架旨在利用稀疏的参考视角RIR及其对应的几何信息，预测目标新视角的RIR。其整体架构如图1所示，包含编码、调制、核心Transformer处理和解码预测四个主要阶段。问题形式化与输入：给定\(N\)个参考视角，每个视角\(i\)包含：源位置\(tx_i \in \mathbb{R}^3\)，接收器位置（设为坐标原点）\(rx_i \in \mathbb{R}^3\)，以及对应的RIR信号\(h_i \in \mathbb{R}^{1 \times L}\)。同时，为目标视角（索引为0）提供接收器位置处的全景深度图\(D\)。目标是估计目标视角在\(tx_0\)处的RIR \(h_0\)。 ...

Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

📄 Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini #多模态模型 #对比学习 #语音识别 ✅ 7.9/10 | 前25% | #语音识别 | #对比学习 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini（共81位作者）。 ...

MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation

📄 MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation #语音生成 #多模态模型 #基准测试 🔥 9.9/10 | 前25% | #语音生成 | #多模态模型 | #基准测试 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度高 👥 作者与机构 Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng。机构包括：上海大学、北京理工大学、上海戏剧学院、清华大学、合肥工业大学、字节跳动(Inkeverse)、阿德莱德大学、北京工业大学、北京人工智能研究院、OpenNLP Lab。 ...

SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

📄 SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter #多模态模型 #参数高效微调 #语音情感识别 #指令微调 #大语言模型 🔥 8.7/10 | 前25% | #语音情感识别 | #参数高效微调 | #多模态模型 #指令微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构 Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh (通讯作者)。机构：1) 韩国高等科学技术院（KAIST）电气工程学院；2) 浦项科技大学（POSTECH）电气工程系；3) 韩国高等科学技术院（KAIST）计算学院。 💡 毒舌点评这篇工作就像给大语言模型装上了一个“笑声解码器”。作者很聪明地避开了处理原始音视频的泥潭，转而将所有多模态信号“翻译”成文本，让LLM用它最擅长的阅读理解来分析笑声。SMILE-Next数据集和MoLE框架都是扎实的工程贡献。然而，审稿人看到“文本化”这招会觉得有点似曾相识（论文自己也承认受Hyun et al., 2024启发），创新深度有限。更关键的是，把笑声这种极度依赖语境和微妙非语言线索的行为完全文本化，可能丢失了大量信息，而论文对此的验证不足。此外，数据集Fleiss’ Kappa仅为0.42（中等一致性），这就像用一把刻度不准的尺子去量东西，最后模型的“优越性”打了多少折扣？7.5分，算是对扎实工作的肯定，但离顶会突破性工作还有距离。 📌 核心摘要本文针对笑声这一复杂社交信号的理解提出了综合性框架。研究者首先构建了SMILE-Next数据集，包含笑声检测、类型分类（愉快、礼貌、讽刺）和推理三项任务，数据来源于多种真实对话场景，并提供了将视觉、声学、关系等多模态信息转换后的文本化表示及问答标注。基于此，他们提出两个核心组件：1) 笑声特定自指令：利用GPT-4合成多样化指令数据以增强泛化能力；2) 混合笑声专家框架：一种基于LoRA的参数高效微调方法，通过动态路由器为不同任务分配专门的专家模块。实验表明，结合自指令和MoLE的纯文本LLM方案在各项指标上均优于直接处理原始音视频的多模态LLM（如Qwen2.5-Omni）和视觉LLM（如Video-LLaVA）。消融研究证实了多模态文本化表示、自指令和MoLE的有效性。论文贡献了首个综合性多任务笑声理解数据集，并证明了将多模态信号文本化后输入LLM是一种有效的笑声分析范式。 🔗 开源详情代码：论文中未提及提供代码仓库。模型权重：论文中未提及提供预训练模型下载链接。数据集：论文中提及了SMILE-Next数据集，并提供了项目主页（https://mok0102.github.io/smile-next/），但未明确说明数据集是否公开发布及具体的下载协议。 Demo：论文中未提及在线演示。复现材料：论文在附录和正文中提供了较多实现细节（如LoRA配置\(r=8, \alpha=16\)，训练使用DeepSpeed ZeRO-3，批次大小，学习率等），但缺少完整的训练代码和预处理脚本，完全复现仍存在障碍。论文中引用的开源项目：主要包括WhisperX, DeepSpeed, LoRA, Self-Instruction框架，以及Vicuna, LLaMA, Qwen系列等模型和MiniCPM-o, Video-LLaVA等基线模型。具体链接已在论文中给出或为众所周知的项目。 🏗️ 方法概述和架构本文提出一个用于笑声理解的统一LLM框架，其核心思想是将多模态信号文本化后，利用LLM的推理能力进行处理。该框架主要包含两个关键组件：笑声特定自指令和混合笑声专家框架。 ...

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构第一作者：Yuyue Wang（中国人民大学）通讯作者：Xihua Wang（中国人民大学）机构：中国人民大学 💡 毒舌点评一篇动机明确、架构清晰的工作，定义了‘自由文本到统一音频生成’这一有潜力的任务，并提出了一个不错的解决方案。然而，如同许多初次尝试定义新任务的工作，其‘统一’的光环在实验部分略显褪色。基线选择过于保守，仅与较早的VoiceLDM和流水线方法对比，对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见，这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’，尤其是主观评估样本量仅50个，说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文，创新有余，验证不足。 📌 核心摘要本文针对“自由文本提示生成统一音频”这一新任务，提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型，其核心创新是引入“语义潜在思维链”机制，在连续语义空间进行隐式规划，以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干，直接处理文本，无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明，PlanAudio在复合场景下优于基线方法，并在单独音效和语音任务上保持竞争力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的公开链接。数据集：论文中提及基于以下公开数据集构建训练数据，并合成了新的基准数据集。具体获取方式如下： AudioSet: 论文用于合成复合音频数据，未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估，未提供链接。 WavCaps: 论文用于声音生成，未提供链接。 LibriTTS: 论文用于语音生成评估，未提供链接。 PlanAudio-Bench：论文中提出的新基准测试集，论文中未提及公开获取链接。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等复现材料的公开链接。论文中引用的开源项目： Qwen2.5-1.5B: 作为模型初始化的基础LLM。链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。论文中未提供具体链接。 Whisper: 用于生成转录。论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架，旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构（如图2所示）基于单一Transformer骨干（初始化自Qwen2.5-1.5B），将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

Why We Need Speech to Evaluate Speech Translation

📄 Why We Need Speech to Evaluate Speech Translation #语音翻译 #多模态模型 #参数高效微调 #数据增强 🔥 8.3/10 | 前50% | #语音翻译 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度高 👥 作者与机构 Maike Züfle (1), Danni Liu (1), Vilém Zouhar (2), Jan Niehues (1) 1 Karlsruhe Institute of Technology (KIT), 2 ETH Zurich 💡 毒舌点评这篇论文像一位严谨的诊断医生，成功地揭示了一个重要但被忽视的病症：当前的语音翻译评估指标（无论是文本还是语音输入）对性别一致性和韵律等语音特有现象几乎完全失明。其诊断过程（系统性的元评估、新模型训练、深入的探测实验）无可挑剔，结论有理有据。然而，它最大的缺点在于“只诊断，不治病”。论文明确指出了三个病根（编码器信息丢失、模型忽略语音源、训练数据不足），却未能提出任何有效的解决方案或有潜力的治疗方向。这使得文章的贡献止步于“揭示问题”，而非“解决问题”。对于期望看到方法创新或突破性结果的审稿人来说，这无疑会拉低评价。不过，这种扎实的“问题定位”工作为后续研究铺平了道路，价值不容否认。 📌 核心摘要本文针对语音翻译（ST）评估中存在的盲点展开研究。核心发现是：现有的文本和语音质量估计（QE）指标，包括直接使用语音输入的BLASER和SpeechQE，均无法评估语音翻译中至关重要的性别一致性和韵律现象，其表现接近随机猜测。为探究原因，作者训练了SpeechCOMET模型家族（基于SONAR和Whisper编码器）并评估了SpeechLLM作为评估器。两者在标准QE任务（IWSLT数据集上的相关性评分）上表现良好，甚至超越了文本基线COMETKiwi，但在语音特有现象评估上同样失败。通过探测实验，论文揭示了三个根本原因：1）SONAR等编码器抑制了声学特征；Whisper和SpeechLLM的编码器保留声学特征但模型未使用；2）QE模型在训练中倾向于忽略语音源信号；3）标准QE训练数据中缺乏相关示例。论文开源了所有模型和代码，并呼吁开发专门的语音特定数据集和真正依赖语音的模型。 🔗 开源详情代码：https://github.com/MaikeZuefle/speechCOMET 模型权重：论文中未提及模型权重的直接下载链接，需根据代码和超参数自行训练。数据集：使用了 IWSLT 2026 Metrics Shared Train Dev， MuST-SHE， ContraProST， WMT Human All 数据集，均为第三方公开数据集，论文未提供直接获取链接。 Demo：论文中未提及在线演示链接。复现材料：论文在附录中提供了详尽的训练超参数（表4，表5）、模型架构细节（第3.1、3.2节）、数据处理方法（附录A.3）和消融实验结果（附录B），这些信息均包含在论文正文及附录中，可复现性高。论文中引用的开源项目： COMET/COMETKiwi: 用于质量估计的基线模型。链接：https://github.com/unilm/comet SONAR: 用于语音编码的多语言模型。链接：https://github.com/facebookresearch/SONAR Whisper: 用于语音编码和语音识别的模型。链接：https://github.com/openai/whisper Qwen2.5 Omni: 论文中作为SpeechLLM进行评估的多模态大模型。链接：https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者和名称推断) LlamaFactory: 用于微调大语言模型的框架（用于SpeechLLM的微调）。链接：https://github.com/hiyouga/LLaMA-Factory spaCy: 用于语言特征探测的NLP工具。链接：https://github.com/explosion/spaCy Kokoro TTS & MMS TTS: 用于合成训练数据的文本转语音系统。链接：https://github.com/hexgrad/kokoro (Kokoro)， https://github.com/facebookresearch/fairseq/tree/main/examples/mms (MMS TTS) 🏗️ 方法概述和架构本文方法主要分为三部分：1）对现有指标的元评估，2）训练新的语音感知QE模型SpeechCOMET，3）评估SpeechLLM作为QE模型。 ...

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜（30 篇，按分数降序）排名论文评分分档主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...