MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation

📄 MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation #语音生成 #多模态模型 #基准测试 🔥 9.9/10 | 前25% | #语音生成 | #多模态模型 | #基准测试 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度 高 👥 作者与机构 Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng。机构包括:上海大学、北京理工大学、上海戏剧学院、清华大学、合肥工业大学、字节跳动(Inkeverse)、阿德莱德大学、北京工业大学、北京人工智能研究院、OpenNLP Lab。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 486 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-12 · 15 min · 3187 words

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #多模态模型 #基准测试 #多模态模型 🔥 9.7/10 | 前25% | #多模态模型 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学、香港中文大学。 💡 毒舌点评 这篇论文旨在解决音视频生成领域一个真实存在的痛点——评估。作者们观察到现有评估方法(如VBench, VABench)的不足:要么只关注单模态,要么依赖通用的VQA模型,无法捕捉人像场景下微妙的跨模态错误。AVBench提出了一套“全自动、专有化、与人类对齐”的评估方案,其核心在于用精心设计的困难负样本对多模态大模型进行监督微调,使其成为“专业裁判”。这个思路本身是正确且有实用价值的。然而,作为审稿人,我必须指出其局限性。首先,整套方案的“全自动”高度依赖于基础模型(Qwen系列)和外部评估器(如SyncNet, DOVER++),其性能瓶颈可能转移到了这些组件上,论文对此的讨论不足。其次,虽然构建了庞大的训练集(300KK样本),但“困难负样本”的生成策略(如基于LLM的文本微扰、音视频轨道的人工偏移)在多大程度上覆盖了真实生成模型可能犯的“所有”错误,缺乏理论或更充分的实验验证。最后,论文宣称的“可微分奖励信号”潜力很吸引人,但并未提供任何在实际RLHF流程中应用的案例,更像一个远景声明。论文写作清晰,实验对比了多个主流模型,数据表格详实。但评审意见的深度可以更进一步,例如对评测器自身鲁棒性的分析(如对抗样本)、对训练集分布偏差的讨论等仍有空间。总体来说,这是一篇扎实的、解决实际问题的系统工作,但距离“终极评估框架”还有距离。 📌 核心摘要 本文介绍了AVBench,一个针对人像中心音视频生成模型的自动化评估基准。现有评估方法存在忽略细粒度人像相关性、滥用通用模型以及缺乏精确连续评分等问题。AVBench通过两个核心设计来解决:1) 提出了涵盖视觉质量、音频质量及多层跨模态一致性的十维评估指标,专门针对人像场景;2) 构建了大规模(300KK样本)且包含多样化困难负样本(如微小时移、情感错配、LLM驱动的语义突变)的训练集,通过监督微调(SFT)训练出专用的评估器。这些评估器(音视频、音频文本、视频文本)通过归一化预测概率产生连续、可微分的评分。实验表明,AVBench的自动评分与人类偏好判断高度相关(最高皮尔逊相关系数达0.9779),且在硬样本测试中能有效识别模型弱点,为评估和优化音视频生成系统提供了可靠工具。 🔗 开源详情 代码:未提供代码仓库链接。 模型权重:未提供模型权重链接。 数据集:未提供数据集直接下载链接。论文使用了OpenHumanVid数据集构建训练集,但未提供该数据集链接。 Demo:提供了项目主页链接:https://yajialiang.github.io/AVBench-site/ 复现材料:未提及训练配置文件、检查点或可复现材料包。 论文中引用的开源项目: OpenHumanVid:未提供链接,仅提及名称。 CLAP:提供了GitHub链接。 ViCLIP:提供了GitHub链接。 ImageBind:提供了GitHub链接。 Qwen3-Omni:未提供链接,仅提及名称。 Qwen-3 Max:未提供链接,仅提及名称。 Qwen2.5-Omni:提供了GitHub链接。 Qwen2-Audio:提供了GitHub链接。 Whisper-large-v3:提供了GitHub链接。 DF_Arena:提供了GitHub链接。 NISQAv2:未提供链接,仅提及名称和论文引用。 Audiobox-Aesthetics:提供了GitHub链接。 DOVER++:提供了GitHub链接。 LAION-Aesthetics:提供了GitHub链接。 SyncNet:提供了项目链接。 LatentSync:未提供链接,仅提及名称和引用。 🏗️ 方法概述和架构 AVBench的框架建立在两个并行支柱上:高质量评测集构建与专用评估器训练。 ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 331 words

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

📄 LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV #基准测试 #多模态模型 ✅ 6.0/10 | 前50% | #音频生成 | #基准测试 | #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 6.0/2 | 可复现性 0.3/2 | 置信度 高 👥 作者与机构 作者包括Tengfei Liu, Yang Shi, Xuanyu Zhu等,来自北京大学(Peking University)、快手团队(Kling Team)、南京大学(Nanjing University)、上海交通大学(SJTU)、香港科技大学(广州)(HKUST(GZ))、上海人工智能实验室(Shanghai AI Lab)、南洋理工大学(Nanyang Technological University)、中国科学院自动化研究所(CASIA)、清华大学(Tsinghua University)。论文标注了对应的通讯作者和项目负责人,但未明确指出具体是谁。 💡 毒舌点评 这篇工作很“讨巧”。它瞄准了当前火热的“分钟级”生成赛道,做了一个看起来很全面的评估框架。但“统合”和“诊断”更多是工程上的排列组合和概念包装。真正让人眼前一亮的、关于长时序生成或音视频同步的底层理论或算法洞察几乎没有。它更像是一个给现有模型“体检”并开具详细“病历”的工具,而不是推动医学进步的新药方。依赖Gemini进行“裁判打分”是最大的阿喀琉斯之踵,这让整个评估的客观性和可重复性都打了折扣。对于音频领域的读者来说,除了作为生成对象的“音频”本身,这项工作提供的关于音频生成模型或音频理解方法的新见解极为有限。 📌 核心摘要 本文提出了LongAV-Compass,首个专注于分钟级(>60秒)音视频(AV)生成的统一评估基准。该基准覆盖了文本到音视频(T2AV)、图像到音视频(I2AV)和视频到音视频(V2AV)三种条件生成任务,包含284个按“应用场景”和“生成复杂度”二维分类的测试用例。其核心贡献在于设计了一个分层、细粒度的诊断性评估框架,该框架结合了基于MLLM(Gemini 3.1 Pro)的自动评估与多种感知/多模态模型(DINO-v2, ArcFace, CLIP, ImageBind),并定义了超过20个评估维度,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐和音视频同步。通过对11个代表性生成系统(包括商业、开源和基于代理的模型)的全面评估,论文系统地揭示了当前模型在分钟级生成中普遍存在的瓶颈:无法同时维持事件完成度、时长连贯性、视觉质量、语义对齐和音视频同步。 🔗 开源详情 代码:https://github.com/pkucs-Ltf/LongAV-Compass 模型权重:论文未提供这些评估模型的权重下载链接。这些模型是第三方系统(如商业API或独立开源项目)。 数据集:论文介绍了基准包含284个测试案例,但未在正文中提供独立的数据集下载链接。根据复现性计划,数据集(标注、评分等)预计将随基准一同发布,但撰写时具体链接未给出。 Demo:论文未提及。 复现材料:论文承诺将发布评估脚本、原始MLLM JSON输出、汇总分数文件等,并记录了所有MLLM评估的模型版本和API快照时间。但具体发布链接在撰写时未提供。 论文中引用的开源项目:论文引用了多个模型和基准(如VBench, T2AV-Compass, VABench, EvalCrafter等),但均未在正文中提供具体链接。 🏗️ 方法概述和架构 LongAV-Compass的方法体系是一个包含基准构建、统一标注与多维度评估的综合框架。 ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 530 words

PitchBench: Measuring Pitch Hearing in Audio-Language Models

📄 PitchBench: Measuring Pitch Hearing in Audio-Language Models #基准测试 🔥 9.7/10 | 前25% | #基准测试 | #基准测试 | arxiv 学术质量 6/7 | 影响力 1.8/2 | 可复现性 1.9/2 | 置信度 高 👥 作者与机构 Milan Liessens Dujardin (University of California, Berkeley), Song-Ze Yu (University of California, Berkeley), Craver Corbyn Thomas-Smith (Thoughtful Lab), David M. Chan (University of California, Berkeley), Karina Nguyen (Thoughtful Lab)。Equal contribution。 💡 毒舌点评 这篇论文指出了一个实际存在的问题(ALMs音高感知评估的缺失),并设计了一个系统化的解决方案(PitchBench)。其价值在于“诊断”而非“宣称”——它并不声称模型已经很好或很坏,而是提供了一套工具来精确测量它们到底能听到什么、不能听到什么。主要弱点在于其诊断工具本身(合成数据)的“生态效度”存疑,以及评估的模型可能并非当下最顶尖的系统,这使得部分结论的时效性和普适性打折扣。然而,其开源和模块化的设计为未来研究铺平了道路,这在很大程度上弥补了上述不足。 📌 核心摘要 本文介绍了PitchBench,一个用于系统测量音频语言模型(ALMs)音高感知能力的评估套件。该基准包含28个实验,分解为三个层级:原子音高感知(单音识别)、上下文音高感知(在序列、和弦及各种声学条件下)和旋律音高感知(在复调织体中追踪旋律线)。通过评估6个前沿ALMs(Gemini 3.1 Pro, Gemini 3 Flash, GPT-4o audio, Qwen-3.5 Omni Plus, Qwen-3.5 Omni Flash, Audio Flamingo Next Instruct),研究发现当前模型的音高感知能力普遍不可靠且脆弱。性能在不同音源、音符时长和记谱格式之间差异巨大,且对轻微的声学变换(如失谐)极为敏感。在最具挑战性的多声部旋律识别任务(F1, F2)上,所有模型准确率均为零。论文同时开源了生成数据和评估的Python包。 ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 467 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-12 · 19 min · 3918 words

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

📄 EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation #音视频 #基准测试 #模型评估 #多模态模型 ✅ 7.1/10 | 前50% | #音视频 | #专家校准VLM评分 | #基准测试 #模型评估 | arxiv 学术质量 5.9/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 High 👥 作者与机构 作者:Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao. 机构:香港科技大学,腾讯,清华大学,中国科学院自动化研究所,北京电影学院,斯坦福大学,香港中文大学,新加坡技术设计大学。 ...

2026-05-25 · 更新于 2026-06-12 · 3 min · 454 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-06-12 · 9 min · 1773 words

A Survey of Audio Reasoning in Multimodal Foundation Models

📄 A Survey of Audio Reasoning in Multimodal Foundation Models #音频推理 #音频问答 #多模态模型 #强化学习 #基准测试 #语音对话 ✅ 7.7/10 | 前50% | #音频推理 | #综述 | #音频问答 #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 1.7/2 | 可复现性 0.0/2 | 置信度 高 👥 作者与机构 第一作者:Zhihan Guo(香港中文大学计算机科学与工程系)与Wenqian Cui(香港中文大学计算机科学与工程系)共同一作。 通讯作者:Irwin King(香港中文大学计算机科学与工程系) 作者列表:Zhihan Guo(香港中文大学计算机科学与工程系)、Wenqian Cui(香港中文大学计算机科学与工程系)、Guan-Ting Lin(国立台湾大学通信工程研究所)、Daxin Tan(香港中文大学电子工程系)、Jingyao Li(香港中文大学计算机科学与工程系)、Qiyong Zheng(香港中文大学计算机科学与工程系)、Dingdong Wang(香港中文大学系统工程与工程管理系)、Jing Xiong(香港大学电气与计算机工程系)、Han Shi(华为基础模型部门,香港科技大学计算机科学与工程系)、Jiaya Jia(香港科技大学计算机科学与工程系)、Irwin King(香港中文大学计算机科学与工程系)。 💡 毒舌点评 亮点:作为首篇专注于“音频推理”的系统性综述,它成功地将一个新兴、碎片化但至关重要的领域进行了概念化和结构化。其提出的统一形式化框架和四大范式(音频到文本、音频到语音、音视频、智能体)分类体系,为该领域的研究者提供了极有价值的导航图和共同语言。论文对音频推理独特挑战(如声学接地、延迟权衡)的深刻洞察,直接切中了当前音频AI发展的核心瓶颈。短板:作为一篇旨在定义领域的综述,其在批判性深度上仍有提升空间。部分章节对现有方法的罗列多于剖析,对不同技术路线优劣的对比分析不够系统,且未能就其提出的分类框架和未来方向提供更具体、可操作的技术路径蓝图,削弱了其作为“路线图”的锐度和指导性。 📌 核心摘要 问题:尽管音频基础模型(AFM)发展迅速,但其推理能力(基于声学信号进行多步逻辑推导)仍落后于文本和视觉模型。音频的连续性、时间密集性以及包含语言、副语言和环境信息的多维特性,使其面临独特挑战,如声学-语义对齐、数据稀缺、捷径学习和模态幻觉。 方法核心:本文是一篇系统性综述,核心是构建一个统一的分类和形式化框架。它将音频推理问题统一定义为基于多模态证据的条件生成过程(公式1),并将其划分为四大范式:音频到文本、音频到语音(含实时交互)、音视频推理和智能体音频推理。论文系统梳理了每个范式下的模型架构基础(编码器-投影器-LLM骨干)、训练技术(对齐预训练、SFT、RL)和具体方法。 新在哪里:首次将“音频推理”作为独立核心主题进行专门综述,而非将其作为多模态或语音大模型的附属能力。提出了一个涵盖问题形式化、模型基础、推理范式、评估和未来方向的统一路线图。特别强调了音频推理独有的挑战,如实时交互中的延迟权衡、声学接地的真实性以及捷径学习问题。 主要结果:作为综述论文,本文不提出新模型或新实验结果,而是对现有文献进行归纳总结。关键发现包括:1) CoT在音频推理中的效果并非总是正面(在某些RL训练或复杂任务中可能失效);2) 基于RL的音频推理需要精心设计奖励(准确性、一致性、格式、长度、质量)并解决模态幻觉问题;3) 实时音频到语音推理存在“边听边想”与“边说边想”两类策略,各有延迟与准确性的权衡。论文系统总结了现有工作在MMAU、AVQA等基准上的表现及训练数据构建方法(表III)。 实际意义:为音频/语音领域的研究者提供了清晰的领域全景图和研究方向指引,有助于推动音频推理从简单感知走向复杂认知,对构建能在真实、交互环境中可靠推理的下一代音频AI系统具有重要参考价值。 主要局限性:1) 作为综述,其深度受限于篇幅,对某些复杂方法的剖析可能不够深入;2) 领域发展迅速,综述的时效性面临挑战;3) 主要聚焦于方法学讨论,缺乏对实际部署挑战的深入分析;4) 论文明确指出,其总结的训练数据合成方法存在可靠性存疑的问题(Section IX-A)。 🔗 开源详情 代码:论文中未提及代码链接。本文为综述论文,未提供自身的代码仓库。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 320 words

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

📄 Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German #语音识别 #多语言 #基准测试 #评测协议 #数据集 ✅ 6.8/10 | 前50% | #语音识别 | #基准测试 | #多语言 #评测协议 | arxiv 学术质量 4.4/7 | 影响力 1.0/2 | 可复现性 1.4/2 | 置信度 高 👥 作者与机构 第一作者:Sajjad Abdoli (Perle AI) 通讯作者:Sajjad Abdoli (Perle AI) 作者列表:Sajjad Abdoli (Perle AI)、Ghassan Al-Sumaidaee (Perle AI)、Clayton W. Taylor (Perle AI)、Ahmad (MAD) ElShiekh (Perle AI)、Ahmed Rashad (Perle AI) 💡 毒舌点评 亮点:论文精准地击中了商业ASR评估的一个关键盲点——代码转换场景,并提供了一个设计精良、可公开获取的基准数据集,其实用价值直接且显著。短板:论文的“技术贡献”主要停留在评估方法论和指标比较层面,缺乏对ASR模型本身的算法或架构洞察,更像一篇扎实的行业评估报告而非传统意义上的学术突破。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 406 words