Posts

MeetingToM: Evaluating Multimodal LLMs on Theory-of-Mind Reasoning in Multi-Party Meetings

📄 MeetingToM: Evaluating Multimodal LLMs on Theory-of-Mind Reasoning in Multi-Party Meetings 标签：#基准测试 #音频理解 #Transformer #模型评估 7.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #基准测试 | #Transformer | #音频理解 #模型评估 | arxiv 👥 作者与机构第一作者：Ziyi Wang（清华大学 AI 学院）[注：论文标注为共同第一作者] 通讯作者：Miao Liu（清华大学 AI 学院）作者列表：Ziyi Wang（清华大学 AI 学院）、Yuhang Wu（清华大学 AI 学院）[注：论文标注为共同第一作者]、Dongxu Piao（清华大学 AI 学院）、Xingyu Liu（清华大学 AI 学院）、Tianhui Zhou（杜克大学生物统计与信息学系）、Miao Liu（清华大学 AI 学院） 💡 毒舌点评论文在将心智理论评估从简单视频问答引入到真实、复杂的多方会议场景这一方向上迈出了重要一步，提出的“伪共识”概念和层次化任务设计颇具洞察力，抓住了社交互动中“言行不一”这一核心难点。然而，该基准的科学根基建立在第三方观察者对“心智状态”的推断之上，尤其在最具挑战性的态度推断任务中，标注者间一致性仅为中等（κ=0.50），这直接动摇了“黄金标准”的可靠性。此外，论文声称评估了“GPT-5”，但该模型在2026年7月并未公开发布，这在模型身份上存在重大疑问，严重削弱了实验结果的可信度和可复现性。 ...

Staged Depth-Pruning Distillation of a Flow-Matching Text-to-Speech Teacher: A Compact Hindi Speech Synthesizer

📄 Staged Depth-Pruning Distillation of a Flow-Matching Text-to-Speech Teacher: A Compact Hindi Speech Synthesizer 标签：#语音合成 #知识蒸馏 #模型压缩 #低资源 #音频理解 7.9/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音合成 | #知识蒸馏 | #模型压缩 #低资源 | arxiv 👥 作者与机构第一作者：Sivateja Trikutam 通讯作者：未说明作者列表：Sivateja Trikutam (sivatejaat@gmail.com) 机构：未说明 💡 毒舌点评这是一份典型的工程驱动的系统技术报告：其价值不在于提出革命性的新算法，而在于将“深度剪枝+渐进蒸馏”这套组合拳在有限数据和资源约束下打得干净利落，并详细分享了从理论验证到部署踩坑的完整流水线，对于资源受限的工业场景有直接参考意义。然而，论文的致命短板在于实验评估：完全依赖教师生成的合成数据训练，评估更是完全采用自动指标（WER/UTMOS），缺乏TTS领域的黄金标准——人类主观评测（MOS），这让其“高质量”的声明显得底气不足。此外，与单一基线的对比、以及蒸馏过程本身缺乏关键消融，都削弱了其学术贡献的严谨性。 ...

Summary of DCASE 2026 Task 5: Audio-Dependent Question Answering

📄 Summary of DCASE 2026 Task 5: Audio-Dependent Question Answering 标签：#音频理解 #基准测试 #音频大模型 #模型评估 #数据集 5.4/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.8/1.5 📝 5.4/10 | 后50% | 文档类型：数据集与基准 | 评分置信度：高 | #音频理解 | #音频大模型 | #基准测试 #模型评估 | arxiv 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Haolin He（未说明）、Renhe Sun（未说明）、Zheqi Dai（未说明）、Xingjian Du（未说明）、Chunyu Wu（未说明）、Zining Liang（未说明）、Zhengxi Liu（未说明）、Jiahe Lei（未说明）、Runbang Wang（未说明）、Jiayi Zhou（未说明）、Mingru Yang（未说明）、Xiquan Li（未说明）、Yun Chen（未说明）、Xie Chen（未说明）、Zhiyao Duan（University of Rochester）、Weiqiang Wang（未说明）、Mark D. Plumbley（University of Surrey）、Jian Liu（未说明）、Qiuqiang Kong（未说明） 💡 毒舌点评这篇比赛总结报告最大的亮点在于它直击了当前音频大模型评测的核心痛点——用精心设计的四阶段过滤流水线构建了一个“防作弊”的基准（ADQA-Bench），并通过大量参赛系统验证了其区分度。然而，其短板也同样明显：作为一篇基准论文，它对评估基准本身（如ADQA-Bench）的构建细节、标注质量控制、以及评估集本身的开源程度语焉不详，严重限制了社区的复用和深度验证。更关键的是，它没有提供任何反证实验来证明其ADQA-Bench确实比未经此过滤的基准更有效，使得其核心主张的验证存在一个逻辑闭环的缺失。 ...

Teleportation Game: Quantum Teleportation in Multi-Agent Systems for Interactive Music

📄 Teleportation Game: Quantum Teleportation in Multi-Agent Systems for Interactive Music 标签：#音乐生成 #实时处理 #理论分析 #音频理解 #Transformer 4.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 0.6/1.5 | 清晰 0.7/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.5/1.5 📝 4.4/10 | 后50% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐生成 | #实时处理 | #理论分析 #音频理解 | arxiv 👥 作者与机构第一作者：Eduardo Reck Miranda（普利茅斯大学，跨学科计算机音乐研究中心）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Eduardo Reck Miranda（普利茅斯大学，跨学科计算机音乐研究中心）、Scott Yeiichi Oshiro（斯坦福大学，麻醉学、围手术期与疼痛医学系） 💡 毒舌点评论文将量子传送引入音乐多智能体交互，概念新颖，为量子计算机音乐描绘了富有想象力的未来图景。核心贡献在于将量子物理概念（传送、纠缠、噪声）转化为音乐交互的设计语言（量子低语、诠释距离），在跨学科层面具有启发性。然而，作为一篇系统技术报告，其实验验证极为薄弱：规模极小、无基线对比、评估粗糙，导致其核心主张——量子方法能带来有意义且独特的音乐交互——缺乏令人信服的实证支撑。当前系统更像一个概念验证原型，距离实用或对音乐技术产生实质性影响尚有距离。 ...

Towards a reproducible cross-venue method for quantifying crowd noise in stadiums

📄 Towards a reproducible cross-venue method for quantifying crowd noise in stadiums 标签：#音频质量评估 #理论分析 #音频理解 #Transformer #模型评估 5.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.4/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 📝 5.4/10 | 后50% | 文档类型：方法研究 | 评分置信度：高 | #音频质量评估 | #Transformer | #理论分析 #音频理解 | arxiv 👥 作者与机构第一作者：Alejandro Osses（Eindhoven University of Technology）通讯作者：未说明作者列表：Alejandro Osses（Eindhoven University of Technology）、Bente Ackermans（Eindhoven University of Technology）、Helmer Nuijens（Eindhoven University of Technology）、Rick Scholte（Eindhoven University of Technology） 💡 毒舌点评论文精准地狙击了体育界“最响体育场”纪录背后的声学乱象，从峰值读数、位置选择到仪器饱和，批判得体无完肤，展现了扎实的声学标准功底。然而，这份出色的“诊断书”开出的“药方”——一套完整的测量框架，却完全未经临床验证。全文就像一份没有临床试验的严谨标准草案，其有效性全靠理论推演和一张进球时刻的说明性图表支撑，说服力大打折扣。一个旨在提升“可复现性”的方法，自身却缺乏任何可复现的实验数据集或案例，这本身就是一种深刻的讽刺。 ...

Towards Array-Invariant Speech Enhancement via Geometry-Aware Dynamic Convolution

📄 Towards Array-Invariant Speech Enhancement via Geometry-Aware Dynamic Convolution 标签：#语音增强 #多通道 #鲁棒性 #音频理解 #Transformer 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：中 | #语音增强 | #多通道 | #鲁棒性 #音频理解 | arxiv 👥 作者与机构第一作者：Zhenglong Liu（上海交通大学听觉认知与计算声学实验室）通讯作者：Zhenglong Liu（上海交通大学听觉认知与计算声学实验室）作者列表：Zhenglong Liu（上海交通大学听觉认知与计算声学实验室）、Wangyou Zhang（上海交通大学听觉认知与计算声学实验室）、Chenda Li（上海交通大学听觉认知与计算声学实验室）、Yanmin Qian（上海交通大学听觉认知与计算声学实验室、VUI Labs） 💡 毒舌点评想法直观且有工程洞察：将麦克风几何坐标这一“免费”先验通过动态卷积机制转化为对固定SOTA模型的即插即用适配器，直击多通道语音增强在实际部署中的阵列泛化痛点。短板在于实验验证略显单薄，仅在RealMAN单一真实数据集上进行系统性评估，对更复杂声学环境（如强混响、高噪声）和非理想阵列（如柔性、几何信息含噪）的鲁棒性未做深入分析。作为一项方法研究，缺乏对关键超参数和模块组件的消融，技术贡献停留在集成应用层面，工程细节（如实时性、计算延迟）披露不足。 ...

Transcription Policy as a Latent Variable: Activating Controllable Verbatim ASR with Word-Level Timing

📄 Transcription Policy as a Latent Variable: Activating Controllable Verbatim ASR with Word-Level Timing 标签：#语音识别 #参数高效微调 #多语言 #零样本 #语音大模型 7.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 7.1/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #LoRA | #参数高效微调 #多语言 | arxiv 👥 作者与机构第一作者：Laurin Wagner (nyra labs, Austria) 通讯作者：未说明作者列表：Laurin Wagner (nyra labs, Austria), Mario Zusag (nyra labs, Austria), Bernhard Thallinger (nyra labs, Austria) 💡 毒舌点评亮点：核心洞察深刻——将转录风格从不可控的隐变量显式化为可切换的接口（模式标签），并证明预训练模型已内化双模能力，仅训练标签嵌入即可大幅提升逐字转录能力。实验设计巧妙，特别是覆盖感知标签分区解决了异构数据训练的关键问题，Verbatimize任务为低成本创建语料库提供了新范式，工程价值明确。短板：技术写作和符号系统较为杂乱（如公式编号、变量定义不够清晰），削弱了清晰度；核心贡献“模式标签”的动机阐述和消融实验在文中位置与力度可以更突出；部分关键实验细节（如训练数据详细构成、GPT-4o生成意译文本的具体流程）缺失，严重削弱了可复现性；开源状态模糊，未明确提供本文工作的模型和代码链接。 ...

What the Waveform Knows: Transparent-first Speech and Audio Intelligence with Caption Studio

📄 What the Waveform Knows: Transparent-first Speech and Audio Intelligence with Caption Studio 标签：#会议转录 #端到端 #语音识别 #说话人日志 #音频理解 4.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.1/1.5 📝 4.8/10 | 后50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音识别 | #端到端 | #会议转录 #说话人日志 | arxiv 👥 作者与机构第一作者：Cheng Siong Chin 通讯作者：Cheng Siong Chin 作者列表：Cheng Siong Chin（纽卡斯尔大学新加坡分校，科学、农业与工程学院）、Jianhua Zhang（青岛理工大学，信息与控制工程学院）、Mohan Venkateshkumar（Amrita Vishwa Vidyapeetham，Amrita工程技术学院，电气与电子工程系） 💡 毒舌点评论文提出了一个具有实用价值的“透明第一”设计框架，并在工程上集成了一个完整的语音音频分析原型。然而，作为一篇顶会水平的研究论文，它最致命的缺陷在于几乎没有提供任何支撑其系统能力声明的实验验证。它更像一份详尽的产品设计文档或系统说明书，而非一篇经过严格实验检验的研究工作。审稿人无法评估其转录质量、日志准确性或任何声称功能的实际效果，这极大地削弱了其作为学术论文的可信度和影响力。 ...

语音/音乐/音频论文速递 2026-07-22

语音/音乐/音频论文速递 2026-07-22 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #语音合成 3篇 ███ #音频分类 2篇 ██ #基准测试 1篇 █ #语音交互 1篇 █ #语音分离 1篇 █ #语音增强 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 Content is What Remains: Invariant Speech Tokenization 9.2分前10% 方法研究 #语音编码 🥈 Fusion Embedding: A Unified Embedding Space for Text, I 8.6分前25% 系统技术报告 #音频检索 🥉 End-to-End Markov State Sequence Learning for Auditory 8.3分前25% 方法研究 #语音交互 4. Staged Depth-Pruning Distillation of a Flow-Matching Te 7.9分前25% 系统技术报告 #语音合成 5. Constrained CTC Decoding for Efficient Diacritic Restor 7.7分前25% 方法研究 #语音识别 6. Fretiq: Browser-Native Electric Guitar String Classific 7.5分前25% 系统技术报告 #音频分类 7. MeetingToM: Evaluating Multimodal LLMs on Theory-of-Min 7.2分前50% 数据集与基准 #基准测试 8. Transcription Policy as a Latent Variable: Activating C 7.1分前50% 方法研究 #语音识别 9. Benchmarking Human and Automatic Speech Recognition of 7.0分前50% 系统技术报告 #语音识别 10. A Situational Speech Synthesizer for Yoruba: System Des 6.7分前50% 系统技术报告 #语音合成 11. From a Multilingual Streaming ASR Backbone to Kenyan-La 6.5分前50% 系统技术报告 #语音识别 12. Towards Array-Invariant Speech Enhancement via Geometry 6.3分前50% 方法研究 #语音增强 13. Comparing Spectrogram Front-Ends for Abnormal Heart-Sou 5.7分前50% 方法研究 #音频分类 14. EmoEUS: Uncertainty Supervision for Multimodal Emotion 5.6分前50% 方法研究 #语音情感识别 15. Summary of DCASE 2026 Task 5: Audio-Dependent Question 5.4分后50% 数据集与基准 #音频理解 16. Towards a reproducible cross-venue method for quantifyi 5.4分后50% 方法研究 #音频质量评估 17. CS-ETS: Chaos-Inspired Samba-Based EMG-To-Speech Synthe 5.3分后50% 方法研究 #语音合成 18. Addressing Limited Data in Auditory Attention Decoding 5.1分后50% 应用研究 #语音分离 19. What the Waveform Knows: Transparent-first Speech and A 4.8分后50% 系统技术报告 #语音识别 20. Teleportation Game: Quantum Teleportation in Multi-Agen 4.4分后50% 系统技术报告 #音乐生成 📋 论文列表 🥇 Content is What Remains: Invariant Speech Tokenization from Parallel Utterances 9.2/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ...

Adaptive Momentum Enhanced Distributed Multichannel Active Noise Control for Faster Convergence under Communication Delays

📄 Adaptive Momentum Enhanced Distributed Multichannel Active Noise Control for Faster Convergence under Communication Delays 标签：#主动降噪 #音频理解 #Transformer #模型评估 6.3/10 | 创新 1.3/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.3/10 | 前50% | 文档类型：应用研究 | 评分置信度：高 | #音频理解 | #主动降噪 | #Transformer #模型评估 | arxiv 👥 作者与机构作者列表：Junwei Ji, Woon-Seng Gan, Boxiang Wang, Ziyi Yang, Haowen Li 第一作者：Junwei Ji 通讯作者：未说明机构：未明确列出所有作者机构。基于通讯作者Woon-Seng Gan的已知背景，推断至少部分作者隶属于新加坡南洋理工大学电气与电子工程学院。 💡 毒舌点评工作选题精准，瞄准了分布式ANC工程化中一个实际且棘手的痛点——通信延迟导致收敛慢。核心想法也合理，将ML中常见的动量思想进行改造并引入特定自适应滤波框架。然而，这本质上是对一个已有、高度特化的算法（ASSS-MGDFxLMS）的“补丁式”增强，属于典型的增量式改进。最大的硬伤在于完全缺乏理论分析，既未证明新算法在什么条件下能收敛，也未给出收敛速率的分析，使得其有效性完全系于有限仿真。实验设计虽有针对性，但场景单一（6节点、固定声学路径），与工程实际中复杂多变的声场、拓扑和网络异常（丢包、异步）相去甚远。贡献更偏工程技巧而非科学洞察，因此适合但难以获得顶级会议的高度认可。 ...