OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding #视频理解 #基准测试 #多模态模型 #流式处理 #大语言模型 ✅ 7.3/10 | 前25% | #视频理解 | #基准测试 | #多模态模型 #流式处理 | arxiv 学术质量 6/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhao(中国人民大学) 通讯作者:Xirong Li(中国人民大学),Jie Yang(腾讯微信视觉) 作者列表:Ruixiang Zhao(中国人民大学)、Jie Yang(腾讯微信视觉)、Zijie Xin(中国人民大学)、Tianyi Wang(腾讯微信视觉)、Fengyun Rao(腾讯微信视觉)、Jing LYU(腾讯微信视觉)、Xirong Li(中国人民大学) 💡 毒舌点评 该工作系统性地指出了现有主动流式视频理解基准在全模态、主动性和任务多样性上的不足,并提出了一个整合性的评估框架(任务分类法、双模式协议)。其核心贡献在于定义了“好的全模态主动流式模型”的三个标准,并将它们放入统一的评估标尺中,对社区具有明确的指引价值。然而,作为一项基准测试工作,其自身价值高度依赖于数据质量与评估设计的严谨性。数据完全由单一大模型(Gemini)生成且无人工标注的多样性,这一关键决策可能引入系统性偏差,严重影响基准的长期可靠性。此外,在线评估仅涵盖三个模型,且其F1指标的具体实现细节(如开放任务由LLM裁判评分)的稳定性与公平性有待更深入的验证。 📌 核心摘要 问题:现有流式视频理解基准存在三大缺陷:主要依赖视觉信号、采用轮询或固定时间戳的被动评估方式、覆盖任务有限,无法可靠地区分和评估具备“主动”能力的全模态大模型。 方法核心:提出首个联合评估全模态感知、主动响应和多样化任务能力的基准 OmniPro。核心包括一个包含3级认知水平、9个子任务的任务分类法;一个结合密集描述、大模型生成和两轮人工审核的数据构建流程;以及一个包含Probe(评估内容理解)和Online(评估流式主动能力)的双模式评估协议。 新意:首次在统一框架下,系统性地评估模型在全模态感知(音频至关重要)、主动决策何时响应以及广泛任务理解这三方面的能力。特别强调了非语音音频的作用,并设计了支持多次响应和惩罚误触发的在线评估F1指标。 主要实验结果:评估了11个代表性模型。主要发现:(1) 音频带来一致性增益但模型利用率差异巨大(AV输入比V输入平均提升+2.4至+11.1分);(2) 性能随触发时间推后严重衰减,模型仅能保持早期性能的37%;(3) 非语音音频感知是所有模型的共同短板。最强闭源模型(Gemini-3-Flash,Probe模式40.4%准确率)与最强开源模型(Qwen3-Omni,22.6%)存在巨大差距。 实际意义:为快速发展的全模态主动流式大模型提供了首个全面的评估标准和测试平台,明确了当前模型在长期感知、音频理解等方面的具体短板,指导未来模型研发方向。 主要局限性:所有问答和标注均为英文,限制了多语言评估;在线评估仅测试了3个模型,对流式架构能力的揭示可能不足;数据构建完全依赖单一大模型生成,可能引入分布偏差且无人工标注的多样性。 🔗 开源详情 代码:论文中承诺开源评估代码和数据生成提示模板,并在附录中提供了完整示例。项目主页为 https://ruixiangzhao.github.io/OmniPro ,但论文中未直接给出代码仓库的具体URL(如GitHub链接)。 模型权重:论文中未提及模型权重的具体下载链接。论文评估了多个开源模型(如Qwen2.5-Omni、Qwen3-Omni、video-SALMONN 2+、VideoLLaMA2.1-AV、Phi-4-multimodal、InternVL3.5、Qwen3-VL、MiniCPM-o 4.5、MMDuet2、LiveStar),但未提供OmniPro基准或评估用模型的权重链接。 数据集: 数据集名称:OmniPro 开源协议:CC BY-NC 4.0(见附录C.3) 获取链接:论文中未提及具体下载链接。项目主页可能包含数据访问方式。 数据来源:视频来自 LongVALE (CC-BY-NC-SA-4.0) 和 COIN (CC BY-NC 4.0) 数据集的测试集(见附录C.3)。 Demo:论文中未提及在线演示链接。 复现材料:论文附录提供了用于数据生成的提示词模板(Dense Captioning Prompt和各子任务的QA Generation Prompts)。评估代码承诺开源但未提供链接。未提供训练配置或检查点(因本工作不涉及模型训练)。 论文中引用的开源项目:论文中评估了多个开源模型及其各自资源,但未明确引用除评估模型外的其他特定开源项目或工具。 🏗️ 方法概述和架构 本论文是一项基准测试构建工作,其核心“方法”是定义了一个全新的评估框架和数据集,而非一个可训练的模型架构。其流程是:源视频收集 → 自动化密集描述与QA生成 → 人工质量控制 → 双模式评估协议执行。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 647 words

Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning

📄 Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning #音频编码 #强化学习 #语音可懂度 ✅ 7/10 | 前30% | #音频编码 | #强化学习 | #语音可懂度 | arxiv 学术质量 5.9/8 | 影响力 0.7/1 | 可复现性 0.4/1 | 置信度 中高 👥 作者与机构 第一作者:Junyi Wang(清华大学,未明确具体院系) 通讯作者:未明确说明(论文列出了多个联系邮箱,未指明通讯作者) 作者列表:Junyi Wang(清华大学),Chi Zhang(华为技术有限公司),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司),Zengrui Jin(清华大学),Chao Zhang(清华大学) 💡 毒舌点评 亮点:将强化学习引入极低比特率神经语音编解码器的训练,以直接优化语音可懂度(WER),是一个清晰且有价值的创新。通过将量化过程重构为可微分的随机策略,实现了对非可微指标的直接优化,这一方法论本身具有启发性。在300bps的极端条件下,其WER性能优于更高比特率的基线,证明了“可懂度优先”策略的有效性。 短板:论文的核心贡献局限于单一数据集(LibriSpeech)和单一下游任务(ASR)的评估,缺乏对不同语言、说话风格、噪声环境等场景的验证,泛化性存疑。声称“首次”将RL应用于编解码器训练需谨慎。模型未开源,严重限制了可复现性和社区验证。 📌 核心摘要 解决的问题:在卫星、水下等带宽受限的通信环境中,需要在极低比特率(如300bps)下传输语音,此时首要目标是保证语音可懂度(语义清晰度)。传统神经语音编解码器通常优化波形或频谱重建损失,这在极低比特率下会分配比特去拟合不必要的声学细节,从而损害可懂度。 方法核心:提出ClariCodec,一个两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和重建损失(L1 mel、对抗、特征匹配)进行预训练,建立基础的离散语音表示。第二阶段,将量化过程重新表述为随机策略,冻结除编码器外的所有模块,使用基于组相对策略优化(GRPO)的强化学习,以预训练ASR模型输出的词错误率(WER)的负值作为奖励信号,直接微调编码器以最大化可懂度。为平衡可懂度与声学质量,在RL损失中引入梅尔重建损失作为正则项。 与已有方法的新颖之处:首次将强化学习应用于训练神经语音编解码器(根据作者声称),实现了对非可微指标(WER)的直接优化。提出了“随机残差量化”的概念,通过Gumbel-Softmax技巧使量化过程可微分,从而可作为RL策略。在300bps这一极低比特率下,证明了“可懂度优先”的训练策略能有效补偿比特率劣势。 主要实验结果: 在LibriSpeech test-clean上,ClariCodec(无RL)在300bps下WER为4.64%,已优于工作在400bps(4.88%)和466bps(5.59%)的基线。加入RL微调后,WER降至3.55%,实现了约23.5%的相对改进。 在更具挑战性的test-other上,WER从13.3%降至10.4%(约21.8%相对改进)。 声学质量指标(PESQ, UTMOS, SIM)在RL微调后基本保持稳定或略有改善(如test-clean UTMOS从4.12升至4.16),证明可懂度提升并非以严重牺牲声学质量为代价。 消融实验证明,单独的RL优化会轻微损害PESQ(从1.88降至1.83),而加入梅尔重建损失正则化后,PESQ得以部分恢复(至1.87),同时保留了大部分可懂度收益。STOI, UTMOS, SIM保持稳定。 主要结果表格(Table 1): 模型 #参数 #训练小时数 帧率 比特率 (bps) test-clean WER(%) ↓ test-other WER(%) ↓ test-clean PESQ ↑ test-clean UTMOS ↑ test-clean SIM ↑ Ground Truth - - - - 1.50 2.81 4.64 4.09 1.00 EnCodec (第一层) 15M 17.5k 10 750 16.1 36.4 1.25 1.25 0.25 StableCodec-700 950M 105k 25 700 3.91 12.0 1.92 4.31 0.58 FlexiCodec 450M 54k 6.25 640 2.57 4.69 2.20 4.15 0.71 SAC 533M 20k 12.5/25 525 2.00 4.15 2.16 4.27 0.78 WavTokenizer 72M 8k 40 480 7.38 21.1 1.63 3.57 0.51 SoCodec 54M 7.2k 8.3 466 5.59 10.6 1.28 2.50 0.39 StableCodec-400 950M 105k 25 400 4.88 14.4 1.92 4.31 0.53 SemantiCodec 507M 37.6k 12.5/12.5 312.5 22.7 40.2 1.38 2.72 0.34 ClariCodec (w/o RL) 301M 50k 12.5 300 4.64 13.3 1.88 4.12 0.50 ClariCodec (RL) 301M 50k 12.5 300 3.55 10.4 1.87 4.16 0.50 消融实验表格(Table 2): 配置 STOI ↑ PESQ ↑ UTMOS ↑ SIM ↑ WER(%) ↓ Stage 1 (无RL) 0.87 1.88 4.12 0.50 4.64 仅RL损失 0.87 1.83 4.15 0.50 3.54 Mel + RL损失 0.87 1.87 4.16 0.50 3.55 实际意义:为卫星、水下等极端带宽受限场景下的语音通信提供了一种新思路,强调了在不同应用场景下目标函数(优化可懂度而非音质)选择的重要性。 主要局限性:评估仅限于英语ASR任务和LibriSpeech数据集,对不同语言、说话风格、噪声环境的泛化能力未知;未评估对下游生成任务(如TTS、语音LLM)的影响;RL训练依赖特定的ASR模型作为奖励来源,其泛化性和稳定性是潜在风险;当前模型是非因果的,存在延迟,不适合实时应用。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及使用 Libriheavy(大子集,50,000 小时)进行训练,在 LibriSpeech 的 test-clean 和 test-other 子集上进行评估。这些数据集均为公开数据集,但论文未提供具体获取链接。 Demo:https://demo941.github.io/ClariCodec/ 复现材料:论文中提及了具体的训练配置(例如:使用8张NVIDIA H200 GPU,批次大小、训练步数、学习率、损失函数权重等)。未提及提供额外的检查点或附录。 论文中引用的开源项目: NeMo Conformer-Transducer: 用于计算WER。链接:https://huggingface.co/nvidia/stt_en_conformer_transducer_xlarge WavLM: 用于计算说话人相似度(SIM)的声纹验证模型。链接:https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification Hybrid FastConformer TDT-CTC: 用于生成WER奖励信号的ASR模型。链接:https://huggingface.co/nvidia/parakeet-tdt_ctc-1.1b 🏗️ 方法概述和架构 整体流程概述 ClariCodec是一个端到端的神经语音编解码器,采用两阶段训练策略。系统输入为原始波形(16kHz单声道),输出为重建波形。核心流程:输入波形提取对数梅尔频谱图(窗长160样本,即10ms),经过基于ConvNeXt V2的编码器压缩为低帧率(12.5Hz)的离散token序列,再由对称结构的解码器从token序列重建出对数梅尔频谱图,最后由从头训练的Vocos声码器将频谱图转换回波形。第一阶段通过重建损失联合训练整个流水线以建立基础声学质量;第二阶段冻结解码器、量化器和声码器的参数,仅使用强化学习微调编码器,使其输出的token序列能最大化下游ASR模型给出的奖励(即最小化WER)。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 747 words

Precise and Simple Audio-to-Score Alignment

📄 Precise and Simple Audio-to-Score Alignment #音乐信息检索 #动态规划 #信号处理 #开源工具 ✅ 6.2/10 | 前50% | #音乐信息检索 | #动态规划 | #信号处理 #开源工具 | arxiv 学术质量 4.8/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度 中 👥 作者与机构 第一作者:Silvan Peter(Johannes Kepler University, Institute of Computational Perception; LIT AI Lab) 通讯作者:未说明 作者列表:Silvan Peter(Johannes Kepler University, Institute of Computational Perception; LIT AI Lab)、Patricia Hu(Johannes Kepler University, Institute of Computational Perception)、Gerhard Widmer(Johannes Kepler University, Institute of Computational Perception; LIT AI Lab) 💡 毒舌点评 该工作提出了一种将信号处理与符号对齐相结合的混合范式,用以直接进行音频到乐谱的对齐,思路清晰且实用。其优势在于避免了复杂的转录步骤,并在线性时间内实现了较高的对齐精度。然而,论文的“简单”声明可能掩盖了实际调参的复杂性,且实验评估存在明显短板,如完全缺乏消融实验,这使得其方法有效性的归因和泛化性评估大打折扣。仅在钢琴音乐上的验证也限制了其宣称的普适性。 ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 358 words

Sparse Fluid Antenna Arrays: Continuous Position Design Beyond Classical DOF Limits

📄 Sparse Fluid Antenna Arrays: Continuous Position Design Beyond Classical DOF Limits #声源定位 #信号处理 #麦克风阵列 #波束成形 #阵列信号处理 ✅ 7/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #波束成形 | arxiv 学术质量 6.3/8 | 影响力 0.5/1 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Tuo Wu(华南理工大学电子与信息学院) 通讯作者:Jie Tang(华南理工大学电子与信息学院) 作者列表:Tuo Wu(华南理工大学电子与信息学院)、Jie Tang(华南理工大学电子与信息学院)、Ye Tian(宁波大学电气工程与计算机科学学院)、Cheng Zeng(南京理工大学电子与光学工程学院)、Matthew C. Valenti(西弗吉尼亚大学Lane计算机科学与电气工程系)、Hing Cheung So(香港城市大学电气工程系) 💡 毒舌点评 亮点: 论文提出了一个极具洞察力的范式转变:将阵列信号处理的设计域从离散网格扩展到连续实数域,从根本上解耦了物理孔径与天线数量的刚性关系。理论框架构建严谨,从自由度双界、克拉美-罗界(CRB)的主导性到D-最优设计的全局最优性,形成了一个完整的理论闭环。所提出的两阶段FAS-MUSIC算法巧妙解决了大孔径带来的栅瓣模糊问题。短板: 整个方法高度依赖于“连续可移动天线”这一理想化硬件假设,论文虽然讨论了位置误差、互耦等鲁棒性,但所有结论均基于仿真,缺乏在任何真实物理原型上的实验验证,这使得从理论到工程实践的跨越显得苍白,是顶会论文的一个显著缺陷。 📌 核心摘要 解决的问题: 传统稀疏阵列(如嵌套、互质、MRA)受限于半波长网格,其自由度(DOF)和测角精度(CRB)的上界由天线数量 N 决定(O(N²) 和 O(1/(N²d₀)²ᴸ)),无法利用更大的部署区域 D 来提升性能。 方法核心: 提出基于流体天线系统(FAS)的稀疏阵列设计,允许天线在连续区间 [0, D] 内自由移动。核心是建立一套完整的理论框架,证明其相对于传统网格阵列在自由度和CRB上的渐近优势,并提出两阶段FAS-MUSIC算法以利用大孔径无模糊测角。 新在何处: 与经典网格阵列相比,FAS解耦了物理孔径与天线数量的关系。理论证明:a) DOF上界随 D/λ 线性增长;b) CRB随 1/D²ᴸ 衰减(L为源数);c) 位置优化从NP-hard离散问题变为可高效求解的连续优化问题。 主要实验结果: 仿真表明,在 N=6, D=40d₀ 场景下,FAS-MUSIC的RMSE比ULA MUSIC低17.5倍;仅用4个天线的FAS性能超越8个天线的MRA。关键数据见图5(RMSE vs SNR, SNR=25dB时FAS-MUSIC RMSE为0.0009°)和图7(RMSE vs 天线数, N=4的FAS-MUSIC优于N=8的MRA)。 实际意义: 为下一代智能反射表面(RIS)、可重构智能表面等需要动态调整天线位置的硬件提供了新的阵列信号处理范式,有望在感知与通信一体化(ISAC)中提升测角性能。 主要局限性: 方法高度依赖天线位置精确可控的硬件假设;信号模型假设窄带、远场、静态源,未考虑实际中的宽带、近场和动态场景;所有实验均为仿真,缺乏硬件验证;自适应算法的收敛性缺乏理论证明。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 图1 展示了传统网格阵列(ULA, 嵌套, 互质, MRA)的物理位置与差分共阵。该图直观对比了传统设计在固定孔径下的共阵结构(存在孔洞),为后文引出FAS突破网格限制的动机提供了视觉对比。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 460 words

Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs

📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs #社交智能体 #大语言模型 #多模态生成 #信任校准 #性别公平性 📝 5.9/10 | 前50% | #社交智能体 | #大语言模型 | #多模态生成 #信任校准 | arxiv 学术质量 4.8/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Lucie Galland(LIS Laboratory, Aix-Marseille University) 通讯作者:未在论文中明确标注。 作者列表:Lucie Galland(LIS Laboratory, Aix-Marseille University),Chloé Clavel(Inria Paris),Magalie Ochs(LIS Laboratory, Aix-Marseille University) 💡 毒舌点评 这篇论文触及了一个至关重要且亟待探索的交叉点:利用LLM生成多模态行为以校准用户信任。其价值在于将经典的心理学信任理论与前沿的LLM生成能力进行了系统性嫁接,并通过大规模数据分析,犀利地揭示了LLM内嵌的“默认自信”与“性别刻板印象”两大行为偏见。然而,其核心贡献更接近于一次深刻的“现象学诊断”与“概念验证”,而非一个鲁棒的方法论突破。最致命的弱点在于其生成管线完全依赖一个未公开细节的闭源商业模型(GPT-5.4),这使得整个工作的科学基础和可复现性大打折扣。用户研究设计过于理想化(单一任务、固定模型),生态效度有限,未能解决生成行为中信任维度相互干扰这一关键问题。论文诚实地暴露了问题,但解决方案的缺失使其更像一篇优秀的“问题报告”,而非一篇完整的“方法论文”。 📌 核心摘要 要解决的问题:随着社会交互代理(SIA)进入敏感领域,校准用户信任至代理的实际能力至关重要。论文探索利用大语言模型(LLM)生成能反映不同“能力”和“善意”水平(信任的关键维度)的多模态行为(语言、语调、手势、表情)的可能性。 方法核心:提出了一种基于LLM的“带标签转录”生成方法。通过精心设计的、包含理论定义、任务场景和行为标签库的系统提示词,引导LLM(GPT-5.4)生成嵌入了特定手势、面部表情和语调标签的对话脚本。这些脚本随后可被渲染为多模态代理行为。 与已有方法相比新在哪里:与以往依赖专家标注数据集或规则驱动的方法不同,本方法利用LLM的零样本生成能力,以理论驱动的提示词为中介,自动化地生成反映抽象心理特质的多模态行为序列。这是首次系统性地评估LLM生成信任校准行为的能力,并深入分析其生成行为中固有的偏见。 主要实验结果: ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 335 words

When Vision Speaks for Sound

📄 When Vision Speaks for Sound #音视频 #偏好优化 #多模态模型 #鲁棒性 #诊断框架 ✅ 7.7/10 | 前25% | #音视频 | #偏好优化 | #多模态模型 #鲁棒性 | arxiv 学术质量 6/8 | 影响力 0.9/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Xiaofei Wen(University of California, Davis) 通讯作者:论文未明确标注通讯作者。 作者列表:Xiaofei Wen(University of California, Davis)、Wenjie Jacky Mo(University of California, Davis)、Xingyu Fu(Princeton University)、Rui Cai(University of California, Davis)、Tinghui Zhu(University of California, Davis)、Wendi Li(University of Wisconsin–Madison)、Yanan Xie(Uniphore)、Muhao Chen(University of California, Davis)、Peng Qi(Uniphore)。注:Xiaofei Wen与Wenjie Jacky Mo标注为共同第一作者(d)。 💡 毒舌点评 这篇论文敏锐地抓住了当前视频多模态模型“重看轻听”的要害,用一个精巧的Thud诊断框架把“聪明汉斯效应”量化得明明白白。提出的两阶段对齐配方(SFT+DPO+混合数据)在解决特定问题上取得了显著的数值提升,尤其是时间同步任务。然而,论文的核心结论“28%平均提升”主要建立在自建的Thud诊断集上,其泛化性存疑。更关键的是,对Mute和Swap两种干预的对齐训练探索极为初步,远未达到时间同步任务的深度,这使得论文关于“干预训练可扩展”的论断显得根基不稳。实验主要基于单一基座模型(Qwen3-Omni-30B),在更广泛模型上的有效性未经验证,限制了工作的普适性。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 567 words

语音/音乐/音频论文速递 2026-05-20

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分 前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分 前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分 前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分 前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分 前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分 前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分 前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分 前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分 前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分 前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分 前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分 前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分 前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分 前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分 前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分 前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分 前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分 前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...

2026-05-20 · 更新于 2026-06-19 · 15 min · 2985 words

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #损失函数设计 #分布匹配 📝 5.5/10 | 前50% | #音乐转录 | #最优传输 | #损失函数设计 #分布匹配 | arxiv 学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Weixing Wei (未说明机构)、Raynaldi Lalang (未说明机构)、Dichucheng Li (未说明机构)、Kazuyoshi Yoshii (未说明机构) 💡 毒舌点评 论文的核心贡献是概念性的:将钢琴转录重新定义为最优传输问题,并设计了一个精巧的损失函数。这为解决时间刚性问题提供了新思路。然而,这一亮点被平庸的模型架构(SFT-CRNN是现有模块的组合)和单薄的实验验证所拖累。论文在关键指标上未能全面超越最强基线(Transkun),却声称获得了“state-of-the-art performance”,这种选择性声明有误导性。整体而言,这是一个有启发性的想法,但包装和验证远未达到顶会水准。 📌 核心摘要 本文提出了一种基于最优传输(OT)理论的自动钢琴转录(APT)新范式,以解决传统逐帧二值分类(BCE损失)对时间偏移过度敏感的核心问题。其核心思想是将音符事件视为时频平面上的点质量分布,将模型预测的质量分布通过OT损失对齐到真实分布,从而在优化过程中自然地容忍时间错位。为此,论文设计了一个包含时间代价封顶和频率禁运的定制化成本函数(公式1),并采用了非平衡OT(UOT)以适应音符密度变化。同时,论文提出了一个名为SFT-CRNN的端到端模型,其特色是包含谐波感知注意力机制的注意力块和频率分组LSTM(FG-LSTM)。在MAESTRO数据集上的实验表明,使用OT损失训练的SFT-CRNN在onset检测F1分数上达到了98.36%,优于所有对比基线。然而,在同时评估onset和offset的F1分数(90.78%)上,该方法略低于Transkun(93.48%)。消融实验证实OT损失在SFT-CRNN和HPPNet上有效,但在Onsets & Frames模型上无效。论文的主要局限在于未建模延音踏板,这限制了offset的预测精度,且仅在一个数据集上进行验证,代码未开源。 模型 参数量 Onset P (%) Onset R (%) Onset F1 (%) Onset & Offset P (%) Onset & Offset R (%) Onset & Offset F1 (%) Onsets & Frames [11] 26M 98.27 92.61 95.32 82.95 78.24 80.50 HPPNet-sp [24] 1.2M 98.45 95.95 97.18 84.88 82.76 83.80 hFT-Transformer [20] 5.5M 99.64 95.44 97.44 92.52 88.69 90.53 Transkun [29] 12.9M 99.53 97.16 98.32 94.61 92.39 93.48 SFT-CRNN (Proposed) 15M 99.16 97.46 98.36 91.56 90.02 90.78 表 1:与基线方法的比较。本方法在Onset F1上取得最佳,但Onset & Offset F1低于Transkun和hFT-Transformer。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 508 words

A Fast Robust Adaptive filter using Improved Data-Reuse Method

📄 A Fast Robust Adaptive filter using Improved Data-Reuse Method #声学回声消除 #自适应滤波 #信号处理 #鲁棒性 #EIV模型 ✅ 6.2/10 | 前50% | #声学回声消除 | #自适应滤波 | #信号处理 #鲁棒性 | arxiv 学术质量 5.3/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Yi Peng(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 通讯作者:Haiquan Zhao(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 作者列表:Yi Peng, Haiquan Zhao, Jinhui Hu(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 💡 毒舌点评 这篇论文的核心工作是将若干已知技术(TLS框架、灵活的成本函数、数据重用、在线 censoring)进行“搭积木”式的组合,以应对EIV模型下的复杂噪声环境。其宣称的“改进数据重用”(IDR)和“实值域在线 censoring”阈值是两个具体的工程改进点。然而,RTGA成本函数本身并非一个深刻的新理论,而是一个参数可调的“框架”,其灵活性带来的代价是超参数激增(a, b, c, L_reused, P_ce),且缺乏自动调参机制,这在实际应用中是致命伤。所谓的“快速收敛”也主要依赖于数据重用,而对比实验中并未充分剥离IDR本身的贡献,使得性能提升的归因不够清晰。整体工作显得扎实但创新深度有限。 📌 核心摘要 问题:现有自适应滤波算法在处理误差变量(EIV)模型(输入和输出均含噪声)时,往往只对特定类型噪声(如脉冲噪声)鲁棒,当噪声环境变为广义高斯噪声时性能下降;同时,为提升收敛速度而采用的传统数据重用方法会限制算法性能上限并增加计算复杂度。 方法核心:提出RTGA-IDROC算法。核心是构建一个灵活的“鲁棒总广义自适应”(RTGA)成本函数,通过参数a, b调节其形式,以统一多种现有鲁棒成本函数(如M-估计、log、MTGC)。为加速收敛,提出了“改进数据重用”(IDR)方法,通过从历史数据中均匀分段选择低相关数据点进行复用。为控制因数据重用增加的计算复杂度,引入了“在线 censoring”(OC)策略,并首次推导了适用于实值域算法的阈值公式。 创新:与之前方法相比,该工作的创新在于:1) 提出了一种基于低相关历史数据点选择的IDR策略,旨在突破传统数据重用的性能上限;2) 为实值域自适应滤波器提出了新的OC阈值计算公式;3) 通过参数化的RTGA函数统一了多种EIV模型下的鲁棒算法。 主要结果:在系统辨识和声学回声消除(AEC)场景下,通过多个仿真实验验证了算法的优越性。例如,在Case 1(高斯噪声)下,使用-25dB NMSD为基准,RTGA-IDROC (30%) 达到收敛仅需1310次迭代,而其他TLS基线算法需超过2000次迭代。在多种复杂噪声环境(脉冲、拉普拉斯、均匀、二值混合噪声)下,其NMSD性能均显著优于对比算法(如GDTLS, MTC, MTGC等)。 实际意义:该算法为实际应用(如AEC)中需要在复杂多变噪声环境下同时实现快速收敛、低计算复杂度和强鲁棒性的自适应滤波需求,提供了一种潜在的解决方案。 主要局限性:算法涉及a, b, c, L_reused等多个关键超参数,其最优选择高度依赖于具体的噪声环境和应用场景,调参难度大,论文未提供自适应调整机制。此外,IDR方法在系统突变时(如图5b)需限制历史数据长度,其有效性可能受限。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出RTGA-IDROC算法,是一个完整的自适应滤波框架,旨在同时解决EIV模型下的输入噪声偏差、多变输出噪声的鲁棒性以及收敛速度与计算复杂度的权衡问题。其整体流程为:在每个迭代步i,算法首先根据历史数据执行L_reused次IDR更新(利用多个低相关历史数据点),然后基于当前数据(d̃(i), ̃x(i))计算梯度,最后结合OC策略决定是否进行最终的权值更新。 ...

2026-05-19 · 更新于 2026-06-19 · 2 min · 401 words

A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models

📄 A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models #音频修复 #综述 #扩散模型 #流匹配 🔥 8.1/10 | 前25% | #音频修复 | #综述 | #扩散模型 #流匹配 | arxiv 学术质量 6.7/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Ningyuan Yang (Stony Brook University) 通讯作者:根据邮箱推断,可能为 Andrew C. Singer (Stony Brook University) 作者列表:Ningyuan Yang (Stony Brook University)、Yize Li (Northeastern University)、Diego A. Cuji (Stony Brook University)、Ryan M. Corey (University of Illinois Chicago & Discovery Partners Institute)、Pu Zhao (Northeastern University)、Xue Lin (Northeastern University)、Andrew C. Singer (Stony Brook University) (注:原文作者列表下所有脚注标记为“Equal contribution”,表示所有作者贡献均等,机构如上所列。) 💡 毒舌点评 这篇综述的核心价值在于,它构建了一个清晰、系统的框架,用以理解音频超分辨率(SR)与带宽扩展(BWE)领域从判别式模型到生成式模型的完整演进图谱。其贡献并非提出新算法,而是首次明确、统一地阐述了这一“范式转变”,并为不同的生成式方法(GAN、扩散、流、桥)在BWE/SR任务中的权衡提供了极具洞察力的分析。这为领域内研究者提供了宝贵的“路线图”。然而,作为一篇旨在指导未来方向的综述,其最大的遗憾在于完全依赖定性讨论和文献引用,缺乏对关键方法的统一基准或系统性定量指标汇总。因此,文中关于“何种范式在何种场景下更优”的结论,更多源于作者的学识与判断,而非可直接复现的、控制变量的实验证据,这在一定程度上削弱了其结论的普适性和说服力。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 431 words