AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #音频生成 #多模态模型 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | arxiv 学术质量 5.3/7 | 影响力 1/2 | 可复现性 0.7/2 | 置信度 中 👥 作者与机构 论文作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学,香港中文大学。 💡 毒舌点评 这篇论文试图为快速增长的音频-视频生成领域建立一个“急需”的自动化评估基准,其工程系统性值得肯定。然而,其核心贡献——训练的专用评估器——本质上是用一个大型模型(基于Qwen2.5-Omni)去评估其他生成模型,这引发了关于“用魔法打败魔法”的深层问题。论文声称解决了“粗糙使用通用模型”的痛点,但训练数据严重局限于OpenHumanVid这个以人类为中心的视频库,这无疑为评估器引入了强烈的归纳偏置。当面对非人类主体或更复杂的长视频时,这些评估器可能比它们试图取代的“通用模型”更加“偏科”。此外,论文在关键实验分析(如消融研究、失败案例分析)上的缺失,使其提出的10个维度和“连续分数”机制的优越性论证显得有些单薄,更像是一个精心搭建但内部黑箱的评测流水线。 📌 核心摘要 本文针对人类场景下的文本到音频-视频生成模型,提出了自动化评估基准AVBench。其核心工作包括:1) 设计了涵盖跨模态一致性与单模态质量的10个人类中心细粒度评估维度;2) 通过大规模负样本挖掘(300KK样本),对多模态大语言模型进行监督微调,训练出专门的音频-视频(AV)、音频-文本(AT)、视频-文本(VT)一致性评估器;3) 构建了包含“正常”和“困难”子集的分层测试集。实验表明,专用SFT评估器在检测细粒度不一致方面显著优于零样本基线,其自动评分与人类专家判断展现出强相关性(如AT一致性 \(\rho=0.9488\))。 🔗 开源详情 代码:未提���。 模型权重:未提供。评估器基于Qwen2.5-Omni和Qwen2-Audio微调,但微调后模型未公开。 数据集:未提供。训练数据来自OpenHumanVid,自行构建的300KK训练集及470条测试集均未公开。 Demo:未提供。 复现材料:未提供。论文描述了训练流程,但未提供代码、配置文件或检查点以支持复现。 论文中引用的开源项目(如VBench, T2AV-Compass, VABench, JointAVBench, CLAP, ViCLIP, ImageBind, SyncNet/LatentSync, Whisper, DF_Arena, NISQAv2, Audiobox-Aesthetics, DOVER++, LAION-Aesthetics, OpenHumanVid, Qwen系列)均未在文中提供具体项目链接。 🏗️ 方法概述和架构 AVBench的整体架构由两个并行支柱构成:基准测试集构建与专用自动化评估器训练。 ...

2026-05-26 · 更新于 2026-06-19 · 2 min · 359 words

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #语音识别 #多模态模型 ✅ 6.0/10 | 前50% | #语音识别 | #持续学习 | #多模态模型 | arxiv 👥 作者与机构 作者:Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang 机构:未在论文摘要中明确说明具体机构 💡 毒舌点评 观点不错,但论证力度像是在“空中楼阁”。整篇论文在概念上兜圈子,把一个很实际的工程问题(如何让大模型持续学习)包装得过于哲学化,却又拿不出任何实锤(实验)来证明这个新框架比旧框架好用。对“LALMs”的定义含糊不清,参考文献列表还有窟窿,这在严谨的顶会审稿中是重大扣分项。把现有的LALM多阶段训练直接等同于“隐式持续学习”是一个有趣的观察,但需要更严谨的分析来支撑这个类比,而不是简单映射。如果作者能补充哪怕一个简单的、基于公开模型的案例研究,用数据说话,这篇论文的说服力能上一个大台阶。 📌 核心摘要 本文针对基础模型时代语音与音频领域的持续学习(CL)问题,提出了一种以“表示几何演化”为中心的新分类法。作者指出,现代语音基础模型(如wav2vec 2.0, HuBERT, Whisper)和大型音频语言模型(LALMs)学习到的高度纠缠的共享表示,使得传统CL方法(回放、正则化、架构隔离)的核心假设失效。论文据此提出了四种表示演化形式:几何保持、几何扩展、几何对齐和几何特化,并辅以“自适应位置”维度。文章进一步揭示,当前LALM的多阶段后训练流程(从文本LLM到语音对齐,再到多任务指令微调和RLHF)实质上是一种隐式的跨模态持续学习实践,其工程上的混合策略(冻结、回放、蒸馏)恰恰反映了单一方法的不足。最后,论文指出了隐私约束下的可扩展持续预训练、模态缺失下的持续学习等关键开放问题。 🔗 开源详情 代码:论文中未提及提供作者团队的代码仓库。 模型权重:论文中未提及提供作者团队的模型权重。论文引用了多个第三方开源基础模型,如 wav2vec 2.0、HuBERT、Whisper 等,但未提供这些模型的直接下载链接。 数据集:论文中未提及作者团队发布或使用的具体数据集。论文讨论了用于预训练的大型音频语料库,但未指明具体名称。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置、检查点、附录等具体的复现材料。 论文中引用的开源项目: Wav2vec 2.0:自监督语音表示模型。 HuBERT:自监督语音表示模型。 Whisper:通用语音识别模型。 LALMs:大型音频语言模型,这是一个研究方向,未指向特定单一开源项目。 LoRA:参数高效微调方法。 Adapters:参数高效微调方法。 EWC:正则化方法。 LwF:正则化方法。 补充链接(自动提取): 代码仓库:https://github.com/swagshaw/Awesome-Speech-and-Audio-Continual-Learning 🏗️ 方法概述和架构 本文的核心“方法”并非一个具体的算法模型,而是一个用于分析和组织语音持续学习问题的概念框架。其架构可以从两个相互正交的维度来理解: ...

2026-05-26 · 更新于 2026-06-19 · 1 min · 142 words

SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing

📄 SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing #语音编辑 #多模态模型 🔥 8.6/10 | 前25% | #语音编辑 | #多模态模型 | arxiv 学术质量 6.6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Sen Liang, Cong Wang, Fengbin Guan, Zhentao Yu, Yiting Lu, Yuanzhi Wang, Yuan Zhou, Xin Li, Zhibo Chen。单位为中国科学技术大学(University of Science and Technology of China)和腾讯混元(Tencent Hunyuan)。 💡 毒舌点评 这篇工作在“音视频联合编辑”这个相当具体的交叉赛道上做得相当扎实,堪称一次系统性的“工程+科研”组合拳。优点很明显:抓住了现有级联方法“各玩各的”这个痛点,提出了端到端的双向交互框架,并且用一套自洽的自动化数据流水线解决了训练数据稀缺这个老大难问题,还贴心地搭建了专门的评测集SpongeBob-Bench。消融实验和用户研究做得也比较规范。但缺点也不容忽视:1)框架深度绑定了特定的视频生成基础模型(Wan2.2)和音频VAE(MMAudio),通用性存疑;2)虽然叫“音视频联合编辑”,但论文更偏重“视频编辑+同步音频生成”,对音频模态本身的编辑能力(如改变音色、保持韵律)着墨不多,音频更像是视频编辑的“附属产物”;3)实验中使用的部分基线(如AvED)是零样本方法,对比说服力略弱;4)作者在局限性中提到的长视频处理和推理效率问题,在实际应用中可能非常突出。总的来说,这是一篇完成度很高、在特定子领域有推动作用的工作,但离解决更广泛的、高质量的“音视频任意编辑”还有距离。 📌 核心摘要 本文提出了SpongeBob,首个基于双向跨模态交互的端到端音视频联合编辑框架。针对现有编辑方法因模态解耦导致的音视频失同步与上下文冲突两大问题,SpongeBob采用双流Diffusion Transformer (DiT)架构进行统一去噪。其核心设计包括:1) 同步感知编辑机制,通过双向跨模态注意力实现交互,通过统一三路时间位置编码(RoPE)实现时间对齐,并利用掩码引导的非对称空间路由实现空间约束。2) 上下文感知模块,通过视觉上下文注意力和声学上下文注意力两个零初始化交叉注意力层,使目标音频能感知未编辑的视觉背景和基础音频,防止语义冲突。3) 同步保持训练与引导(SPTG)策略,包含四种训练模式(联合编辑、音频驱动、视频驱动、上下文为空)和两阶段推理引导(上下文冲突解决与时间同步增强)。为解决训练数据稀缺问题,论文构建了一个六阶段可扩展数据管道,从无标签网络视频中自动合成了约40万样本的Subject-level数据集。同时提出了SpongeBob-Bench进行系统评估。实验表明,该方法在SpongeBob-Bench上全面超越所有基线,在Sync-C和Ctx-F1上分别取得了30%和12.5%的提升。 🔗 开源详情 代码:论文未提供代码链接。 模型权重:论文未提供模型权重下载。 数据集:论文提及构建了约40万样本、总时长约390小时的数据集,但未提供下载地址或开源协议。 Demo:提供了项目主页 https://hy-spongebob.github.io/。 复现材料:论文在附录B(Implementation Details)和正文第4节提供了极其详细的训练与推理配置,包括模型架构(基于Wan2.2-TI2V-5B和MMAudio的VAE)、训练超参数(240 GPUs, batch size 240, 学习率1e-5, 10K步)、数据配置、SPTG的引导强度等,可作为复现参考。 论文中引用的开源项目:Wan2.2-TI2V-5B, MMAudio, Grounding DINO, SAM2, Gemini, SAM-Audio, pyannote, AudioBox-Aesthetics, CLAP, ImageBind, AvED, VACE, HunyuanVideo-Foley, Coherent, Chatterbox-Turbo, Stable Audio Open。其中部分项目有知名开源实现,但论文本身未提供具体链接。 🏗️ 方法概述和架构 SpongeBob的核心是一个双流Diffusion Transformer (DiT)架构,旨在单一去噪过程中同时编辑视频和合成同步音频,实现双向跨模态交互。该架构基于Wan2.2-TI2V-5B构建,输入包括参考图像、带掩码的条件视频(即上下文)和视觉噪声,通过交叉注意力注入文本描述来引导原始视频片段的重建。音频流则从音频噪声中重建目标音频,其条件包括音频描述、语音文本以及通过专门交叉注意力层输入的基础音频(即目标音频分离后的环境音)。目标音频被分为语音和非语音流处理:语音任务中,音频描述固定,语音文本提供具体内容;非语音事件中,音频描述提供语义描绘,语音文本为空。 ...

2026-05-26 · 更新于 2026-06-19 · 2 min · 315 words

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #模型融合 #多模态模型 #低资源 📝 5.5/10 | 前50% | #语音增强 | #模型融合 | #多模态模型 #低资源 | arxiv 学术质量 3.0/7 | 影响力 3.0/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构: Thaka, Advanced AI and Information Technology, Riyadh, Saudi Arabia 论文未提供作者主页、所属部门、资助信息或机构主页。 💡 毒舌点评 这篇论文是一篇典型的竞赛系统描述(“winning system description”),其核心价值在于工程技巧的组合与超参调优,而非提出新的学术思想或模型架构。作者诚实地将工作定位为在现有CATT-Whisper架构上,通过“正则化”这一“优化策略”来最大化有限数据下的性能。这本身没有错,但论文的学术贡献相当有限。创新性仅体现在将R-Drop、Focal Loss、Optuna调优和MC Dropout集成等已有技术“打包”应用到一个特定竞赛任务上,并报告了最优结果。技术细节描述尚可,但缺乏深度分析:消融实验仅做了累积添加,未真正分离每个正则化组件的独立贡献;对MC Dropout推理成本(200次前向传播)的讨论一笔带过,未提出任何效率优化方案。整体而言,这是一篇合格的“how we won”的竞赛报告,但作为一篇研究论文,其深度和启发性不足以在顶级会议中脱颖而出。 📌 核心摘要 本文描述了在KSAA-2026共享任务“阿拉伯语语音听写与自动消音化”Task 2中获胜的系统。任务要求在仅有2,327个训练样本且不允许使用外部数据的条件下,从语音音频和未加消音符的文本生成完全消音化的阿拉伯语文本。系统基于CATT-Whisper多模态模型进行微调,该模型结合了预训练的CATT文本编码器和冻结的Whisper语音编码器。工作的关键在于通过训练正则化(R-Drop一致性正则化、Optuna优化的超参数与高权重衰减、Focal Loss)来充分利用有限数据。在推理阶段,使用蒙特卡洛Dropout在四个模型检查点上进行200次随机前向传播,并在softmax概率层面进行平均。系统在主要排行榜指标(WER,含词尾,包含无消音符位置)上达到23.26%,在所有参与者中排名第一。 ...

2026-05-26 · 更新于 2026-06-19 · 2 min · 323 words

Toward Native Multimodal Modeling: A Roadmap

📄 Toward Native Multimodal Modeling: A Roadmap #多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型 🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构: [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学 ...

2026-05-26 · 更新于 2026-06-19 · 4 min · 803 words

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models

📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #多模态模型 #多语言 📝 5/10 | 前50% | #大语言模型 | #多模态模型 | #多语言 | arxiv 学术质量 3.8/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 高 👥 作者与机构 Kabir, M., Munira, M., Sirajam, M. A. (作者姓名与单位未在已有分析中列出,现根据原文补充) School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评 这篇论文像一位勤奋但缺乏巧思的学生,把所有能找到的大模型都拿来在几个小数据集上跑了一遍,然后仔细比较了成绩。它的工作是扎实的,但就像用锤子、螺丝刀和扳手去敲钉子,然后写一篇关于“敲击工具比较”的报告——我们知道结果会因工具而异,但这个结论本身并不让人意外。最大的问题在于,它试图比较“输入模态”,却让“模型能力”这个混杂变量肆无忌惮地影响结果。一个通用文本LLM(LLaMA 3)和专用音频模型(Qwen2-Audio)本身就不是同一起跑线上的选手。这让整个比较的科学性大打折扣,结论的强度被严重削弱。它更适合出现在一个专注于临床语音处理的Workshop,而非NeurIPS这种追求突破的殿堂。 ...

2026-05-26 · 更新于 2026-06-19 · 3 min · 475 words

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分 前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分 前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分 前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分 前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分 前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分 前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分 前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分 前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分 前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分 前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分 前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分 前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分 前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分 前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分 前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分 前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分 前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分 前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分 前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分 前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分 前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分 前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分 后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分 前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分 前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分 前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分 后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

2026-05-26 · 更新于 2026-06-19 · 13 min · 2671 words

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

📄 EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation #音视频 #基准测试 #模型评估 #多模态模型 ✅ 7.1/10 | 前50% | #音视频 | #专家校准VLM评分 | #基准测试 #模型评估 | arxiv 学术质量 5.9/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 High 👥 作者与机构 作者:Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao. 机构:香港科技大学,腾讯,清华大学,中国科学院自动化研究所,北京电影学院,斯坦福大学,香港中文大学,新加坡技术设计大学。 ...

2026-05-25 · 更新于 2026-06-19 · 3 min · 454 words

Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech

📄 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech #语音质量评估 #多模态模型 #预训练 🔥 10/10 | 前10% | #语音质量评估 | #帧对齐融合 | #多模态模型 #预训练 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 0.9 👥 作者与机构 作者:Kazushi Nakazawa 机构:未明确提及(论文中仅显示作者姓名) 💡 毒舌点评 这篇论文像是在一个精心布置的实验跑马场里,用两匹性能差异明显的马(Canary和WavLM)测试不同的并驾齐驱姿势。它得出的核心结论——“让快马先减步频,再与慢马步伐对齐比直接赛后平均成绩更有效”——虽然符合直觉,但整个实验的“赛道”过于单一(仅CPC3数据集),而且“骑手”(融合模块)的调教空间(训练数据、参数规模)非常有限。作者非常诚实地罗列了所有“无法确保马匹完全同品种”(编码器计算量不匹配)、“没做统计检验”等限制,这种学术态度值得称赞,但也削弱了结论的冲击力。总的来说,这是一篇方法清晰、实验细致、但创新高度和普适性存疑的“小而美”的工作,更像是为一个特定场景提供了不错的工程方案,而非开辟了新方向。 📌 核心摘要 本文针对非侵入式助听器处理语音可懂度预测任务,在第三届清晰度预测挑战赛(CPC3)的框架下,研究了如何有效融合两个冻结的、具有不同归纳偏置的预训练语音编码器(Canary和WavLM)的表征。论文的核心问题是:互补的预训练表征应在何处进行交互?是在句级池化之后,还是在帧级交互?在统一的保持左右声道的双耳框架下,作者系统比较了单编码器基线、均匀分数平均、池后融合、交叉注意力、帧对齐融合以及反向对齐等方法。实验结果表明,通过可学习的跨步卷积对WavLM特征进行时间准备,然后在更粗的Canary时间轴上进行帧级融合(即帧对齐融合)是最佳策略,在评估集上取得了24.96±0.06的RMSE和0.796±0.001的相关性。一系列消融分析(包括听力损失严重程度、助听系统、WavLM层选择和时移控制)表明,性能提升更合理地归因于池化前粗粒度的局部时间对应关系,而非严格的帧同步或简单的标量集成。论文明确指出了研究范围(单一编码器对、单一数据集)和统计检验缺失等局限性。 🔗 开源详情 代码:论文中未提及提供代码。 模型权重:论文中使用了 nvidia/canary-1b-flash 和 microsoft/wavlm-large,但未提供针对本任务适配后的模型权重下载链接。 数据集:所有实验使用CPC3数据集,论文中未提供该数据集的获取链接或说明其开源协议。 Demo:论文中未提及。 复现材料:论文提供了部分训练配置细节(如优化器、学习率、批大小等),但未提及是否提供完整的配置文件、预处理脚本或详细的复现指南。 论文中引用的开源项目: STOI, ESTOI, MBSTOI, HASPI:论文中未提供这些客观清晰度指标的项目链接。 SUPERB基准测试:论文中未提供链接。 wav2vec 2.0:论文中未提供项目链接。 WavLM:论文中提到了 microsoft/wavlm-large,但未提供项目主页链接。 🏗️ 方法概述和架构 本文提出并系统评估了一组基于冻结预训练编码器的端到端可懂度预测架构。整个方法框架遵循一个核心设计理念:在模型的大部分阶段保持左、右耳的双耳信息分离,仅在最后进行合并,以避免过早引入空间模型或平均化不对称信息。 ...

2026-05-25 · 更新于 2026-06-19 · 2 min · 352 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-06-19 · 9 min · 1773 words