Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #预训练 #基准测试 ✅ 7.5/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuxin Zhang(StepFun;上海交通大学;Nanyang Technological University) 通讯作者:Fei Tian(StepFun;邮箱:tianfei@stepfun.com) 作者列表:Yuxin Zhang(StepFun,上海交通大学,Nanyang Technological University),Xiangyu Tony Zhang(University of New South Wales),Daijiao Liu(StepFun,University of New South Wales),Fei Tian(StepFun),Yayue Deng(StepFun),Jun Chen(StepFun),Qingjian Lin(StepFun),Haoyang Zhang(StepFun,Nanyang Technological University),Yuxin Li(StepFun,Nanyang Technological University),Jinglan Gong(StepFun),Yechang Huang(StepFun),Liang Zhao(StepFun),Chengyuan Yao(StepFun),Hexin Liu(Nanyang Technological University),Eng Siong Chng(Nanyang Technological University),Xuerui Yang(StepFun),Gang Yu(StepFun),Xiangyu Zhang(StepFun),Daxin Jiang(StepFun) 💡 毒舌点评 这篇论文敏锐地指出了当前音频推理模型训练中“为答对而答”的机械感问题,并提出了一个颇具潜力的解决方案(RLHF),实验也显示其对话能力有显著提升。然而,模型在最能体现交互能力的AudioMC基准上得分(41.15)仍落后于Gemini 3系列,且核心的“评分标准奖励模型”的具体实现和训练数据细节未在文中公开,这让其宣称的“突破”打了折扣,更像是一个工程改进而非范式革新。 ...

2026-04-30 · 更新于 2026-06-15 · 2 min · 266 words

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(25 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分 前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分 前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分 前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分 前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分 前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分 前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分 前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分 前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分 前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分 前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分 前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分 前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分 前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分 前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分 前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分 前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分 前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分 前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分 前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分 前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分 前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分 前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

2026-04-30 · 更新于 2026-06-15 · 16 min · 3385 words

A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems

📄 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems #说话人日志 #数据增强 #说话人分离 #基准测试 #鲁棒性 ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group) 通讯作者:未说明 作者列表:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group)、Vivek Kumar Thoppe Ravindranath(谢菲尔德大学计算机学院,SpandH Group)、Thomas Hain(谢菲尔德大学计算机学院,SpandH Group) 💡 毒舌点评 亮点:论文提供了一套模块化、可复现的合成框架,将现有的说话人日志数据集(如AMI, CALLHOME)的标注作为“蓝图”,系统地解耦了说话人、内容、声学环境的影响,并引入了sDER和NEC两个指标来量化系统在可控变化下的鲁棒性,方法论清晰严谨。短板:其核心局限在于“合成数据与真实对话的语义连续性鸿沟”这一根本性问题仍未解决,仅通过顺序采样LibriSpeech片段无法模拟真实对话中的话题承接与语境依赖,这使得合成数据在评估上的有效性存在天花板。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/shreyas2206/MultiSpeakerDataSyn。 模型权重:未提及。论文评估的是已有的公开模型(PyAnnote, NeMo, DiariZen),未提供其自身的模型权重。 数据集:合成数据集未直接公开,但框架基于公开数据集(LibriSpeech作为语音源,以及AMI, CALLHOME等作为RTTM来源)构建,用户可通过运行框架自行生成。 Demo:未提供在线演示。 复现材料:论文提供了完整的合成配置文件(通过代码仓库),并详细记录了实验使用的种子、采样策略等关键参数,复现性高。 论文中引用的开源项目:依赖的开源工具/模型包括: 数据集:LibriSpeech, RIRs Noises。 说话人日志模型:PyAnnote 3.0, NeMo Sortformer, DiariZen (基于WavLM)。 工具:Montreal Forced Aligner (MFA) (用于词对齐)。 📌 核心摘要 解决的问题:说话人日志系统的鲁棒性评估缺乏能够严格控制变量、同时保留真实对话动态(如重叠、打断)的可控基准数据集。 方法核心:提出一个模块化合成框架,以公开数据集(AMI等)的RTTM标注作为对话时间蓝图,使用LibriSpeech的干净语音片段作为说话人语音源,通过分层采样(说话人、话语、片段)生成合成音频,并可叠加混响与噪声。 创新点:a) 以真实对话标注为蓝图合成音频,而非从零构建统计模型;b) 提出对称DER (sDER) 和归一化误差一致性 (NEC) 两个新指标,用于量化系统在不同合成条件下的性能一致性(鲁棒性);c) 通过控制实验(改变说话人、内容、声学)系统分析了各因素对不同说话人日志系统的影响。 主要实验结果: 基准结果:在4个数据集上,合成音频与原始真实音频的DER存在差距,但系统间的相对排序大致保持。 鲁棒性分析:内容(话语)随机化比说话人重新采样对系统(尤其是端到端系统)的性能一致性冲击更大;声学增强的影响具有领域依赖性(如对AMI影响小于CALLHOME)。 数据集 条件 (来自表3) PyAnnote DER NeMo DER DiariZen DER AMI-Test (1) 清洁基线 17.8 5.5 11.5 (2) 增强 (固定说话人/话语) 15.4 6.9 9.4 (3) 新说话人种子 (固定顺序话语) 17.6 6.4 10.9 (4) 话语随机化 (固定说话人) 16.6 17.3 13.4 Callhome (1) 清洁基线 18.8 9.9 9.6 (2) 增强 (固定说话人/话语) 22.1 11.6 11.6 (3) 新说话人种子 (固定顺序话语) 18.8 10.4 10.3 (4) 话语随机化 (固定说话人) 18.5 16.6 12.1 实际意义:为说话人日志社区提供了一个强大的基准测试和诊断工具,可以在没有昂贵人工标注和错误边界的情况下,标准化地评估系统在不同扰动下的稳定性。 主要局限性:a) 合成数据缺乏语义连续性,无法完全模拟真实对话的语用动态;b) 框架依赖于LibriSpeech,其语音风格(朗读式)与真实对话有差异;c) 增强模型(混响、噪声)较为简单,无法完全覆盖所有真实声学场景(如特定电话信道)。 🏗️ 模型架构 本文未提出一个新的神经网络模型,而是提出了一个模块化的多说话人音频合成与评估框架。其架构是流程性的,旨在生成用于评估现有说话人日志系统的可控数据。整体流程如下: ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 342 words

A Superb-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

📄 A Superb-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection #音频深度伪造检测 #自监督学习 #基准测试 #模型评估 #鲁棒性 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #基准测试 #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文按顺序列出作者,未明确指定第一作者) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Hashim Ali, Nithin Sai Adupa, Surya Subramani, Hafiz Malik(均来自University of Michigan, Electrical and Computer Engineering) 💡 毒舌点评 本文最大的价值在于“填空”——在音频深度伪造检测这个安全关键领域,终于有了一个像SUPERB那样标准化的评测框架,让不同研究能放在同一擂台上比较,这本身就是一个重要的贡献。但短板也同样明显:它本质上是一个“评测员”而非“创新者”,提出的Spooof-SUPERB协议是现有技术的整合而非新方法的突破,且未开源代码或模型,大大削弱了其作为基准的实践影响力。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开本次实验所使用的SSL模型下游微调后的权重。 数据集:论文中评估所使用的数据集(如ASVspoof系列、In-the-Wild、DFEval等)多为公开数据集,但论文本身未提供新的数据集,也未说明如何获取或处理它们。 Demo:未提及。 复现材料:论文详细描述了下游任务协议(冻结SSL、加权和聚合、分类器结构、训练/评估数据集),提供了复现所需的大部分信息,但缺乏具体的训练超参数(如学习率、优化器、batch size)。 论文中引用的开源项目:论文引用了大量SSL模型的原始论文(如wav2vec 2.0, HuBERT, WavLM等),这些都是开源项目。但本文自身未提供基于这些项目的整合代码。 总结:论文中未提及任何由本文作者发布的开源计划(代码、模型、工具)。 📌 核心摘要 这篇论文旨在解决音频深度伪造检测领域缺乏统一评估标准、导致研究结果难以比较的问题。其核心方法是提出一个名为“Spoof-SUPERB”的SUPERB式基准,该基准采用固定的下游任务设置(冻结SSL前端+加权层聚合+简单分类器),在ASVspoof 2019训练集上训练,并在包括ASVspoof 2019、2021、DeepfakeEval 2024、In-the-Wild、Famous Figures和ASVSpoofLD在内的8个数据集上进行跨域评估。与以往碎片化的研究相比,这是首个系统性地评估20个涵盖生成式、判别式和混合式架构的自监督学习模型的标准化基准。主要实验结果显示,大规模判别式SSL模型(如XLS-R、UniSpeech-SAT、WavLM Large)在平均EER上显著优于生成式模型和FBANK基线(例如XLS-R为17.4%,而FBANK为46.5%),并在噪声、混响和编解码器退化条件下表现出更强的鲁棒性。本文的实际意义是为社区提供了一个可复现的基线和实用的模型选择指南。主要局限性在于,固定的下游协议(训练数据选择、简单后端)可能限制了对模型潜力的挖掘,且未公开代码和模型权重。 ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 507 words

Aligning Generative Speech Enhancement with Perceptual Feedback

📄 Aligning Generative Speech Enhancement with Perceptual Feedback #语音增强 #强化学习 #语音大模型 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #强化学习 | #语音大模型 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写"未说明" 明确标注通讯作者(如论文可判断),否则写"未说明" 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写"未说明" 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Haoyang Li (1) 通讯作者:未说明 作者列表: Haoyang Li (1 南洋理工大学) Nana Hou (2 独立研究者) Yuchen Hu (1 南洋理工大学) Jixun Yao (3 西北工业大学) Sabato Marco Siniscalchi (4 帕勒莫大学) Xuyi Zhuang (1 南洋理工大学) Deheng Ye (5 腾讯) Wei Yang (5 腾讯) Eng Siong Chng (1 南洋理工大学) 注:根据作者编号推断,机构1为“Nanyang Technological University, Singapore”,机构5为“Tencent”。 💡 毒舌点评 亮点:论文首次将DPO(直接偏好优化)引入语音增强领域,并创新性地利用神经MOS预测器(UTMOS)构建偏好数据,为解决语言模型语音增强中“信号准确但听感不佳”的痛点提供了一个简洁有效的框架,实验结果(UTMOS相对提升56%)具有显著说服力。 短板:研究局限于英语单语种场景,且依赖UTMOS作为偏好代理,其与人类真实偏好的对齐程度未深入讨论;此外,DPO优化导致在“无混响”条件下说话人相似度(SECS)下降的问题虽通过组合损失缓解,但暴露了单目标优化在多维度指标上可能产生权衡。 ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 481 words

AMBISONIC-DML: A Benchmark Dataset for Dynamic Higher-Order Ambisonics Music with Motion-Aligned Stems

📄 AMBISONIC-DML: A Benchmark Dataset for Dynamic Higher-Order Ambisonics Music with Motion-Aligned Stems #数据集 #信号处理 #空间音频 #基准测试 ✅ 7.5/10 | 前25% | #数据集 | #信号处理 | #空间音频 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Seungryeol Paik(首尔大学 智能与信息学系) 通讯作者:Kyogu Lee(首尔大学 人工智能项目、首尔大学 人工智能研究所) 作者列表:Seungryeol Paik(首尔大学 智能与信息学系)、Taehyup Kim(Dream Scape Inc.)、Kyogu Lee(首尔大学 智能与信息学系、首尔大学 跨学科人工智能项目、首尔大学 人工智能研究所) 💡 毒舌点评 亮点:该工作精准切入了沉浸式音频研究中一个被忽视但关键的痛点,即缺乏动态、音乐化且高精度的基准数据集,其从艺术装置中提炼科研资源的做法颇具巧思。短板:尽管数据集质量评估详尽,但论文更像是一份详实的“产品说明书”,缺乏对基于此数据集能解决哪些具体研究挑战的深入探讨,且开源信息仅限于数据文件,代码级复现材料缺失。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅提到包含“自动化OSC渲染和格式验证脚本”,但未公开。 模型权重:未提及(本论文不涉及模型)。 数据集:公开。提供Google Drive下载链接和Zenodo归档的元数据与校验和。 Demo:未提及在线演示。 复现材料:提供了归一化后的音频文件、轨迹日志和标注表(annotation.xls)。但完整的数据生成流程代码和环境配置未提供。 论文中引用的开源项目:提到了使用 pyLoudnorm 工具包计算响度,以及使用 AmbiX、MagLS 等开源工具进行Ambisonics分析和双耳渲染验证。 📌 核心摘要 问题:现有公共空间音频数据集主要聚焦于环境声或静态音乐场景,缺乏同时包含动态声源运动轨迹、高阶Ambisonics编码和干声轨道的音乐数据,无法满足音乐驱动的沉浸式音频处理与生成研究需求。 方法核心:论文发布了AMBISONIC-DML数据集,包含120个音乐片段。其核心是通过确定性渲染管线(使用SPAT Revolution软件),将专业录制的干声(包含合成器、打击乐、人声等)与作曲家通过OSC实时设计的三维运动轨迹同步,生成5阶Ambisonics(HOA5,36通道)音频及对应的XYZ轨迹数据。 创新性:这是首个公开的、提供动态音乐运动轨迹与干声同步的HOA5数据集。与TAU-NIGENS、STARSS23等环境声数据集及EigenScape等静态音乐数据集相比,它提供了独特的动态、结构化音乐内容。 主要实验结果:数据集质量评估包括:客观分析显示HOA5编码正确(36通道DOF),运动轨迹对齐精度达±0.10mm。主观听力测试(25名听众)表明,相比立体声和低阶Ambisonics(HOA1/HOA3),HOA5格式在定位(MOS 4.5±0.3) 和 沉浸感(MOS 4.7±0.2) 上显著更优(p<0.01),而立体声在 清晰度(MOS 4.3±0.3) 和 节奏(MOS 4.6±0.2) 上更好。 实际意义:为轨迹感知信号处理、运动驱动的音频分离与生成(如空间混合、轨迹条件音乐合成)等前沿研究提供了必需的基准数据集,推动了从艺术驱动到技术验证的闭环。 主要局限性:数据集源自特定沉浸式艺术装置,其音乐风格与运动模式的多样性未被量化评估;作为数据集论文,未提出并验证具体的下游AI任务基线模型。 🏗️ 模型架构 本文并非提出一个新的算法模型,而是介绍一个数据集及其构建流程。因此,其“架构”指数据集的生成与组织流程。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 322 words

AQUA-Bench: Beyond finding answers to knowing when there are None in Audio Question Answering

📄 AQUA-Bench: Beyond finding answers to knowing when there are None in Audio Question Answering #音频问答 #基准测试 #多模态模型 #鲁棒性 ✅ 7.0/10 | 前50% | #音频问答 | #基准测试 | #多模态模型 #鲁棒性 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chun-Yi Kuan(National Taiwan University) 通讯作者:Hung-yi Lee(National Taiwan University)(论文未明确说明通讯作者,根据学术惯例及作者排序推断) 作者列表:Chun-Yi Kuan(National Taiwan University)、Hung-yi Lee(National Taiwan University) 💡 毒舌点评 亮点:该工作直面了一个被主流评测普遍忽视但极为现实的问题——“当模型无法回答时该怎么办”,并为此构建了系统化、可操作的评估框架,填补了音频大模型评测中的一个重要空白。短板:作为一项“评测基准”工作,其本身并未提出解决模型“强制选择”偏差的方法或模型,更多是“诊断”而非“治疗”,且论文中部分实验图表(如详细Prompt影响、部分模型对比)的可视化数据在正文中缺失,略显遗憾。 🔗 开源详情 代码:论文提供了项目网站链接(https://kuan2jiu99.github.io/AQUA-Bench-demo/),但未明确说明是否包含完整的评估代码仓库。网站本身可能包含演示和部分资源。 模型权重:本文未提出新模型,评估使用的是已有的开源模型(如Qwen2.5-Omni, Audio Flamingo 3等)和商业模型(如GPT-4o)。这些模型的权重获取方式需参考其各自原始论文。 数据集:论文明确表示会发布AQUA-Bench数据集(“our released dataset is available on our website”)。 Demo:提供了在线演示网站。 复现材料:论文给出了详细的评估协议(两阶段测试、条件准确率)、基础数据集来源(ESC-50等)和答案提取方法(正则表达式)。但未提供具体的Prompt模板(除示例外)、正则表达式代码或超参数设置。 论文中引用的开源项目:主要引用并基于以下开源项目/基准进行数据构建:ESC-50 [29], MMAU [20], Dynamic-SUPERB [22, 23], Qwen-Audio [1], Qwen2-Audio [2], SALMONN [3], LTU [4], Audio Flamingo 2/3 [11, 12] 等。 📌 核心摘要 要解决什么问题:当前的音频问答基准(如Dynamic-SUPERB, MMAU)默认所有问题都有答案,忽略了现实世界中常见的、模型应拒绝回答的“不可回答”问题(如问题与音频不相关、选项缺失等),导致对模型可靠性的评估不全面。 方法核心是什么:提出了一个名为AQUA-Bench的新基准,系统评估模型在三种不可回答场景下的表现:(1) 缺失答案检测(AAD),(2) 不兼容答案集检测(IASD),(3) 不兼容音频-问题检测(IAQD)。该基准通过系统性地修改现有可回答的音频问答样本,构造对应的不可回答版本。 与已有方法相比新在哪里:首次为音频问答任务定义并构建了针对“不可回答性”的标准化评测体系。与之前仅关注回答正确性的基准不同,AQUA-Bench专门评估模型“识别并拒绝无效问题”的能力,这更贴近可信AI的要求。 主要实验结果如何:实验揭示了当前主流音频大模型(ALLMs)的一个普遍盲点。如表1所示,模型在原始可回答任务(Ori.)上表现优异(例如Qwen2.5-Omni在动物声音上达96.4%),但在不可回答任务(尤其是AAD)上性能急剧下降(同模型在AAD上仅20.5%)。使用思维链(CoT)提示能显著提升模型在不可回答任务上的表现(如BALSa-MA在多个AAD任务上超过90%)。 实际意义是什么:该基准为评估和推动更可靠、更值得信赖的音频语言系统提供了重要工具。它指出了当前模型在真实部署场景中的一个关键缺陷——倾向于对无效问题给出自信但错误的答案,这对于医疗、安防等敏感领域至关重要。 主要局限性是什么:1. 基准本身不提供解决模型偏差的方法,只是揭示问题。2. 构建的IAQD部分依赖于GPT-4o生成不相关问题,其质量和分布可能受限于生成模型的能力。3. 评估的模型范围有限,主要聚焦于公开的ALLMs,未涵盖更多潜在的架构探索。 🏗️ 模型架构 本文并非提出一个新的音频模型,而是提出了一个评估基准(Benchmark)。因此,其“架构”指的是评估框架的整体设计。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 356 words

AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target Speaker Extraction With Band-Split Modeling

📄 AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target Speaker Extraction With Band-Split Modeling #语音分离 #自回归模型 #时频分析 #实时处理 #基准测试 ✅ 7.0/10 | 前25% | #语音分离 | #自回归模型 | #时频分析 #实时处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Fengyuan Hao(中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) 通讯作者:Chengshi Zheng(中国科学院声学研究所噪声与音频研究实验室) 作者列表:Fengyuan Hao(中国科学院声学研究所噪声与音频研究实验室;中国科学院大学)、Andong Li(中国科学院声学研究所噪声与音频研究实验室;中国科学院大学)、Xiaodong Li(中国科学院声学研究所噪声与音频研究实验室;中国科学院大学)、Chengshi Zheng(中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) 💡 毒舌点评 论文的亮点在于其明确的工程导向,通过一系列精巧的设计(如感知压缩、分带LSTM、自回归连接),将目标说话人提取模型的计算复杂度大幅压缩至适合边缘设备部署的水平(MACs降至0.91 G/s,RTF仅为0.044),同时保持了具有竞争力的性能。短板则在于,其追求极致效率的代价可能是牺牲了一部分模型容量和在非因果、高精度场景下的性能天花板,且论文并未提供代码,对社区复现和基于此工作的后续研究不够友好。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的WSJ0-2mix和WHAM!数据集,但论文未提供获取方式或数据集本身的链接。 Demo:未提及。 复现材料:论文提供了非常详细的训练配置(损失函数、优化器、学习率、超参数等),具有较好的可复现信息基础。但未提供代码、配置文件或检查点。 引用的开源项目:论文未提及依赖的开源工具或模型。 总结:论文中未提及开源计划。 📌 核心摘要 问题:现有的因果目标说话人提取(TSE)方法虽然性能良好,但计算复杂度高,难以部署在资源受限的边缘设备上。 方法核心:提出AR-BSNet,一种超低复杂度的时频域自回归TSE模型。核心包括:a) 基于Mel滤波器组的感知压缩下采样;b) 分带循环建模(带内LSTM和带间BLSTM)以捕获时频模式;c) 引入自回归机制,利用前一帧的估计输出作为当前帧的辅助参考信息。 创新点:与现有方法相比,AR-BSNet创新性地将自回归框架、基于感知的频率维度压缩以及高效的分带循环处理相结合,在显著降低复杂度的同时,利用帧间依赖增强了提取效果。 主要实验结果:在WSJ0-2mix和WHAM!数据集上,AR-BSNet相比SOTA因果方法(如SpEx++, DSINet),在计算复杂度(MACs)上降低了约87.5%(从约7-11 G/s降至0.91 G/s),同时在SI-SDR、PESQ等指标上取得了可比或更优的性能。关键数据见下表: 数据集 方法 域 因果 参数量(M) MACs(G/s) PESQ eSTOI(%) SDR(dB) SI-SDR(dB) WSJ0-2mix SpEx++ [10] 时域 是 33.81 11.44 2.93 83.86 11.9 11.2 DSINet [17] 时频域 是 2.94 8.13 3.35 90.56 16.2 15.7 AR-BSNet 时频域 是 0.32 0.91 3.13 87.09 13.8 13.3 WHAM! SpEx+ [9] 时域 是 11.14 3.76 2.04 60.01 6.1 5.2 AR-BSNet 时频域 是 0.32 0.91 2.26 57.74 5.7 4.9 -> w/ 60s enroll. 时频域 是 0.32 0.91 2.30 58.71 6.1 5.4 图4:在WSJ0-2mix测试集上,因果SpEx+与AR-BSNet的SI-SDRi改善值分布。AR-BSNet(蓝线)整体分布更靠右,表明其平均性能更好,且在高相似度说话人区域(红点)的错误更少。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 364 words

Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework

📄 Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework #说话人脸生成 #模型评估 #基准测试 #音视频 ✅ 7.5/10 | 前25% | #说话人脸生成 | #模型评估 | #基准测试 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Dogucan Yaman(Karlsruhe Institute of Technology, KIT Campus Transfer GmbH (KCT)) 通讯作者:未说明(根据惯例和贡献推测,Alexander Waibel 可能为通讯作者,但论文未明确标注) 作者列表:Dogucan Yaman (Karlsruhe Institute of Technology, KCT)、Fevziye Irem Eyiokur (Karlsruhe Institute of Technology, KCT)、Hazım Kemal Ekenel (Istanbul Technical University)、Alexander Waibel (Karlsruhe Institute of Technology, KCT, Carnegie Mellon University) 💡 毒舌点评 亮点:精准戳中了当前说话人脸生成领域评估体系的“阿喀琉斯之踵”——高lip-sync分数可能掩盖了严重的“身份参考泄漏”问题,并设计了一套精巧的、可量化的“体检方案”来揭露它。短板:它本质上是一份详尽的“验尸报告”和“检测标准”,对于如何从根本上“治愈”泄漏问题(即设计新模型)着墨较少,创新止步于评估方法论层面。 ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 520 words

Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

📄 Audio-Visual Deepfake Generation and Detection: An Exploratory Survey #音频深度伪造检测 #语音伪造检测 #对比学习 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn) 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所) 💡 毒舌点评 这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。 🔗 开源详情 代码:论文中未提及提供本文相关的代码仓库链接。论文指出,许多被评估的检测器“要么没有开放其实现代码,要么发布的代码或模型不完整”,因此论文作者对这些检测器进行了重新实现或训练。 模型权重:未提及。 数据集:论文评估所用的数据集(FakeAVCeleb, IDForge, AVLips, LAV-DF)是已公开的,但论文未提供获取方式或整理脚本。 Demo:未提及。 复现材料:论文为每个检测器标注了参考文献,并说明了重新训练/评估的总体原则,但未提供详细的复现配置文件、超参数列表或检查点。 论文中引用的开源项目:论文作为综述,引用了大量生成与检测的原始工作(如Wav2Lip, SadTalker, SpeechForensics等),这些工作本身大多有公开代码,但论文并未将其整合为一个可运行的工具包。 📌 核心摘要 这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。 ...

2026-04-29 · 更新于 2026-06-15 · 1 min · 176 words