数据集 | 语音/音频论文速递

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

📄 Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data #生物声学 #任务算术 #模型合并 #零样本 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #任务算术 | #模型合并 #零样本 | arxiv 学术质量 4.0/7 | 选题价值 4.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ragib Amin Nihal（东京科学研究所，系统与控制工程）通讯作者：未明确说明（根据邮箱 ragib@ra.sc.e.titech.ac.jp 推断，可能为第一作者）作者列表： Ragib Amin Nihal（东京科学研究所，系统与控制工程；RIKEN BDR） Benjamin Yen（东京科学研究所，系统与控制工程） Runwu Shi（东京科学研究所，系统与控制工程；RIKEN BDR） Takeshi Ashizawa（东京科学研究所，系统与控制工程） Kazuhiro Nakadai（东京科学研究所，系统与控制工程；RIKEN BDR） 💡 毒舌点评亮点在于将生态学中的“声学生态位假说”巧妙映射到模型参数空间，为“为什么简单的模型合并（平均）在生物声学任务上有效，而复杂的冲突解决方法（如TIES）反而失效”提供了一个优雅的几何解释（任务向量近正交）。短板是应用场景相对垂直（多物种生物声学监测），其核心发现（基于频谱距离预测合并效果）的普适性有待在更广泛的音频任务（如通用声音事件检测）中验证，且合并后的模型精度（59.2%）相比联合训练基线（68.3%）仍有近10个百分点的明显差距。 🔗 开源详情代码：论文中未提及代码链接。论文摘要下方有“Code Link”字样，但后文未给出具体URL。模型权重：论文中未提及具体权重链接，但文中使用的预训练模型为BEATs (iter3+ AS2M) [chen2023beats]。数据集：论文使用了多个开源数据集，具体获取链接未在论文中给出，但引用中指明了来源平台： BirdCLEF 2023/2024/2025：来源为Kaggle竞赛数据集。 Watkins Marine Mammal Sound Database：来源为WHOI（伍兹霍尔海洋研究所）。 AnuraSet：来源为Zenodo。 BirdSet POW：来源为HuggingFace Datasets。（注：论文附录C和表格S3中提供了详细描述，但未给出具体项目主页URL。） Demo：论文中未提及。复现材料：论文附录提供了详细的训练协议。具体包括：完整超参数配置（附录D，表S2）。任务向量计算方法和存储格式（附录D.3）。复现所需的配置哈希（SHA-256前缀 c4c3cf3b）和随机种子设置（附录H）。所有实验的附加分析（附录E，包括数据效率、层级分析、持续学习等）。（注：论文未提供预训练检查点或具体代码的下载链接。）论文中引用的开源项目： BEATs：预训练音频模型。论文中引用[chen2023beats]，未提供具体链接。 Task arithmetic：模型合并方法。论文中引用[ilharco2023editing]，未提供具体链接。 TIES-Merging：冲突解决型合并方法。论文中引用[yadav2023ties]，未提供具体链接。 DARE：基于丢弃的合并方法。论文中引用[yu2024dare]，未提供具体链接。 DELLA：结合DARE和TIES的合并方法。论文中引用[panigrahi2024della]，未提供具体链接。 AudioSet：BEATs的预训练数据集。论文中引用[audioset]，未提供具体链接。补充信息 [细节详述] 补充：模型架构的关键设计动机之一是BEATs使用了LayerNorm，这使得合并后的编码器无需进行权重重新校准（原文2.5节：“BEATs uses LayerNorm, so merged encoders do not require recalibration."）。 ...

HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound #音频分类 #多模态模型 #数据集 #基准测试 #音频事件检测 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Robin Burchard（University of Siegen）通讯作者：未说明（论文中未明确指定通讯作者）作者列表：Robin Burchard（University of Siegen）、Pascal-André Brückner（University of Siegen）、Marius Bock（University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence）、Juergen Gall（University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence）、Kristof Van Laerhoven（University of Siegen） 💡 毒舌点评亮点在于其工程上的“洁癖”——用三击掌同步传感器、在家录制真实环境声、为隐私彻底静音人声，这种对数据质量近乎偏执的追求，是很多论文做不到的。短板则在于，花了大力气采集的环境传感器（温湿度、气压）数据，在最终的机器学习实验中几乎成了“鸡肋”，虽然可视化显示有响应，但消融实验未带来提升，暴露出如何有效融合这类低频、慢变上下文模态仍是开放问题。 ...

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频问答 #数据集 #多模态模型 #医学音频 #基准测试 ✅ 6.5/10 | 前25% | #音频问答 | #数据集 | #多模态模型 #医学音频 | arxiv 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Harshit Rajgarhia（未说明所属机构）通讯作者：论文中未提及作者列表：Harshit Rajgarhia（未说明）、Shuubham Ojha（未说明）、Asif Shaik（未说明）、Akhil Pothanapalli（未说明）、Rachuri Lokesh（未说明）、Abhishek Mukherji（未说明）、Prasanna Desikan（未说明） 💡 毒舌点评亮点：论文正视了医学音频领域数据获取难的痛点，并通过结合合成语音与真实临床对话的方式，构建了一个任务类型丰富、规模可观（46,701 QA对）的基准测试集，填补了该领域的评估空白。短板：摘要仅展示了评测结果（如Gemini 2.5 Pro仅68.1%），但对数据集构建过程中的关键技术（如合成语音如何“精心构造”以模拟伪影）、详细的实验对比分析（与其他音频QA或医学QA基准的对比）着墨甚少，使得其作为“基准”的深度和说服力略显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及具体的下载链接或开源协议。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。补充信息 [实验结果] 补充：论文中明确指出，对13个音频和多模态推理模型进行了评测，并观察到“性能在不同问题类型上存在显著差异”（substantial performance variation across question types）。尽管分析报告中提到“摘要未提供其他模型的具体性能数字”，这与原文信息一致，但原文中强调的“13个模型”这一具体数量和对“问题类型间差异”的观察是明确存在的事实，可以作为更完整的背景信息。（注：经仔细比对，提供的“深度分析结果”已全面且准确地覆盖了“论文原文”中所有实质性信息，包括模型架构（未提及）、实验结果核心数据（Gemini-2.5-pro约68.1%）、训练细节（不适用）、消融实验（未提及）、自我声明的局限性（分析中已推断）以及SOTA差距（仅提及单一模型结果）。原文本身为摘要性质，未提供更详细的实验数据、对比表格或消融分析，因此分析报告无法基于现有信息补充更多具体数值或细节。） ...

MG-Former: A Transformer-Based Framework for Music-Driven 3D Conducting Gesture Generation

📄 MG-Former: A Transformer-Based Framework for Music-Driven 3D Conducting Gesture Generation #音乐生成 #Transformer #对比学习 #跨模态 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #Transformer | #对比学习 #跨模态 | arxiv 学术质量 0.7/7 | 选题价值 0.7/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Ke Qiu (Malou Tech Inc) 通讯作者：未说明（论文中两位作者标注为“Contribute equally”，未明确通讯作者）作者列表：Ke Qiu (Malou Tech Inc)、Yawen Qin (South-Central Minzu University)、Tianzhi Jia (Beijing Jiotong University)、Xiaole Yang (ADVANCE.AI)、Kaimin Wang (Fudan University)、Kaixing Yang (Renmin University of China) 💡 毒舌点评亮点在于为指挥手势生成这一小众但高表现力的任务构建了从SMPL数据管线到检索评估的完整技术栈，体现了系统工程思维；短板是作为新提出的方法，仅与两个基线对比，且关键的数据集规模等细节模糊，使得“SOTA”宣称的分量稍显不足。 ...

NH-CROP: Robust Pricing for Governed Language Data Assets under Cost Uncertainty

📄 NH-CROP: Robust Pricing for Governed Language Data Assets under Cost Uncertainty #强化学习 #领域适应 #数据集 #模型评估 ✅ 7.5/10 | 前25% | #强化学习 | #强化学习 | #领域适应 #数据集 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xu Zheng（西安电子科技大学网络工程学院）通讯作者：Hui Li（西安电子科技大学网络工程学院，邮箱：lihui@mail.xidian.edu.cn）作者列表：Xu Zheng（西安电子科技大学网络工程学院）、Feiyu Wu（西安电子科技大学网络工程学院）、Zhuocheng Wang（西安电子科技大学网络工程学院）、Yiming Dai（西安电子科技大学网络工程学院）、Hui Li（西安电子科技大学网络工程学院） 💡 毒舌点评亮点在于明确区分了“成本不确定性”与“决策价值”，并设计了精巧的“无害门控”机制，这种将经济学直觉与在线学习框架结合的思路颇具启发性；短板在于实验主要基于轻量级代理模型（如TF-IDF+逻辑回归）和精心设计的合成/代理环境，虽然稳健性检查努力弥补，但其结论在面对真实世界、高维度的商业谈判或复杂成本结构时能否直接迁移，仍是一个显著的问号。 🔗 开源详情代码：论文中提及了代码仓库但未提供具体URL链接。文中说明“The implementation is organized into modules for environments, asset construction, agents, evaluation, and experiment scripts.”以及“Earlier diagnostic runs use the corresponding experiment-audit and verification-contribution-audit scripts in the released repository.”。模型权重：论文中未提及模型权重链接。文中提到了一个外部模型 intfloat/e5-small-v2（Wang et al., 2022），但未提供与本论文方法直接相关的自有模型权重。数据集：论文中引用了SST-2、AG News等数据集，但未提供专门的数据集获取链接。论文说明这些数据集用于构建真实代理基准，但隐私/访问成本是代理变量。 Demo：论文中未提及。复现材料：论文附录9提供了详细的基准构建、复现设置和实验脚本信息。包括：超参数设置（Table 6）。验证协议和复现脚本：python -m src.experiments.run_emnlp_final_audit --full。关键输出文件：tables/final_setting_method_summary.csv, raw/seed_level_results.csv 等。额外的稳健性检查使用 intfloat/e5-small-v2 进行工具性实用价值矩阵重建。论文中引用的开源项目： scikit-learn: 用于工具性逻辑回归模型。链接：https://scikit-learn.org/ intfloat/e5-small-v2: 在稳健性检查中使用的变压器模型，用于重构工具价值矩阵。链接：https://huggingface.co/intfloat/e5-small-v2 补充信息 [模型架构] 补充：在截断鲁棒定价组件中，截断操作并非简单地限制概率值，而是作用于“乐观购买概率估计”，即 clip(估计购买概率 + 探索奖励, 0, q_max)。这一设计的动机是防止在成本不确定时，因过度乐观的需求估计导致定价过高或过低，从而损害“安全净收益”（见公式7，方法部分3.2节）。此外，算法伪代码（附录8.4，Algorithm 1）清晰展示了NH-CROP的决策流程，包括如何根据门控结果选择“直接定价”、“风险意识定价”或“验证后定价”，这是一个在架构概览中未详细展开的关键执行逻辑。 [实验结果] 补充：分析中提及的表1是核心结果，但论文在附录10.1（表8）提供了更详细的非Oracle方法累积安全净收益汇总，并包含了配对t检验的p值。例如，在SYN-high设置中，NH+Clip方法的p值小于0.001，表明其相对于Price-Only UCB的提升具有统计显著性。此外，附录10.2（表9）展示了对Price-Only和Risk-Averse基线应用相同裁剪后的结果，揭示了裁剪并非对所有方法都有益，从而更有力地证明了NH-CROP中裁剪与“无害”结构结合的独特性。 [训练细节] 补充：虽然论文未在主文中详述学习率、Batch Size、优化器和训练硬件，但在附录9.6提供了核心超参数的验证选择协议。例如，q_max=0.8是在验证种子上选择的（表7），而风险参数λ和无害边际γ也是在验证集上选定的。实验在30个随机种子上平均，每个环境（如SYN-high）运行420轮。这些信息对理解实验设置的严谨性和可复现性至关重要。 [消融实验及其具体结果] 补充：分析中很好地概括了消融实验的结论，但可以更具体地引用表12（因果验证消融）和表17（CalVOI特征消融与泛化）的关键数据。例如，在RP-base设置中，完整策略（Full）与无验证变体（NoV）的累积安全净收益完全相同（37.59），验证频率为0.000（表12），这强有力地支持了“验证非主要增益来源”的结论。表17则具体展示了在高VOI、低验证成本设置下，CalVOI变体（如CalVOI-no-uncertainty）能获得统计显著的正向收益（+4.0449, p=0.0075），但在其他设置下则不然，这细化了“校准验证仅在特定条件下有效”的论断。 [论文自我声明的局限性] 补充：分析提及了主要局限性，但论文第7节明确列出了五点完整局限性，应完整引用：1) 真实代理基准的成本仍为代理变量，非真实市场/法律/合同成本；2) 效用评估基于轻量级模型（TF-IDF+LR），不代表大规模LLM微调或RAG等；3) 买家行为简化为二元反馈，未模拟战略谈判或预算化捆绑购买；4) 验证被建模为二元动作，而真实工作流可能涉及分阶段审查和异构审计成本；5) 未提供完整策略的理论后悔界分析。 [与SOTA的具体差距数值] 补充：分析正确指出论文未声称SOTA。需要澄清的是，本文主要与自身设计的基线（如Price-Only UCB, Risk-Averse UCB, TPIV-UCB）进行对比，并引入Oracle策略作为信息价值的上界。例如，在SYN-high中，Free Oracle策略比Price-Only UCB提升了17.30（累积安全净收益），这揭示了信息的巨大潜在价值，也定义了与“理想策略”的差距。论文的目标是提出一个更稳健的框架，而非在现有动态定价任务的特定排行榜上刷新SOTA。 📌 核心摘要问题：研究在受治理的语言数据资产市场中，平台方如何在仅能观察到粗略的隐私/访问成本估计的情况下，进行在线定价以最大化“安全净收益”（即收入减去不确定的真实成本和验证成本）。方法核心：提出NH-CROP框架，它包含两个关键设计：1）截断鲁棒定价：对乐观的购买概率估计进行截断，以避免在成本不确定时过度激进定价；2）无害信息获取门：将付费验证（获取更精确成本信号）视为可选动作，仅在验证的预期决策价值超过不验证的最佳选项（直接定价或风险意识定价）加一个边际值时才执行。与已有方法相比新在哪里：不同于简单地“不确定性高就验证”，本文强调验证的“决策价值”。也不同于标准动态定价，其优化目标是“安全净收益”，需同时考虑收入、不确定成本和验证成本。主要实验结果：在合成市场、真实代理基准和下游效用基准上的实验表明，截断的NH-CROP变体在所有设置中均优于或持平于价格优先的UCB基线。关键发现是：在真实代理和效用设置中，实际付费验证并非收益的主要来源，最强策略往往选择不验证（验证频率为0）。然而，Oracle分析显示，精确成本信息本身具有很高潜在价值，表明学习“何时验证”是核心挑战。表1展示了主要结果：设置 Price Price+Clip Risk Risk+Clip NH NH+Clip NH+Clip-NoV v-freq SYN-high 20.05 19.37 20.00 18.69 23.88 25.45 25.68 0.026 RP-base 35.63 34.43 36.00 34.46 37.59 38.01 38.01 0.000 RP-high-DV 20.59 19.74 20.87 19.79 22.13 23.42 23.42 0.000 UT-base 4.96 4.95 5.45 4.94 5.09 5.40 5.40 0.000 UT-high 5.08 4.61 5.02 4.77 5.13 5.41 5.41 0.000 实际意义：为数据平台提供了一种更谨慎、更稳健的定价策略：首先校准不确定性下的定价，仅在信息便宜且能改变决策时才支付成本去获取更多信息。主要局限性：1）隐私/访问成本仍为代理变量，非真实合同或法律成本；2）效用评估基于轻量级模型，不代表大规模LLM微调；3）买家行为简化为二元反馈；4）验证成本简化为二元动作；5）未提供完整的理论后悔界分析。 🏗️ 模型架构 ...

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #数据集 #多模态模型 #海洋科学 #知识图谱 #基准测试 ✅ 7.0/10 | 前25% | #数据集 | #知识图谱 | #多模态模型 #海洋科学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yida Xue (徐一达) (浙江大学计算机科学与技术学院，软件技术学院) 通讯作者：Ningyu Zhang (张宁钰) (浙江大学计算机科学与技术学院)， Guozhou Zheng (郑国舟) (舟山海洋研究中心) 作者列表：Yida Xue (浙江大学计算机科学与技术学院，软件技术学院)、Ningyu Zhang (浙江大学计算机科学与技术学院)、Tingwei Wu (浙江大学计算机科学与技术学院，软件技术学院)、Zhe Ma (浙江大学计算机科学与技术学院)、Daxiong Ji (软件技术学院)、Zhao Wang (软件技术学院)、Guozhou Zheng (舟山海洋研究中心)、Huajun Chen (浙江大学计算机科学与技术学院，海洋感知国家重点实验室) 💡 毒舌点评论文构建了一个非常全面且质量控制严格的海洋领域多模态数据集，从教科书到实地采集数据无所不包，是海洋AI领域一项扎实的基础工程。然而，实验部分仅展示了在开源小模型上微调的性能提升，缺乏更大规模模型预训练或与更多SOTA模型的直接比较，使得“基础模型”这一宏大目标的论证稍显薄弱。 ...

The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge

📄 The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge #语音情感识别 #多模态模型 #数据集 #基准测试 #多语言 ✅ 7.0/10 | 前50% | #语音情感识别 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文列出了多位作者，但未明确排序或指明第一作者）通讯作者：未说明（论文未明确指出通讯作者）作者列表：Panagiotis Tzirakis（未说明）、Alice Baird（未说明）、Jeffrey Brooks（未说明）、Emilia Parada-Cabaleiro（未说明）、Lukas Stappen（未说明）、Sharath Rao（未说明）、Theo Lebryk（未说明）、Jakub Piotr Cłapa（未说明）、Jens Madsen（未说明） 💡 毒舌点评亮点在于它提供了一个规模庞大、多语言、多模态的双人对话数据集，并设计了三个有层次的任务（影响、轮流、融洽）来系统评估人际动力学建模，填补了现有基准多偏向单说话人预测的空白。但短板也很明显：作为一篇挑战赛论文，其技术贡献主要停留在基线方法的设计上，而基线本身是极其简单的双层MLP，且实验部分仅展示了单一基线的结果，并未与任何复杂的现有SOTA方法进行对比分析，因此难以判断所提基准的实际挑战高度。 🔗 开源详情代码：论文中未提及代码链接。论文鼓励参与者上传代码以支持可复现性，但未在论文正文中提供具体代码仓库地址。模型权重：论文中未提及具体模型权重下载链接。论文提及提供了“baseline systems”（基线系统），但未给出模型权重的直接获取方式。数据集：数据集名称为Hume-DaiKon。论文指出，参与者需要完成 Hume AI 的最终用户许可协议（end-user license agreement）并遵循官方竞赛主页上提供的数据访问说明来获取数据。论文未给出数据集的直接下载 URL。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的基线实验描述，包括特征提取方法（使用Whisper-small和FaceNet）、模型架构（两层MLP编码器）、训练配置（优化器、学习率、损失函数等）以及评估指标。这些信息已足够用于复现论文中的基线实验。但未提及提供具体的训练配置文件或检查点下载链接。论文中引用的开源项目： Whisper (Whisper-small encoder)：用于音频特征提取。项目地址：https://github.com/openai/whisper FaceNet：用于视频（人脸）特征提取。论文引用的实现是 FaceNet，通常指 Google 的开源模型或其 PyTorch 实现。相关项目地址可参考：https://github.com/timesler/facenet-pytorch PyTorch：用于实现所有模型。项目地址：https://github.com/pytorch/pytorch Qwen2.5-72B-Instruct：用于生成 Rapport 伪标签的大语言模型。项目地址：https://github.com/QwenLM/Qwen2.5 vLLM：用于部署 Qwen2.5-72B-Instruct 以进行推理的引擎。项目地址：https://github.com/vllm-project/vllm 补充信息 [模型架构] 补充：在轮流发言预测任务中，时间头将预测值裁剪到 [-5, 10] 秒范围，此设计是为了同时适应预测发言间隙（正值）与重叠（负值）的情况。 [核心创新点] 补充：论文强调挑战旨在鼓励“文化意识建模”，其多语言数据集的设计就是为了支持这一点，这是其框架的重要动机之一。 [细节详述] 补充：数据集在发布时明确“旨在保留语料库的多语言特性，而不是将其限制在一两种语言中”，因此训练、验证和测试集都包含了五种语言的数据，并进行了分层划分。 [毒舌点评/核心摘要] 补充（对局限性的强调）：论文自身在结论中明确指出，基准的建立鼓励了“文化意识建模”的研究，但这也恰恰是其挑战所在，即模型需要具备跨文化泛化能力，而简单的基线并未涉及此维度。 📌 核心摘要这篇论文介绍了2026年ACII情感计算会议下的双人对话（DaiKon）工作坊与挑战赛。它旨在解决现有对话情感基准大多以单个说话人为中心，忽略了对话双方之间动态、耦合的人际过程（如单向影响、轮流发言、融洽关系发展）的问题。方法核心是基于新发布的Hume-DaiKon数据集（包含945段、743.4小时的五语种自然对话），设计三个相互关联的子挑战：预测说话人情感强度、预测下一说话人及发言时间、预测对话过程中的融洽关系轨迹。与已有工作相比，新在提供了一个统一的多语言、多模态基准框架，鼓励模型超越说话人中心预测，去建模人际间的时序依赖和动态交互。实验上，论文公布了基于简单MLP的基线结果：在情感影响预测任务上达到0.40 CCC / 0.50 Pearson；轮流发言任务上为0.66 Macro-F1 / 1.50秒 MAE；融洽预测任务上为0.68 CCC / 0.70 Pearson。主要结论是音频特征在各任务中表现最好，但简单的多模态融合并未带来提升，表明更复杂的时序建模和融合策略是必要的。其实际意义是为情感计算、人机交互、行为分析等社区提供了一个可复现的、聚焦于双人动态交互的研究平台和评估标准。主要局限性在于基线方法过于简单，未能充分展示任务的挑战性上限；同时，融洽关系的标签是通过大语言模型生成的伪标签，其可靠性未得到验证。 ...

Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization

📄 Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization #音频深度伪造检测 #滑动窗口 #数据集 #多语言 #评估指标 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #滑动窗口 | #数据集 #多语言 | arxiv 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Tung Vu（邮电学院，越南河内）通讯作者：Cong Tran（邮电学院，越南河内）作者列表：Tung Vu（邮电学院，越南河内）、Yen Nguyen（邮电学院，越南河内）、Hai Nguyen（邮电学院，越南河内）、Cuong Pham（邮电学院，越南河内）、Cong Tran（邮电学院，越南河内） 💡 毒舌点评亮点：该论文系统性地填补了“多区域语音修复伪造检测”这一重要但被忽视的细分领域的空白，从数据集构建（MIST）、检测框架（ISA）到专用评估指标（SF1@τ）提供了一套完整的解决方案，逻辑闭环。短板：当前提出的方法在零样本设置下性能极低（SF1@0.5仅1.2%），微调后虽大幅提升但仍属初步（SF1@0.5为31.4%），离实际可用还有很长的路要走，凸显了该任务本身的巨大挑战性。 🔗 开源详情代码：论文中提及代码已发布，但未提供具体的代码仓库链接（如 GitHub 链接）。模型权重：论文中未提及。数据集：MIST (Multi-region Inpainting Speech Tampering) 数据集。获取链接：https://huggingface.co/datasets/tung2308/MIST_SpeechInpaintingDataset Demo：论文中未提及。复现材料：论文中未提及具体的训练配置文件、检查点等复现材料。论文中引用的开源项目： Wav2Vec 2.0：https://huggingface.co/facebook/wav2vec2-base WavLM：https://huggingface.co/microsoft/wavlm-base-plus AASIST：https://github.com/JeonKang/AASIST (论文中引用但未提供直接链接，根据引用文献推断) RawNet2：论文中引用但未提供直接链接。 CosyVoice 3.0：论文中引用但未提供直接链接。 Gemini 2.0 Flash：论文中引用但未提供直接链接。 Multilingual LibriSpeech (MLS)：https://huggingface.co/datasets/openslr/librispeech_asr LEMAS-Dataset：论文中引用为开源语料库，但未提供直接链接。补充信息 [模型架构] 补充：论文详细解释了ISA各阶段超参数的设计动机。例如，粗扫描窗口 W=0.5s 的选择是基于MIST数据集中替换词的平均时长（0.3–0.6秒），确保每个伪造词至少被一个主导窗口覆盖。精细窗口 W'=0.15s 则提供了亚词级精度（±0.05秒）。同时，论文分析了ISA的计算效率：对于10秒音频，总分类器调用次数少于100次，在单GPU批处理下处理时间少于0.3秒，强调了其实用性。 [实验结果] 补充：论文图10提供了SF1@τ指标的具体计算示例，直观展示了IoU匹配、真阳性/假阳性/假阴性判定及最终F1分数的计算过程，这对理解新指标至关重要。此外，表12中零样本与微调性能的差距（SF1@0.5从1.2%跃升至31.4%）被进一步量化，明确指出骨干网络是性能瓶颈。 [消融实验] 补充：论文表10展示了粗扫描窗口大小 W 对性能的影响。结果显示 W=0.5s 是最佳平衡点，过小的窗口（0.15s）因Wav2Vec 2.0需要足够上下文而失效，过大的窗口（1.0s, 2.0s）则稀释了伪造信号，降低了敏感性。 [核心摘要/细节详述] 补充：论文在6.7节深入讨论了两个核心局限性：1）零样本性能低的根本原因是训练分布不匹配——骨干模型从未在部分修复数据上训练，其内部表征对单词级篡改不敏感；2）越南语表现差归因于三个具体因素：骨干模型对越南语音素不适应、ZipVoice生成的替换词平均时长更短（0.18秒 vs 英语0.26秒）、以及越南语声调可能被误判为说话人变异。这些分析比现有总结更为深入。 [与SOTA的差距] 补充：论文在零样本实验中明确指出，现有SOTA全段伪造检测器（如在ASVspoof上训练的分类器）对MIST伪造音频的伪造概率输出接近于0（例如，一个2词修复样本的p(fake)=0.0001），这直观量化了现有方法在细粒度修复场景下的完全失效。 📌 核心摘要要解决什么问题：针对日益逼真的部分语音修复（仅替换1-3个单词）伪造攻击，现有音频伪造检测基准和方法集中于整段伪造或单区域伪造，缺乏对多伪造区域、未知区域数量场景下的检测与定位能力。方法核心是什么：论文提出三位一体的解决方案：(1) MIST数据集：一个大规模、多语言（6种语言）的基准，每个音频包含1-3个独立修复的单词区域，伪造内容仅占2-7%。(2) ISA方法：一个与骨干网络无关的“迭代片段分析”框架，通过粗扫描、区域提议与合并、边界精炼三步，无需预先知道伪造区域数量，即可定位所有被篡改区域。(3) SF1@τ指标：一个基于时间交并比匹配的片段级F1分数，联合评估区域计数准确性和定位精度。与已有方法相比新在哪里：首次针对多区域、未知数量的语音修复伪造提出检测与定位问题；提供了首个专门用于此场景的大规模多语言数据集（MIST）；提出了无需预先知道区域数量的滑动窗口迭代定位框架（ISA）；定义了适用于此任务的专用评估指标（SF1@τ）。主要实验结果如何：在零样本设置下，现有最先进的全段伪造检测器几乎完全失效（给伪造音频打分接近0）。ISA框架在所有语言和变体上一致优于帧级和单窗口基线。例如，在英语测试集上，零样本ISA的SF1@0.3为9.1%，CA为26.2%。当骨干网络在MIST上微调后，性能大幅提升，整体SF1@0.5从1.2%升至31.4%（见表6、7、12）。实验结果如下表所示：方法 SF1@0.3 SF1@0.5 CA mIoU Frame-level 5.9 0.7 24.2 6.5 Single-window 6.9 1.0 24.5 7.2 ISA (ours) 8.1 1.2 25.1 7.8 表6：MIST测试集上多区域定位结果（所有语言聚合）实际意义是什么：为应对新型语音伪造威胁提供了关键的研究基准、方法思路和评估工具。揭示了当前主流伪造检测器的严重盲区，推动了细粒度语音取证领域的发展。主要局限性是什么：(1) 当前最佳性能（微调后SF1@0.5为31.4%）仍远未达到实用水平；(2) 骨干网络的性能是主要瓶颈，需要针对部分伪造任务的专门训练；(3) 方法在越南语等语言上性能较低，多语言泛化能力有待加强。 🏗️ 模型架构本文提出的ISA（迭代片段分析）框架是一个推理时的管道，用于将一个仅支持整段分类的伪造检测器，转化为能够定位多个伪造片段的系统。其整体架构如下图所示：图9：迭代片段分析（ISA）流程图。Stage 1产生粗置信度图并标记可疑窗口；Stage 2将可疑窗口合并为候选区域；Stage 3对每个候选区域进行精细分析，收紧边界并过滤误报。 ...

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音频大模型 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyue Tian (Hong Kong University of Science and Technology) 通讯作者：Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 作者列表：Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 💡 毒舌点评本文的亮点在于构建了一个工程上非常扎实的统一框架，其设计的多模态自适应融合模块（MAF）有效解决了不同模态信号干扰的问题，并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于，尽管实验全面，但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入，对于“任何东西”（如图像、草图等）的泛化能力论证不足，更像一个“文本/视频/音频到音频”的强统一模型。 ...

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #流匹配 #基准测试 #数据集 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Yuhang He (Microsoft Research) 通讯作者：Yuhang He (Microsoft Research) 作者列表：Yuhang He (Microsoft Research), He Liang (University of Oxford, Department of Computer Science), Yash Jain (Microsoft Research), Andrew Markham (Microsoft Research), Vibhav Vineet (Microsoft Research) 💡 毒舌点评亮点：本文核心贡献在于为“关系感知文本到音频生成”这一被忽视的子任务，系统性地构建了两个大规模、高质量的专用数据集（AudioEventSet 和 AudioRelSet）和一套完整的评测基准，精准填补了领域空白。短板：论文的“方法”部分更多是基于现有基线模型（如TangoFlux）进行评测和简单的微调实验，缺乏一个针对关系感知生成提出全新、完整架构的深度技术方案，创新性更偏向数据与评测而非模型本身。 ...