数据集 | 语音/音乐/音频论文速递

Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation #语音合成 #情感语音合成 #特征调制 #流匹配 #多任务学习 #数据集 ✅ 7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Sirui Wang（哈尔滨工业大学）通讯作者：Tiejun Zhao*（哈尔滨工业大学）作者列表：Sirui Wang（哈尔滨工业大学）、Andong Chen（哈尔滨工业大学）、Tiejun Zhao（哈尔滨工业大学） 💡 毒舌点评亮点：论文首次在LLM-TTS框架中实现了单词级的情感动态控制，概念清晰，并通过构建专用的FEDD数据集和详实的消融实验，有力地证明了其方法的有效性，实验设计相当规范。短板：然而，整个框架严重依赖于一个未完全公开细节的预训练模型（CosyVoice2），且代码和模型均未开源，这使得其“可复现性”大打折扣，更像是在现有强大基座上添加了一个精巧的模块，而非一个能独立复现和推广的完整解决方案。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中提及构建了FEDD数据集，但未说明是否公开及获取方式。 Demo：论文中未提及在线演示。复现材料：给出了部分训练细节（优化器、batch size、epoch），但关键模型架构（基于CosyVoice2）和更详尽的超参数配置未说明，不足以完全复现。论文中引用的开源项目：明确提及并使用了emotion2vec（特征提取）、CosyVoice2（生成框架）、Montreal Forced Aligner (MFA)（对齐）、HiFi-GAN（声码器）、Whisper-Large-v3（WER评估）等开源工具或模型。整体开源计划：论文中未提及开源计划。 📌 核心摘要本文针对现有情感语音合成（E-TTS）方法大多依赖句子级全局情感控制（如标签、参考音频或提示）无法捕捉句内情感动态变化的问题，提出了Emo-FiLM框架。该方法的核心是：1）利用预训练的emotion2vec模型提取帧级情感特征，并通过一个轻量级Transformer模型将其对齐到单词，生成单词级的情感类别和强度标注；2）在预训练的LLM-TTS（CosyVoice2）框架中引入一个情感特征线性调制（E-FiLM）模块，将单词级的情感信息映射为文本嵌入的缩放和偏移参数，从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力，论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明，在FEDD数据集上，Emo-FiLM在情感动态匹配（DTW）指标上比最强基线（CosyVoice2）提升了9.1%（从54.57降至49.62），在主观情感相似度（EMOS）和自然度（NMOS）上也取得最佳成绩（4.19和4.23）。消融实验证实，单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向，其主要局限在于依赖特定预训练模型且未开源代码，限制了复现与推广。 ...

BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations

📄 BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations #生物声学 #时频分析 #模型比较 #数据集 ✅ 7.5/10 | 前25% | #生物声学 | #时频分析 | #模型比较 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构基于当前提供的论文内容：第一作者：Tianyu Song (九州大学生物资源与生物环境科学研究生院) 通讯作者：Ton Viet Ta (九州大学农学院) 作者列表：Tianyu Song (九州大学生物资源与生物环境科学研究生院)，Ton Viet Ta (九州大学农学院)，Ngamta Thamwattana (纽卡斯尔大学信息与物理科学学院)，Hisako Nomura (九州大学农学院)，Linh Thi Hoai Nguyen (九州大学国际碳中和能源研究所) 💡 毒舌点评本文精准地瞄准了生物声学信号增强这一“蓝海”问题，并通过三个针对性设计的模块（MSDA， BHME， EAGC）有效提升了性能，其计算效率优势显著，体现了扎实的工程优化能力。然而，论文中的消融实验结果存在明显的指标矛盾（如CSCConv-AE+MSDA的SNR为负），且核心贡献主要是在现有语音增强框架上的适配与组合创新，缺乏根本性的理论或架构突破，代码和模型权重的缺失也削弱了其即时影响力。 ...

Bleed No More: Generative Interference Reduction for Musical Recordings

📄 Bleed No More: Generative Interference Reduction for Musical Recordings #音乐源分离 #生成模型 #对抗学习 #数据集 ✅ 7.0/10 | 前25% | #音乐源分离 | #生成模型 | #对抗学习 #数据集学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Rajesh R (University of Illinois Chicago) 通讯作者：未说明作者列表：Rajesh R (University of Illinois Chicago)、Rashen Fernando (University of Illinois Chicago)、Padmanabhan Rajan (Indian Institute of Technology Mandi)、Ryan M. Corey (University of Illinois Chicago) 💡 毒舌点评本文精准地切入“干扰消除”而非“源分离”这一细分赛道，用条件生成对抗网络给出了一个干净利落的技术方案，在跨风格测试（印度古典音乐）上展现出不错的泛化能力，是“小题大做”的典范。然而，核心生成器工作在幅度谱上并复用输入相位，这几乎是音频增强领域的“经典妥协”，导致SAR指标普遍偏低，论文对此的讨论止于局限性陈述，未能提出更优的相位处理方案，略显保守。 ...

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

📄 CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries #音频检索 #多模态模型 #预训练 #迁移学习 #数据集 🔥 8.5/10 | 前25% | #音频检索 | #迁移学习 | #多模态模型 #预训练学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Hokuto Munakata（LY Corporation）通讯作者：未说明（论文中通讯作者符号*对应作者列表第二位Takehiro Imamura，但未明确其通讯作者身份）作者列表：Hokuto Munakata（LY Corporation）、Takehiro Imamura（名古屋大学）、Taichi Nishimura（LY Corporation）、Tatsuya Komatsu（LY Corporation） 💡 毒舌点评本文最大的贡献是为音频时刻检索任务“修桥铺路”，用一个规模空前（相比前作大24倍）且质量可控的真实世界数据集，终结了该任务依赖合成数据或极小测试集的尴尬历史，让后续研究得以立足于可靠地基之上。然而，它也清晰地揭示了一个残酷现实：即便有了优质数据，当前模型在检索短时刻（<10秒）时依然表现糟糕，这恐怕是未来比数据规模更难啃的骨头。 🔗 开源详情代码：论文未直接提供代码仓库链接，但承诺“Upon paper acceptance, we will provide the recipe for this experiment”，并提及实验基于开源库 Lighthouse。因此，复现所需的训练脚本、配置文件等预计将在论文接收后开源。模型权重：未提及公开预训练或微调后的模型权重。数据集：是，CASTELLA数据集已公开。获取地址：https://h-munakata.github.io/CASTELLA-demo/。 Demo：是，提供了数据集的在线演示页面（同上链接）。复现材料：提供了实验的超参数设置（优化器、学习率、批大小）、使用的特征提取器（MS-CLAP）、以及训练框架（Lighthouse）。论文中引用的开源项目：特征提取器：MS-CLAP [14] (https://github.com/LAION-AI/CLAP) 实验框架：Lighthouse [30] (https://github.com/taichi-m108/lighthouse) DETR网络：引用了QD-DETR [24], Moment-DETR [25], UVCOM [26] 的原始论文。优化器：AdamW [29]。 📌 核心摘要要解决什么问题：音频时刻检索（AMR）任务长期缺乏大规模、真实世界的人工标注基准数据集，导致现有模型性能评估不可靠，且训练严重依赖合成数据。方法核心是什么：构建了CASTELLA数据集。它包含1862个1-5分钟的YouTube音频，每个音频配有全局摘要描述、多个局部关键事件描述及其精确的起止时间边界。同时，基于该数据集，采用预训练音频-文本模型（CLAP）结合检测Transformer（DETR）架构建立了基线模型。与已有方法相比新在哪里：CASTELLA是首个满足AMR任务三大核心需求（长音频、自由格式描述、时间边界）的大规模真实世界数据集。其标注规模（约1.9k音频）是此前人工标注数据集（UnAV-100子集）的24倍以上。此外，论文首次系统验证了“在合成数据上预训练，再在真实数据集上微调”的两阶段训练策略的有效性。主要实验结果如何：实验证明，使用CASTELLA进行微调能显著提升性能。仅在合成数据集（Clotho-Moment）上训练的模型Recall1@0.7为5.8；仅在CASTELLA上训练为9.7；而在合成数据预训练后于CASTELLA微调的模型达到16.2，提升10.4点。不同架构对比中，UVCOM模型表现最优（Recall1@0.7: 20.3）。实验还发现，模型对短时刻（<10秒）的检索能力明显较弱（见图3）。索引 DETR网络训练数据 R1@0.5 R1@0.7 mAP@0.5 mAP@0.75 mAP@avg. 1 QD-DETR Clotho-Moment 10.3 5.8 9.9 4.7 5.3 2 - CASTELLA 19.8 9.7 17.6 5.9 7.7 3 - 两者 30.6 16.2 26.5 12.2 13.7 4 Moment-DETR 两者 19.3 10.8 17.2 7.0 8.2 5 UVCOM 两者 31.7 20.3 28.4 15.2 15.9 实际意义是什么：为音频理解领域，特别是音频时刻检索任务，提供了一个可靠的评估基准和训练资源，推动了该任务从合成数据走向真实应用。主要局限性：1）数据集规模虽相对前作巨大，但对于深度学习而言仍属中等；2）音频均来自YouTube，可能存在领域偏差；3）短时刻检索仍是巨大挑战；4）论文未探索更先进的音频表示学习模型或更复杂的检索架构。 🏗️ 模型架构论文中的基线模型基于 AM-DETR 架构，该架构受视频时刻检索（VMR）模型启发。 ...

Clue2Emo: A Brain-Inspired Framework for Open-Vocabulary Multimodal Emotion Recognition

📄 Clue2Emo: A Brain-Inspired Framework for Open-Vocabulary Multimodal Emotion Recognition #语音情感识别 #多模态模型 #大语言模型 #数据集 🔥 8.5/10 | 前25% | #语音情感识别 | #多模态模型 | #大语言模型 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ziyun Zhang (Ziyun Zhang1,2,†)（北京理工大学医学技术学院，深圳北理莫斯科大学人工智能研究院）第一作者：Jian Chen (Jian Chen3,†)（香港大学电气与电子工程系）通讯作者：Chengming Li (Chengming Li2,∗)（深圳北理莫斯科大学人工智能研究院）通讯作者：Xiping Hu (Xiping Hu1,2,∗)（北京理工大学医学技术学院，深圳北理莫斯科大学人工智能研究院）作者列表： Ziyun Zhang (北京理工大学医学技术学院，深圳北理莫斯科大学人工智能研究院) Jian Chen (香港大学电气与电子工程系) Yuxuan Hu (香港城市大学数据科学系) Zhen Zhang (深圳北理莫斯科大学人工智能研究院) Xiaoyan Yuan (北京理工大学医学技术学院，深圳北理莫斯科大学人工智能研究院) Min Yang (中国科学院深圳先进技术研究院) Xiangyu Zhao (香港城市大学数据科学系) Edith C. H. Ngai (香港大学电气与电子工程系) Chengming Li (深圳北理莫斯科大学人工智能研究院) Xiping Hu (北京理工大学医学技术学院，深圳北理莫斯科大学人工智能研究院) 💡 毒舌点评论文提出了一个理论上优雅的“感知线索→推理”两阶段框架，并首次为情感识别构建了“感官线索”数据集MER-CLUE，这为提升黑盒模型的可解释性提供了有希望的路径。然而，其工程实现的细节模糊（如训练硬件、具体超参数未说明）以及代码、模型权重的缺位，让其“可复现性”大打折扣，使得这一精巧的设计目前更像一个高质量的“概念验证”而非开箱即用的解决方案。 ...

CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures

📄 CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #语音分离 #多任务学习 #数据集 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #语音分离 | #多任务学习 #数据集学术质量 4.7/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xueping Zhang（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）通讯作者：Ming Li（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）作者列表： Xueping Zhang（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心） Yechen Wang（OfSpectrum, Inc., Los Angeles, USA） Linxi Li（OfSpectrum, Inc., Los Angeles, USA） Liwei Jin（OfSpectrum, Inc., Los Angeles, USA） Ming Li（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心） 💡 毒舌点评亮点：敏锐地捕捉并定义了“成分级伪造”这一更隐蔽的攻击新范式，并为此构建了首个配套数据集和完整的端到端解决方案，框架设计逻辑自洽。短板：提出的数据集规模较小（2500条），且环境声伪造检测效果显著弱于语音伪造检测，说明所提的“专用环境声反欺骗模型”（直接复用XLSR-AASIST）可能并不完全适配，成为系统性能短板。 ...

Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

📄 Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens #语音增强 #生成模型 #数据集 #语音合成 ✅ 6.5/10 | 前50% | #语音增强 | #生成模型 | #数据集 #语音合成学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kazuki Yamauchi (CyberAgent, 日本；东京大学，日本) 通讯作者：未明确说明（论文中未提供通讯作者标识，通常通讯作者会标注星号或邮箱特殊，此处无法判断）作者列表：Kazuki Yamauchi（CyberAgent，东京大学）、Masato Murata（CyberAgent）、Shogo Seki（CyberAgent） 💡 毒舌点评亮点：论文精准地抓住了生成式语音增强（GSE）模型一个非常具体但关键的工程痛点——“听起来干净但内容错误的幻觉”，并提出了一个简洁、即插即用且无需干净参考的解决方案（模型自身置信度），实验验证了该方案在提升下游TTS任务性能上的实际效用。短板：创新本质上是对语言模型困惑度概念的直接迁移，缺乏理论层面的深入剖析；且实验完全依赖于单个骨干模型（Genhancer）和单个任务（TTS数据策划），方法的普适性和泛化能力存疑。 🔗 开源详情代码：论文中未提及任何由作者提供的代码仓库链接。复现依赖于对引用的开源项目（Genhancer, DAC, WavLM, Matcha-TTS, HiFi-GAN等）的自行整合与训练。模型权重：未提及公开任何作者训练的模型权重（如经过TITW-hard数据训练的GSE模型或策划后数据训练的TTS模型）。数据集：使用的数据集（LibriTTS-R, TITW-hard, EARS-WHAM等）均为公开数据集，可通过相应链接获取。 Demo：未提供在线演示。复现材料：提供了非常详细的训练配置（模型架构、数据集划分、硬件、训练步数、关键超参数如温度），并引用了所有依赖工具的官方代码库，复现基础较好。论文中引用的开源项目：Genhancer, Descript Audio Codec (DAC), WavLM, Matcha-TTS, HiFi-GAN, UTMOS, DNSMOS, Whisper, CTC score工具包, URGENT Challenge评估工具等。总体开源计划：论文中未提及额外的开源计划（如未来公开代码或模型）。 📌 核心摘要要解决的问题：生成式语音增强（GSE）模型在清理嘈杂语音数据集时，可能产生“幻觉错误”（如音素遗漏、说话人不一致）。传统的非侵入式语音质量评估指标（如DNSMOS）难以检测此类错误，而可检测的侵入式指标又因需要干净参考而在实际野外数据集策划中不可用。方法核心：提出一种非侵入式过滤方法，利用基于离散token的GSE模型（如Genhancer）生成过程中，第一层量化器token的对数概率平均值作为置信度分数，来量化模型对生成结果的“确定性”。低置信度样本被视为可能包含幻觉错误而被过滤。新意所在：将生成模型的内部置信度（类似于语言模型的困惑度）作为数据质量评估的信号，专门用于检测和过滤GSE模型特有的幻觉错误。与常规使用外部模型（如Whisper）或基于输出音频特征（如DNSMOS）的过滤方法不同，这是模型对自身输出的“自评估”。主要实验结果：指标相关性：在EARS-WHAM数据集上，提出的置信度分数与多种侵入式SE指标（如PESQ, SpeechBERTScore, LPS）的Spearman相关系数（SRCC）高达0.788-0.892（见下表），显著优于UTMOS、DNSMOS等常规非侵入指标。过滤效果：在相同数据保留率下，使用置信度过滤在所有侵入式指标上均优于单指标或双指标基线过滤方法。下游任务提升：在TITW-hard野外数据集上，使用置信度过滤后的数据训练TTS模型（Matcha-TTS），其合成语音的UTMOS（3.80）和DNSMOS（3.17）评分以及WER（18.14%）均优于使用未过滤数据的基线（见下表）。实际意义：为利用GSE模型策划高质量TTS训练数据提供了一种有效、易用的质量控制手段，能够显著提升下游TTS模型的性能，具有明确的工程应用价值。主要局限性：方法局限于基于离散token的GSE模型；阈值选择需实验确定（存在质量与数据量的权衡）；核心创新思想相对直接，未提供理论解释为何置信度与幻觉错误相关。表1：提出的置信度分数与其他非侵入指标与侵入指标的SRCC（摘要自论文表1，关键行） ...

Content Leakage in Librispeech and its Impact on the Privacy Evaluation of Speaker Anonymization

📄 Content Leakage in Librispeech and its Impact on the Privacy Evaluation of Speaker Anonymization #语音匿名化 #模型评估 #数据集 #鲁棒性 ✅ 7.5/10 | 前25% | #语音匿名化 | #模型评估 #数据集 | #模型评估 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Carlos Franzreb（DFKI, 德国）通讯作者：未说明作者列表：Carlos Franzreb（DFKI, 德国）、Arnab Das（DFKI, 德国）、Tim Polzehl（DFKI, 德国）、Sebastian Möller（柏林工业大学, 德国） 💡 毒舌点评亮点：论文像一名侦探，敏锐地抓住了“说话人匿名化”评估中的一个核心悖论——如果匿名化旨在隐藏身份但保留内容，而内容本身却能暴露身份，那么评估就失去了公平性。研究通过严密的实验设计，将这个潜在的“房间里的大象”清晰地揭示了出来。短板：文章的核心贡献是提出了问题并推荐了一个更好的“考场”（EdAcc），而非提供解决“考试作弊”（内容泄露攻击）的新“防作弊技术”或新的匿名化算法。对于寻求具体算法改进的读者而言，其直接的技术增量有限。 🔗 开源详情代码：论文中未提及提供新的代码仓库。评估框架SpAnE [5]是作者此前工作，但论文未给出链接。模型权重：未提及公开本文使用的模型权重。数据集：使用了两个公开数据集Librispeech和EdAcc。论文未提供EdAcc的获取链接，但EdAcc [4]是公开发布的。 Demo：未提及。复现材料：论文详细描述了评估流程、数据划分、特征提取方法（音素识别器、ECAPA-TDNN），足以让同行按照相同设置进行复现分析。论文中引用的开源项目： SpeechBrain ECAPA-TDNN [7] Whisper ASR [10] NeMo TTS (FastPitch + HiFiGAN) [11, 12] SpAnE评估框架 [5] private kNN-VC中的音素识别器 [15] g2p模型和CMU发音词典（用于音素转换） 📌 核心摘要问题：当前评估说话人匿名化系统（隐私保护能力）的标准数据集Librispeech存在严重缺陷：由于是有声书录音，不同说话人朗读的书籍内容差异巨大，导致攻击者可以仅通过识别说话的“词汇内容”来识别身份，即使身份信息（音色等）已被完美匿名化。方法：作者提出并验证了这一假设。他们采用了一个“完美”的匿名化器（STT-TTS流水线），它转换了所有副语言信息，只保留转录文本。通过设计仅利用音素频率、音素时长或纯音素序列的攻击者，证明了即使匿名化后，Librispeech的说话人仍能被较好地识别（EER低至32.3%），其根源就是泄露的内容。创新：1) 首次系统性地揭示了Librispeech内容泄露对隐私评估的干扰；2) 提出并证明EdAcc（自发对话数据集）的内容泄露显著更少，是更公平的评估数据集；3) 提出利用EdAcc的丰富元数据（如口音）进行“人口统计学分段”的隐私评估（内/组间EER），以检测匿名化对不同人群的公平性。主要实验结果：关键数据见下表。实验表明，对于STT-TTS匿名化后的Librispeech，使用音素时长特征攻击的EER（34.5%）与使用频谱图特征（34.8%）几乎相同，证实了攻击完全基于内容。而EdAcc在相同条件下的EER显著更高（45.0%），证明其内容泄露更少。数据集特征原始语音EER(%) STT-TTS匿名化EER(%) Librispeech 频谱图 0.4 34.8 音素+时长 23.7 34.5 纯音素 30.4 32.3 EdAcc 频谱图 6.5 45.9 音素+时长 39.0 45.0 纯音素 42.1 48.5 实际意义：该研究对语音隐私评估社区有重要警示作用，建议在评估匿名化系统时，必须考虑或换用像EdAcc这样内容泄露更少的数据集，以获得更准确、更公平的隐私保护性能估计。其提出的分段评估方法有助于发现匿名化对不同人群的不公平性。局限性：EdAcc数据集规模远小于Librispeech（22小时 vs 数百小时），可能带来训练数据不足的问题。论文主要诊断了问题，但并未提出直接针对“内容泄露攻击”的新防御方法。内容泄露在EdAcc中依然存在（尽管较弱），并非完全解决。 🏗️ 模型架构本文并非提出一个新的端到端匿名化模型，而是一项针对评估方法论的分析研究。其核心“架构”是评估流程： ...

CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content

📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content #跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试 ✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gyuwon Han (Chung-Ang University) 通讯作者：Chanho Eom (Chung-Ang University) 作者列表：Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University) 💡 毒舌点评论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求，并为此构建了首个音视频组合变化的检索基准，填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均，技术复杂度较低，核心模型架构创新有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/perceptualai-lab/CoVA/ 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：论文中构建了AV-Comp基准数据集，并提供了在线演示页面，但未明确说明数据集的公开下载方式。数据集地址：https://perceptualai-lab.github.io/CoVA/ Demo：提供了在线演示：https://perceptualai-lab.github.io/CoVA/ 复现材料：论文提供了实验设置、关键超参数（学习率、批大小、轮数）和训练硬件信息。未提供训练日志、配置文件或检查点。论文中引用的开源项目： CLIP（视觉和文本编码器） AST（音频编码器） Qwen2.5-VL-32B-Instruct（用于生成视频描述） Gemini（用于生成修改文本） AudioCaps 2.0（提供人工标注的音频描述） 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）方法仅考虑视觉内容的修改，忽略了音频对用户检索意图的关键影响，导致视觉相似但音频不同的视频被错误地视为语义等价。方法核心是什么：提出了CoVA任务和AV-Comp数据集。方法上，提出了AVT Compositional Fusion模块，该模块通过一个简单的MLP为来自参考视频、修改文本（拆分为对象、动作、属性、音频四个方面）的每个特征分量预测一个权重，然后进行加权融合，以动态适应查询语义。与已有方法相比新在哪里：首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合，能更有效地利用多模态信息。主要实验结果如何：在AV-Comp测试集上，CoVA（使用CLIP-L编码器）达到了35.9% R@1，显著优于LanguageBind（27.17%）和ImageBind（20.2%）。消融实验证明移除任何文本组件（对象、动作、属性、音频）都会导致性能下降，证实了四个组件的必要性。主要结果对比如下表：方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 实际意义是什么：为音视频内容的精细检索提供了新的范式和评估基准，推动多模态检索模型更全面地理解人类的多感官意图。主要局限性是什么：AVT模块设计相对简单，其性能提升部分依赖于更换了更强的文本编码器（CLIP-L）。数据集构建过程依赖于现成的视觉/音频描述生成模型（Qwen2.5-VL, Gemini），可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。 🏗️ 模型架构 CoVA框架整体分为三个模块：特征提取、门控融合Transformer（GFT）和AVT组合融合。其完整流程如下： ...

Cross-Lingual Interleaving for Speech Language Models

📄 Cross-Lingual Interleaving for Speech Language Models #语音大模型 #预训练 #多语言 #数据集 #基准测试 ✅ 7.5/10 | 前25% | #语音大模型 | #预训练 #多语言 | #预训练 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Adel Moumen（Department of Engineering, University of Cambridge, UK）通讯作者：未说明作者列表：Adel Moumen（Department of Engineering, University of Cambridge, UK）、Guangzhi Sun（Department of Engineering, University of Cambridge, UK）、Philip C. Woodland（Department of Engineering, University of Cambridge, UK） 💡 毒舌点评亮点在于思路简洁直接：将单语序列训练推广到多语言交错序列，在不引入文本的前提下激发了SLM的跨语言潜力，实验设计也严格控制了训练语料总量这一关键变量。但短板同样明显：其核心验证仅依赖于由GPT-4合成的英法对齐数据集，且故事场景相对简单，这让人怀疑该方法在真实世界复杂声学环境和多样语义下的泛化能力是否被高估。 ...