OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #数据集 #多模态模型 #海洋科学 #知识图谱 #基准测试 ✅ 7.0/10 | 前25% | #数据集 | #知识图谱 | #多模态模型 #海洋科学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yida Xue (徐一达) (浙江大学计算机科学与技术学院, 软件技术学院) 通讯作者:Ningyu Zhang (张宁钰) (浙江大学计算机科学与技术学院), Guozhou Zheng (郑国舟) (舟山海洋研究中心) 作者列表:Yida Xue (浙江大学计算机科学与技术学院, 软件技术学院)、Ningyu Zhang (浙江大学计算机科学与技术学院)、Tingwei Wu (浙江大学计算机科学与技术学院, 软件技术学院)、Zhe Ma (浙江大学计算机科学与技术学院)、Daxiong Ji (软件技术学院)、Zhao Wang (软件技术学院)、Guozhou Zheng (舟山海洋研究中心)、Huajun Chen (浙江大学计算机科学与技术学院, 海洋感知国家重点实验室) 💡 毒舌点评 论文构建了一个非常全面且质量控制严格的海洋领域多模态数据集,从教科书到实地采集数据无所不包,是海洋AI领域一项扎实的基础工程。然而,实验部分仅展示了在开源小模型上微调的性能提升,缺乏更大规模模型预训练或与更多SOTA模型的直接比较,使得“基础模型”这一宏大目标的论证稍显薄弱。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 302 words

The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge

📄 The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge #语音情感识别 #多模态模型 #数据集 #基准测试 #多语言 ✅ 7.0/10 | 前50% | #语音情感识别 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文列出了多位作者,但未明确排序或指明第一作者) 通讯作者:未说明(论文未明确指出通讯作者) 作者列表:Panagiotis Tzirakis(未说明)、Alice Baird(未说明)、Jeffrey Brooks(未说明)、Emilia Parada-Cabaleiro(未说明)、Lukas Stappen(未说明)、Sharath Rao(未说明)、Theo Lebryk(未说明)、Jakub Piotr Cłapa(未说明)、Jens Madsen(未说明) 💡 毒舌点评 亮点在于它提供了一个规模庞大、多语言、多模态的双人对话数据集,并设计了三个有层次的任务(影响、轮流、融洽)来系统评估人际动力学建模,填补了现有基准多偏向单说话人预测的空白。但短板也很明显:作为一篇挑战赛论文,其技术贡献主要停留在基线方法的设计上,而基线本身是极其简单的双层MLP,且实验部分仅展示了单一基线的结果,并未与任何复杂的现有SOTA方法进行对比分析,因此难以判断所提基准的实际挑战高度。 🔗 开源详情 代码:论文中未提及代码链接。论文鼓励参与者上传代码以支持可复现性,但未在论文正文中提供具体代码仓库地址。 模型权重:论文中未提及具体模型权重下载链接。论文提及提供了“baseline systems”(基线系统),但未给出模型权重的直接获取方式。 数据集:数据集名称为Hume-DaiKon。论文指出,参与者需要完成 Hume AI 的最终用户许可协议(end-user license agreement)并遵循官方竞赛主页上提供的数据访问说明来获取数据。论文未给出数据集的直接下载 URL。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了详细的基线实验描述,包括特征提取方法(使用Whisper-small和FaceNet)、模型架构(两层MLP编码器)、训练配置(优化器、学习率、损失函数等)以及评估指标。这些信息已足够用于复现论文中的基线实验。但未提及提供具体的训练配置文件或检查点下载链接。 论文中引用的开源项目: Whisper (Whisper-small encoder):用于音频特征提取。项目地址:https://github.com/openai/whisper FaceNet:用于视频(人脸)特征提取。论文引用的实现是 FaceNet,通常指 Google 的开源模型或其 PyTorch 实现。相关项目地址可参考:https://github.com/timesler/facenet-pytorch PyTorch:用于实现所有模型。项目地址:https://github.com/pytorch/pytorch Qwen2.5-72B-Instruct:用于生成 Rapport 伪标签的大语言模型。项目地址:https://github.com/QwenLM/Qwen2.5 vLLM:用于部署 Qwen2.5-72B-Instruct 以进行推理的引擎。项目地址:https://github.com/vllm-project/vllm 补充信息 [模型架构] 补充:在轮流发言预测任务中,时间头将预测值裁剪到 [-5, 10] 秒范围,此设计是为了同时适应预测发言间隙(正值)与重叠(负值)的情况。 [核心创新点] 补充:论文强调挑战旨在鼓励“文化意识建模”,其多语言数据集的设计就是为了支持这一点,这是其框架的重要动机之一。 [细节详述] 补充:数据集在发布时明确“旨在保留语料库的多语言特性,而不是将其限制在一两种语言中”,因此训练、验证和测试集都包含了五种语言的数据,并进行了分层划分。 [毒舌点评/核心摘要] 补充(对局限性的强调):论文自身在结论中明确指出,基准的建立鼓励了“文化意识建模”的研究,但这也恰恰是其挑战所在,即模型需要具备跨文化泛化能力,而简单的基线并未涉及此维度。 📌 核心摘要 这篇论文介绍了2026年ACII情感计算会议下的双人对话(DaiKon)工作坊与挑战赛。它旨在解决现有对话情感基准大多以单个说话人为中心,忽略了对话双方之间动态、耦合的人际过程(如单向影响、轮流发言、融洽关系发展)的问题。方法核心是基于新发布的Hume-DaiKon数据集(包含945段、743.4小时的五语种自然对话),设计三个相互关联的子挑战:预测说话人情感强度、预测下一说话人及发言时间、预测对话过程中的融洽关系轨迹。与已有工作相比,新在提供了一个统一的多语言、多模态基准框架,鼓励模型超越说话人中心预测,去建模人际间的时序依赖和动态交互。实验上,论文公布了基于简单MLP的基线结果:在情感影响预测任务上达到0.40 CCC / 0.50 Pearson;轮流发言任务上为0.66 Macro-F1 / 1.50秒 MAE;融洽预测任务上为0.68 CCC / 0.70 Pearson。主要结论是音频特征在各任务中表现最好,但简单的多模态融合并未带来提升,表明更复杂的时序建模和融合策略是必要的。其实际意义是为情感计算、人机交互、行为分析等社区提供了一个可复现的、聚焦于双人动态交互的研究平台和评估标准。主要局限性在于基线方法过于简单,未能充分展示任务的挑战性上限;同时,融洽关系的标签是通过大语言模型生成的伪标签,其可靠性未得到验证。 ...

2026-05-05 · 更新于 2026-06-15 · 2 min · 261 words

Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization

📄 Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization #音频深度伪造检测 #滑动窗口 #数据集 #多语言 #评估指标 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #滑动窗口 | #数据集 #多语言 | arxiv 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Tung Vu(邮电学院,越南河内) 通讯作者:Cong Tran(邮电学院,越南河内) 作者列表:Tung Vu(邮电学院,越南河内)、Yen Nguyen(邮电学院,越南河内)、Hai Nguyen(邮电学院,越南河内)、Cuong Pham(邮电学院,越南河内)、Cong Tran(邮电学院,越南河内) 💡 毒舌点评 亮点:该论文系统性地填补了“多区域语音修复伪造检测”这一重要但被忽视的细分领域的空白,从数据集构建(MIST)、检测框架(ISA)到专用评估指标(SF1@τ)提供了一套完整的解决方案,逻辑闭环。短板:当前提出的方法在零样本设置下性能极低(SF1@0.5仅1.2%),微调后虽大幅提升但仍属初步(SF1@0.5为31.4%),离实际可用还有很长的路要走,凸显了该任务本身的巨大挑战性。 🔗 开源详情 代码:论文中提及代码已发布,但未提供具体的代码仓库链接(如 GitHub 链接)。 模型权重:论文中未提及。 数据集:MIST (Multi-region Inpainting Speech Tampering) 数据集。获取链接:https://huggingface.co/datasets/tung2308/MIST_SpeechInpaintingDataset Demo:论文中未提及。 复现材料:论文中未提及具体的训练配置文件、检查点等复现材料。 论文中引用的开源项目: Wav2Vec 2.0:https://huggingface.co/facebook/wav2vec2-base WavLM:https://huggingface.co/microsoft/wavlm-base-plus AASIST:https://github.com/JeonKang/AASIST (论文中引用但未提供直接链接,根据引用文献推断) RawNet2:论文中引用但未提供直接链接。 CosyVoice 3.0:论文中引用但未提供直接链接。 Gemini 2.0 Flash:论文中引用但未提供直接链接。 Multilingual LibriSpeech (MLS):https://huggingface.co/datasets/openslr/librispeech_asr LEMAS-Dataset:论文中引用为开源语料库,但未提供直接链接。 补充信息 [模型架构] 补充:论文详细解释了ISA各阶段超参数的设计动机。例如,粗扫描窗口 W=0.5s 的选择是基于MIST数据集中替换词的平均时长(0.3–0.6秒),确保每个伪造词至少被一个主导窗口覆盖。精细窗口 W'=0.15s 则提供了亚词级精度(±0.05秒)。同时,论文分析了ISA的计算效率:对于10秒音频,总分类器调用次数少于100次,在单GPU批处理下处理时间少于0.3秒,强调了其实用性。 [实验结果] 补充:论文图10提供了SF1@τ指标的具体计算示例,直观展示了IoU匹配、真阳性/假阳性/假阴性判定及最终F1分数的计算过程,这对理解新指标至关重要。此外,表12中零样本与微调性能的差距(SF1@0.5从1.2%跃升至31.4%)被进一步量化,明确指出骨干网络是性能瓶颈。 [消融实验] 补充:论文表10展示了粗扫描窗口大小 W 对性能的影响。结果显示 W=0.5s 是最佳平衡点,过小的窗口(0.15s)因Wav2Vec 2.0需要足够上下文而失效,过大的窗口(1.0s, 2.0s)则稀释了伪造信号,降低了敏感性。 [核心摘要/细节详述] 补充:论文在6.7节深入讨论了两个核心局限性:1)零样本性能低的根本原因是训练分布不匹配——骨干模型从未在部分修复数据上训练,其内部表征对单词级篡改不敏感;2)越南语表现差归因于三个具体因素:骨干模型对越南语音素不适应、ZipVoice生成的替换词平均时长更短(0.18秒 vs 英语0.26秒)、以及越南语声调可能被误判为说话人变异。这些分析比现有总结更为深入。 [与SOTA的差距] 补充:论文在零样本实验中明确指出,现有SOTA全段伪造检测器(如在ASVspoof上训练的分类器)对MIST伪造音频的伪造概率输出接近于0(例如,一个2词修复样本的p(fake)=0.0001),这直观量化了现有方法在细粒度修复场景下的完全失效。 📌 核心摘要 要解决什么问题:针对日益逼真的部分语音修复(仅替换1-3个单词)伪造攻击,现有音频伪造检测基准和方法集中于整段伪造或单区域伪造,缺乏对多伪造区域、未知区域数量场景下的检测与定位能力。 方法核心是什么:论文提出三位一体的解决方案:(1) MIST数据集:一个大规模、多语言(6种语言)的基准,每个音频包含1-3个独立修复的单词区域,伪造内容仅占2-7%。(2) ISA方法:一个与骨干网络无关的“迭代片段分析”框架,通过粗扫描、区域提议与合并、边界精炼三步,无需预先知道伪造区域数量,即可定位所有被篡改区域。(3) SF1@τ指标:一个基于时间交并比匹配的片段级F1分数,联合评估区域计数准确性和定位精度。 与已有方法相比新在哪里:首次针对多区域、未知数量的语音修复伪造提出检测与定位问题;提供了首个专门用于此场景的大规模多语言数据集(MIST);提出了无需预先知道区域数量的滑动窗口迭代定位框架(ISA);定义了适用于此任务的专用评估指标(SF1@τ)。 主要实验结果如何:在零样本设置下,现有最先进的全段伪造检测器几乎完全失效(给伪造音频打分接近0)。ISA框架在所有语言和变体上一致优于帧级和单窗口基线。例如,在英语测试集上,零样本ISA的SF1@0.3为9.1%,CA为26.2%。当骨干网络在MIST上微调后,性能大幅提升,整体SF1@0.5从1.2%升至31.4%(见表6、7、12)。实验结果如下表所示: 方法 SF1@0.3 SF1@0.5 CA mIoU Frame-level 5.9 0.7 24.2 6.5 Single-window 6.9 1.0 24.5 7.2 ISA (ours) 8.1 1.2 25.1 7.8 表6:MIST测试集上多区域定位结果(所有语言聚合) 实际意义是什么:为应对新型语音伪造威胁提供了关键的研究基准、方法思路和评估工具。揭示了当前主流伪造检测器的严重盲区,推动了细粒度语音取证领域的发展。 主要局限性是什么:(1) 当前最佳性能(微调后SF1@0.5为31.4%)仍远未达到实用水平;(2) 骨干网络的性能是主要瓶颈,需要针对部分伪造任务的专门训练;(3) 方法在越南语等语言上性能较低,多语言泛化能力有待加强。 🏗️ 模型架构 本文提出的ISA(迭代片段分析)框架是一个推理时的管道,用于将一个仅支持整段分类的伪造检测器,转化为能够定位多个伪造片段的系统。其整体架构如下图所示: 图9:迭代片段分析(ISA)流程图。Stage 1产生粗置信度图并标记可疑窗口;Stage 2将可疑窗口合并为候选区域;Stage 3对每个候选区域进行精细分析,收紧边界并过滤误报。 ...

2026-05-05 · 更新于 2026-06-15 · 1 min · 213 words

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音频大模型 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zeyue Tian (Hong Kong University of Science and Technology) 通讯作者:Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 作者列表:Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 💡 毒舌点评 本文的亮点在于构建了一个工程上非常扎实的统一框架,其设计的多模态自适应融合模块(MAF)有效解决了不同模态信号干扰的问题,并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于,尽管实验全面,但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入,对于“任何东西”(如图像、草图等)的泛化能力论证不足,更像一个“文本/视频/音频到音频”的强统一模型。 ...

2026-05-04 · 更新于 2026-06-15 · 4 min · 756 words

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #流匹配 #基准测试 #数据集 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Yuhang He (Microsoft Research) 通讯作者:Yuhang He (Microsoft Research) 作者列表:Yuhang He (Microsoft Research), He Liang (University of Oxford, Department of Computer Science), Yash Jain (Microsoft Research), Andrew Markham (Microsoft Research), Vibhav Vineet (Microsoft Research) 💡 毒舌点评 亮点:本文核心贡献在于为“关系感知文本到音频生成”这一被忽视的子任务,系统性地构建了两个大规模、高质量的专用数据集(AudioEventSet 和 AudioRelSet)和一套完整的评测基准,精准填补了领域空白。短板:论文的“方法”部分更多是基于现有基线模型(如TangoFlux)进行评测和简单的微调实验,缺乏一个针对关系感知生成提出全新、完整架构的深度技术方案,创新性更偏向数据与评测而非模型本身。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 390 words

CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval

📄 CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval #音频检索 #音乐理解 #对比学习 #多模态模型 #数据集 ✅ 6.5/10 | 前50% | #音频检索 #音乐理解 | #对比学习 #多模态模型 | #音频检索 #音乐理解 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yawen Qin(中南民族大学, South-Central Minzu University) 通讯作者:未明确说明(根据作者列表,通讯作者可能是Qin Zhang或Ke Qiu,但论文中未明确标注) 作者列表:Yawen Qin(中南民族大学)、Ke Qiu(未说明所属机构)、Qin Zhang(未说明所属机构) 💡 毒舌点评 亮点是构建了首个针对文本-舞蹈检索的专用大规模数据集(TD-Data),并采用了严谨的专家标注流程,为后续研究奠定了重要基础。短板是主实验对比的基线过于简单(仅有两个通用的跨模态检索模型),未能与更相关的音频-文本或动作-文本检索方法进行比较,削弱了“State-of-the-Art”声称的说服力,且代码未开源。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及数据集开源链接(论文介绍了自建的 TD-Data 数据集,但未提供任何可供下载的链接或开源仓库地址) Demo:论文中未提及 复现材料:论文中未提及复现所需的具体代码仓库、训练脚本或检查点链接,但提供了详细的超参数和实现细节,可参考论文第4.8节。 论文中引用的开源项目:论文引用了CLIP、Librosa、SMPL等工具,但未在正文中提供这些项目的具体GitHub或主页链接。 补充信息 [细节详述] 补充:论文在实施细节(第4.8节)中明确了关键训练设置:文本编码器使用CLIP预训练权重初始化,其学习率设置得小于新初始化的MLP适配器以及音乐和运动编码器。此外,音乐和运动编码器是从零开始训练,因其输入分布与CLIP预训练数据差异大。论文未具体提及优化器类型、学习率数值、批次大小或训练硬件/时长。 [细节详述/实验结果] 补充:在主对比实验(表1)中,CustomDancer的Recall@1(10.23%)相较于最强基线XPool(9.46%)提升了0.77个百分点。用户研究(表4)具体说明为单盲研究,由10位参与者(包括业余舞者、编舞者和教师) 进行。 [模型架构] 补充:文本编码器中的MLP适配器的作用是将CLIP嵌入投影到检索空间的维度 d(第4.3节)。 [创新点] 补充:论文在引言末尾明确总结了三点贡献,与分析中的核心创新点对应:1)为文本-舞蹈检索任务制定基准并引入TD-Data数据集;2)提出CustomDancer多模态框架;3)进行了广泛的实验、消融、用户研究和可视化分析。 [细节详述] 补充:TD-Data数据集的具体统计信息包括:由27位专业舞者表演,总时长14.6小时(第3.2节)。 [实验结果] 补充:论文在第5.2节强调,训练时采用单向(文本到舞蹈)的对齐作为主要目标,因为这符合用户交互场景。评估时使用整个测试集作为候选库进行排序,而非小子集,以模拟真实的大规模检索场景。 [核心摘要/模型架构] 补充:论文在摘要和引言中明确指出其核心任务定义与动机:现有方法(文本到动作生成、音乐到舞蹈、视频文本检索)存在不足,无法同时满足用户对音乐节奏和身体动态语义的自然语言检索需求,从而形成了本文的任务和方法。 [评分理由/毒舌点评] 补充:论文在摘要中明确声明“CustomDancer achieves state-of-the-art performance on TD-Data”,但其主实验对比的基线(仅两个通用的跨模态检索模型)的选择广度和领域相关性有限,这与该声明的说服力存在落差。 [核心摘要] 补充:论文在第5.6节详细讨论了三种失败案例:1)对高度专业化舞蹈术语的匹配不佳;2)当视觉运动与音乐情感冲突时的歧义;3)可能被表演者个人风格作为捷径所利用。这构成了其自我声明的局限性的一部分。 [核心摘要] 补充:论文在结论和未来工作部分提出,未来方向包括扩展TD-Data至多语言标注、更细粒度的编舞标签和交互式检索反馈,并探索将检索与生成耦合(先检索相关舞蹈,再适应新音乐/风格/表演者)。 [模型架构/评分理由] 补充:论文在第5.8节讨论中强调,文本-舞蹈检索不是文本-视频检索的更小变体,因为舞蹈中存在视觉相似但编舞含义不同的情况,反之亦然,这构成了独特的排名挑战。 [开源详情] 补充:论文在引用的开源项目(如CLIP、Librosa、SMPL)处也未提供具体的GitHub或主页链接(第2、4节)。 📌 核心摘要 要解决什么问题:解决在线舞蹈内容爆炸式增长下的个性化发现难题,提出“文本-舞蹈检索”任务,即根据自然语言描述检索同时满足音乐节奏和身体动态语义的舞蹈片段。现有方法或忽视节奏,或缺乏自然语言接口。 方法核心是什么:提出CustomDancer多模态检索框架。使用CLIP文本编码器处理查询,使用独立的Transformer编码器分别处理音乐(Librosa特征)和3D运动(SMPL参数)时序信息,然后通过一个同时包含加法和乘法交互的“音乐-运动混合模块”将二者融合为统一的舞蹈表征,最后通过对比学习对齐文本与舞蹈的嵌入空间。 与已有方法相比新在哪里:1) 数据层面:构建并开放了首个大规模、高质量的文本-舞蹈检索数据集TD-Data,包含约4000个片段,由专家进行结构化标注并生成自然语言描述。2) 模型层面:专门针对舞蹈的音乐-运动同步特性设计了多模态融合架构,而非直接套用通用的视频-文本或音频-文本检索模型。 主要实验结果如何:在自建TD-Data测试集上,CustomDancer的检索性能优于两个强基线(TABLE, XPool)。例如,在Recall@1上达到10.23%,比最强基线XPool(9.46%)高0.77个百分点。消融实验表明,Transformer优于RNN/LSTM,加法+乘法的融合策略优于单一策略。用户研究显示,其检索结果在文本-运动一致性(3.82)和文本-音乐相关性(3.68)上均优于基线。 实际意义是什么:为舞蹈内容平台(如TikTok、B站舞蹈区)提供更精准的搜索和推荐技术,帮助用户、编舞者、学习者高效发现符合特定风格、节奏或动作描述的舞蹈内容,促进舞蹈文化的传播与学习。 主要局限性是什么:1) 数据集:规模(约4k片段)和多样性(22种风格)对于通用舞蹈检索仍有限。2) 模型与对比:模型创新为有效整合而非突破;实验对比的基线与任务相关性不够强。3) 任务定义:未深入探讨用户查询的模糊性(如情绪描述 vs. 具体动作)和检索结果的多义性。4) 泛化性:依赖3D运动数据(SMPL),在真实2D视频场景中的应用需要额外转换。 🏗️ 模型架构 CustomDancer的整体架构如图3所示,是一个四模块的多模态对齐框架,旨在将文本查询与包含音乐和3D运动的舞蹈候选进行匹配。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 296 words

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频大模型 #强化学习 #音频问答 #多模态模型 #数据集 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #多模态模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Daiqing Wu(中国科学院信息工程研究所 IIE, ByteDance中国) 通讯作者:Yangyang Kang(ByteDance中国), Yu Zhou(南开大学 VCIP & TMCC & DISSec) 作者列表: Daiqing Wu(IIE, ByteDance中国, 中国科学院大学) Xuan Zhang(ByteDance中国) Dongbao Yang(IIE) Jiashu Yao(ByteDance中国) Longfei Chen(上海科技大学信息科学与技术学院) Qingsong Liu(ByteDance中国) Sicheng Zhao(清华大学心理学与认知科学系) Can Ma(IIE) Yangyang Kang(浙江大学, ByteDance中国)(带†和‡标注,应为共同通讯或同等贡献) Yu Zhou(南开大学 VCIP & TMCC & DISSec)(带†和‡标注,应为共同通讯或同等贡献) 💡 毒舌点评 这篇论文最亮眼的是提出了一个符合人类认知直觉的“音频交错推理”框架,并用一套从数据生成到训练的完整工程化方案将其落地,实验也做得扎实全面。然而,其性能提升高度依赖于自动合成的训练数据(EAQA),这本质上是用一个强大的“教师”(DeepSeek-R1)的知识来蒸馏模型,而数据生成的“天花板”和潜在偏差可能限制模型的上限;此外,模型当前只能“回放”原始音频片段,无法进行更复杂的音频分析操作(如慢放、滤波),这为未来的扩展留下了空间,但也是当前的局限。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 226 words

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 #可解释AI 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dingdong Wang (香港中文大学、微软) 通讯作者:未明确说明 作者列表:Dingdong Wang (香港中文大学、微软), Shujie Liu (微软), Tianhua Zhang (未说明), Youjun Chen (未说明), Jinyu Li (微软), Helen Meng (香港中文大学) 💡 毒舌点评 亮点在于将RL范式引入语音情感推理,并提出了一个新颖的“渐进式信任感知”奖励机制来约束推理过程,思路清晰且具有启发性。短板在于其核心的“推理质量”高度依赖一个由合成数据训练的奖励模型和GPT-4o的自动评估,这种“用AI评AI”的闭环验证其可靠性和泛化性仍需更多元的外部检验。 🔗 开源详情 代码:论文提供了项目主页和GitHub仓库链接(https://github.com/dingdongwang/EmotionThinker)。 模型权重:论文中未明确说明是否会开源EmotionThinker或EmotionThinker-Base的模型权重。 数据集:论文构建了EmotionCoT-35K数据集,并描述了构建方法,预计会公开。 Demo:未提及。 复现材料:在附录中提供了详细的数据构建流程、模型训练细节(SFT和RL)、奖励模型训练数据构造、评估prompt等,复现信息较为充分。 依赖的开源项目:论文明确依赖并提及的开源项目包括:Qwen2.5-Omni(骨干模型)、WhiStress(重音检测)、wav2vec 2.0(说话人属性分类)、GPT-4o API(数据合成与评估)。 📌 核心摘要 这篇论文旨在解决当前语音大语言模型(SpeechLLMs)在情感理解上仅进行简单分类、缺乏可解释性推理的问题。论文首次尝试将情感识别(SER)重新定义为一个深度推理问题,并提出EmotionThinker框架。该框架的核心方法包括:1)构建了首个面向语音情感推理的Chain-of-Thought数据集EmotionCoT-35K;2)通过韵律感知的监督微调(SFT)构建了基础模型EmotionThinker-Base,显著提升了模型对音高、能量等韵律线索的感知能力;3)设计了GRPO-PTR强化学习策略,该策略在标准规则奖励(结果准确性)基础上,逐步引入并动态调整一个评估推理过程质量的奖励模型。实验表明,EmotionThinker在IEMOCAP、MELD等多个基准上,情感识别平均准确率达68.89%,推理质量(由GPT-4o评估的4个维度平均分)达3.98,均显著优于对比的16个开源SpeechLLM。该工作的实际意义是推动SER从“是什么”走向“为什么”,为构建可解释、可信赖的情感AI迈出了一步。主要局限性在于其推理监督和评估对大型语言模型的合成数据和自动评分依赖较重。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 229 words

ICLR 2026 - 数据集 论文列表

ICLR 2026 - 数据集 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio- 8.5分 前25% 📋 论文详情 🥇 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation 🔥 8.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #音频生成 👥 作者与机构 第一作者:Youliang Zhang(清华大学、StepFun) 通讯作者:Xiu Li(清华大学深圳国际研究生院) 作者列表: Youliang Zhang(清华大学、StepFun) Zhaoyang Li(StepFun) Duomin Wang(StepFun,共同第一作者/责任作者†) Jiahe Zhang(未说明具体机构) Deyu Zhou(香港科技大学(广州)、StepFun) Zixin Yin(香港科技大学、StepFun) Xili Dai(StepFun) Gang Yu(StepFun) Xiu Li(清华大学深圳国际研究生院‡) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-15 · 1 min · 144 words

LLM2Fx-Tools: Tool Calling for Music Post-Production

📄 LLM2Fx-Tools: Tool Calling for Music Post-Production #音乐信息检索 #大语言模型 #多模态模型 #数据集 ✅ 7.0/10 | 前25% | #音乐信息检索 | #大语言模型 | #多模态模型 #数据集 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:SeungHeon Doh(KAIST, Sony AI)、Junghyun Koo(Sony AI)(共同第一作者) 通讯作者:未明确说明 作者列表:SeungHeon Doh (KAIST, Sony AI), Junghyun Koo (Sony AI), Marco A. Martínez-Ramírez (Sony AI), Woosung Choi (Sony AI), Wei-Hsiang Liao (Sony AI), Qiyu Wu (Sony Group Corporation), Juhan Nam (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 💡 毒舌点评 亮点是这篇论文首次将LLM的工具调用范式引入到音频效果链生成任务,框架设计完整(从感知、推理到执行),并配套发布了高质量的对话式数据集LP-Fx,为后续研究建立了不错的基础。短板是实验验证范围主要局限于单声道、单乐器音频,在真正复杂的多轨混音场景下有效性存疑,且“可解释性”在面对多效果器组合产生的复杂听感时可能大打折扣。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 385 words