数据集 | 语音/音频论文速递

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）通讯作者：Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）作者列表：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院，中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院，中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所） 💡 毒舌点评这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集，填补了领域空白，为后续研究提供了标准评测场。其短板在于模型架构本身（Omni-RewardModel）是现有技术（如Bradley-Terry框架、GRPO强化学习）在更大规模多模态数据上的直接应用，缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情代码：提供了GitHub仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：提及了公开Omni-RewardModel权重，下载链接为：https://hf.co/datasets/HongbangYuan/OmniRewardBench (注：此处链接标签为Dataset，但文中暗示模型权重也可能在此或类似路径) 数据集：明确公开两个数据集：Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData)，均托管于HuggingFace。 Demo：论文中未提及在线演示。复现材料：论文在正文和附录中描述了数据收集、标注流程、模型训练细节（如骨干模型选择、训练数据比例、强化学习算法）以及评估协议，复现信息较为充分。引用的开源项目：模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集，如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要要解决什么问题：现有的奖励模型存在两个核心挑战：一是模态不平衡，主要关注文本和图像，对音频、视频、3D等模态支持不足；二是偏好刚性，基于固定的二元偏好对训练，无法捕捉复杂多样的个性化偏好。方法核心是什么：提出Omni-Reward框架，包含三个核心组件：(1) 评测基准Omni-RewardBench，首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集；(2) 训练数据集Omni-RewardData，包含248K通用偏好对和69K用于指令微调的自由格式偏好对；(3) 模型Omni-RewardModel，包括判别式（BT）和生成式（R1）两种全模态奖励模型。与已有方法相比新在哪里：(1) 首次系统性地将奖励建模扩展到全模态场景（包括音频、3D）；(2) 首次在奖励建模中引入自由形式的自然语言偏好描述，替代传统的二元选择，以支持动态、个性化的偏好对齐；(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。主要实验结果如何：在自有基准Omni-RewardBench（w/ Ties设置）上，Omni-RewardModel-BT达到65.36% 准确率，超越最强基线（Claude 3.5 Sonnet的66.54%已属顶级，但模型整体仍有提升空间）。在公开基准VL-RewardBench上，Omni-RewardModel-BT达到76.3% 准确率，取得SOTA性能。消融实验证明，使用混合多模态数据进行训练比单模态数据显著提升泛化能力；指令微调数据对于处理自由格式偏好至关重要。模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告实际意义是什么：为未来的全模态大模型（如GPT-4o, Qwen2.5-Omni）提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变，使AI系统能更灵活地适应不同用户或场景的具体需求。主要局限性是什么：(1) Omni-RewardBench的规模（3.7K对）相对较小，可能不足以全面评估超大规模模型；(2) 任务定义相对粗粒度，每种模态任务内的多样性还可进一步细分；(3) 当前数据仅限单轮交互，未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体，其整体架构如下图所示。核心是基于一个多模态大语言模型（如MiniCPM-o-2.6或Qwen2.5-VL）作为骨干网络，处理来自文本、图像、视频、音频等模态的输入。 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、南方科技大学、快手科技）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学，南方科技大学，快手科技），Shengjun Zhang（快手科技），Da Li（快手科技，中国科学院大学），Yuxiao Luo（快手科技，北京大学），Yan Wang（快手科技），Di Xu（快手科技），Biao Yang（快手科技），Wei Yuan（快手科技，项目负责人），Fan Yang（快手科技，项目负责人），Zhihai He（南方科技大学，通讯作者），Wenming Yang（清华大学，通讯作者） 💡 毒舌点评亮点：论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题，并通过一个高质量、大规模的诊断基准（OmniCVR）将其量化，这比提出一个改进模型更有价值。短板：提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型，这种“音频-文本化”的工程化方案虽然有效，但显得不够优雅，且引入了额外的延迟和潜在信息损失，算不上是最根本的端到端解决方案。 🔗 开源详情代码：论文承诺将开源完整代码库，包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示，但提到数据将发布在HuggingFace（https://huggingface.co/datasets/Jun-Yang/OmniCVR），代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。模型权重：论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。数据集：OmniCVR数据集（包括160K+片段、50K+三元组、5K测试集）将完全开源。获取方式为通过上述HuggingFace链接。 Demo：论文中未提及是否提供在线演示。复现材料：论文在附录（Appendix G）中提供了用于数据生成（如生成视频描述、修改指令）的完整提示词模板，以及详细的双重验证协议说明，这对于复现数据生成管线至关重要。然而，关于模型训练的具体细节（学习率、优化器、批次大小等）论文中未提及。论文中引用的开源项目/模型：论文明确使用了以下开源模型作为组件或基线： Qwen2.5-Omni：用于视频音频标注生成。 Gemini 2.5 Pro：用于数据验证。 Qwen2-Audio-7B-Instruct：用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL：作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect：用于视频分割。所有使用的数据集（HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR）均为公开数据集。 📌 核心摘要本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR，该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组（源视频、修改文本、目标视频）的大规模数据集，其中超过57%的查询需要同时修改视觉和音频（集成查询）。为此，作者设计了一个可扩展的自动化数据生成管线，并通过大模型与人类专家的双重验证确保数据质量。为验证基准，论文提出了AudioVLM2Vec模型，其核心创新是利用音频理解大模型（Qwen2-Audio）将音频转为细粒度描述文本，再与视觉信息一同输入VLM2Vec框架。主要实验结果表明，AudioVLM2Vec在OmniCVR基准上取得了最优性能，尤其是在音频中心查询上，相比基线VLM2Vec实现了巨大的性能提升（R@1从12.4提升到77.2）。这证明了显式注入音频语义对于跨模态检索的关键作用，并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准，推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟（约1.77倍），且该方案可能无法完美捕捉音频的所有非语义信息（如音色、节奏等）。 ...

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #音频大模型 #空间音频 #声源定位 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：未说明（论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者）通讯作者：未说明作者列表：Subrata Biswas（Worcester Polytechnic Institute电气与计算机工程系）、Mohammad Nur Hossain Khan（Worcester Polytechnic Institute电气与计算机工程系）、Bashima Islam（Worcester Polytechnic Institute电气与计算机工程系） 💡 毒舌点评这篇论文为音频大模型装上了“空间几何眼睛”，通过“模拟训练-纯音频推理”的巧思和详实的课程学习，确实把空间定位和推理精度提升了一个台阶；但美中不足的是，其所有辉煌战绩（包括新建的百万级数据集）均建立在精心构建的合成世界里，在真实嘈杂、反射复杂的声学环境中，这套“几何内功”的实战效果还有待“出关”检验。 🔗 开源详情代码：论文明确提供代码仓库链接：https://github.com/BASHLab/OWL。表明将在该仓库发布代码。模型权重：未明确提及是否公开预训练模型权重，但根据“our dataset and code are available”的表述，模型权重可能包含在开源计划内。数据集：论文明确表示将发布BiDepth数据集（“we construct and release BiDepth”），包含约110万QA对。 Demo：未提及在线演示。复现材料：附录提供了完整的训练超参数（表10，表11）、特征提取公式（B.1）、模型架构细节（B.2， B.3）和数据集生成细节（A节），复现指引非常充分。论文中引用的开源项目：依赖SoundSpaces v2.0和Matterport3D进行模拟；音频编码器初始化自AudioMAE；语言模型使用LLaMA-2-7B；投影模块参考Q-Former；微调使用LoRA。 📌 核心摘要要解决什么问题：现有的音频大语言模型（ALLMs）在空间推理方面能力薄弱，主要依赖粗糙的双耳线索和单步推理，导致在声源方向（DoA）和距离估计上精度不足，且推理过程缺乏可解释性。方法核心是什么：提出OWL框架，其核心是创新的几何感知音频编码器SAGE。SAGE在训练时利用全景深度图和模拟房间脉冲响应（RIR）作为监督信号，让编码器学会将声学特征与3D空间几何结构对齐，但在推理时只需音频输入。OWL进一步将SAGE与空间接地的链式思维（CoT）推理相结合，支持从感知到多步推理的课程学习。与已有方法相比新在哪里：首次将显式的几何监督（通过RIR预测任务）引入音频编码器训练；构建了首个大规模（约110万QA对）耦合双耳音频、RIR和深度图的数据集BiDepth用于几何感知训练；引入了针对音频空间推理的多阶段课程学习和CoT监督机制，使模型能生成可解释的推理路径。主要实验结果如何：在BiDepth和SpatialSoundQA两个基准上，OWL显著超越了现有方法。SAGE相比SOTA（Spatial-AST），在BiDepth数据集上平均角度误差（MAE）降低25.52%，距离错误率（DER）降低31.34%。OWL相比BAT，在BiDepth上的空间推理二分类准确率（BA）提升24.9%（77.89% vs. 69.46%），在SpatialSoundQA上的推理平均准确率达79.06%（BAT为76.89%）。OWL在真实世界音频场景分类和声源定位任务上也展现出良好的泛化能力。实际意义是什么：该工作推动了音频大模型从“听到什么”向“声音在哪里、如何关联”的空间理解迈进，为构建更接近人类听觉感知的智能系统（如机器人、智能家居助手、助听设备）提供了关键技术组件和评估基准。主要局限性是什么：训练和评估严重依赖合成数据（BiDepth），而真实世界声学环境更为复杂多变，模型的鲁棒性有待验证；目前的推理任务限于单轮问答，尚未扩展到多轮对话式空间推理；几何监督依赖于预先生成的深度图和RIR，限制了其在完全未知环境中的应用。 🏗️ 模型架构 OWL是一个完整的空间音频问答系统，其架构（如图4所示）由三个主要部分串联而成，旨在将原始双耳波形转化为带有空间推理的文本输出。 ...

RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System

📄 RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System #语音伪造检测 #多模态模型 #对比学习 #鲁棒性 #数据集 ✅ 7.0/10 | 前25% | #语音伪造检测 | #多模态模型 | #对比学习 #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Nitin Choudhury（论文中未提供其具体机构）通讯作者：论文中未明确标注通讯作者。作者列表：Nitin Choudhury（未说明）、Nikhil Kumar（未说明）、Aditya Kumar Sinha（未说明）、Abhijeet Anand（未说明）、Hossein Salemi（未说明）、Orchid Chetia Phukan（未说明）、Hemant Purohit（未说明）、Arun Balaji Buduru（未说明）。论文中未提供作者与机构的对应关系。 💡 毒舌点评论文在解决数据稀缺问题上做得非常扎实，构建了包含心理语言学、情感和声音克隆三大对抗轴的合成数据集Robo-SAr，并进行了严格的人工验证，这为后续研究提供了宝贵的基准。然而，将KAN应用于多模态融合的创新点略显牵强，其带来的性能提升是否完全归功于KAN的特殊性质，还是仅仅因为增加了模型复杂度和非线性度，文中论证不足；此外，承诺开源却迟迟未兑现代码和数据，在当下开源生态中略显扣分。 🔗 开源详情代码：论文中承诺在审稿后遵循伦理标准发布代码和数据，但当前未提供具体链接。（论文中未提及代码链接）模型权重：论文中未提及RoboKA模型权重的具体下载链接。论文使用的预训练模型（如Wav2Vec2， BERT等）为开源模型，其权重可在Hugging Face获取，具体链接已在“论文中引用的开源项目”部分列出。数据集：论文创建了“Robo-SAr”数据集并承诺发布，但当前未提供具体链接。论文中引用了两个现有数据集：Fraud Call India数据集（https://www.kaggle.com/datasets/narayanyadav/fraud-call-india-dataset）和FTC Do Not Call Registry（https://www.consumer.ftc.gov/articles/how-stop-unwanted-calls）。 Demo：论文中未提及。复现材料：论文提供了部分训练与评估协议细节，包括：使用5折交叉验证、严格的组级划分（按说话人、引擎、情绪、转录本划分以避免数据泄露）、评估设置（T1-T4）、以及超参数（如对比学习中的温度参数τ）。但未提供完整的超参数配置文件、训练日志或检查点。论文中引用的开源项目：预训练音频模型：Wav2Vec2 (https://huggingface.co/facebook/wav2vec2-base), WavLM (https://huggingface.co/microsoft/wavlm-base), HuBERT (https://huggingface.co/facebook/hubert-base-ls960) 预训练文本模型：BERT (https://huggingface.co/bert-base-uncased), RoBERTa (https://huggingface.co/roberta-base), GPT-2 (https://huggingface.co/gpt2) 文本转语音模型：Bark (https://github.com/suno-ai/bark), SpeechT5 (https://huggingface.co/microsoft/speecht5_tts), xTTS (来自Coqui TTS: https://github.com/coqui-ai/TTS) 语音识别模型：OpenAI Whisper (https://github.com/openai/whisper) 情感预测模型：roberta-base-conv-emotion (https://huggingface.co/waves/hubert-base-superb-er，论文中引用[35]但未给出具体链接，此处为最可能对应的Hugging Face模型) 📌 核心摘要解决的问题：针对Robocall（自动语音电话）欺诈检测，现有研究因隐私问题受限于有限的公开数据集，且现有防御系统在面对高级对抗性策略时鲁棒性不足。方法核心：提出RoboKA框架，首先使用跨模态对比学习对齐从预训练音频（如Wav2Vec2）和文本（如BERT）模型提取的特征，然后使用基于Kolmogorov-Arnold Networks的模块进行非线性融合与分类，以捕获复杂的跨模态交互。同时构建了名为Robo-SAr的对抗性合成数据集。与已有方法相比新在哪里：a) 首次构建了系统化、多对抗轴（心理语言学操控、情感诱导、声音克隆）的Robocall合成数据集Robo-SAr；b) 首次将KAN架构引入多模态Robocall检测的融合与分类阶段，用以替代传统的线性/MLP头，以建模更丰富的非线性关系；c) 采用不确定性感知的损失融合策略平衡对比学习和分类目标。主要实验结果：在四个评估设置（TTS引擎留出、情感留出、20%数据留出、真实世界DNCR数据OoD测试）下，RoboKA（最优组合HuBERT + BERT）全面超越单模态和现有双模态基线。例如，在最具挑战性的OoD测试（T4）上，RoboKA对“无需电话”的召回率（uRc）达到82.21，比最强基线（HuBERT⊗BERT的67.21）高出15个百分点。消融实验证明了多模态、CMCL和KAN的各自贡献。实际意义：为Robocall检测研究提供了首个公开的、涵盖多种对抗策略的基准数据集，并提出了一种更鲁棒的多模态检测框架，有助于推动该领域防御技术的进步。主要局限性：a) 研究仅限于英语；b) 真实世界评估集（DNCR）仅包含负面样本，无法评估精确率；c) 合成数据与真实世界声学条件仍可能存在领域差距。 🏗️ 模型架构模型架构图（图1） ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统 ✅ 7.5/10 | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学、上海创新研究院）通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）作者列表： Siyin Wang（复旦大学、上海创新研究院） Jinlan Fu（国家大学新加坡） Feihong Liu（复旦大学） Xinzhe He（复旦大学） Huangxuan Wu（复旦大学） Junhao Shi（复旦大学、上海创新研究院） Kexin Huang（复旦大学） Zhaoye Fei（复旦大学） Jingjing Gong（上海创新研究院） Zuxuan Wu（复旦大学、上海创新研究院） Yu-Gang Jiang（复旦大学） See-Kiong Ng（国家大学新加坡） Tat-Seng Chua（国家大学新加坡） Xipeng Qiu（复旦大学、上海创新研究院） 💡 毒舌点评这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。 ...

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #数据集 #歌唱语音合成 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #数据集 #歌唱语音合成学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Sifei Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院）通讯作者：Weiming Dong（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院）作者列表： Sifei Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Yang Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Zizhou Wang（中国科学院自动化研究所） Yuxin Zhang（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Fuzhang Wu（中国科学院软件研究所ISRC） Oliver Deussen（康斯坦茨大学） Tong-Yee Lee（成功大学） Weiming Dong（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） 💡 毒舌点评这篇论文精准地瞄准了“旋律保持”这一翻唱核心需求，并通过改进条件注入机制（IA-EiLM）和构建高质量数据集（Suno70k）给出了一个参数高效、效果显著的解决方案，理论与实验结合得相当扎实。不过，模型依然受限于底层基础模型（ACE-Step）对音色等细粒度控制的不足，且所用的AI生成数据集Suno70k在风格多样性、情感表达深度上可能与真实人类创作的音乐存在“域差距”，这或许会影响模型泛化到更复杂、更具表现力的真实翻唱场景。 🔗 开源详情代码：提供代码仓库链接：https://github.com/lsfhuihuiff/SongEcho_ICLR2026。 ��型权重：论文中提到“Code, dataset, and demos are available at…”，但未明确说明是否开源经过训练的完整SongEcho模型权重。基于常见实践，可能开源了新增的IA-EiLM模块和旋律编码器权重。数据集：Suno70k 数据集已公开，链接为 https://huggingface.co/datasets/nyuuzyou/suno。 Demo：提供在线演示页面：https://vvanonymousvv.github.io/SongEcho_updated/。复现材料：提供了详细的训练细节（第5.1节）、评估协议（第5.2节）、基线复现细节（附录C.1）和超参数设置，复现指导充分。论文中引用的开源项目：骨干模型：ACE-Step (Gong et al., 2025) 评估工具：mir_eval (Raffel et al., 2014), stable-audio-metrics, SongEval (Yao et al., 2025) 特征提取工具：RVMPE (Wei et al., 2023) 用于音高提取, Qwen2-audio (Chu et al., 2024) 用于标签生成, Whisper (Radford et al., 2023) + All-in-One (Kim & Nam, 2023) 用于歌词转录基线方法：ControlNet (Zhang et al., 2023a), LoRA (Hu et al., 2022), MuseControlLite (Tsai et al., 2025) 论文中未提及开源计划：未明确提及开源训练好的完整模型权重和大规模的预训练骨干（ACE-Step）权重（ACE-Step本身可能是开源的）。 📌 核心摘要要解决什么问题：在给定一段人声旋律和文本提示的条件下，生成同时包含新的人声演唱和和谐伴奏的完整歌曲（即翻唱歌曲），这要求模型在保持原旋律轮廓的同时进行风格重新诠释。方法核心是什么：提出SongEcho框架，核心是实例自适应元素级线性调制。它扩展了FiLM为元素级线性调制，以实现对隐藏状态在时序上的精确对齐调制；同时引入实例自适应条件精炼模块，使旋律条件能根据生成模型当前的隐藏状态进行动态调整，而非静态注入。与已有方法相比新在哪里：相比于使用交叉注意力（如MuseControlLite）或元素级相加（如ControlNet）的方法，EiLM提供了更灵活、时序对齐更直接的调制能力。IACR解决了传统条件编码与生成模型内部状态不兼容的问题，使条件融合更和谐。此外，论文开源了一个高质量的、带有丰富标注的AI歌曲数据集Suno70k。主要实验结果如何：在Suno70k测试集上，SongEcho的RPA（0.708）、RCA（0.734）和CLAP（0.324）等指标均显著优于基线方法，FD（42.06）和KL（0.112）等音质指标也远优于其他方法，且可训练参数量（49.1M）仅为ACE-Step+ControlNet（1.6B）的3.07%。主观听测（MOS）在旋律保真度、文本一致性、音频质量和整体偏好上均获最高分。实际意义是什么：推动了可控、高质量歌曲生成技术的发展，为音乐创作提供了新的AI辅助工具。所构建的开源数据集有助于解决歌曲AI研究中的数据稀缺和版权问题。主要局限性是什么：（1）音色控制能力有限，仅支持基于性别调整，无法进行更细粒度的音色模仿或合成。（2）生成的翻唱是全局风格迁移，未模拟人类音乐家在翻唱时可能进行的局部创造性改编（如颤音、滑音、音符时值变化）。（3）训练依赖于AI生成的音乐数据集，可能存在与真实人类音乐在情感、表达力上的差异。 🏗️ 模型架构 SongEcho整体架构基于一个预训练的文本到歌曲模型（ACE-Step），它是一个线性扩散Transformer（DiT）。核心是在每个Transformer块中插入一个IA-EiLM模块，该模块位于自注意力层之后、前馈网络层之前，用于注入旋律控制信号。 ...

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #音频生成 #数据集 🔥 8.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #音频生成学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Youliang Zhang（清华大学、StepFun）通讯作者：Xiu Li（清华大学深圳国际研究生院）作者列表： Youliang Zhang（清华大学、StepFun） Zhaoyang Li（StepFun） Duomin Wang（StepFun，共同第一作者/责任作者†） Jiahe Zhang（未说明具体机构） Deyu Zhou（香港科技大学（广州）、StepFun） Zixin Yin（香港科技大学、StepFun） Xili Dai（StepFun） Gang Yu（StepFun） Xiu Li（清华大学深圳国际研究生院‡） 💡 毒舌点评亮点：论文构建数据集的工程严谨性堪称典范，从多源数据收集到基于多种信号（SyncNet、ArcFace、3D-Speaker）的交叉验证，再到涵盖画面质量、运动模糊、音频清晰度的多层级过滤，流程完整且考虑周全，为社区贡献了一个定义明确、质量可控的“交钥匙”式基准数据集。短板：基线模型虽然设计完整，但模型体量（0.8B）与当前主流的视频生成模型（动辄数十亿甚至百亿参数）差距明显，其在视频生成核心指标（FID、FVD）上虽自身消融提升显著，但与更大更强的级联模型（如HalLo3）相比仍处下风，一定程度上削弱了其作为“标准答案”的说服力，更像一个“可行性验证”。 🔗 开源详情代码：论文明确承诺将公开数据处理代码和基线模型代码，但未提供具体的代码仓库链接（如GitHub地址）。论文中写有“Both the dataset and the data processing code will be publicly released.”和“We will open-source the entire dataset, including the raw data, annotations, and data processing pipeline”。因此，判定为有开源承诺，但具体链接未在文中给出。模型权重：论文中未提及公开预训练或微调后的基线模型权重。数据集：论文明确承诺完全开源数据集，并说明发布形式为YouTube视频ID/URL列表、时间戳和生成的标注，不托管原始视频/音频。开源方式清晰。 Demo：未提及在线演示。复现材料：提供了极其充分的复现材料，包括：详尽的数据收集、预处理、标注和过滤流程（第3节）；基线模型的架构细节、训练策略（三阶段）、超参数、硬件配置（附录A.7, A.8）；VidChatBench的构建方法和评估指标详细说明（第6.1节）；数据标注文件的具体格式和使用指南（附录A.11）；以及多处提示会开源代码。论文中引用的开源项目：数据处理工具：SceneDetect, 3D-Speaker, YOLO, SyncNet, ArcFace, Qwen2.5-VL, Qwen-3, Whisper, DWpose, PaddleOCR。模型/架构组件：Qwen2.5-Omni（理解模块）, CosyVoice2（音频分词器与声码器）, 3D-VAE（视频编解码）, NOVA（空间Transformer）。评估工具：DOVER（视频质量评估）, Deep3DFaceRecon（表情特征提取）, CLIP（文本相似度计算）。 📌 核心摘要问题：当前数字人研究正从单向驱动的“肖像生成”向双向交互的“虚拟人对话”迈进，但学术界严重缺乏为此类任务设计的大规模、高质量公开数据集。方法：论文提出SpeakerVid-5M数据集，从YouTube收集视频，通过场景分割、说话人分离、人脸检测、唇音同步、身份矫正等步骤预处理，并利用多模态大模型（Qwen2.5-VL）和多种模型进行丰富标注（文本、骨骼、模糊度等），最后进行严格的质量过滤。同时，提供了一个基于自回归（AR）框架的音视频联合生成基线模型。创新：① 首个针对“音频-视觉双人交互”任务的大规模数据集（5.2M片段，8.7K小时，其中双人对话770K对）。② 构建了多维度、分层级的数据质量控制与组织流程��对话分支、单人分支、聆听分支、多轮分支；预训练子集与SFT子集）。③ 定义并发布了VidChatBench评测基准。实验：基线模型在VidChatBench上进行评测。消融实验表明，联合音视频生成、空间Transformer优化和训练噪声注入对提升视频质量（FVD从55.06降至28.82）、唇音同步（SyncNet得分从-升至2.698）和情感一致性（FIDEmotion从3.45降至3.22）有显著效果。与级联方案（Qwen+CosyVoice+Sonic/Hallo3）对比，本方法在情感和手势质量上占优，推理速度快一个数量级（3.17s/帧 vs 31-45s/帧）。实际意义：该数据集填补了交互式虚拟人研究的数据空白，其丰富的标注也适用于人体动画、多模态对话等任务，将加速该领域的基础模型研究。局限性：数据集来源存在人口统计偏差（偏英语、西方、男性）。基线模型规模较小，视频生成保真度与顶级扩散模型仍有差距，其主要价值在于验证数据集和AR框架的可行性。 🏗️ 模型架构论文提出的基线方法是一个面向音视频双人交互生成的端到端自回归（AR）系统。整体架构分为两个主要部分：多模态理解与AR音视频生成器、视觉优化模块。 ...

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #数据集 #大语言模型 #多模态模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #数据集 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh（AXXX, Moscow, Russia；MTUCI, Moscow, Russia）通讯作者：论文中未明确标注通讯作者作者列表：Dmitrii Korzh（AXXX, MTUCI），Dmitrii Tarasov（FusionBrain Lab, AXXX; HSE University），Artyom Iudin（AXXX; MTUCI），Elvir Karimov（AXXX; MTUCI; Applied AI Institute），Matvey Skripkin（FusionBrain Lab, AXXX; Applied AI Institute），Nikita Kuzmin（AXXX; MTUCI; Applied AI Institute），Andrey Kuznetsov（FusionBrain Lab, AXXX; Innopolis University），Oleg Y. Rogov（AXXX; MTUCI; Applied AI Institute），Ivan Oseledets（AXXX; Applied AI Institute; Moscow State University） 💡 毒舌点评亮点在于，论文贡献了一个规模空前、标注细致的开源S2L数据集，并系统性地探索了从ASR后校正到端到端Audio-LLM的多种技术路线，为这个细分领域确立了坚实的基准和评估框架。短板是，无论是ASR后校正还是端到端方法，模型架构本身均无显著创新，更多是现有技术的组合与应用，其性能提升很大程度上依赖于新构建的高质量数据集。 ...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（ByteDance Seed） Yuanzhe Chen（ByteDance Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（ByteDance Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.） 💡 毒舌点评这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者：Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表：Zihan Liu（北京航空航天大学，上海人工智能实验室），Zhikang Niu（上海交通大学，上海创新研究院），Qiuyang Xiao（上海交通大学），Zhisheng Zheng（上海交通大学），Ruoqi Yuan（北京航空航天大学），Yuhang Zang（上海人工智能实验室），Yuhang Cao（上海人工智能实验室），Xiaoyi Dong（上海人工智能实验室，香港中文大学），Jianze Liang（上海人工智能实验室），Xie Chen（上海交通大学，上海创新研究院），Leilei Sun（北京航空航天大学），Dahua Lin（香港中文大学，上海人工智能实验室），Jiaqi Wang（上海人工智能实验室，上海创新研究院） 💡 毒舌点评本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题，证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”，从音高、响度等基础感知到时空推理，层层深入，确实能测出模型的真实短板。不过，论文本身止步于“诊断医生”，并未给出“治疗方案”，其核心价值依赖于未来模型能否利用这个基准取得进步，稍显被动。 📌 核心摘要本文指出，现有的音频基准测试主要评估可通过文本描述传达的语义内容，无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此，论文提出了“音频4D智能”的概念，即结合时间（1D）和三维空间（3D）进行深度推理的能力。作者构建了STAR-Bench基准，包含两个层级：基础声学感知（对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估）和整体时空推理（包括连续过程与离散事件序列的时间推理，以及静态定位、多源关系和动态轨迹跟踪的空间推理）。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型（16个开源，3个闭源）的评测中，STAR-Bench展现出巨大挑战性，人类表现远高于所有模型。研究发现：闭源模型（如Gemini 2.5 Pro）在知识和推理上领先，但细粒度感知仍是其瓶颈；开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如，在仅使用音频文本描述答题时，MMAU和MMAR基准的准确率仅下降5.9%和9.0%，而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%，证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究，为未来模型改进指明了方向，如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...