OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #音频大模型 #空间音频 #声源定位 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute电气与计算机工程系) 💡 毒舌点评 这篇论文为音频大模型装上了“空间几何眼睛”,通过“模拟训练-纯音频推理”的巧思和详实的课程学习,确实把空间定位和推理精度提升了一个台阶;但美中不足的是,其所有辉煌战绩(包括新建的百万级数据集)均建立在精心构建的合成世界里,在真实嘈杂、反射复杂的声学环境中,这套“几何内功”的实战效果还有待“出关”检验。 🔗 开源详情 代码:论文明确提供代码仓库链接:https://github.com/BASHLab/OWL。表明将在该仓库发布代码。 模型权重:未明确提及是否公开预训练模型权重,但根据“our dataset and code are available”的表述,模型权重可能包含在开源计划内。 数据集:论文明确表示将发布BiDepth数据集(“we construct and release BiDepth”),包含约110万QA对。 Demo:未提及在线演示。 复现材料:附录提供了完整的训练超参数(表10,表11)、特征提取公式(B.1)、模型架构细节(B.2, B.3)和数据集生成细节(A节),复现指引非常充分。 论文中引用的开源项目:依赖SoundSpaces v2.0和Matterport3D进行模拟;音频编码器初始化自AudioMAE;语言模型使用LLaMA-2-7B;投影模块参考Q-Former;微调使用LoRA。 📌 核心摘要 要解决什么问题:现有的音频大语言模型(ALLMs)在空间推理方面能力薄弱,主要依赖粗糙的双耳线索和单步推理,导致在声源方向(DoA)和距离估计上精度不足,且推理过程缺乏可解释性。 方法核心是什么:提出OWL框架,其核心是创新的几何感知音频编码器SAGE。SAGE在训练时利用全景深度图和模拟房间脉冲响应(RIR)作为监督信号,让编码器学会将声学特征与3D空间几何结构对齐,但在推理时只需音频输入。OWL进一步将SAGE与空间接地的链式思维(CoT) 推理相结合,支持从感知到多步推理的课程学习。 与已有方法相比新在哪里:首次将显式的几何监督(通过RIR预测任务)引入音频编码器训练;构建了首个大规模(约110万QA对)耦合双耳音频、RIR和深度图的数据集BiDepth用于几何感知训练;引入了针对音频空间推理的多阶段课程学习和CoT监督机制,使模型能生成可解释的推理路径。 主要实验结果如何:在BiDepth和SpatialSoundQA两个基准上,OWL显著超越了现有方法。SAGE相比SOTA(Spatial-AST),在BiDepth数据集上平均角度误差(MAE)降低25.52%,距离错误率(DER)降低31.34%。OWL相比BAT,在BiDepth上的空间推理二分类准确率(BA)提升24.9%(77.89% vs. 69.46%),在SpatialSoundQA上的推理平均准确率达79.06%(BAT为76.89%)。OWL在真实世界音频场景分类和声源定位任务上也展现出良好的泛化能力。 实际意义是什么:该工作推动了音频大模型从“听到什么”向“声音在哪里、如何关联”的空间理解迈进,为构建更接近人类听觉感知的智能系统(如机器人、智能家居助手、助听设备)提供了关键技术组件和评估基准。 主要局限性是什么:训练和评估严重依赖合成数据(BiDepth),而真实世界声学环境更为复杂多变,模型的鲁棒性有待验证;目前的推理任务限于单轮问答,尚未扩展到多轮对话式空间推理;几何监督依赖于预先生成的深度图和RIR,限制了其在完全未知环境中的应用。 🏗️ 模型架构 OWL是一个完整的空间音频问答系统,其架构(如图4所示)由三个主要部分串联而成,旨在将原始双耳波形转化为带有空间推理的文本输出。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 326 words

RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System

📄 RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System #语音伪造检测 #多模态模型 #对比学习 #鲁棒性 #数据集 ✅ 7.0/10 | 前25% | #语音伪造检测 | #多模态模型 | #对比学习 #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Nitin Choudhury(论文中未提供其具体机构) 通讯作者:论文中未明确标注通讯作者。 作者列表:Nitin Choudhury(未说明)、Nikhil Kumar(未说明)、Aditya Kumar Sinha(未说明)、Abhijeet Anand(未说明)、Hossein Salemi(未说明)、Orchid Chetia Phukan(未说明)、Hemant Purohit(未说明)、Arun Balaji Buduru(未说明)。论文中未提供作者与机构的对应关系。 💡 毒舌点评 论文在解决数据稀缺问题上做得非常扎实,构建了包含心理语言学、情感和声音克隆三大对抗轴的合成数据集Robo-SAr,并进行了严格的人工验证,这为后续研究提供了宝贵的基准。然而,将KAN应用于多模态融合的创新点略显牵强,其带来的性能提升是否完全归功于KAN的特殊性质,还是仅仅因为增加了模型复杂度和非线性度,文中论证不足;此外,承诺开源却迟迟未兑现代码和数据,在当下开源生态中略显扣分。 🔗 开源详情 代码:论文中承诺在审稿后遵循伦理标准发布代码和数据,但当前未提供具体链接。(论文中未提及代码链接) 模型权重:论文中未提及RoboKA模型权重的具体下载链接。论文使用的预训练模型(如Wav2Vec2, BERT等)为开源模型,其权重可在Hugging Face获取,具体链接已在“论文中引用的开源项目”部分列出。 数据集:论文创建了“Robo-SAr”数据集并承诺发布,但当前未提供具体链接。论文中引用了两个现有数据集:Fraud Call India数据集(https://www.kaggle.com/datasets/narayanyadav/fraud-call-india-dataset)和FTC Do Not Call Registry(https://www.consumer.ftc.gov/articles/how-stop-unwanted-calls)。 Demo:论文中未提及。 复现材料:论文提供了部分训练与评估协议细节,包括:使用5折交叉验证、严格的组级划分(按说话人、引擎、情绪、转录本划分以避免数据泄露)、评估设置(T1-T4)、以及超参数(如对比学习中的温度参数τ)。但未提供完整的超参数配置文件、训练日志或检查点。 论文中引用的开源项目: 预训练音频模型:Wav2Vec2 (https://huggingface.co/facebook/wav2vec2-base), WavLM (https://huggingface.co/microsoft/wavlm-base), HuBERT (https://huggingface.co/facebook/hubert-base-ls960) 预训练文本模型:BERT (https://huggingface.co/bert-base-uncased), RoBERTa (https://huggingface.co/roberta-base), GPT-2 (https://huggingface.co/gpt2) 文本转语音模型:Bark (https://github.com/suno-ai/bark), SpeechT5 (https://huggingface.co/microsoft/speecht5_tts), xTTS (来自Coqui TTS: https://github.com/coqui-ai/TTS) 语音识别模型:OpenAI Whisper (https://github.com/openai/whisper) 情感预测模型:roberta-base-conv-emotion (https://huggingface.co/waves/hubert-base-superb-er, 论文中引用[35]但未给出具体链接,此处为最可能对应的Hugging Face模型) 📌 核心摘要 解决的问题:针对Robocall(自动语音电话)欺诈检测,现有研究因隐私问题受限于有限的公开数据集,且现有防御系统在面对高级对抗性策略时鲁棒性不足。 方法核心:提出RoboKA框架,首先使用跨模态对比学习对齐从预训练音频(如Wav2Vec2)和文本(如BERT)模型提取的特征,然后使用基于Kolmogorov-Arnold Networks的模块进行非线性融合与分类,以捕获复杂的跨模态交互。同时构建了名为Robo-SAr的对抗性合成数据集。 与已有方法相比新在哪里:a) 首次构建了系统化、多对抗轴(心理语言学操控、情感诱导、声音克隆)的Robocall合成数据集Robo-SAr;b) 首次将KAN架构引入多模态Robocall检测的融合与分类阶段,用以替代传统的线性/MLP头,以建模更丰富的非线性关系;c) 采用不确定性感知的损失融合策略平衡对比学习和分类目标。 主要实验结果:在四个评估设置(TTS引擎留出、情感留出、20%数据留出、真实世界DNCR数据OoD测试)下,RoboKA(最优组合HuBERT + BERT)全面超越单模态和现有双模态基线。例如,在最具挑战性的OoD测试(T4)上,RoboKA对“无需电话”的召回率(uRc)达到82.21,比最强基线(HuBERT⊗BERT的67.21)高出15个百分点。消融实验证明了多模态、CMCL和KAN的各自贡献。 实际意义:为Robocall检测研究提供了首个公开的、涵盖多种对抗策略的基准数据集,并提出了一种更鲁棒的多模态检测框架,有助于推动该领域防御技术的进步。 主要局限性:a) 研究仅限于英语;b) 真实世界评估集(DNCR)仅包含负面样本,无法评估精确率;c) 合成数据与真实世界声学条件仍可能存在领域差距。 🏗️ 模型架构 模型架构图(图1) ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 285 words

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统 ✅ 7.5/10 | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang(复旦大学、上海创新研究院) 通讯作者:Jinlan Fu(未说明具体机构,对应邮箱jinlanjonna@gmail.com),Xipeng Qiu(复旦大学、上海创新研究院) 作者列表: Siyin Wang(复旦大学、上海创新研究院) Jinlan Fu(国家大学新加坡) Feihong Liu(复旦大学) Xinzhe He(复旦大学) Huangxuan Wu(复旦大学) Junhao Shi(复旦大学、上海创新研究院) Kexin Huang(复旦大学) Zhaoye Fei(复旦大学) Jingjing Gong(上海创新研究院) Zuxuan Wu(复旦大学、上海创新研究院) Yu-Gang Jiang(复旦大学) See-Kiong Ng(国家大学新加坡) Tat-Seng Chua(国家大学新加坡) Xipeng Qiu(复旦大学、上海创新研究院) 💡 毒舌点评 这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问,而非被动接受指令,这比单纯提升操作成功率更有意义。然而,其真实世界评估仅在单一机器人平台(WidowX 250S)上进行,且失败分析显示执行错误(如抓取失败)占比过半,凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟,离“家庭管家”的理想距离尚远。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 340 words

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #数据集 #歌唱语音合成 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #数据集 #歌唱语音合成 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Sifei Li(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) 通讯作者:Weiming Dong(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) 作者列表: Sifei Li(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) Yang Li(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) Zizhou Wang(中国科学院自动化研究所) Yuxin Zhang(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) Fuzhang Wu(中国科学院软件研究所ISRC) Oliver Deussen(康斯坦茨大学) Tong-Yee Lee(成功大学) Weiming Dong(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) 💡 毒舌点评 这篇论文精准地瞄准了“旋律保持”这一翻唱核心需求,并通过改进条件注入机制(IA-EiLM)和构建高质量数据集(Suno70k)给出了一个参数高效、效果显著的解决方案,理论与实验结合得相当扎实。不过,模型依然受限于底层基础模型(ACE-Step)对音色等细粒度控制的不足,且所用的AI生成数据集Suno70k在风格多样性、情感表达深度上可能与真实人类创作的音乐存在“域差距”,这或许会影响模型泛化到更复杂、更具表现力的真实翻唱场景。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/lsfhuihuiff/SongEcho_ICLR2026。 ���型权重:论文中提到“Code, dataset, and demos are available at…”,但未明确说明是否开源经过训练的完整SongEcho模型权重。基于常见实践,可能开源了新增的IA-EiLM模块和旋律编码器权重。 数据集:Suno70k 数据集已公开,链接为 https://huggingface.co/datasets/nyuuzyou/suno。 Demo:提供在线演示页面:https://vvanonymousvv.github.io/SongEcho_updated/。 复现材料:提供了详细的训练细节(第5.1节)、评估协议(第5.2节)、基线复现细节(附录C.1)和超参数设置,复现指导充分。 论文中引用的开源项目: 骨干模型:ACE-Step (Gong et al., 2025) 评估工具:mir_eval (Raffel et al., 2014), stable-audio-metrics, SongEval (Yao et al., 2025) 特征提取工具:RVMPE (Wei et al., 2023) 用于音高提取, Qwen2-audio (Chu et al., 2024) 用于标签生成, Whisper (Radford et al., 2023) + All-in-One (Kim & Nam, 2023) 用于歌词转录 基线方法:ControlNet (Zhang et al., 2023a), LoRA (Hu et al., 2022), MuseControlLite (Tsai et al., 2025) 论文中未提及开源计划:未明确提及开源训练好的完整模型权重和大规模的预训练骨干(ACE-Step)权重(ACE-Step本身可能是开源的)。 📌 核心摘要 要解决什么问题:在给定一段人声旋律和文本提示的条件下,生成同时包含新的人声演唱和和谐伴奏的完整歌曲(即翻唱歌曲),这要求模型在保持原旋律轮廓的同时进行风格重新诠释。 方法核心是什么:提出SongEcho框架,核心是实例自适应元素级线性调制。它扩展了FiLM为元素级线性调制,以实现对隐藏状态在时序上的精确对齐调制;同时引入实例自适应条件精炼模块,使旋律条件能根据生成模型当前的隐藏状态进行动态调整,而非静态注入。 与已有方法相比新在哪里:相比于使用交叉注意力(如MuseControlLite)或元素级相加(如ControlNet)的方法,EiLM提供了更灵活、时序对齐更直接的调制能力。IACR解决了传统条件编码与生成模型内部状态不兼容的问题,使条件融合更和谐。此外,论文开源了一个高质量的、带有丰富标注的AI歌曲数据集Suno70k。 主要实验结果如何:在Suno70k测试集上,SongEcho的RPA(0.708)、RCA(0.734) 和CLAP(0.324) 等指标均显著优于基线方法,FD(42.06) 和KL(0.112) 等音质指标也远优于其他方法,且可训练参数量(49.1M)仅为ACE-Step+ControlNet(1.6B)的3.07%。主观听测(MOS)在旋律保真度、文本一致性、音频质量和整体偏好上均获最高分。 实际意义是什么:推动了可控、高质量歌曲生成技术的发展,为音乐创作提供了新的AI辅助工具。所构建的开源数据集有助于解决歌曲AI研究中的数据稀缺和版权问题。 主要局限性是什么:(1)音色控制能力有限,仅支持基于性别调整,无法进行更细粒度的音色模仿或合成。(2)生成的翻唱是全局风格迁移,未模拟人类音乐家在翻唱时可能进行的局部创造性改编(如颤音、滑音、音符时值变化)。(3)训练依赖于AI生成的音乐数据集,可能存在与真实人类音乐在情感、表达力上的差异。 🏗️ 模型架构 SongEcho整体架构基于一个预训练的文本到歌曲模型(ACE-Step),它是一个线性扩散Transformer(DiT)。核心是在每个Transformer块中插入一个IA-EiLM模块,该模块位于自注意力层之后、前馈网络层之前,用于注入旋律控制信号。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 326 words

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #音频生成 #数据集 🔥 8.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #音频生成 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度 高 👥 作者与机构 第一作者:Youliang Zhang(清华大学、StepFun) 通讯作者:Xiu Li(清华大学深圳国际研究生院) 作者列表: Youliang Zhang(清华大学、StepFun) Zhaoyang Li(StepFun) Duomin Wang(StepFun,共同第一作者/责任作者†) Jiahe Zhang(未说明具体机构) Deyu Zhou(香港科技大学(广州)、StepFun) Zixin Yin(香港科技大学、StepFun) Xili Dai(StepFun) Gang Yu(StepFun) Xiu Li(清华大学深圳国际研究生院‡) 💡 毒舌点评 亮点:论文构建数据集的工程严谨性堪称典范,从多源数据收集到基于多种信号(SyncNet、ArcFace、3D-Speaker)的交叉验证,再到涵盖画面质量、运动模糊、音频清晰度的多层级过滤,流程完整且考虑周全,为社区贡献了一个定义明确、质量可控的“交钥匙”式基准数据集。短板:基线模型虽然设计完整,但模型体量(0.8B)与当前主流的视频生成模型(动辄数十亿甚至百亿参数)差距明显,其在视频生成核心指标(FID、FVD)上虽自身消融提升显著,但与更大更强的级联模型(如HalLo3)相比仍处下风,一定程度上削弱了其作为“标准答案”的说服力,更像一个“可行性验证”。 🔗 开源详情 代码:论文明确承诺将公开数据处理代码和基线模型代码,但未提供具体的代码仓库链接(如GitHub地址)。论文中写有“Both the dataset and the data processing code will be publicly released.”和“We will open-source the entire dataset, including the raw data, annotations, and data processing pipeline”。因此,判定为 有开源承诺,但具体链接未在文中给出。 模型权重:论文中未提及公开预训练或微调后的基线模型权重。 数据集:论文明确承诺完全开源数据集,并说明发布形式为YouTube视频ID/URL列表、时间戳和生成的标注,不托管原始视频/音频。开源方式清晰。 Demo:未提及在线演示。 复现材料:提供了极其充分的复现材料,包括:详尽的数据收集、预处理、标注和过滤流程(第3节);基线模型的架构细节、训练策略(三阶段)、超参数、硬件配置(附录A.7, A.8);VidChatBench的构建方法和评估指标详细说明(第6.1节);数据标注文件的具体格式和使用指南(附录A.11);以及多处提示会开源代码。 论文中引用的开源项目: 数据处理工具:SceneDetect, 3D-Speaker, YOLO, SyncNet, ArcFace, Qwen2.5-VL, Qwen-3, Whisper, DWpose, PaddleOCR。 模型/架构组件:Qwen2.5-Omni(理解模块), CosyVoice2(音频分词器与声码器), 3D-VAE(视频编解码), NOVA(空间Transformer)。 评估工具:DOVER(视频质量评估), Deep3DFaceRecon(表情特征提取), CLIP(文本相似度计算)。 📌 核心摘要 问题:当前数字人研究正从单向驱动的“肖像生成”向双向交互的“虚拟人对话”迈进,但学术界严重缺乏为此类任务设计的大规模、高质量公开数据集。 方法:论文提出SpeakerVid-5M数据集,从YouTube收集视频,通过场景分割、说话人分离、人脸检测、唇音同步、身份矫正等步骤预处理,并利用多模态大模型(Qwen2.5-VL)和多种模型进行丰富标注(文本、骨骼、模糊度等),最后进行严格的质量过滤。同时,提供了一个基于自回归(AR)框架的音视频联合生成基线模型。 创新:① 首个针对“音频-视觉双人交互”任务的大规模数据集(5.2M片段,8.7K小时,其中双人对话770K对)。② 构建了多维度、分层级的数据质量控制与组织流程���对话分支、单人分支、聆听分支、多轮分支;预训练子集与SFT子集)。③ 定义并发布了VidChatBench评测基准。 实验:基线模型在VidChatBench上进行评测。消融实验表明,联合音视频生成、空间Transformer优化和训练噪声注入对提升视频质量(FVD从55.06降至28.82)、唇音同步(SyncNet得分从-升至2.698)和情感一致性(FIDEmotion从3.45降至3.22)有显著效果。与级联方案(Qwen+CosyVoice+Sonic/Hallo3)对比,本方法在情感和手势质量上占优,推理速度快一个数量级(3.17s/帧 vs 31-45s/帧)。 实际意义:该数据集填补了交互式虚拟人研究的数据空白,其丰富的标注也适用于人体动画、多模态对话等任务,将加速该领域的基础模型研究。 局限性:数据集来源存在人口统计偏差(偏英语、西方、男性)。基线模型规模较小,视频生成保真度与顶级扩散模型仍有差距,其主要价值在于验证数据集和AR框架的可行性。 🏗️ 模型架构 论文提出的基线方法是一个面向音视频双人交互生成的端到端自回归(AR)系统。整体架构分为两个主要部分:多模态理解与AR音视频生成器、视觉优化模块。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 383 words

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #数据集 #大语言模型 #多模态模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #数据集 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dmitrii Korzh(AXXX, Moscow, Russia;MTUCI, Moscow, Russia) 通讯作者:论文中未明确标注通讯作者 作者列表:Dmitrii Korzh(AXXX, MTUCI),Dmitrii Tarasov(FusionBrain Lab, AXXX; HSE University),Artyom Iudin(AXXX; MTUCI),Elvir Karimov(AXXX; MTUCI; Applied AI Institute),Matvey Skripkin(FusionBrain Lab, AXXX; Applied AI Institute),Nikita Kuzmin(AXXX; MTUCI; Applied AI Institute),Andrey Kuznetsov(FusionBrain Lab, AXXX; Innopolis University),Oleg Y. Rogov(AXXX; MTUCI; Applied AI Institute),Ivan Oseledets(AXXX; Applied AI Institute; Moscow State University) 💡 毒舌点评 亮点在于,论文贡献了一个规模空前、标注细致的开源S2L数据集,并系统性地探索了从ASR后校正到端到端Audio-LLM的多种技术路线,为这个细分领域确立了坚实的基准和评估框架。短板是,无论是ASR后校正还是端到端方法,模型架构本身均无显著创新,更多是现有技术的组合与应用,其性能提升很大程度上依赖于新构建的高质量数据集。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 288 words

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(ByteDance Seed) Yuanzhe Chen(ByteDance Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(ByteDance Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的“基建”价值很高,99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构(基于现有Qwen2.5-Omni的微调)创新稍显有限,更像是一个强大但“组装式”的解决方案,而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

2026-05-04 · 更新于 2026-06-18 · 3 min · 619 words

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者:Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表:Zihan Liu(北京航空航天大学,上海人工智能实验室),Zhikang Niu(上海交通大学,上海创新研究院),Qiuyang Xiao(上海交通大学),Zhisheng Zheng(上海交通大学),Ruoqi Yuan(北京航空航天大学),Yuhang Zang(上海人工智能实验室),Yuhang Cao(上海人工智能实验室),Xiaoyi Dong(上海人工智能实验室,香港中文大学),Jianze Liang(上海人工智能实验室),Xie Chen(上海交通大学,上海创新研究院),Leilei Sun(北京航空航天大学),Dahua Lin(香港中文大学,上海人工智能实验室),Jiaqi Wang(上海人工智能实验室,上海创新研究院) 💡 毒舌点评 本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题,证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”,从音高、响度等基础感知到时空推理,层层深入,确实能测出模型的真实短板。不过,论文本身止步于“诊断医生”,并未给出“治疗方案”,其核心价值依赖于未来模型能否利用这个基准取得进步,稍显被动。 📌 核心摘要 本文指出,现有的音频基准测试主要评估可通过文本描述传达的语义内容,无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此,论文提出了“音频4D智能”的概念,即结合时间(1D)和三维空间(3D)进行深度推理的能力。作者构建了STAR-Bench基准,包含两个层级:基础声学感知(对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估)和整体时空推理(包括连续过程与离散事件序列的时间推理,以及静态定位、多源关系和动态轨迹跟踪的空间推理)。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型(16个开源,3个闭源)的评测中,STAR-Bench展现出巨大挑战性,人类表现远高于所有模型。研究发现:闭源模型(如Gemini 2.5 Pro)在知识和推理上领先,但细粒度感知仍是其瓶颈;开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如,在仅使用音频文本描述答题时,MMAU和MMAR基准的准确率仅下降5.9%和9.0%,而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%,证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究,为未来模型改进指明了方向,如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 257 words

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音视频深度伪造检测 #数据集 #多语言 #零样本 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kartik Kuckreja (MBZUAI) 通讯作者:未明确标注,但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表:Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评 亮点:该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言,尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视,并为此构建了迄今规模最大、最复杂的专用数据集,为社区提供了极具价值的“练兵场”。短板:论文的重点在于“提出问题”和“提供工具”,而在于“解决问题”(即提出更先进的检测模型)方面着墨较少,其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型,其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足,作者也承认了这一点。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接,但声明“Data-generation code and evaluation scripts will be made public”。 模型权重:论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接,这些模型均为第三方已发表模型。 数据集:论文明确声明“The dataset is public.”,并提供了访问需要签署的EULA协议图示。 Demo:未提及。 复现材料:论文提供了生成管道的详细描述、文本篡改的提示示例(附录A.6)、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。 论文中引用的开源项目:XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。 📌 核心摘要 这篇论文旨在解决深度伪造检测研究中对多语言,特别是阿拉伯语-英语“代码切换”(在同一次话语中混合使用两种语言)场景严重忽视的问题。为解决此问题,论文提出了一个全新的核心贡献:构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频(超过765小时),通过一个创新的生成管道创建,该管道整合了多个文本转语音(TTS)和唇形同步模型,并利用GPT-4.1-mini进行8种不同规则的文本篡改,以模拟真实世界的代码切换和方言变体。与现有的多语言数据集(如PolyGlotFake)相比,ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明,当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌(例如,BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%),甚至人类参与者的检测准确率也仅为60%,这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括:数据生成管线依赖现有ASR和LLM,可能导致转录噪声和语义变化不足;数据集目前仅覆盖阿拉伯语和英语两种语言。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 276 words

Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor

📄 Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor #音频事件检测 #模型评估 #数据集 ✅ 6.5/10 | 前50% | #音频事件检测 | #模型评估 | #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuxi Ma (共同第一), Yongqian Peng (共同第一) (Peking University) 通讯作者:Chi Zhang (Peking University), Yixin Zhu (Peking University) 作者列表: Yuxi Ma (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; School of Intelligence Science and Technology; Yuanpei College; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) Yongqian Peng (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; Yuanpei College; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) Junchen Lyu (Peking University, Institute for Artificial Intelligence; Yuanpei College) Chi Zhang (Peking University, School of Intelligence Science and Technology; State Key Laboratory of General Artificial Intelligence) Yixin Zhu (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; School of Intelligence Science and Technology; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) 💡 毒舌点评 亮点:论文用828个真实脱口秀表演的大数据,硬生生把“抖包袱的节奏”从艺术直觉变成了可量化的认知科学问题,并发现“停得久”比“说得怪”对搞笑更重要,这比很多堆砌BERT变体的幽默计算研究更接地气。短板:作为一项观察性研究,它只能证明“成功的喜剧人停顿更长且更会挑时机”,却无法证明“是停顿让观众更觉得好笑”,这种因果倒置的风险在解读时需要非常小心。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 349 words