音视频生成

FlashRT: Agent Harness for Guiding Agents to Deploy Real-Time Multimodal Applications

📄 FlashRT: Agent Harness for Guiding Agents to Deploy Real-Time Multimodal Applications 标签：#端到端 #音视频生成 #音视频交互 #高效推理 #音频理解 7.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音视频生成 | #端到端 | #音视频交互 #高效推理 | arxiv 👥 作者与机构第一作者：Krish Agarwal（Carnegie Mellon University, Infini-AI-Lab）通讯作者：Beidi Chen（Carnegie Mellon University, Infini-AI-Lab）作者列表：Krish Agarwal（Carnegie Mellon University, Infini-AI-Lab）、Zhuoming Chen（Carnegie Mellon University, Infini-AI-Lab）、Yanyuan Qin（AMD）、Zhenyu Gu（AMD）、Atri Rudra（University at Buffalo）、Beidi Chen（Carnegie Mellon University, Infini-AI-Lab） 💡 毒舌点评这篇论文的亮点在于其巧妙的系统设计，将AI代理作为编排者，解决多模态应用部署的NP难题，方法新颖且实验结果令人印象深刻（如~70x延迟降低）。但短板同样明显：其性能高度依赖昂贵的顶级推理模型（Claude Opus 4.8），且对模型内部优化（如算子融合、内核优化）基本无能为力，本质上是“用一个黑盒AI代理去编排其他黑盒模型的部署”，工程鲁棒性和可预测性存疑。对于语音/音频领域的读者，此工作的核心贡献（自动化部署框架）是系统层面的，不直接解决算法或建模问题，实用价值有限。 ...

MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation

📄 MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation 标签：#音视频生成 #模型评估 #基准测试 #数据集 #音频理解 6.3/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 ✅ 6.3/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #音视频生成 | #模型评估 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Xiaohan Zhang（标注为 1,2，但具体机构1和2未在提供的文本中明确说明）通讯作者：Yang Shi（标注为 6,2*）和 Huaxiong Li（标注为 1*）作者列表：Xiaohan Zhang，Yuqing Wen，Junlin Chen，Yuqi Tang，Yiting He，Lizhuo Shao，Weiming Zhu，Tengfei Liu，Yang Shi，Jialu Chen，Yuanxing Zhang，Huaxiong Li 机构信息：论文中作者上标的数字未在提供的文本部分附上对应的机构名称，因此无法确认各作者的具体所属机构。 💡 毒舌点评论文敏锐地抓住了“多参考音视频生成”这一新兴且复杂的评估盲区，其“资产包-面板”组合的数据构建流水线和“再判断增强的MLLM评估框架”设计精巧，确实为系统化诊断模型在参考理解、绑定与组合上的失败模式提供了有价值的工具。然而，核心的“基准”资产——数据集、评估代码和详细的提示词模板——在论文中完全未承诺开源，使得这项工作的核心贡献沦为一个难以验证和复用的“黑箱评估报告”。一篇以“基准”为名的论文却不公开基准资源，其学术影响力和社区贡献将大打折扣，颇有“王婆卖瓜，自卖自夸”之嫌。 ...

Bring Music The Horizon: Music-Driven 360^\circ Video Generation

📄 Bring Music The Horizon: Music-Driven 360^\circ Video Generation 标签：#生成模型 #音视频生成 #扩散模型 #参数高效微调 #音频理解 5.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.3/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 📝 5.3/10 | 后50% | 文档类型：系统技术报告 | 评分置信度：高 | #音视频生成 | #生成模型 | #扩散模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Kai Hsu Tsai（National Yang Ming Chiao Tung University, Department of Computer Science）通讯作者：未说明作者列表：Kai Hsu Tsai（National Yang Ming Chiao Tung University, Department of Computer Science）、Yong Wei Fu（National Yang Ming Chiao Tung University, Department of Computer Science）、Hung I Yang（National Yang Ming Chiao Tung University, Department of Computer Science）、Yu-Chih Chen（National Yang Ming Chiao Tung University, Department of Computer Science） 💡 毒舌点评将音乐情感驱动的生成与360度沉浸式视频结合，提出了一个有吸引力的应用问题。然而，整个工作更像一个初步的工程可行性验证（Proof-of-Concept），而非严谨的研究论文——关键实验、定量评估和复现细节几乎全部缺失，使其贡献停留在了“想法”层面。 ...

Learn2Chat: Rethinking Dyadic Talking Heads via Interaction-Modulated Monologic Priors

📄 Learn2Chat: Rethinking Dyadic Talking Heads via Interaction-Modulated Monologic Priors 标签：#音视频生成 #Transformer #生成模型 #自监督学习 #音频理解 6.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.8/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音视频生成 | #Transformer | #生成模型 #自监督学习 | arxiv 👥 作者与机构第一作者：Zikai Huang (South China University of Technology, School of Computer Science and Engineering) 通讯作者：Shengfeng He (Singapore Management University, School of Computing and Information Systems) 作者列表：Zikai Huang (South China University of Technology, School of Computer Science and Engineering), Siyue Chen (South China University of Technology, School of Design), Xuemiao Xu (South China University of Technology, School of Computer Science and Engineering; Guangdong Engineering Center for Large Model and GenAI Technology; State Key Laboratory of Subtropical Building and Urban Science; Ministry of Education Key Laboratory of Big Data and Intelligent Robot), Haoxin Yang (South China University of Technology, School of Computer Science and Engineering), Cheng Xu (Singapore Management University, School of Computing and Information Systems), Yihong Lin (South China University of Technology, School of Computer Science and Engineering), Shengfeng He (Singapore Management University, School of Computing and Information Systems) 💡 毒舌点评这篇论文在解决音频驱动对话头像运动的“信号纠缠”问题上提出了一个相当清晰且有效的范式，通过分离预训练运动先验和交互调制，避免了从头学习端到端模型的复杂性和数据依赖，其核心思想和模块设计（如跨注意力交互预测）具有启发性。然而，其主要评估仅限于单一数据集（DualTalk），且模型对预训练独白模型质量的依赖程度未被充分讨论，这使得其声称的“模型无关性”和“可扩展性”缺乏更广泛的实证支撑。 ...

Synchronized Three-Dimensional Vocal-Tract Motion for Speech Synchronization via Joint-Embedding Predictive Architecture Alignment

📄 Synchronized Three-Dimensional Vocal-Tract Motion for Speech Synchronization via Joint-Embedding Predictive Architecture Alignment 标签：#语音合成 #自监督学习 #语音克隆 #音视频生成 #音频理解 5.7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.4/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 📝 5.7/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音合成 | #自监督学习 | #语音克隆 #音视频生成 | arxiv 👥 作者与机构第一作者：Sheng Li（未说明）通讯作者：未说明作者列表：Sheng Li（未说明）、Takahiro Shinozaki（未说明） 💡 毒舌点评论文提出了一个颇具雄心的设想：用物理可解释的3D发声道模型为高保真神经音频“配音”。其载体-物理模型分离架构以及用JEPA进行运动对齐的思路有新意。然而，论文最致命的弱点在于其评估的极度“迷你化”：仅用24个单词的诊断集和自动指标来宣称一个完整系统的有效性，这远未达到顶会系统论文的证据门槛。这使得一个有潜力的工程原型，更像是一个未完成的、缺乏说服力的概念验证。 ...

Vidu S1: A Real-Time Interactive Video Generation Model

📄 Vidu S1: A Real-Time Interactive Video Generation Model 标签：#音视频生成 #扩散模型 #实时处理 #高效推理 6.4/10 | 创新 1.2/2 | 严谨 1.5/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：中 | #音视频生成 | #扩散模型 | #实时处理 #高效推理 | arxiv 👥 作者与机构第一作者：张锦涛、姜凯、陈锦涛、王旭、罗洋、王玉洁（共同第一作者）通讯作者：邓志劼、包凡、陈建飞、朱军作者列表：张锦涛（清华大学，生数科技）、姜凯（清华大学，生数科技）、陈锦涛（清华大学，生数科技）、王旭（清华大学，生数科技）、罗洋（清华大学，生数科技）、王玉洁（清华大学，生数科技）、陈德川（清华大学，生数科技）、李俊刚（清华大学，生数科技）、叶成洋（未说明机构）、Marco Chen（未说明机构）、朱弘洲（清华大学，生数科技）、赵旻（清华大学，生数科技）、蒋宇轩（清华大学，生数科技）、黄正坤（清华大学，生数科技）、向辰东（清华大学，生数科技）、郑凯文（清华大学，生数科技）、王浩旭（清华大学，生数科技）、王小航（清华大学，生数科技）、贾琦（未说明机构）、陈鑫（未说明机构）、陈逸民（未说明机构）、蒋佑和（清华大学，生数科技）、付方程（清华大学，生数科技）、邓志劼（清华大学）、包凡（清华大学）、陈建飞（清华大学）、朱军（清华大学） 💡 毒舌点评本文是一份典型的“工程重于科学”的系统技术报告。其最大价值在于详尽地展示了如何将学术界已有的技术（扩散模型、蒸馏、缓存策略、注意力加速）整合成一个可工作的实时交互视频生成产品，并坦诚地描述了工程实现中的关键瓶颈与解决方案（如TwinCache、量化策略选择）。然而，作为一篇寻求学术认可的论文，其严谨性令人失望：核心模型架构细节、训练超参数、数据集规模完全黑箱，实验设计回避与最强开源基线的直接对抗，评估深度不足，更像一份精心包装的营销技术白皮书而非可验证的科研贡献。对于追求可复现性与学术深度的读者，这篇文章提供的信息密度太低。 ...

Lights, Camera, Carbon: Architectural Scaling Laws for Video Generation Energy Consumption

📄 Lights, Camera, Carbon: Architectural Scaling Laws for Video Generation Energy Consumption #音视频生成 #扩散模型 6.9/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #音视频生成 | #扩散模型 | arxiv 👥 作者与机构第一作者：Nidhal Jegham（University of Rhode Island, Sustainable AI Group）通讯作者：未说明作者列表：Nidhal Jegham（University of Rhode Island, Sustainable AI Group）、Boris Gamazaychikov（Sustainable AI Group, Paris, France）、Sasha Luccioni（Sustainable AI Group, Montreal, Canada） 💡 毒舌点评该论文从架构第一性原理出发推导了一套视频生成能耗缩放律，在多模型、多GPU上实现了低于3% MAPE的预测精度，工程框架设计扎实。然而，其核心贡献完全面向视频生成领域，与语音、音乐、音频社区的关联极弱——即便涉及音视频联合生成，分析也仅将音频视为CFG引入的额外视频前向pass开销，未探讨音频模态本身的任何特性。对音频领域读者而言，其直接价值微乎其微。 ...

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

📄 DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation #音视频生成 #扩散模型 #多模态模型 #说话人验证 #多任务学习 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音视频生成 | #扩散模型 | #多模态模型 #说话人验证 | arxiv 👥 作者与机构第一作者：Xu Guo（清华大学）通讯作者：Xiangwang Hou（清华大学）、Songtao Zhao（字节跳动）作者列表：Xu Guo（清华大学）、Fulong Ye（字节跳动）、Qichao Sun（字节跳动）、Liyang Chen（清华大学）、Bingchuan Li（字节跳动）、Pengze Zhang（字节跳动）、Jiawei Liu（字节跳动）、Songtao Zhao（字节跳动）、Qian He（字节跳动）、Xiangwang Hou（清华大学） 💡 毒舌点评这篇文章的工程野心令人印象深刻——硬生生把三个各自为战的音视频生成任务塞进一个框架，双边对称注入、多阶段课程学习、双层级解耦，把身份绑定和任务冲突这些硬骨头啃了一遍。但读完之后如鲠在喉：Syn-RoPE本质上是RoPE的Margin分区技巧，结构化字幕是MLLM提示工程的产物，三阶段训练是课程学习的实例化——这些精巧的“组合创新”固然有效，却掩盖不了方法层面未见根本性突破的事实。更要命的是，一个号称“统一框架”的顶会投稿，代码和模型权重双双缺失，数据集获取方式也语焉不详，这严重削弱了其学术可信度和传播潜力。论文把“统一”的故事讲得挺好，但开源精神上显然还没“统一”过来。 ...

REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation

📄 REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation #音视频生成 #扩散模型 #知识蒸馏 7.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.7/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #音视频生成 | #扩散模型 | #知识蒸馏 | arxiv 👥 作者与机构第一作者：Haotian Wang（中国科学技术大学）共同第一作者：Yuzhe Weng（中国科学技术大学）通讯作者：Jun Du（中国科学技术大学）作者列表：Haotian Wang (中国科学技术大学), Yuzhe Weng (中国科学技术大学), Jun Du (中国科学技术大学), Haoran Xu (iFLYTEK), Xiaoyan Wu (iFLYTEK), Shan He (iFLYTEK), Bing Yin (iFLYTEK), Cong Liu (iFLYTEK), Qingfeng Liu (中国科学技术大学/iFLYTEK，机构标注为双隶属） 💡 毒舌点评这篇论文是diffusion-based talking head领域一次扎实的系统工程突破，首次在单卡上实现了端到端扩散模型的实时流式生成。ID-Context Cache将KV缓存思想优雅地适配到扩散Transformer的半自回归场景中，而异步流式蒸馏（ASD）策略通过信息论对比和运动平滑约束，有效缓解了流式生成固有的误差累积问题，实验效果确实亮眼。然而，冷静审视后不难发现，其对语音/音频领域本身的贡献相当有限——SpeechAE基本承袭READ架构，核心驱动力来自Whisper特征，并未在声学建模或音频表征层面提出新见解。净输入/输出的思维来看，论文解决的核心问题（实时性、流式）和采用的关键技术（Cache、蒸馏、高压缩VAE）均是视频生成和多模态社区的经典思想，其对语音/音频研究者的方法论启发远小于对视觉生成社区的工程示范。此外，完全不开源、不提供模型权重或在线demo，在当前顶会语境下显得诚意不足，39页附录中的细节虽多，但仍不足以弥补复现门槛极高的缺陷。 ...

SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos

📄 SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos #音视频生成 #流匹配 #扩散模型 #对比学习 #长音频处理 7.6/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #对比学习 | arxiv 👥 作者与机构第一作者：Amir Dellali（ETH Zurich）通讯作者：Amir Dellali（ETH Zurich）、Luca A. Lanzendörfer（ETH Zurich）、Florian Grötschla（ETH Zurich）、Roger Wattenhofer（ETH Zurich）作者列表：Amir Dellali（ETH Zurich）、Luca A. Lanzendörfer（ETH Zurich）、Florian Grötschla（ETH Zurich）、Roger Wattenhofer（ETH Zurich） 💡 毒舌点评该工作将 Shortcut 模型和掩码流匹配巧妙地嫁接到视频到音频生成，实现了少步采样和长音频扩展，实验中同步指标和人类偏好均有明显优势，实用性较强。但核心方法多为已有技术的组合，对比学习同步模型与 Shortcut 损失的创新增量有限，且未开源代码与模型，削弱了其学术推动力。 ...