AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling

📄 AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling #音频生成 #多智能体系统 #语音情感识别 #人机交互 ✅ 6.0/10 | 前50% | #音频生成 | #多智能体系统 | #语音情感识别 #人机交互 | arxiv 学术质量 未说明/8 | 影响力 未说明/2 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Yiming Ren (上海人工智能实验室) 通讯作者:未说明 作者列表:Yiming Ren (上海人工智能实验室), Xuenan Xu (未说明), Ziyang Zhang (未说明), Wen Wu (未说明), Baoxiang Li (未说明), Chao Zhang (清华大学) 💡 毒舌点评 本文提出了一个整合多阶段、多智能体的音频故事生成框架,意图解决声音匹配、质量控制和交互性问题,流程设计清晰。然而,其核心创新严重不足,本质上是现有商业/闭源大模型(Gemini-3-Pro)、音频生成模型(IndexTTS2, TangoFlux)和检索模型的“拼装”。所谓的“自我反思闭环”机制,其关键参数(如阈值τ)黑箱操作,评估模型(如CLAP)本身也存在偏见,使得自纠正效果难以独立验证。论文在学术贡献的深度上乏善可陈,更像一篇系统应用报告而非算法创新论文。 📌 核心摘要 本文针对长篇连贯音频故事生成中存在的角色声音不匹配、缺乏质量自纠正、交互性差等问题,提出了AuDirector。这是一个基于多智能体(Director, Casting, Acoustic Production, Critic, Mix, Interaction Agent)的自反射闭环框架。其核心方法分为三阶段:1)身份感知的预制作,通过两步检索(语义过滤+导演决策)为角色匹配声音,并动态生成7维情绪指令;2)协作合成与修正,通过Critic Agent评估生成的语音和音效质量,并在低于阈值时触发迭代修正;3)人类引导的交互优化,允许用户通过自然语言反馈修改生产脚本并针对性地重新生成部分音频。实验在100个播客和广播剧场景上进行,与WavJourney和PodAgent基线相比,AuDirector在语音角色匹配度(VRM: 4.23 vs 3.59)、情感表达(MOS-Emo: 4.17 vs 3.60)和结构连贯性(MOS-Ali: 3.74 vs 3.60)上均取得领先。消融实验证明了闭环修正机制的有效性。论文明确承认的主要局限在于底层生成模型对非语音音轨建模的不足。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 487 words

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度 中 👥 作者与机构 第一作者:Che Liu (根据作者列表顺序推断) 通讯作者:Fei Tian (tianfei@stepfun.com, StepFun) 作者列表:Che Liu (StepFun, Imperial College London), Lichao Ma (StepFun, Peking University), Xiangyu Tony Zhang (StepFun, The University of New South Wales), Yuxin Zhang (StepFun, Shanghai Jiao Tong University), Haoyang Zhang (StepFun, Peking University), Xuerui Yang (StepFun), Fei Tian (StepFun, 通讯作者) 💡 毒舌点评 论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高,并为此提出了系统化的去偏评测协议(OmniClean),这为社区提供了急需的、更干净的评估工具,具有明确的实用价值;然而,作为核心方法贡献的OmniBoost方案,本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优,缺乏在算法或模型架构层面的根本性创新,且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上,极大地削弱了其结论的普适性与指导意义。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 568 words

Chunkwise Aligners for Streaming Speech Recognition

📄 Chunkwise Aligners for Streaming Speech Recognition #语音识别 #流式处理 #端到端 #对齐器 #分块处理 ✅ 6.3/10 | 前25%-50% | #语音识别 | #端到端 | #流式处理 #对齐器 | arxiv 学术质量 5.5 (综合学术质量:创新性1.5+技术严谨性1.5+实验充分性1.5+清晰度0.8 = 5.3,按范围0-8调整为5.5)/8 | 影响力 0.6 (影响力与重要性:领域推动价值、后续工作潜力、与读者相关性,范围0-2)/2 | 可复现性 0.4 (可复现性:开源完整度、训练细节、超参数充分度,范围0-1)/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Wen Shen Teo、Takafumi Moriya、Masato Mimura(论文中未明确各作者具体贡献) 💡 毒舌点评 这篇论文的核心是“给Aligner装个刹车”,通过分块(Chunk)和块结束(EOC)信号,让原本只能看完整句才能干活的Aligner具备了流式能力。想法直白有效,工程实现清晰,确实解决了Aligner无法用于流式ASR的痛点,并在训练/解码效率上展现出对Transducer的优势。然而,其“创新”更多是对现有组件的巧妙重组和适配,而非原理性突破。更关键的是,它用一个“硬依赖”(强制对齐)换取了另一个“软依赖”(对齐质量与延迟调优),其“端到端”的成色值得商榷。论文在实验深度和部分声明的验证上有所欠缺,使其整体贡献停留在“一个不错的工程优化”层面。 📌 核心摘要 问题:流式ASR的主流模型Transducer训练计算成本高昂(需动态规划所有可能对齐)。新提出的Aligner模型通过“自转导”机制简化了训练(仅需交叉熵损失),但因其将所有标签对齐到序列开头,丢失了时间信息,无法用于流式识别,且对未见音频长度不鲁棒。 方法:提出Chunkwise Aligner。核心是将音频序列分割为固定长度(Lc)的块,并在每个块内执行“块内自转导”,将属于该块的标签对齐到该块最左侧的帧。同时,引入一个由连接器网络预测的可学习块结束(EOC)概率。在解码时,当EOC概率超过阈值(τ)时,当前假设及其解码器状态将被携带到下一个块,从而实现连续流式处理。 创新:在Aligner的标签同步、简单交叉熵训练框架下,通过分块处理和EOC信号机制,赋予了模型流式处理能力。解码过程在EOC引导下,计算主要发生在预测标签的步骤(与标签数U相关),而非音频帧的每一步(与帧数T相关),理论上可提升解码效率。 结果: LibriSpeech离线:Chunkwise Aligner(WER: clean 2.2%, other 5.0%)达到与Transducer(2.2%, 4.9%)相当的性能,但解码实时率(RTF)从0.30降至0.12,速度提升约2.5倍。 LibriSpeech流式:通过引入最佳320ms的对齐延迟,Chunkwise Aligner(WER: clean 3.2%, other 7.9%)能接近流式Transducer(3.1%, 7.6%)的性能。 CSJ日文:在离线和流式设置下,CER均与Transducer持平,离线RTF(0.16)比Transducer(0.30)快约1.875倍。 意义:为流式ASR提供了一种在训练效率(交叉熵损失)和解码速度(标签同步解码)上优于传统Transducer,同时性能相当的方案。 局限:模型性能强依赖于训练时使用的强制对齐质量(尤其是使用质量较差的CTC对齐时)。流式性能对人为设定的“对齐延迟”超参数敏感。论文承认未来需探索不依赖高质量外部对齐的训练框架。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中使用了公开数据集 LibriSpeech 和 Corpus of Spontaneous Japanese (CSJ),但未提供具体获取链接。 Demo:论文中未提及。 复现材料:论文中未提及。文中在实验部分提供了部分训练配置细节(如优化器、学习率、epoch数、编码器结构等),但未提供完整的训练配置文件、检查点或附录。 论文中引用的开源项目: Montreal Forced Aligner (MFA):论文中提及用于生成强制对齐。论文中未提供具体链接。 ESPnet:论文中提及用于构建和评估模型。论文中未提供具体链接。 Conformer:论文中提及作为编码器架构的基础。论文中未提供具体实现链接。 🏗️ 方法概述和架构 整体流程概述:Chunkwise Aligner是一个为流式语音识别设计的端到端模型。它基于经典的编码器-预测器-连接器(Encoder-Predictor-Joiner)架构。编码器将输入的语音特征序列转换为高维表示序列,并将其分割成固定长度的块。预测器基于已输出的历史文本标签自回归生成上下文嵌入。核心的“连接器”模块接收当前音频块内某一帧的编码和预测器的输出,同时预测两个值:当前标签的概率分布,以及一个指示“当前块是否应结束”的块结束(EOC)概率。解码过程(Algorithm 1)在每个音频块内进行帧同步的束搜索,一旦某个假设的EOC概率超过阈值τ,该假设将被存入“待推进集”,并携带其状态用于处理下一个音频块,从而实现对连续音频流的逐步处理。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 605 words

Exploring Token-Space Manipulation in Latent Audio Tokenizers

📄 Exploring Token-Space Manipulation in Latent Audio Tokenizers #音频编码 #自监督学习 #语音转换 #语音增强 #零样本 ✅ 6.5/10 | 前25% | #音频编码 | #自监督学习 | #语音转换 #语音增强 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Francesco Paissan (Mila – Québec AI Institute, Université Laval) 通讯作者:Francesco Paissan (francesco.paissan@mila.quebec) 作者列表:Francesco Paissan (Mila – Québec AI Institute, Université Laval), Luca Della Libera (Université Laval, Concordia University), Mirco Ravanelli (Université Laval, Concordia University), Cem Subakan (Mila – Québec AI Institute, Université Laval) 💡 毒舌点评 论文的核心思想——在冻结的音频编解码器特征空间内插入一个TiTok风格的全局离散潜在瓶颈——新颖且有趣,并通过精巧的分析实验证明了其结构特性和零样本编辑潜力。然而,其主要短板同样明显:作为“压缩器”,其重建质量在关键的语言内容保真度(dWER)上与SOTA帧级编解码器存在显著差距,这直接限制了其实际应用价值。此外,训练数据规模有限,使得潜在槽的“专业化”结论在更复杂、更多样的场景下的普适性存疑。论文贡献更多在于概念验证和分析方法,而非提供一个全面超越现有技术的解决方案。 ...

2026-05-13 · 更新于 2026-06-22 · 5 min · 900 words

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

📄 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition #多模态检索 #迁移学习 #多模态模型 #模型评估 ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv 学术质量 7.5/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Florian Hönicke(Jina by Elastic) 通讯作者:未说明 作者列表:Florian Hönicke、Michael Günther、Andreas Koukounas、Kalim Akram、Scott Martens、Saba Sturua、Han Xiao(均隶属于 Jina by Elastic) 💡 毒舌点评 论文提出了一种名为“冻结编码器模型组合”的务实框架,通过仅训练连接层来将多个冻结的预训练编码器(视觉、音频)对接到冻结的文本嵌入主干上。这种方法在保持文本嵌入性能无损(“文本几何保持”)的同时,以极高的参数和计算效率扩展了模型的多模态能力,展现了强大的工程实用价值。然而,其“全能”宣称在视频模态上遭遇滑铁卢——性能显著落后于专精模型及更大的全模态基线,且论文未能提供充分的技术分析来解释这一短板,这与其在其他模态上的优异表现形成鲜明对比,成为一项明显的局限。 📌 核心摘要 解决的问题:如何在几乎不修改、不损失现有高性能文本嵌入模型(Jina Embeddings v5 Text)的前提下,高效地将其扩展到支持图像、音频和视频等多模态输入,构建一个统一的跨模态嵌入空间,同时保持纯文本处理路径和输出完全不变。 方法核心:提出“冻结编码器模型组合”方法。核心是保持预训练的非文本编码器(Qwen3.5视觉编码器、Qwen2.5-Omni音频编码器)和文本嵌入主干(Jina Embeddings v5 Text)完全冻结,仅训练连接两者的轻量级投影层(fc_vision_2, fc_audio)和模态分隔符(如``等)的嵌入。训练参数仅占总参数的0.35%。 新颖之处:与现有需要微调语言模型或进行大规模联合训练的方法(如E5-V, Qwen3-VL-Embedding)不同,该方法首次在VLM风格架构中实现了完全冻结文本嵌入主干,从而确保对文本输入产生与原始文本模型完全一致的嵌入,实现了真正的“文本几何保持”。这是一种高效率、模块化、低风险的多模态扩展范式。 主要实验结果:在MIEB(图像)、MMEB-Video(视频)、MAEB(音频)、MMTEB(文本)等基准上,jina-embeddings-v5-omni-small(1.57B参数)的四模态平均分(53.93)略高于LCO-Embedding-Omni-3B(53.83),并远高于参数更多的LanguageBind(36.27)和Omni-Embed-Nemotron-3B(41.21)。其在文档检索(ViDoRe)上得分79.08,以仅0.92B活动参数表现强劲。但视频检索性能(27.82)明显落后于基线(如Qwen3-VL-Embedding-8B的58.73)。 实际意义:为现有的文本嵌入系统提供了一种低成本、低风险的工业级多模态升级路径,特别适合需要维护稳定文本向量索引(如RAG、企业搜索)的应用场景。开源的模型套件(Nano/Small,8个任务变体)推动了多模态嵌入生态的发展。 主要局限性:视频模态的性能(尤其是通用视频检索)显著落后于基线,论文承认这是未来工作重点;当前方法未探索联合训练多个投影器或更深入的模态融合;非文本编码器的选择探索不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni-67913f62f6539f77a8f022c5 数据集:论文中提及训练使用了混合数据集(图3),但未提供具体数据集名称、获取链接或开源协议。 Demo:论文中未提及。 复现材料: 论文描述了详细的训练配置:使用AdamW优化器,学习率2e-4,500步线性预热,全局梯度裁剪,bf16混合精度,4个NVIDIA H100 GPU上全局批大小为256,训练15,000步。对于消融实验,使用了更小的配置(5000步,批大小128)。 论文提到��发布8个任务特定变体,但未给出具体的检查点发布链接。 论文中引用的开源项目: Sentence-BERT: https://github.com/UKPLab/sentence-transformers E5-Mistral: https://huggingface.co/intfloat/e5-mistral-7b-instruct CLIP: https://github.com/openai/CLIP SigLIP / SigLIP2: https://github.com/google-research/big_vision ImageBind: https://github.com/facebookresearch/ImageBind LLaVA: https://github.com/haotian-liu/LLaVA BLIP-2: https://github.com/salesforce/LAVIS Qwen3.5 / Qwen3.65 视觉编码器: https://github.com/QwenLM/Qwen2.5-VL (论文基于其架构) Qwen2.5-Omni 音频编码器: https://github.com/QwenLM/Qwen2.5-Omni (论文基于其架构) Whisper: https://github.com/openai/whisper Matryoshka Representation Learning: https://github.com/Prithivida/MatryoshkaCL (论文引用了原始论文) Jina CLIP v1/v2: 具体模型权重见Jina AI官方。 其他被引用但未明确开源或未提供直接代码链接的项目(如LiT, Nomic Embed Vision, GTE-Qwen2, NV-Embed, EVA-CLIP等),在此不列出详细链接。 🏗️ 方法概述和架构 整体流程概述:本系统是一个模块化的多模态嵌入生成框架。对于任意输入(文本、图像、音频、视频),系统首先调用相应的冻结编码器(或直接处理文本token),然后通过可训练的投影层将非文本特征映射到文本嵌入模型的输入空间,最后将所有模态的特征序列化后输入冻结的文本Transformer,通过最后token池化和L2归一化得到统一的嵌入向量。核心原则是冻结所有预训练的编码器和文本模型,仅训练适配层。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 447 words

Mechanistic Interpretability of ASR models using Sparse Autoencoders

📄 Mechanistic Interpretability of ASR models using Sparse Autoencoders #语音识别 #稀疏自编码器 #可解释性AI #多语言 📝 5.5/10 | 前60% | #语音识别 | #稀疏自编码器 | #可解释性AI #多语言 | arxiv 学术质量 5.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Dan Pluth (Vail Systems, Inc.) 通讯作者:未说明 作者列表:Dan Pluth (Vail Systems, Inc.)、Zachary Nicholas Houghton (Vail Systems, Inc. & University of Oregon)、Yu Zhou (Vail Systems, Inc.)、Vijay K. Gurbani (Vail Systems, Inc.) 💡 毒舌点评 这篇论文完成了一项“从0到1”的迁移工作,证明了稀疏自编码器(SAE)这一在文本大模型上流行的机械可解释性技术,可以应用于语音识别模型Whisper。它展示了Whisper编码器内部确实存在从音素到语义的丰富特征层级,这本身是一个有价值的发现。然而,作为一项方法迁移工作,其实验设计存在显著缺陷:缺乏与更简单、更传统方法(如线性探针)的基线对比,无法证明SAE在此任务上的优越性;仅在单一模型规模(Whisper-base)和单一SAE配置下进行验证,结论的普适性存疑;且关键训练细节的缺失严重影响了工作的可复现性和技术深度。总体而言,这是一篇合格的概念验证论文,但远未达到推动该领域方法论进步的水平。 📌 核心摘要 要解决什么问题:文本大模型(LLMs)的内部表征已能用稀疏自编码器(SAE)进行可解释性分析,但同样的技术能否有效应用于以音频为输入的端到端语音识别模型(如Whisper),以揭示其内部丰富的表示信息,目前尚无研究证明。 方法核心:在预训练的Whisper编码器最后一层之后插入一个稀疏自编码器(SAE)。该SAE将Whisper-base的512维稠密嵌入映射到一个16000维的稀疏潜在空间,通过TopK激活(K=45)强制稀疏性,并使用均方误差(MSE)损失进行训练,以重建Whisper编码器的原始输出。 与已有方法相比新在哪里:首次将SAE方法应用于语音识别模型(ASR)的机械可解释性研究。已有工作集中于文本LLM,本文证明了SAE在语音模态的潜在空间同样能够解耦出单义特征(monosemantic features),并能发现跨越语言、语音、词汇、形态和语义层面的丰富特征层级。 主要实验结果如何:实验发现Whisper编码了超出转录所需的丰富信息。具体结果包括: 语言特征:发现一个潜在索引(5106)能以74.7%的精确率和91.2%的召回率区分英语与非英语语音。 音素特征:发现表征双音素(如/R UW1/,精确率88.7%,召回率64.9%)的潜在索引。 词汇特征:发现表征特定单词(如“his”,精确率99.3%,召回率81.4%)的潜在索引。 形态特征:发现表征后缀“-ly”(精确率87.2%,召回率17.8%)的潜在索引,低召回率归因于特征分裂。 语义特征: 数字:一个潜在索引(7710)与数字相关(精确率38.1%,召回率79.2%)。论文指出该特征的时间边界不精确,假阳性多出现在含有数字的句子中。 脏话:两个潜在索引(3584, 104)共同覆盖了89.7%的脏话样本(精确率6.6%)。通过特征引导(steering)实验,成功实现了脏话的插入和替换。 跨语言引导:用于英语脏话的潜在索引(3584)同样能对西班牙语和法语(SAE训练中未包含)的脏话进行引导,证明其编码了语言无关的语义信息。 非语言特征:发现能区分纯噪声与语音的潜在索引(精确率97.7%),以及在特定时间点稳定激活的位置潜在索引。 实际意义:本研究建立了SAE作为分析ASR模型内部工作机制的有效工具,揭示了Whisper等模型在训练中自然习得了丰富的语言学层次表征,为理解端到端语音模型的内部表示提供了新途径。 主要局限性:论文明确承认了三个局限:1)仅研究了一个SAE配置(特定潜在维度);2)仅在最小的Whisper-base模型上验证;3)分析主要集中在英语,其他语言数据使用有限。 🔗 开源详情 代码:论文中提供了匿名仓库链接,用于存放训练代码、分析代码、分析数据集及潜在示例:https://anonymous.4open.science/r/COLM2026-73CF/ 模型权重:论文中未提及训练得到的SAE模型权重的公开链接。论文研究的基础模型是Whisper (base),其权重可通过HuggingFace等平台获取。 数据集: 训练数据集:论文明确列出了用于训练SAE的多个公开数据集名称:LJSpeech, LibriSpeech, Voxceleb 1, Mozilla Common Voice English, SLR39, SLR67, SLR61, SLR71-SLR75, Musan。总文件数为646,769。论文未提供这些数据集的具体下载链接。 评估数据集:用于分析的评估集部分来自Mozilla Common Voice v13.0(西班牙语和法语)以及ESC-50(噪声数据)。 Demo:论文中未提及。 复现材料:论文中提供了包含训练配置、分析代码等的匿名仓库链接:https://anonymous.4open.science/r/COLM2026-73CF/。此外,附录A、B、C提供了关于特征空间、潜在特征列表和非语言特征的详细说明。 论文中引用的开源项目: OpenAI Sparse Autoencoder: https://github.com/openai/sparse_autoencoder (论文中明确说明SAE训练框架基于此实现) 🏗️ 方法概述和架构 本文提出的方法旨在应用稀疏自编码器(SAE)作为机械可解释性工具,来探测预训练的Whisper自动语音识别(ASR)模型编码器的内部表征。整个方法流程可分为模型改造与SAE训练和特征分析与引导两个主要阶段。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 429 words

Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs

📄 Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs #语音编辑 #大语言模型 #多语言 #对比学习 ✅ 6.5/10 | 前25% | #语音编辑 | #大语言模型 | #多语言 #对比学习 | arxiv 学术质量 5.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Deepak Kumar (IIT Patna) 通讯作者:未说明 作者列表:Deepak Kumar (IIT Patna), Baban Gain (IIT Patna), Asif Ekbal (IIT Patna) 💡 毒舌点评 亮点:论文提出的“先标注,再用LLM在对比学习约束下改写”的多阶段流水线思路清晰,将token级的信号与生成模型的能力相结合,为解决语音转录后处理提供了一个逻辑自洽且易于理解的框架,特别聚焦于多语言场景。 短板:实验部分仅针对三种印度语言展开,缺乏与当前强大的通用文本纠错或改写LLM方法(如基于T5/BART的纠错模型)的细致对比,削弱了方法先进性的说服力;此外,作为核心创新点的对比学习具体实现细节在摘要中描述不足。 📌 核心摘要 要解决什么问题:自动语音识别(ASR)的转录文本中常含有填充词、重复、错误起始等不流畅片段,降低了可读性,并可能损害下游应用(如聊天机器人、语音助手)的性能。现有基于删除的方法会破坏语法结构和语义连贯性。 方法核心是什么:提出一个多语言的纠正流程。首先,一个序列标注器(如BiLSTM-CRF)识别并标记出不流畅的token。然后,这些标记信号被用作指令,指导一个大语言模型(LLM)进行指令微调,将原始转录改写为流畅文本。为了进一步提高可靠性,训练中引入了一个对比学习目标,惩罚模型生成不流畅token,鼓励其保留语法和意义。 与已有方法相比新在哪里:1) 区别于以往仅关注检测或删除不流畅token的方法,本方法执行全面的“改写”。2) 将序列标注器的输出作为LLM指令微调的引导信号,形成两阶段流水线。3) 引入对比学习作为辅助目标,直接约束LLM的生成过程以避免不流畅现象。 主要实验结果如何:论文未提供具体的数值结果。但根据摘要,实验在印地语、孟加拉语和马拉地语三种语言上进行,显示该方法“一致性改进”了包括多语言序列到序列模型在内的强基线,并强调了仅检测策略的不足。 实际意义是什么:为处理多语言(尤其是可能低资源)的语音转录后处理提供了一个实用、可扩展的解决方案,有助于提升语音驱动NLP系统的可靠性。 主要局限性是什么:实验仅限于三种印度语言,其对更广泛语言的适用性有待验证;摘要中未提及与当前强大的通用文本纠错或改写LLM方法的详细对比。 🔗 开源详情 代码:https://github.com/deepak-kumar-98/Mind-the-Pause 模型权重:未提及 数据集:未提及 Demo:未提及 复现材料:未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出一个名为“Mind the Pause”的多阶段多语言语音转录纠错流水线。该系统并非一个单一的端到端模型,而是一个由多个组件协同工作的两阶段框架。 ...

2026-05-13 · 更新于 2026-06-22 · 1 min · 197 words

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

📄 MMTB: Evaluating Terminal Agents on Multimedia-File Tasks #基准测试 #音视频 #系统设计 🔥 60/10 | 前25% | #基准测试 | #系统设计 | #音视频 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Chiyeong Heo(POSTECH GSAI) 通讯作者:Jungseul Ok(POSTECH GSAI, POSTECH CSE) 作者列表:Chiyeong Heo(POSTECH GSAI)、Jaechang Kim(POSTECH GSAI)、Junhyuk Kwon(POSTECH GSAI)、Hoyoung Kim(National AI Research Lab)、Dongmin Park(Krafton AI)、Jonghyun Lee(Krafton AI)、Jungseul Ok(POSTECH GSAI, POSTECH CSE) 💡 毒舌点评 本文定义了一个重要的评估缺口(多媒体文件工作流),并提出了对应的基准(MMTB)和评估框架(Terminus-MM)。核心贡献在于填补空白和提供系统性的消融证据。然而,论文的“现实世界”代表性存在根本性缺陷:1)所有任务均在受控、自包含的沙箱中完成,与真实工作流中充满干扰、网络依赖和复杂交互的环境相去甚远;2)声称的“付费工作流”来源仅体现在任务描述的灵感上,但实际任务经过了高度简化和包装,例如,105个任务中60个(57%)被最佳系统同时解决失败,这强烈暗示任务难度或现实性不足。此外,Terminus-MM的“原生感知”工具(listen_audio, watch_video)被严重黑箱化,其内部调用的模型(例如是Gemini的原生能力还是独立的ASR/VLM模型)未做任何说明,这使得“原生访问”与“命令行工具”的对比在公平性上存疑,因为前者的计算成本和延迟可能已被外部化。 📌 核心摘要 要解决什么问题:现有的终端代理基准主要关注文本、代码和结构化文件,缺乏对现实世界中广泛存在的、需要直接操作音频/视频文件的多媒体文件工作流(Multimedia-File Tasks)的评估。 方法核心是什么:本文提出了一个多模态终端代理基准MMTB(包含105个来自真实付费工作流的任务)和一个多媒体终端代理框架Terminus-MM。Terminus-MM扩展了Terminus-2和Terminus-KIRA,增加了原生音频感知工具listen_audio和原生视频感知工具watch_video。其关键设计是“工作空间感知的工具路由”或“模态掩码”机制:在任务开始时,框架扫描工作空间的文件扩展名,动态确定存在的媒体模态(音频、视频、图像),并只向代理的LLM后端暴露与之对应的感知工具。 与已有方法相比新在哪里:首次在终端代理评估中引入内容感知(Content-aware)和跨文件工作流(Cross-file workflow)的多媒体任务。系统性地证明了原生多模态访问(直接理解音频/视频内容)相较于通过命令行工具(如ffmpeg、ASR)进行间接转换和处理,在效率和成本上的显著优势。 主要实验结果如何:在Gemini-3.1-Pro模型上,提供完整原生模态访问(文本+图像+音频+视频)的Terminus-MM取得了最高成功率(二元成功率0.371,部分成功率0.469),显著优于仅文本访问的Terminus-2(0.124, 0.162)。消融实验表明,原生音频和视频访问是性能提升的主要贡献。当原生模态缺失时,依赖命令行工具转换会导致API成本平均增加1.63x至7.72x,最差情况超过30x。移除动态工具路由(模态掩码)会导致性能下降(如Gemini-3.1-Pro上二元成功率从0.371降至0.324)。失败分析显示,Terminus-MM的主要失败原因是模型推理错误(47%),而商用CLI工具Codex CLI则有更高比例的工具操作相关失败(尤其是超时,39%)。 实际意义是什么:为开发和评估能够处理现实世界多媒体文件工作流的AI代理提供了标准化基准;揭示了原生多模态感知对于提升代理效率、降低成本和可靠性的关键作用;为未来多媒体代理系统的设计指明了方向。 主要局限性是什么:未提供与人类专家基线的直接比较;基准任务规模(105个)和多样性可能不足以完全覆盖所有现实场景;所有评估均在固定10分钟预算内进行,未探索更长预算下的行为;“原生感知”工具的内部实现细节未公开。 🔗 开源详情 代码:https://github.com/mm-tbench/multimedia-terminal-bench 模型权重:论文中未提及提供模型权重下载链接。论文中使用的Qwen3.5-122B、GPT-5.2、Gemini-2.5-Flash、Gemini-3.1-Pro、Sonnet-4.6等均为第三方闭源模型或需通过API/订阅服务访问。Terminus-MM作为工具框架,其本身不包含模型权重。 数据集:MultiMedia-TerminalBench (MMTB) 数据集。获取链接:https://huggingface.co/datasets/mm-tbench/mmtb-media。数据集包含Per-asset media licenses记录在各任务的media.toml中,以CC-BY, CC0, 和 public-domain为主,并包含一个符合Croissant 1.0标准的元数据文件。 Demo:论文中未提及在线演示链接。项目主页为:https://mm-tbench.github.io/multimedia-terminal-bench/ 复现材料:论文详细描述了评估设置,包括任务格式(Harbor任务)、评估协议、代码仓库和附录中的实现细节。完整的复现需要代码仓库、任务数据集以及访问所使用的模型API。 论文中引用的开源项目: Terminal-Bench:论文中的基准测试格式和部分任务设计参考自此项目。链接:https://github.com/terminal-bench/terminal-bench Terminus-2:作为基础的文本终端代理框架。链接:https://github.com/terminal-bench/terminal-bench (Terminal-Bench项目的一部分) Terminus-KIRA:增加了原生图像感知的终端代理框架,采用Apache-2.0许可。链接:https://github.com/terminal-bench/terminus-kira ffmpeg:广泛使用的音视频处理命令行工具。链接:https://ffmpeg.org/ LilyPond:用于乐谱排版的音乐记谱语言和程序。链接:https://lilypond.org/ FluidSynth:软件合成器,用于将MIDI转换为音频。链接:https://www.fluidsynth.org/ Kokoro-82M:论文中提及的一个采用Apache-2.0许可的语音合成模型,用于生成实验中的合成语音。 Godot:开源游戏引擎,用于生成游戏QA任务的视频素材。链接:https://godotengine.org/ Wav2Lip:用于口型同步的视频合成工具。链接:https://github.com/Rudrabha/Wav2Lip reportlab / wkhtmltopdf:用于PDF文档生成的工具。链接:https://www.reportlab.com/ 和 https://wkhtmltopdf.org/ matplotlib:用于生成图表和示意图的Python库。链接:https://matplotlib.org/ music21:用于分析和处理音乐表示的Python工具包。链接:https://web.mit.edu/music21/ 相关基准测试与框架(未直接提供代码链接,但在论文中被引用比较): WebArena / VisualWebArena OSWorld OmniBench JointAVBench AVTrustBench OmniPlay VideoWebArena Claude Code Codex CLI SWE-bench / MLE-bench / AppWorld 🏗️ 方法概述和架构 本文的核心工作是设计并构建一个名为MMTB(MultiMedia-TerminalBench)的评估基准,以及一个用于在该基准上评估的多媒体终端代理框架Terminus-MM。该系统旨在评估终端代理在处理以音视频文件为核心对象的复杂工作流时的能力。 ...

2026-05-13 · 更新于 2026-06-22 · 3 min · 556 words

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

📄 OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation #音视频生成 #强化学习 #流匹配 #多模态模型 ✅ 6.9/10 | 前25% | #音视频生成 | #强化学习 #流匹配 | #强化学习 #流匹配 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 通讯作者:Feng Zhao(中国科学技术大学) 项目负责人:Lin Song(京东探索研究院) 作者列表:Guohui Zhang(中国科学技术大学)、Xiaoxiao Ma(中国科学技术大学)、Jie Huang(中国科学技术大学)、Hang Xu(中国科学技术大学)、Hu Yu(中国科学技术大学)、Siming Fu(京东探索研究院)、Yuming Li(北京大学)、Zeyue Xue(京东探索研究院)、Lin Song(京东探索研究院)、Haoyang Huang(京东探索研究院)、Nan Duan(京东探索研究院)、Feng Zhao(中国科学技术大学) 💡 毒舌点评 亮点:论文对联合音视频生成中应用强化学习(RL)时出现的“优化不匹配”问题(优势值不一致、梯度不平衡、信用分配均匀)进行了系统且令人信服的分析,提出的三个针对性解决方案(模态路由、梯度手术、区域重加权)逻辑自洽且有实验验证。 短板:本质上是将多个启发式技术组合到现有的流匹配扩散模型RL微调框架(DiffusionNFT)上,虽然有效,但创新性更偏向于工程优化和问题诊断,缺乏一个统一的理论视角或更根本的算法突破,使其听起来更像是一个“针对特定问题的实用补丁合集”。 📌 核心摘要 要解决什么问题:在使用强化学习(RL)对联合音视频生成模型进行后训练时,直接应用vanilla RL(如GRPO)会导致性能不佳。论文深入分析并指出了三大核心障碍:(i) 多目标优势值不一致(视频和音频的质量评价不总是相关);(ii) 多模态梯度不平衡(视频分支梯度会干扰音频分支的浅层生成);(iii) 均匀信用分配(忽略了音视频同步等关键区域的重要性差异)。 方法核心是什么:提出了OmniNFT框架,通过三个协同设计来解决上述问题:(1) 模态级优势路由:分别为视频质量、音频质量和音视频同步计算独立的优势值,并路由到对应的模型分支;(2) 层级梯度手术:在音频分支的浅层Transformer块中,有选择地切断(detach)来自视频分支的梯度,以保护其模态内生成功能;(3) 区域级损失重加权:利用音频分支中V2A交叉注意力图作为关键区域的代理,对损失进行空间上的重新加权,以强化重要区域的优化。 与已有方法相比新在哪里:据作者所知,这是首次系统性地探索将RL应用于联合音视频生成任务,并诊断了其特有的优化不匹配问题。相比于之前单模态(文本到图像/视频)的RL微调方法,OmniNFT的三个组件是专门针对多模态联合生成中的跨模态交互、梯度流和精细对齐问题而设计的。 主要实验结果如何:在JavisBench和VBench上,以LTX-2(19B参数)为骨干模型进行验证。 主实验(表1):与基础LTX-2相比,OmniNFT在视觉质量(VQ: 2.038 -> 3.326, +63.2%)、音频质量(AQ: 5.197 -> 5.715, +10.0%)和音视频同步(DeSync: 0.569 -> 0.269, -52.7%)上均取得显著提升,整体表现优于同规模的LTX-2+GDPO基线。 消融实验(表3):逐步添加三个组件,每个组件都带来了性能增益,特别是梯度手术显著提升了音频质量(AQ: 5.523 -> 5.917),区域重加权进一步优化了同步和一致性。 实际意义是什么:该方法为提升联合音视频生成模型的实用性能(高保真、强对齐、细同步)提供了一套有效的后训练方案,可能推动音视频生成技术在内容创作等领域的实际应用。 主要局限性是什么:方法依赖于预训练的双流扩散模型骨干(如LTX-2)和特定的多奖励模型;实验主要在单一骨干和两个基准上进行,泛化性有待进一步验证;部分设计(如层级分离阈值L、重加权系数λ)仍为经验性选择。 🔗 开源详情 代码:论文中未提及代码链接(论文仅提供了项目主页 https://zghhui.github.io/OmniNFT/,未提供代码仓库的GitHub等链接)。 模型权重:论文中未提及(论文提到使用LTX-2作为骨干网络进行实验,但未提供其预训练权重的具体下载链接;论文中提到的奖励模型如VideoAlign、HPSv3、Audiobox Aesthetics、CLAP等也未提供权重链接)。 数据集:论文中未提及(论文在实验中使用了JavisBench和VBench进行评估,但未提供这两个数据集的具体获取链接或开源协议)。 Demo:论文中未提及。 复现材料:论文中未提及(论文提供了一些默认超参数设置,如层边界 L=10,分离比率 αs=0.1,区域重加权强度 λ=1.50,采样组大小 G=8,但未提供完整的训练配置文件、检查点或详细附录)。 论文中引用的开源项目:论文中提及了以下开源项目或工具,但未在文中提供其具体链接。 LTX-Video (文中称 LTX-2):用于联合音视频生成的骨干模型。 Wan:用于视频生成的项目。 DiffusionNFT:本文方法所基于的微调范式。 UniVerse-1:一种联合音视频生成方法。 JavisBench:用于评估联合音视频生成的基准测试集。 VBench:用于评估视频生成质量的基准测试集。 VideoAlign:用于视频质量评估的奖励模型。 HPSv3:用于视频质量评估的奖励模型。 Audiobox Aesthetics:用于音频质量评估的奖励模型。 CLAP:用于音视频-文本对齐评估的模型。 ImageBind (IB):用于跨模态对齐评估的模型。 CLIP:用于文本-视频对齐评估的模型。 🏗️ 方法概述和架构 OmniNFT是一个针对联合音视频生成任务的模态感知在线扩散强化学习微调框架。它在预训练的双流扩散模型(如LTX-2)基础上进行优化,整体流程遵循标准的RL微调范式:采样生成、奖励评估、优势计算、策略优化。 ...

2026-05-13 · 更新于 2026-06-22 · 4 min · 728 words

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室) 通讯作者:Yuxing Han(清华大学深圳国际研究生院) 作者列表:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室)、Zidang Cai(未说明具体机构)、Hai-Tao Zheng(清华大学深圳国际研究生院)、Jie Wang(清华大学深圳国际研究生院)、Feidiao Yang(鹏城实验室)、Yuxing Han(清华大学深圳国际研究生院) 💡 毒舌点评 本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架,核心贡献在于认识到原生固定分块可能破坏跨模态对应关系,并据此设计了CPCR模块。方法设计思路清晰,实验结果也显示了在特定设置下优于SOTA(OmniZip)的效率-性能权衡。然而,框架的成功高度依赖一系列手动调节的超参数(如阈值τ,系数β,正则项λ_c),且这些参数的敏感性分析缺失,使得“训练免费”和“即插即用”的宣称大打折扣。此外,论文未开源代码,且在部分表格数据(如β值)上存在不一致,降低了其可信度和可复现性。方法虽然加速了预填充阶段,但端到端延迟提升有限,实际部署收益需打折扣。 📌 核心摘要 要解决什么问题:现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元(chunks),容易破坏跨模态的对应关系和互补信息,从而在提升效率时难以稳定保持性能。 方法核心是什么:提出了OmniRefine,一个训练免费的两阶段音视频token压缩框架。第一阶段(CPCR)利用帧-音频相似度和动态规划,将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段(MACC)在每个细化单元内进行模态感知的协作压缩:视频分支通过树结构策略压缩空间和时间冗余,音频分支在语义锚点约束下压缩连续声学内容,且音频的压缩预算会自适应地参考视频的保留率。 与已有方法相比新在哪里:关键创新在于显式地优化了压缩单元的边界(通过CPCR)以保持跨模态对齐,并在此基础上设计了模态特异且预算协作的压缩策略(通过MACC)。不同于直接对单模态进行压缩或使用固定分块的方法,OmniRefine首先改善了数据组织的单元,为后续压缩提供了更优的基础。 主要实验结果如何:在Qwen2.5-Omni-7B上,OmniRefine在WorldSense基准测试中,以44%的token保留率(31% FLOPs)达到了46.7%的准确率,几乎匹配了使用完整token的基线(46.8%)。在更激进的30%保留率下,仍能达到46.4%,优于OmniZip在更高保留率下的表现(45.3%-45.9%)。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。 实际意义是什么:该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的,且兼容KV缓存重用,能降低多轮推理的预填充开销,对于在资源受限设备上实现实时音视频理解有潜在价值。 主要局限性是什么:论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为,更根本的限制在于:1)缺乏超参数敏感性分析,其泛化能力和“即插即用”特性存疑;2)端到端加速收益有限;3)部分实验数据(如β值)在正文与附录中不一致,需澄清。 🔗 开源详情 代码:论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”,表明未来会发布代码,但当前版本未提供URL。 模型权重:论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现,但未提供 OmniRefine 本身压缩后的模型权重下载链接。 数据集:论文中提及并使用了以下公开基准测试数据集,但未在正文中提供直接获取链接。具体名称为: WorldSense [18] VideoMME [13] AVUT [57] Demo:论文中未提及。 复现材料:论文附录提供了详细的超参数设置表(表5)、算法伪代码(算法1)以及评估协议描述,这些信息有助于复现。但未提供完整的训练配置(本方法无需训练)等。 论文中引用的开源项目: Qwen2.5-Omni:作为基础模型使用。论文引用了模型名,但未给出链接。 FastV:作为基线方法进行比较。论文引用了方法名,但未给出链接。 LMMs-Eval:在VideoMME评估中使用的框架。论文引用了框架名,但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是:输入原始编码后的音视频token序列 → 经过第一阶段(CPCR)进行跨模态对齐的分块优化 → 在第二阶段(MACC)于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列,用于LLM的预填充阶段。 ...

2026-05-13 · 更新于 2026-06-22 · 4 min · 688 words