ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

📄 ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models #音频问答 #对比学习 #参数高效微调 7.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #对比学习 | #音频问答 #参数高效微调 | arxiv 👥 作者与机构 论文作者为Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee,分别来自浙江大学和约翰斯·霍普金斯大学。 💡 毒舌点评 这篇论文更像是一个工程上“有效”的系统构建报告,而非一篇贡献突出的学术研究。其核心思想——将一个强大的音频语言模型转换为嵌入模型——在直觉上合理,但缺乏令人信服的“为什么这样做以及为什么是这样”的深度分析。论文在方法论上缺乏关键设计选择的消融实验(例如,为什么用[EOS]?LoRA适配是否最优?),在评估上未能充分量化其宣称的“可控性”,在局限性探讨上流于表面。整体上,它更像一篇扎实的硕士论文或技术报告,其方法论创新和实验分析的深度尚未达到顶会所期望的水平。 📌 核心摘要 本文提出了ALM2Vec,一个从预训练大型音频语言模型(ALLM,具体为MiDashengLM)衍生而来的通用音频嵌入框架。该框架旨在将ALLM在大规模多模态训练中获得的音频理解、指令遵循和推理能力,转化为支持跨音频领域(如音效、语音、音乐)、跨任务类型(检索、问答)且可指令控制的统一嵌入空间。模型使用ALLM的[EOS] token隐藏状态作为全局表示,并通过双向对比学习进行训练。实验表明,ALM2Vec在标准音频和语音检索基准上性能与强基线(如CLAP)相当或更优,在指令条件音频问答(MMAU-Mini)上也能与一些大型音频语言模型竞争,尽管微调后性能略有下降。定性案例展示了其根据指令检索音频特定属性的能力。 ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 405 words

AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries?

📄 AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries? #语音识别 #音频问答 #多模态模型 7.9/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.9/10 | 前50% | #音频问答 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Jiaxi Yang, Chaewan Chun, Jason Lucas, Yuchen Yang, Dongwon Lee Penn State University 💡 毒舌点评 优点:精准切中了多模态大模型安全对齐领域的一个新兴盲点——音频模态下的“过度拒绝”。作为首个专门为此设计的基准,AOR-Bench的提出本身就具有显著的开创性和实用价值,填补了从文本到视觉再到音频的过度拒绝研究链条中缺失的一环。论文的实验设计覆盖了主流的闭源与开源模型,发现(尤其是系统提示的影响)也具有启发性。 缺点:研究的深度和严谨性未能完全匹配其开创性的标题。基准构建流程存在明显的“合成痕迹”,依赖Sora-2生成视频再提取音频,其产生的背景音与真实世界复杂声学环境的生态效度(ecological validity)存疑,可能使得实验结论过于“干净”。方法论上,核心指标MB-Score将TRR(在独立有害样本上测试)与ORR(在伪有害样本上测试)进行调和平均,但这两类测试集并非严格的配对对比,其组合的意义需要更仔细的论证。此外,缓解策略(链式思考和激活引导)的实验规模过小(仅3个模型),且激活引导的结果实际显示了安全性能的下降,论文对此的解读略显乐观。整体而言,这是一篇扎实的“开坑”之作,但在方法论创新和结论的坚实程度上,距离顶会的最高标准仍有差距。 📌 核心摘要 本文首次提出了针对大型音频语言模型(LALMs)过度拒绝问题的专用基准AOR-Bench。该基准的核心在于构造“伪有害”音频:其语音内容在脱离背景时听起来有害,但结合背景音轨(如应急响应、游戏场景)后,意图则为良善。通过在12个LALMs上进行评估,研究发现过度拒绝现象普遍存在,且模型未能充分理解背景语义。此外,系统提示对拒绝行为有显著影响。论文初步探索了链式思考和激活引导两种缓解方法,为改善模型安全对齐提供了方向。 ...

2026-06-23 · 更新于 2026-07-02 · 2 min · 270 words

Learning from Audio-Dependency Errors: Data Curation Strategies Based on Model Confusion Patterns in Audio Question Answering

📄 Learning from Audio-Dependency Errors: Data Curation Strategies Based on Model Confusion Patterns in Audio Question Answering #音频问答 #大语言模型 #参数高效微调 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #音频问答 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构 未提及 💡 毒舌点评 这篇论文像是给DCASE竞赛交了一份很认真的“赛后总结报告”。作者很诚实,把所有试过的、没用的方法都列出来了(比如各种RL和CoT),这种开源精神值得点赞。但问题是,核心创新点——用反事实输入给数据“分桶”——更像是一个精心设计的工程trick,而非一个能推广的理论。性能从65.9%提到67.3%,在绝对数字上提升甚微,很难让人兴奋。论文花大量篇幅描述各种“失败实验”,固然体现了严谨,但也暴露了主方法在提升上限上的无力。它更像证明了“做减法比做加法更有用”,而不是提供了一个强大的新武器。对于追求突破性进展的顶会来说,这个贡献的“甜度”不够。 📌 核心摘要 本文针对音频问答任务,提出一种基于诊断数据整理的微调策略。核心思想是,先利用一个强大的基础模型(Qwen3-Omni)在“正常”、“空音频”和“乱序音频”三种条件下对训练样本进行探针测试,根据模型在不同条件下的正确性模式(\(N, E, S\)),将样本分为“强音频依赖”、“文本先验”、“困难样本”等类别。作者发现,仅使用“强音频依赖”样本(即正常条件下正确,但空音频和乱序音频条件下均失败)进行监督微调,能最有效地提升模型对音频证据的依赖性。进一步,通过加入少量(如5%)的“空音频负样本”(目标回答为“无法确定”)来抑制模型的无根据猜测。最终,该策略在ADQA-Bench开发集上取得了优于基线的准确率。 🔗 开源详情 代码:训练和评估代码计划发布于:https://github.com/frednam93/adqa_nam 模型权重:论文中未提及具体模型权重链接(论文使用了 Qwen3-Omni-30B-A3B-Instruct 和 Gemma-4-E4B-it,但未提供其下载链接)。 数据集:论文中提及 ADQA-Bench 数据集(DCASE 2026 Task 5),但未提供具体获取链接。 Demo:论文中未提及。 复现材料:论文中提供了详细的微调训练配置(基于 LLaMA-Factory,使用 4-bit bitsandbytes 量化和 LoRA),包括具体的超参数设置、训练数据构建变体(如 “Strong”、“Strong+empty 5%” 等)及其比例,以及提交的四个候选系统的详细描述。 论文中引用的开源项目: LLaMA-Factory:用于微调(论文引用[15])。 bitsandbytes:用于 4-bit 量化(论文引用[15])。 LoRA:用于参数高效微调(论文引用[8])。 Gemma-4-E4B-it:作为三模型集成的响应正常化器使用。 SimPO:作为偏好优化目标之一进行评估(论文引用[9])。 DPO:作为偏好优化目标之一进行评估(论文引用[12])。 GRPO:作为强化学习目标之一进行评估(论文引用[13])。 DAPO (lite):作为强化学习目标之一进行评估(论文引用[14])。 FunAudioChat:作为基线模型之一进行评估(论文引用[2, 1])。 AudioFlamingo3:作为基线模型之一进行评估(论文引用[5])。 🏗️ 方法概述和架构 本文方法的核心是一个基于模型行为的数据整理与微调流程,主要分为诊断分析、数据选择、微调和推理后处理四个阶段。 ...

2026-06-23 · 更新于 2026-07-02 · 3 min · 446 words

EChO-Agent: Evidence Chain Orchestration Agent for Audio Reasoning

📄 EChO-Agent: Evidence Chain Orchestration Agent for Audio Reasoning #音频问答 #语音识别 #音频事件检测 #音乐信息检索 #多模态模型 #大语言模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.1/10 | 前50% | #音频问答 | #语音识别 | #音频事件检测 #音乐信息检索 | arxiv 👥 作者与机构 作者:Siyuan Zhang, Jian Zong, Junyu Wang, Peiyuan Jiang, Jiahao Yan, Jingyu Zhang, Tianrui Wang, Xiaobao Wang, Longbiao Wang, Jianwu Dang 机构:School of Artificial Intelligence, Tianjin University, Tianjin, China 💡 毒舌点评 这篇文章提出了一个听起来很厉害的“证据链编排”框架来解决音频推理问题,思路清晰,系统设计也算完整。但作为一名顶会审稿人,我必须指出几个硬伤:首先,创新性有限,所谓的“证据整合”本质上是用另一个LLM(DeepSeek-V3)来摘要和过滤工具输出,这更像是工程上的Pipeline优化,而非原理上的突破。其次,整个框架严重依赖两个闭源的大型商业模型(DeepSeek-V3 和 Qwen-3-Omni-Instruct),这使得结果的独立性和可复现性大打折扣,更像是在为这些模型做能力演示。实验方面,只在一个基准(MMAR)上测试,且报告的提升幅度(+2.3%准确率,+4.3评分)在绝对值上并不算惊人,尤其是在没有与其他顶尖智能体方法(如文中提到的AudioRAG)进行直接对比的情况下。消融实验虽然做了,但“w/o Observation”和“w/o Evidence Integration”的巨大差距说明,脱离了特定的工具和外部LLM,这个框架本身可能非常脆弱。最后,代码完全未开源,这极大地限制了其在研究社区中的影响力和可复现性。总的来说,这是一个扎实的系统工程工作,但离顶会论文所要求的理论深度和实验说服力还有距离。 ...

2026-06-16 · 更新于 2026-07-02 · 3 min · 616 words

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

📄 AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models #音频问答 #大语言模型 7.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #音频问答 | #大语言模型 | arxiv 👥 作者与机构 作者:Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Xie Chen, Hengzhu Liu, Kele Xu 机构:国防科技大学计算机学院(Hui Geng, Yi Su, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Kele Xu);韩国科学技术院(KAIST)(Han Yin);上海交通大学(Xie Chen) ...

2026-06-15 · 更新于 2026-07-02 · 2 min · 304 words

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

📄 Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources #空间音频 #音频问答 #数据集 6.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前25% | #音频问答 | #空间音频 | #数据集 | arxiv 👥 作者与机构 作者:Oh Hyun-Bin (POSTECH), Kazuki Shimada (Sony AI), Yuhta Takida (Sony AI), Kim Sung-Bin (POSTECH), Toshimitsu Uesaka (Sony AI), Takashi Shibuya (Sony AI), Kyeongyoon Lee (Sungkyunkwan University), Tae-Hyun Oh (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 机构:POSTECH, Sony AI, Sony Group Corporation, Sungkyunkwan University, KAIST ...

2026-06-15 · 更新于 2026-07-02 · 3 min · 514 words

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

📄 Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models #音频问答 #多模态模型 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频问答 | #多模态模型 | arxiv 👥 作者与机构 Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang 东北大学(Northeastern University, China);上海人工智能实验室(Shanghai Artificial Intelligence Laboratory, China) ...

2026-06-05 · 更新于 2026-07-02 · 2 min · 229 words

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构:首尔大学,索尼集团,索尼AI 💡 毒舌点评 这篇工作像一位认真但略显保守的工程师:它发现了一个重要的问题(音乐LLM缺乏时序定位能力),并搭建了一套完整、系统但不够性感的解决方案(构建基准+提出四阶段训练流程)。优点是踏实、全面,消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻:MusTBench的构建严重依赖自动化的、可能存在噪声的管道(用模型预测边界和情绪),这让人对其“专家验证”的成色打个折扣;提出的MusT训练流程本质上是现有技术(LoRA、时间戳描述、SFT、GRPO)在音乐时序任务上的有序组合,创新性有限。最令人不满的是,对于一篇强调“时序定位”重要性的论文,竟然完全没有提供模型计算开销(训练/推理时间、显存)的数据,这在实际应用中是关键考量。此外,强化学习部分使用的奖励函数设计(指数衰减、软F1)参数(如15秒尺度、σ=15)的选择缺乏理论或充分消融支撑,显得有些“拍脑袋”。总的来说,这是一篇扎实的系统性工作,但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)在音乐理解中缺乏精确时序定位能力的问题,做出了三项贡献:1)识别并明确了“音乐时序定位”这一关键能力缺失;2)提出了MusTBench,一个由音乐专家验证的、包含五个时序定位问答任务的基准;3)提出了MusT,一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程,有效提升了模型的时序定位性能。 🔗 开源详情 代码:论文在摘要结尾提及“Code and benchmark data will be available soon”,但未提供任何具体的代码仓库链接(如GitHub)。 模型权重:论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。 数据集:论文详细描述了“MusTBench”基准的构建过程,但正文中仅指出其数据“will be available soon”,未提供具体的下载链接、托管平台或开源协议。 Demo:论文中未提及。 复现材料:论文在附录(§A.4和§A.5.2)提供了详细的训练配置和超参数表格(Table 11),包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外,附录包含具体的实现细节(如动态采样、损失函数、奖励函数公式)。但这些材料无法替代缺失的代码和数据集。 论文中引用的开源项目: MERT (音频编码器):论文引用 Li et al. (2024),未提供直接项目链接。 LoRA (高效微调):论文引用 Hu et al. (2022),未提供直接项目链接。 Qwen2.5 Omni (基础模型):论文引用 Xu et al. (2025),未提供直接项目链接。 其他工具与数据集:论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集),但均未提供具体版本或获取链接。 🏗️ 方法概述和架构 本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”(MusT encoder)与原有的Qwen音频编码器构成双编码器系统,并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下: ...

2026-05-29 · 更新于 2026-07-02 · 3 min · 447 words

Audio-Mind: An Auditable Agentic Framework for Audio Understanding

📄 Audio-Mind: An Auditable Agentic Framework for Audio Understanding #音频问答 🔥 8.7/10 | 前50% | #音频问答 | #音频问答 | arxiv 学术质量 5.7/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 论文作者包括:Yucheng Wang (南京大学,ETH Zurich),Jing Peng (上海交通大学),Hanqi Li (上海交通大学),Chenghao Wang (西安交通大学),Wenming Tu (上海交通大学),Yu Xi (上海交通大学),Zhaokai Sun (西北工业大学),Kai Yu (上海交通大学),Shuai Wang (南京大学,通讯作者)。机构涵盖南京大学、ETH Zurich、上海交通大学、西安交通大学和西北工业大学。 💡 毒舌点评 本文提出了一个思想清晰、设计工整的音频智能体框架 Audio-Mind,核心立意——在强 LALM 前端下,智能体分解不应是自动改进,而应是“条件证据获取”——抓住了当前多模态智能体研究的一个关键痛点。框架设计如“有界工具接口”、“显式证据状态”等概念有一定启发性,实验也显示了其在特定任务上的优势。然而,作为一篇投向顶会的论文,其贡献深度和实验充分性仍有差距。首先,“条件性”的实证主要通过工具调用数量与难度的相关性来体现,但这更多是设计的结果而非对“何时调用工具更优”这一根本问题的深入建模。其次,实验评估局限于两个基准,且在某些子类别(如空间分析、音频差异分析)上性能下降,暴露了框架的脆弱性,并未展示其普适的优越性。此外,与强基线(Gemini 2.5 Pro)的增益(MMAR: 78.9% -> 80.4%)相对有限,且未提供充分的消融实验来证明每个设计组件(如感知/变换工具分类、证据状态、重听机制)的独立贡献。论文更像是一个集成良好、工程扎实的系统,而非提出根本性新算法或带来突破性性能跃升的工作。 📌 核心摘要 本文提出了 Audio-Mind,一个可审计的、可插拔的音频理解智能体框架。其核心动机是,在强大的大型音频语言模型(LALM)作为前端感知器的背景下,智能体对外部工具的调用不应该是无条件的自动改进,而应是基于具体证据缺口的有条件获取。Audio-Mind 通过一个文本 LLM 规划器和一个共享的“证据状态”来协调工作流程:规划器首先生成感知提示,让前端 LALM 获取初步证据;随后进入证据获取循环,根据当前证据状态和工具的有界能力,决定是调用外部工具、进行针对性重新聆听,还是直接生成答案。工具被明确划分为感知工具和变换工具,并定义了其证据支持边界。最终,基于原始音频和累积证据,由前端生成可审计的最终答案。在 MMAR 和 MSU-Bench 基准测试上,Audio-Mind 在使用匹配骨干模型时,性能优于先前的音频智能体基线(如 AudioGenie-Reasoner)以及直接的 LALM 推理。行为分析表明,其工具调用深度与问题难度相关,且性能优势集中在需要深度证据获取的问题上。此外,Audio-Mind 生成的推理轨迹质量更高,更便于审计和错误分析。 ...

2026-05-28 · 更新于 2026-07-02 · 2 min · 350 words

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

📄 VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding #多语言 #音频问答 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #多语言 | #模型评估 | arxiv 学术质量 8/7 | 影响力 8/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文第一作者为Jashin Ye,通讯作者为Dongxiao Wang。主要研究机构为阿里巴巴的Future Living Lab。论文中注明Jashin Ye与Dongxiao Wang贡献相等。 💡 毒舌点评 这是一篇扎实的“工作”论文,而非“方法”论文。它的主要贡献是填补了一个明确的空白——小时级自然音频理解的基准,这一点值得肯定。然而,其“严苛”评估的基石,即数据构建流水线,本身就深度依赖当前最强的闭源模型(Qwen3.5-Omni, Gemini)来生成字幕和构建QA,这构成了一种方法论上的循环依赖。用你所要评估的“裁判”来训练“题目”,这在某种程度上削弱了基准的独立性和公平性。论文声称是“首个”,但类似BLAB等工作的存在使得这一声明的绝对性需要商榷。此外,仅用准确率评估QA,对于评估“推理过程”和“错误性质”来说过于粗糙。总的来说,它是一个有用的工具,但其设计上的妥协(依赖闭源模型)和评估上的单一性限制了其作为“黄金标准”的价值。 📌 核心摘要 本文提出了VoiceGiraffe,首个面向小时级极端长上下文音频理解的双语问答基准。基准包含123个完整录音(总时长113.1小时),涵盖体育、电竞、影视剧、新闻、播客五大领域,并设计了从单跳感知到多跳推理的两层任务分类体系,共包含1500个高质量问答对。通过对9个开源和4个闭源模型的系统评估,论文揭示了当前大音频语言模型在该任务上的核心瓶颈:小时级理解极具挑战性,最优推理范式因模型而异,且长程记忆持久性是当前模型的显著弱点,表现模式与人类相反。基准测试远未饱和,亟需具备持久记忆机制的新型模型。 🔗 开源详情 代码:论文中未提及开源数据处理或评估代码。 模型权重:论文中未提及开源任何模型权重。 数据集:论文中声明“我们将发布VoiceGiraffe基准以支持未来研究”,但未提供具体的下载链接、托管平台(如Hugging Face)或发布时间表。 Demo:论文中未提及Demo。 复现材料:论文中未提供用于复现数据构建流水线(如提示词、API调用参数)或实验的详细配置。 论文中引用的开源项目:pyannote VAD (Bredin et al., 2020) 用于音频分段。 补充链接(自动提取): 代码仓库:https://github.com/OpenMOSS/MOSS-Audio 🏗️ 方法概述和架构 VoiceGiraffe的核心是一个多阶段、协作式的数据构建流水线(图3),旨在将原始长音频转化为经过验证的QA对。该流水线包含四个主要阶段: 源数据收集与分割:从公共平台收集五个领域的完整长音频,经人工过滤后,使用pyannote VAD将其分割为30-40秒的片段。这一步建立了全局时间锚点,为后续一致的标注奠定基础。 ...

2026-05-28 · 更新于 2026-07-02 · 2 min · 389 words