BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations

📄 BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations #生物声学 #时频分析 #模型比较 #数据集 ✅ 7.5/10 | 前25% | #生物声学 | #时频分析 | #模型比较 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 基于当前提供的论文内容: 第一作者:Tianyu Song (九州大学 生物资源与生物环境科学研究生院) 通讯作者:Ton Viet Ta (九州大学 农学院) 作者列表:Tianyu Song (九州大学 生物资源与生物环境科学研究生院),Ton Viet Ta (九州大学 农学院),Ngamta Thamwattana (纽卡斯尔大学 信息与物理科学学院),Hisako Nomura (九州大学 农学院),Linh Thi Hoai Nguyen (九州大学 国际碳中和能源研究所) 💡 毒舌点评 本文精准地瞄准了生物声学信号增强这一“蓝海”问题,并通过三个针对性设计的模块(MSDA, BHME, EAGC)有效提升了性能,其计算效率优势显著,体现了扎实的工程优化能力。然而,论文中的消融实验结果存在明显的指标矛盾(如CSCConv-AE+MSDA的SNR为负),且核心贡献主要是在现有语音增强框架上的适配与组合创新,缺乏根本性的理论或架构突破,代码和模型权重的缺失也削弱了其即时影响力。 ...

2026-04-29

Do Foundational Audio Encoders Understand Music Structure?

📄 Do Foundational Audio Encoders Understand Music Structure? #音乐信息检索 #音乐理解 #预训练 #自监督学习 #模型比较 ✅ 7.0/10 | 前25% | #音乐信息检索 | #模型比较 | #音乐理解 #预训练 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Keisuke Toyama (索尼集团公司,日本) 通讯作者:未说明(论文中作者列表按顺序排列,但未明确标注通讯作者) 作者列表: Keisuke Toyama (索尼集团公司,日本,共同第一作者) Zhi Zhong (索尼集团公司,日本,共同第一作者) Akira Takahashi (索尼集团公司,日本) Shusuke Takahashi (索尼集团公司,日本) Yuki Mitsufuji (索尼集团公司,日本;索尼AI,美国) 💡 毒舌点评 这篇论文的亮点在于其“工具书”式的系统性与清晰度,为迷茫于众多音频基础模型的音乐结构分析研究者提供了一份可信赖的导航图,尤其是关于掩码语言建模与长形式音乐训练数据的结论颇具指导性。短板则在于其探索边界止步于“比较”,未能进一步将发现的“最佳实践”(如MLM+长上下文)整合成一个更强健的端到端模型,使得结论稍显“观察有余,建设不足”。 📌 核心摘要 本文旨在回答一个核心问题:当前主流的基础音频编码器(FAE)是否真正理解音乐的结构?为此,作者系统性地评估了11种不同类型的FAE(涵盖自监督学习、监督学习、跨模态学习等)在音乐结构分析(MSA)任务上的表现。研究发现,采用掩码语言建模(MLM)在长形式音乐数据上进行自监督预训练的模型(如MusicFM)表现最为出色,尤其在长上下文建模和捕捉语义特征方面优势明显。实验在Harmonix数据集上进行,以简单的线性探测后端评估FAE特征,结果显示MusicFM在边界检测(HR3F达63.91%)和功能预测(ACC达68.13%)上均达到最优。研究证明了FAE的预训练范式与训练数据选择对下游结构理解任务至关重要,并建议社区可重新审视基于此类FAE的生成模型评估指标。局限性在于仅使用了简单的线性后端,且未探索自回归模型等其他范式。 🏗️ 模型架构 本文的核心架构并非提出一个新模型,而是对一系列现有的基础音频编码器(FAE) 进行系统评估。评估框架(Linear Probing)本身是一个简单的线性分类器(图2),其作用是测试FAE所提取特征的“开箱即用”能力。 评估框架架构(图2): 输入:来自某个FAE的特征序列 (B, N, Z),其中B是batch size,N是特征帧数,Z是特征维度。 自适应平均池化层:将不同帧率的FAE特征 (B, N, Z) 统一池化为固定的帧率(本文设为2Hz),输出 (B, T, Z),其中T=60对应30秒输入。 线性层:将池化后的Z维特征映射到8维空间。其中一个维度用于边界检测(二分类),另外七个维度用于功能预测(七分类:intro, verse, chorus, bridge, inst, outro, silence)。 输出与损失:边界检测使用二元交叉熵损失,功能预测使用7类交叉熵损失,两者相加作为总损失进行训练。 被评估的FAE本身涵盖了多种架构: ...

2026-04-29

Does the Pre-Training of an Embedding Influence its Encoding of Age?

📄 Does the Pre-Training of an Embedding Influence its Encoding of Age? #语音生物标志物 #说话人识别 #预训练 #模型比较 ✅ 7.0/10 | 前50% | #语音生物标志物 | #预训练 | #说话人识别 #模型比较 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Carole Millot(Inria Paris) 通讯作者:未说明 作者列表:Carole Millot(Inria Paris)、Clara Ponchard(Inria Paris)、Jean-François Bonastre(AMIAD, 邮箱域名(polytechnique.edu)提示可能与巴黎综合理工学院相关,但论文中机构仅写为AMIAD)、Cédric Gendrot(LPP, Sorbonne Nouvelle, CNRS) 💡 毒舌点评 亮点在于将心理物理学中的感知实验范式引入语音年龄检测模型的评估,为人机对齐提供了新颖的视角。短板是下游年龄检测模型过于简单(一个三层MLP),且对不同嵌入的分析更多停留在性能比较层面,缺乏对其内部年龄信息编码机制的更深层探究。 📌 核心摘要 这篇论文研究了语音自监督学习(SSL)嵌入提取器的预训练策略如何影响其对说话人年龄信息的编码。为解决两个问题:1. 如何用人类感知验证自动年龄检测系统的性能;2. 不同预训练目标的嵌入是否在年龄检测上表现不同,作者进行了两项工作。首先,他们建立了一个基于WeSpeaker嵌入和简单MLP的年龄检测系统,并在VoxCeleb2-age数据集上实现了6.8年的平均绝对误差(MAE)。然后,他们设计了一个感知实验,让人类听者判断语音对中说话人的年龄差异。实验发现,人类准确度与系统MAE显著相关,即系统判断困难的语音对,人类也更难判断。其次,他们比较了四个不同嵌入提取器(WeSpeaker、MMS LID、wavLM base+、BA-LR)在相同年龄检测任务上的性能。结果显示,为说话人识别设计的WeSpeaker表现最佳(MAE 6.8),而为语言识别优化的MMS LID表现最差(MAE 9.1)。这支持了他们的假设:预训练目标(如追求说话人独立性的语言识别)会削弱嵌入中的年龄相关信息。主要局限性包括:仅在一个数据集和下游任务上验证,且未深入探究嵌入内部的年龄编码机制。 🏗️ 模型架构 本文的核心架构包含两部分:1. 用于生成语音嵌入的预训练SSL模型(提取器);2. 用于年龄预测的下游回归模型(检测系统)。 ...

2026-04-29

Influence of Clean Speech Characteristics on Speech Enhancement Performance

📄 Influence of Clean Speech Characteristics on Speech Enhancement Performance #语音增强 #模型比较 #多语言 #声学特征 🔥 8.0/10 | 前25% | #语音增强 | #模型比较 | #多语言 #声学特征 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingchi Hou(Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland) 通讯作者:未说明(论文未明确指出通讯作者) 作者列表:Mingchi Hou(Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland)、Ina Kodrasi(Idiap Research Institute, Switzerland) 💡 毒舌点评 亮点: 论文提出了一个此前被忽视的、极具启发性的研究视角——即干净语音本身的“内在特征”如何影响语音增强的难度,并通过严谨的跨模型、跨语言实验设计,无可辩驳地证明了共振峰振幅(尤其是F3)与增强性能的强相关性,为领域内理解“为何某些语音样本难以增强”提供了新解释。 短板: 作为一篇ICASSP论文,其核心贡献是“相关性分析”而非提出一个新模型或新算法,对实际的语音增强系统改进方案(如如何利用这些特征设计模型或数据集)探讨略显不足;此外,PESQ指标在西班牙语上的弱相关性,一定程度上削弱了“跨语言结论一致性”的说服力。 ...

2026-04-29

Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators

📄 Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators #语音伪造检测 #音位分析 #语音合成 #模型比较 ✅ 7.0/10 | 前25% | #语音伪造检测 | #音位分析 | #语音合成 #模型比较 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 通讯作者:未说明 作者列表:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy)、Fabian Monrose(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 💡 毒舌点评 本文如同一份详尽的“现代语音合成器体检报告”,首次对如此多种类的生成器进行了大规模“病理学”扫描,发现了鼻音和阻塞音这个普遍存在的“病灶”,并精准定位问题主要出在“文本到频谱”的环节,为后续“治疗”(改进生成器或设计更精准的检测器)提供了清晰的诊断书。其短板在于只开出了“诊断书”,却没有附上“药方”或“手术指南”——即基于这些发现提出具体的、新的检测算法或生成器改进方案,且复现门槛较高。 ...

2026-04-29

Modeling Strategies For Speech Enhancement in The Latent Space of a Neural Audio Codec

📄 Modeling Strategies For Speech Enhancement in The Latent Space of a Neural Audio Codec #语音增强 #神经音频编解码器 #自回归模型 #模型比较 #连续表示学习 🔥 8.0/10 | 前50% | #语音增强 | #神经音频编解码器 | #自回归模型 #模型比较 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sofiene Kammoun (CentraleSupélec, IETR (UMR CNRS 6164), France) 通讯作者:未说明 作者列表:Sofiene Kammoun (CentraleSupélec, IETR (UMR CNRS 6164), France)、Xavier Alameda-Pineda (Inria at Univ. Grenoble Alpes, CNRS, LJK, France)、Simon Leglaive (CentraleSupélec, IETR (UMR CNRS 6164), France) 💡 毒舌点评 本文以“教科书式”的系统性,将NAC潜空间中的几种核心建模选项(连续/离散、自回归/非自回归)像排列组合一样做了个遍,实验扎实、结论清晰,为后续研究者提供了非常明确的“避坑指南”和设计起点。然而,其所有实验仅在单一数据集(Libri1Mix)和单一编解码器(DAC)上进行,得出的“连续优于离散”等结论的普适性存疑,且未能将性能与当前主流的判别式SE方法(如Conv-TasNet)拉开决定性差距,更像是对一个新兴技术路径的初步探索而非颠覆性突破。 ...

2026-04-29

Off-The-Grid Multi-Pitch Estimation Using Optimal Transport

📄 Off-The-Grid Multi-Pitch Estimation Using Optimal Transport #音乐信息检索 #信号处理 #鲁棒性 #优化算法 #模型比较 ✅ 7.5/10 | 前25% | #音乐信息检索 | #信号处理 | #鲁棒性 #优化算法 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Anton Björkman(阿尔托大学信息与通信工程系) 通讯作者:未说明 作者列表:Anton Björkman(阿尔托大学信息与通信工程系)、Filip Elvander(阿尔托大学信息与通信工程系) 💡 毒舌点评 本文的核心亮点在于用最优传输(OT)的优雅数学框架,系统性地解决了传统多音高估计方法长期受限于“网格”和“完美谐波假设”两大痛点,在理论上更具通用性。然而,其短板也十分明显:方法依赖外部先验估计器的初始化,且实验部分仅限于有限场景下的蒙特卡洛模拟,缺乏真实复杂音频数据的验证,说服力有待加强。 📌 核心摘要 要解决什么问题:本文旨在解决多音高估计中的两大挑战:一是传统方法依赖于预定义的离散音高网格,限制了估计精度;二是大多数方法假设信号为完美谐波结构,对实际信号中存在的非谐波性(inharmonicity)敏感。 方法核心是什么:提出一种基于最优传输(OT)的框架,将音高估计问题建模为将信号频谱质量(measure)重新分配到基频质量的过程。通过块坐标下降法交替优化两个变量:传输计划(描述频谱能量如何流向基频)和基频估计值本身。 与已有方法相比新在哪里: 去网格化:首次在OT框架下实现了对基频的连续值估计,摆脱了固定网格的限制,理论上可获得更高精度。 适应非谐波:通过设计特定的地面代价函数(ground-cost function),使算法能够适应轻微的非谐波偏差。 优化策略:引入局部二次近似和迭代更新,将高度非凸的OT问题转化为可高效求解的凸问题序列。 主要实验结果如何: 论文通过蒙特卡洛模拟(3音高信号,800采样点)进行评估。图2显示,在完美谐波信号下,所提方法(结合PESCOT-2先验)的粗大误差率(GER)在所有信噪比(SNR)下均为最低,但低噪时的均方根误差(RMSE)略逊于PEBSI-lite。 图3显示,在非谐波信号(SNR=5dB)下,随着非谐波参数σ∆增大,所提方法的RMSE保持稳定且GER持续很低,而PEBSI-lite的性能则急剧恶化。 论文未提供具体的数值表格,关键对比结论均来自对图2、图3的描述。 实际意义是什么:该方法为语音处理、音乐信息检索等领域中,对频率成分复杂、非谐波特性明显的信号(如弦乐器、人声)进行高精度音高分析提供了新的理论框架。 主要局限性是什么: 依赖先验:算法的初始化依赖于另一个先验音高估计器(如PESCOT-2),若先验不准可能影响最终性能。 实验局限:实验仅限于合成信号的仿真,未在真实世界复杂音频(如混合乐器录音、带噪声的语音)上验证。 任务垂直:解决的是一个特定信号处理子问题,潜在应用范围相对狭窄。 🏗️ 模型架构 本文提出的是一个基于优化理论的算法框架,而非神经网络架构。其核心流程如下: 输入:含噪的离散时间复值信号 y_t,信号模型假设为P个非谐波音高分量与高斯噪声之和。 核心组件与数据流: 信号协方差估计:从信号中估计其协方差序列 r(τ),并将其与一个非负频谱测度 µ 通过线性算子 A 关联(r ≈ Aµ)。 最优传输问题构建:构建一个OT问题(公式2),目标是在满足频谱约束(A(µ)≈r)的条件下,找到一个传输计划 M,将质量从 µ(代表信号的谐波分量)运输到目标测度 µ0(所有质量集中在基频 ω0 上),并最小化由地面代价函数 c(ω_f, ω0_p) 定义的总运输成本。 块坐标下降优化:交替迭代求解两个子问题: 更新传输计划 M:固定 ω0,通过求解一个带熵正则化的OT对偶问题(公式5)并迭代调整代价矩阵来获得最优的 M(公式4)。这部分保证了在给定基频假设下,能找到最优的能量重组方案。 更新基频 ω0:固定 M,利用局部二次近似,推导出一个闭式更新公式(公式8)来优化 ω0。此步骤利用当前的传输计划 M 中的信息,将基频向使总运输成本更低的方向移动。 迭代:持续上述两个步骤直到收敛,最终输出估计的基频 ω0。 关键设计选择:使用特定的地面代价函数 c(ω_f, ω0_p) = min_h |ω_f/ω0_p - h|²,该函数在H→∞时倾向于选择能描述所有谐波的最高可能基频。引入局部二次近似(公式7、8)是解决目标函数高度非凸的关键,它依赖于先验估计来确定正确的谐波序号 h,从而将非凸问题转化为一系列凸问题。 由于论文中没有提供架构图,此处不插入图片。 ...

2026-04-29

S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Diffusion Autoencoders and Offline Quantization

📄 S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Diffusion Autoencoders and Offline Quantization #音频生成 #扩散模型 #量化 #模型比较 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #量化 #模型比较 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zineb Lahrichi(Sony AI, LTCI, T´el´ecom Paris, Institut Polytechnique de Paris) 通讯作者:未说明 作者列表:Zineb Lahrichi(Sony AI, LTCI, T´el´ecom Paris, Institut Polytechnique de Paris)、Ga¨etan Hadjeres(Sony AI)、Ga¨el Richard(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris)、Geoffroy Peeters(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris) 💡 毒舌点评 S-PRESSO巧妙地将扩散先验与离线量化结合,在0.096kbps下实现了惊人的音效重建质量,超越了现有连续和离散方法。但其创新本质是工程优化而非理论突破,且当前版本仅限于5秒音效、推理缓慢,离实用还有距离。 ...

2026-04-29

Scaling Spoken Language Models with Syllabic Speech Tokenization

📄 Scaling Spoken Language Models with Syllabic Speech Tokenization #语音大模型 #语音理解 #分词技术 #自监督学习 #模型比较 ✅ 7.0/10 | 前25% | #语音理解 | #分词技术 | #语音大模型 #自监督学习 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nicholas Lee (UC Berkeley) 通讯作者:未明确说明(论文中未指定) 作者列表:Nicholas Lee (UC Berkeley)、Cheol Jun Cho (UC Berkeley)、Alan W. Black (CMU)、Gopala K. Anumanchipalli (UC Berkeley) 💡 毒舌点评 亮点:这篇论文做了一件扎实且重要的事——系统性地证明了“把语音序列砍短”(音节分词)是训练更高效语音大模型的一条靠谱捷径,用5倍的计算节省换取了相当甚至更好的性能。短板:研究止步于“对比观察”,缺乏对“为何音节分词有效”的深层机制剖析(例如,这种离散化如何保留了关键的韵律或语义信息?),且未提供代码,使得“可复现”的承诺打了折扣。 📌 核心摘要 问题:当前主流的语音语言模型(SLM)使用高帧率(25-75 Hz)的语音令牌,导致序列过长,使得基于Transformer的模型在自注意力机制下面临二次复杂度的计算瓶颈,严重限制了模型在长上下文数据上的扩展和推理速度。 方法核心:采用基于自监督学习模型“Sylber”生成的音节级语音分词(约4.27 Hz),替代传统的帧级分词(如Hubert,约50 Hz),将语音序列长度压缩约5倍。 创新点:首次系统性研究音节分词在语音语言建模中的扩展性。在固定计算预算下,对比了不同数据规模和词汇表大小的Sylber分词与Hubert分词SLM的性能。 主要实验结果:在多个口语理解基准测试(sBLIMP, sSC, tSC)和生成困惑度(GenPPL)上,Sylber模型用约1/5的训练数据(令牌量)即可匹配或超越使用全量数据的Hubert模型。具体而言,在完整数据集(LibriSpeech+LibriLight+STS)上,Sylber-20k模型在sBLIMP上得分60.57(Qwen-0.5B),高于Hubert的56.95;训练时间从8.5小时降至3小时(8xA100-80GB),FLOPs减少超过5倍。关键结果对比如下表: 模型(Qwen2.5-0.5B) 训练数据集 令牌量 sBLIMP ↑ sSC ↑ tSC ↑ GenPPL ↓ Hubert (km500) 全量 6.04B 56.95 57.30 79.64 85.90 Sylber (km20k) 全量 1.24B 60.57 58.90 80.17 183.08 Sylber (km5k) 全量 1.24B 60.54 57.67 79.58 168.81 实际意义:为构建高效、可扩展的长上下文语音语言模型指明了一条有前景的道路,通过更粗粒度、更可解释的语音表示(音节),大幅降低训练和推理成本。 主要局限性:研究局限于特定的Sylber分词方法和k-means聚类;未深入探讨不同分词策略(如基于语言学的分词)的影响;生成任务(GenPPL)的评分上,Sylber模型目前仍劣于Hubert模型,表明音节分词在语音生成建模上可能仍有挑战。 🏗️ 模型架构 论文未提出全新的端到端模型架构,而是研究将音节级分词作为输入表示对现有SLM架构的影响。其核心系统流程如下: ...

2026-04-29

Towards Real-Time Generative Speech Restoration with Flow-Matching

📄 Towards Real-Time Generative Speech Restoration with Flow-Matching #语音增强 #流匹配 #实时处理 #模型比较 ✅ 6.0/10 | 前50% | #语音增强 | #流匹配 | #实时处理 #模型比较 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tsun-An Hsieh(University of Illinois Urbana-Champaign) 通讯作者:未说明 作者列表:Tsun-An Hsieh(University of Illinois Urbana-Champaign), Sebastian Braun(Microsoft Research) 💡 毒舌点评 这篇论文首次将流匹配应用于实时语音恢复并实现了20ms的极低算法延迟,工程目标明确;然而,其核心结论“流匹配在实时约束下性能未超越GAN”多少有些令人失望,削弱了创新价值,且训练细节的缺失让“探索”的结论难以被他人验证。 📌 核心摘要 要解决什么问题:现有生成式语音增强/恢复模型(如基于扩散的)通常需要大量推理步骤,导致高延迟,无法满足实时通信应用(<100ms延迟)的需求。 方法核心是什么:采用基于条件流匹配(Conditional Flow-Matching, FM)的生成框架,并设计了仅使用因果卷积且在时间维度不下采样的网络架构(Causal NCSN++),将算法延迟降至20ms。同时,探索了更轻量的ConvGLU-UNet架构。 与已有方法相比新在哪里:首次针对实时语音恢复场景设计了低延迟的因果FM模型。与之前依赖时间下采样的因果扩散模型相比,大幅降低了延迟。研究并量化了模型复杂度(从53M到6M参数)与采样步数(NFE)对实时恢复性能的影响。 主要实验结果如何:在DNS和SIG2024测试集上,因果NCSN++在NFE=5时达到最佳感知质量(DistillMOS),而非因果版本在NFE=10时最优。关键发现是:轻量模型(如ConvGLU-UNet-base)对长采样轨迹敏感,步骤增多性能反而下降。在相同架构下,FM训练的ConvGLU-UNet在BGMOS(噪声抑制)和WER(字错率)上弱于用对抗损失训练的GAN版本。具体图表结果见下文实验结果部分。 实际意义是什么:为将高效的生成模型(如FM)应用于实时语音处理提供了初步的架构设计和性能基准,明确了在低延迟约束下FM模型的优势与局限。 主要局限性:在严格的实时约束和相同模型复杂度下,FM并未展现出优于成熟对抗训练方法的性能。论文的训练超参数、优化器等关键复现信息缺失,结论的普适性有待验证。 🏗️ 模型架构 论文提出了两种主要用于实时语音恢复的因果FM架构,均在压缩复数STFT域工作。 整体输入输出流程: 输入:一段带退化的语音信号的压缩复数STFT谱图 y (维度 C x F x L,其中C为复数,F为频率,L为时间帧)。 输出:恢复后的干净语音信号的压缩复数STFT谱图 x1。 推理过程:从噪声 x0(通常来自简单分布)开始,通过积分流匹配ODE(dxt = vθ(xt, x0, t) dt),从 t=0 到 t=1,逐步生成 x1。 主要组件: ...

2026-04-29