ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...

2026-04-19

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

📄 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing #语音克隆 #扩散模型 #流匹配 #多模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后) 其他作者及机构: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences) Yuankai Qi:复旦大学(Fudan University) Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University) 💡 毒舌点评 亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢? 📌 核心摘要 本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。 🏗️ 模型架构 CoSyncDiT的整体框架旨在将高斯噪声逐步转化为与目标视频唇形同步、并保持参考音色的梅尔频谱图。其核心是一个基于流匹配(Flow Matching)的扩散Transformer(DiT),但并非均匀处理所有层,而是将去噪过程划分为三个认知阶段。 完整输入输出流程: 输入: 参考音频:提取原始梅尔频谱图,经二进制时间掩码遮盖目标区域后,得到掩码声学特征 H_m。 无声视频:通过唇部运动编码器(预训练的AV-HuBERT)提取原始唇部特征,再经级联上采样层对齐至目标梅尔分辨率,得到 X_lip。 配音脚本:通过文本编码器(4层ConvNeXtV2)提取文本特征 H_text。 先验构建:将文本特征通过填充和交叉注意力操作扩展至梅尔级别,并与掩码声学特征 H_m 拼接,形成统一的“语义-声学先验”,作为初始条件。 生成过程(CoSync-DiT): 阶段1:声学风格适应:将带噪的中间变量 x_t 与“语义-声学先验”拼接,通过统一投影层输入DiT。此阶段仅使用多头自注意力(MHSA)和时间自适应层归一化(Time-AdaLN),让模型专注于从参考音频中学习说话人音色风格,并建立风格与文本的初步关联,不引入任何视觉信息。 阶段2:细粒度视觉校准:将阶段1的输出 Z_style 与经过上采样的唇部特征 X_lip 相加。关键设计是一个零初始化的可学习门控 Λ,初始值为0,使得视觉信息作为残差缓慢注入,用于校准声学表示以匹配唇部运动的节奏动态,同时保护已建立的风格信息。 阶段3:时间感知上下文对齐:在阶段2的输出 Z_lip 基础上,使用多头交叉注意力(MHCA),以 Z_lip 为Query,以文本特征 H_text 为Key和Value。同样使用Time-AdaLN进行时间调制。此阶段旨在让模型基于已融合的声学-视觉表示,隐式检索语言上下文,从而生成发音准确的语音。 输出:经过多个CoSync-DiT块迭代后,最终预测出从噪声到目标梅尔频谱的向量场,通过求解常微分方程(ODE)得到生成的梅尔频谱图 x_1。 正则化(JSAR):在训练时,对阶段3的中间交叉注意力输出 Z_ca 施加基于预训练AV-HuBERT特征的帧级对比损失(L_cl),约束时间对齐;对最终隐藏状态 Z_out 施加CTC损失(L_ctc),约束语义正确性。 关键设计选择理由: ...

2026-04-19

Diffusion Language Models for Speech Recognition

📄 Diffusion Language Models for Speech Recognition #语音识别 #扩散模型 #大语言模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Davyd Naveriani (推断为RWTH Aachen University) 通讯作者:Albert Zeyer (推断为RWTH Aachen University) 其他作者:Ralf Schlüter (RWTH Aachen University), Hermann Ney (RWTH Aachen University) 机构推断:所有作者均来自德国亚琛工业大学(RWTH Aachen University)的计算机科学系,具体为Human Language Technology and Pattern Recognition (HLTPR) 课题组。论文中未直接标注机构,但根据论文作者一贯的归属以及arXiv上该团队的历史论文可以明确推断。 💡 毒舌点评 亮点:把当下火热的扩散模型从图像领域“跨界”应用到语音识别的文本重打分上,思路新颖,并且很务实地设计了结合传统CTC的混合解码方法,不是为了用扩散而用扩散。槽点:创新更多在于“应用”和“组合”,而非提出全新的扩散模型架构;作为一篇方法论论文,实验部分在摘要中略显单薄,缺乏具体的数字支撑其“显著提升”的结论。 📌 核心摘要 这篇论文探索了将扩散语言模型(DLM)应用于自动语音识别(ASR)任务的新方法。其核心目标是利用扩散模型的双向注意和并行生成能力,来提升基于传统编码器(如CTC)生成的ASR候选假设的准确性。论文主要贡献包括:1)系统性地介绍了如何将掩码扩散语言模型(MDLM)和均匀状态扩散模型(USDM)用于ASR假设的重打分(Rescoring);2)创新性地提出了一种CTC与USDM的联合解码(Joint-Decoding)方法,在解码的每一步融合CTC的帧级声学概率分布与USDM的标签级语言概率分布,从而生成兼具声学与强大语言先验知识的新候选。实验表明,这两种扩散模型都能显著提升识别文本的准确率。该研究为将前沿的生成式语言模型整合到成熟的语音识别 pipeline 中提供了实用的指南和新的混合解码范式。 🏗️ 模型架构 论文并未提出一个全新的端到端模型,而是探索如何将预训练好的扩散语言模型(MDLM或USDM) 集成到现有的ASR解码流程中。整体流程分为两个主要应用场景: 场景一:重打分 (Rescoring) 输入:由一个基础ASR系统(例如基于CTC或Attention的编码器)生成的N-best候选列表(一组可能的文本假设及其初始分数)。 处理:将每个候选文本假设输入到一个冻结参数的预训练扩散语言模型(MDLM或USDM)中。 扩散模型内部流程(以USDM为例): 前向过程:向文本序列中逐步添加噪声(将token均匀替换为[MASK]或其他特殊状态),直到变成纯噪声。 反向过程(推理核心):模型学习从噪声中去噪,恢复原始文本。关键在于,模型可以计算出在给定噪声程度下,原始文本序列的对数概率(log probability)。这个概率反映了该文本序列符合模型所学语言分布的程度。 输出:扩散语言模型输出的每个候选的对数概率,作为一个语言模型分数。 融合与排序:将此语言模型分数与基础ASR系统给出的声学分数(如CTC的路径概率)按权重相加,得到每个候选的最终分数。根据最终分数对N-best列表重新排序,输出得分最高的候选作为最终识别结果。 场景二:联合解码 (Joint-Decoding) 这是一个更紧密的集成方法,在集束搜索(Beam Search)解码过程中动态结合两者。 ...

2026-04-19

Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models

📄 Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models #语音对话系统 #强化学习 #生成模型 #实时处理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者(推断):Yifu Chen(阿里巴巴达摩院,语音实验室) 通讯作者(推断):Shengpeng Ji(阿里巴巴达摩院,语音实验室) 其他作者: Zhengqing Liu(阿里巴巴达摩院,语音实验室) Qian Chen(阿里巴巴达摩院,语音实验室) Wen Wang(阿里巴巴达摩院,语音实验室) Ziqing Wang(阿里巴巴达摩院,语音实验室) Yangzhuo Li(阿里巴巴达摩院,语音实验室) Tianle Liang(西湖大学,计算机科学系) Zhou Zhao(西湖大学,计算机科学系) 注:论文中未明确标注第一作者和通讯作者,以上根据作者顺序和常见惯例推断。机构信息根据作者姓名和领域常识推断,主要来自阿里巴巴达摩院和西湖大学。 💡 毒舌点评 亮点:精准地抓住了当前全双工语音对话模型(SDMs)的“阿喀琉斯之踵”——缺乏可靠的交互质量评估信号,并尝试用强化学习(RL)的框架来破解,思路很有前瞻性。提出的“双轴”评估框架(语义+时序)也直击要害。 槽点:方法的核心——“双轴生成奖励模型”本身听起来像个“裁判AI”,但论文对这个裁判的“大脑”(模型架构)描述得不够“透明”,特别是内部结构和参数细节。实验虽然横跨多个数据集,但规模和多样性是否足以支撑“复杂真实世界交互”的结论,需要打个问号。 📌 核心摘要 本文旨在解决全双工语音对话模型(SDMs)实现类人交互的核心挑战。现有自动化评估指标流于表面(如统计行为或预测时机准确率),无法为强化学习提供可靠的奖励信号,而人工评估成本高昂且难以扩展。为此,作者提出了一个双轴生成奖励模型。该模型基于一个详细的交互质量分类体系和配套的标注数据集进行训练,能够理解复杂的对话动态。其核心创新在于能同时输出一个总体质量分数和对语义质量与交互时机(轮转)的独立评估,从而为SDMs提供精确的诊断反馈和适用于在线强化学习的可靠奖励信号。实验表明,该模型在涵盖合成对话与复杂真实交互的多个数据集上,在交互质量评估任务上达到了当前最优(SOTA)水平。 🏗️ 模型架构 双轴生成奖励模型(Dual-Axis Generative Reward Model)的整体架构旨在将一段多模态(音频+文本)的对话交互映射为结构化的质量评估。 输入输出流程: 输入:一段完整的对话历史记录,包含交替的语音片段(波形或频谱图)和对应的文本转录(ASR结果)。 特征提取与编码: 音频编码器:首先,每个说话人的语音片段通过一个预训练的音频编码器(如HuBERT、WavLM等)转换为帧级别的声学特征向量序列。这些特征捕捉了语调、节奏、重叠等副语言信息。 文本编码器:对应的文本转录通过一个预训练的语言模型(如BERT、RoBERTa)编码为词级别的语义特征向量序列。 多模态融合与上下文建模: 将编码后的音频和文本特征在时间维度上对齐并拼接,形成每个对话轮次的统一表示。 一个对话上下文编码器(通常是一个Transformer编码器或类似的序列模型)处理整个对话历史序列。它通过自注意力机制捕捉轮次内(模态间)和轮次间(时间上)的依赖关系,理解对话的连贯性、话题发展和说话人意图。 结构化评估生成(核心): 对话上下文编码器的输出被送入一个奖励生成模块。该模块通常是一个条件生成模型(如基于Transformer的解码器)。 它不是直接输出一个分数,而是根据预定义的详细分类法(Taxonomy),以生成文本或结构化标签的形式,对对话的多个维度进行“诊断”。这个分类法可能包括: 语义轴:相关性、信息量、一致性、帮助性等。 交互轴:响应延迟、过早打断、过晚响应、不当重叠、话轮保持等。 模型为每个维度生成一个描述或评级(例如,“响应延迟:适中”、“语义相关性:高”)。 分数输出: 最后,一个评分聚合网络(可以是另一个小型神经网络或简单的加权求和)将上述结构化的诊断结果映射为两个独立的标量分数: 语义质量分数:反映对话内容的价值。 交互时机分数:反映轮转的流畅度和自然度。 同时,也可以输出一个综合的总体交互质量分数。 关键设计选择理由: ...

2026-04-19

Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning

📄 Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning #音频分类 #时频分析 #信号处理 #音频理解 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:Mahmoud Fakhry(西班牙卡洛斯三世大学,信号理论与通信系;埃及阿斯旺大学,电气工程系) 通讯作者:Ascensión Gallardo-Antolín(西班牙卡洛斯三世大学,信号理论与通信系) 其他作者:无 💡 毒舌点评 亮点:这篇论文的“混搭”思路很有意思,把经典的信号处理工具(Gabor字典、弹性网络)和现代深度学习(CNN-LSTM)结合,像用老式显微镜(稀疏建模)观察细胞(心音),再用最新的AI修图软件(CNN)进行分类,最终效果拔群。槽点:论文的排版和表格格式堪称“灾难”,多个表格数据错位、符号乱码(如98.95 % 98.95\%),严重影响阅读体验;此外,虽然声称“深度学习”,但核心网络结构相对简单,更像是对特征工程工作的验证。 📌 核心摘要 本文旨在解决心音信号(PCG)的多分类问题,以辅助心血管疾病的自动诊断。核心贡献在于提出了一套结合优化Gabor字典和弹性网络正则化的特征提取框架,并与CNN-LSTM深度学习网络相结合。具体而言,作者首先通过系统性地调整Gabor原子的时频分辨率(尺度参数β)和弹性网络的正则化参数(α),为心音信号寻找最优的稀疏表示模型(系数向量a)。然后,将这些系数向量重塑为具有物理意义的2D时间-频率特征矩阵,作为分类网络的输入。实验在包含五种心脏瓣膜疾病的1000条记录数据集上进行,最终提出的“1D+2D CNN-LSTM”网络在ADAM优化器和最优特征(β=2¹,α=0.1)下,取得了**98.95%**的最高分类准确率,显著优于使用原始信号或传统VMD特征的基线方法。该方法的局限性在于数据集规模相对较小,且网络架构的复杂性并未达到当前最深模型的水平。 🏗️ 模型架构 本文提出的系统分为两个主要阶段:特征计算与分类。 整体流程:原始PCG信号 → 预处理(截断/补零、降采样、标准化) → 通过优化后的Gabor字典和弹性网络正则化计算系数向量a → 对a应用加权对数函数得到特征向量b → 将b重塑为2D时间-频率特征矩阵B → 输入到CNN-LSTM分类网络中 → 输出五类心脏疾病的分类概率。 特征计算阶段: 输入:长度为L=2^11的标准化PCG信号向量x。 核心模型:通过求解弹性网络正则化问题 min_a (1/(2N))||x - D_j a||₂² + λ((1-α)/2 ||a||₂² + α ||a||₁) 来估计系数向量a。其中D_j是第j个Gabor字典,其原子的尺度参数β=2^j,α控制稀疏性(α=0为岭回归,α=1为LASSO)。 特征变换与重塑:对系数向量a进行标准化和归一化后,应用加权对数函数 b_m = -|a_m| log|a_m| 得到特征向量b。然后,根据字典D_j的结构(行数=2^(j+1),列数=2^(N-j+1)),将长度为2^(N+2)的向量b重塑为2D矩阵B。矩阵的每一行对应一个频率点,每一列对应一个时间平移位置。 分类网络阶段: 论文提出了两种架构: ...

2026-04-19

Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram

📄 Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram #信号处理 #时频分析 #音频生成 #音频理解 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:David Valdivia(法国图卢兹大学 IRIT 实验室) 通讯作者:Cédric Févotte(法国图卢兹大学 IRIT 实验室) 其他作者:Elsa Cazelles(法国图卢兹大学 IRIT 实验室) 💡 毒舌点评 亮点:这篇论文巧妙地将最优传输(OT)理论“嫁接”到经典的时频分析难题上,为解决Gabor-Heisenberg不确定性原理带来的分辨率权衡问题提供了新颖且数学严谨的视角。其设计的结构化代价矩阵和对应的无熵正则化UOT算法是两大技术亮点,显著提升了融合质量和计算效率。 槽点:方法虽然精巧,但更像一个“后期处理工具”,而非端到端的解决方案。它严重依赖于输入谱图的质量,且目前主要聚焦于提升分辨率这一单一目标,对于更复杂的音频任务(如去噪、分离)的集成路径尚不明确。此外,算法虽比传统OT快,但面对超长音频或实时处理场景,其迭代优化的本质可能仍是瓶颈。 📌 核心摘要 核心问题:短时傅里叶变换(STFT)生成的谱图受制于不确定性原理,无法同时获得优异的时间和频率分辨率。传统融合方法(如几何平均)要求输入谱图网格对齐,且性能有限。 核心方法:本文提出一种基于最优传输(OT)的谱图融合方法。将不同分辨率的谱图视为时频平面上的非负能量分布,通过计算它们的非平衡最优传输(UOT)重心来生成一个“超分辨率”谱图。关键创新包括:1) 设计了结构化代价矩阵,将能量传输约束在时间或频率轴的相邻点,符合时频物理意义;2) 提出了一个块状Majorization-Minimization(MM)算法,可直接求解无熵正则化的UOT重心问题,避免了传统方法因熵正则化导致的谱图模糊。 主要发现:在合成信号和真实语音上的实验表明,该方法能有效结合输入谱图的最佳特性:既保留了长窗口谱图的高频率分辨率,又继承了短窗口谱图的高时间分辨率。在频率定位、时间定位和谐波浓度等多项指标上,均优于输入谱图及几何平均基线方法,且“不同网格”设置在保持性能的同时大幅降低了计算成本。 实际意义:为音频和信号处理领域提供了一种强大的后处理工具,可用于生成更清晰、信息更丰富的时频表示,对语音分析、音乐信息检索、声学事件检测等依赖高质量谱图的任务具有直接应用价值。 🏗️ 模型架构 该论文提出的是一个基于优化的信号处理框架,而非传统的神经网络模型。其整体流程如下: 输入:同一信号的两个(或多个)谱图 X1 和 X2,使用不同长度的分析窗口计算得到。X1 使用长窗口,具有高频率分辨率但时间模糊;X2 使用短窗口,具有高时间分辨率但频率模糊。它们的时频网格(S1, S2)可以不同。 分布化:将每个谱图 X 向量化为 x,并将其视为定义在时频网格点集合 S 上的非负离散分布(测度) χ。对于OT计算,需要将 x 归一化为概率向量(和为1);对于UOT,则无需归一化。 定义目标网格:用户指定一个目标超分辨率谱图的时频网格 S。一个典型选择是 S = F1 × T2,即采用高频率分辨率谱图 X1 的频率采样 F1 和高时间分辨率谱图 X2 的时间采样 T2。 构建代价矩阵:这是核心设计。对于从输入分布 α (对应 X1) 到目标分布 γ (对应输出 X) 的运输,定义代价矩阵 C̃1。其条目 C̃1_{i1,i} 仅在满足以下条件时为有限值(否则为+∞):a) 频率索引相同 (m1 = m);b) 时间索引 n 属于与 n1 重叠的帧集合 O1(n1)。类似地,定义从 β (对应 X2) 到 γ 的代价矩阵 C̃2,其约束为时间索引相同 (n2 = n) 且频率索引 m 属于与 m2 重叠的频率集合 O2(m2)。这些约束强制能量只能在相邻的、有物理意义的时频点间移动。 计算UOT重心:求解优化问题,找到目标分布 γ(权重向量 g),使其最小化加权UOT代价之和:(1-λ)UOT_{C̃1}(x1, g) + λUOT_{C̃2}(x2, g)。其中UOT代价包含运输成本以及衡量边际分布不匹配程度的KL散度惩罚项。 算法求解:使用提出的块状MM算法(算法1)迭代求解上述问题。算法交替更新运输计划 Tα, Tβ 和重心权重 g。更新规则利用了KL散度的共轭性质,具有闭合形式。 输出:将求解得到的权重向量 g 反向映射回矩阵形式,得到超分辨率谱图 X。该谱图在目标网格 S 上定义,兼具高时间和高频率分辨率。 💡 核心创新点 基于最优传输的谱图融合框架: ...

2026-04-19

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Ryandhimas E. Zezario(推断为台湾中央研究院资讯科学研究所,根据论文[23]引用及常见合作模式) 通讯作者:Hsin-Min Wang(台湾中央研究院资讯科学研究所),Yu Tsao(台湾中央研究院资讯科学研究所) 其他作者:Dyah A. M. G. Wisnu(印度尼西亚玛琅国立大学电气工程系),Szu-Wei Fu(台湾中央研究院资讯科学研究所),Sabato Marco Siniscalchi(意大利卡塔尼亚大学电子工程系) (注:论文HTML全文未明确列出所有作者的具体机构,以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。) 💡 毒舌点评 亮点在于巧妙地将大语言模型(LLM)定位为“元评估器”,通过整合轻量级声学特征和现有模型的伪标签(DNSMOS, VQScore),而非直接处理原始音频,规避了LLM在音频理解上的短板,思路颇具巧思。槽点则是实验数据集过于单一(仅VoiceBank-DEMAND),且在“全样本评估”中少样本版本性能反而下降,暴露出其方法对示例选择的高度敏感性,结论的普适性有待商榷,有“为了用LLM而用LLM”之嫌。 📌 核心摘要 本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架,其核心是将大语言模型(如GPT-5)作为一个元评估器,通过精心设计的文本提示,融合多类异构信号:包括手工声学描述符(如RMS、ZCR、MFCC统计量)和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明,在VoiceBank-DEMAND数据集上,零样本GatherMOS已优于基线方法,而精心匹配的少样本引导能带来显著提升(在子集上SRCC达0.8473)。然而,当少样本示例与测试集分布不匹配时,性能会下降,揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性,为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型,而是一个推理框架,其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下: 输入:一段原始语音波形 x。 特征与伪标签提取(并行进行): 手工声学描述符提取器:从 x 中提取一系列低级特征,包括: 时域能量:RMS(均方根)。 频域/噪声相关:ZCR(过零率)。 信号完整性:是否削波(Clipping)、时长(Duration)。 频谱包络:13维MFCC的帧平均值。 频谱分布:梅尔频谱图的每-bin均值和方差、全局最大/最小值。 伪标签生成器(冻结): DNSMOS:输入语音,输出一个1到5之间的连续分数 s_DNS,代表感知质量。 VQScore:输入语音,输出一个0到1之间的分数 s_VQ,代表语音质量。 输入序列化与提示构建:将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ,以及针对LLM的指令(例如:“您是语音质量评估专家…请估计分数…”),共同组织成一个结构化的文本提示(Prompt)。对于少样本版本,还会在提示中加入K个“支持样本”(few-shot examples),每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理:将构建好的文本提示输入给大型语言模型(论文中为GPT-5)。LLM根据其内置的推理能力,对提示中的所有信息进行综合分析、权衡和“推理”。 输出:LLM生成两部分文本输出: 主输出:预测的连续MOS分数 ŝ。 辅助输出:解释性属性 a,如噪声水平、是否削波、混响程度以及一段解释性文字,说明其预测依据。 关键设计选择理由: ...

2026-04-19

Four Decades of Digital Waveguides

📄 Four Decades of Digital Waveguides #音频生成 #信号处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Pablo Tablas de Paula(推断:可能为英国伦敦大学金史密斯学院或相关机构,论文未明确提供机构信息) 通讯作者:Joshua D. Reiss(英国伦敦大学金史密斯学院, Centre for Digital Music) 其他作者:Julius O. Smith(美国斯坦福大学, CCRMA - 中心计算机研究用于声学与音乐研究),Vesa Välimäki(芬兰阿尔托大学, 艺术、设计与建筑学院) 注:以上机构信息基于该领域知名学者的常见隶属关系及论文作者公开信息推断。提供的论文摘要中未包含明确的机构列表。 💡 毒舌点评 亮点是作为一篇“编年史”式的综述,它清晰梳理了数字波导这一经典而高效的物理建模技术四十年的演进脉络,特别是将其与现代机器学习优化方法结合的前沿方向,为老牌技术注入了新活力。槽点在于,对于一篇旨在“深度分析”的论文请求,这篇摘要本身提供的信息过于概括,缺乏具体模型细节、实验数据和对比结果,更像是一个邀请你阅读全文的“预告片”,而非完整的技术报告。 📌 核心摘要 这篇论文旨在全面回顾数字波导物理建模技术自诞生以来四十年的发展历程、核心应用与最新进展。它要解决的核心问题是,如何在保证物理模拟准确性的同时,实现声波传播模拟的高效计算,以满足实时音频处理(如虚拟乐器、混响)的需求。论文阐述了数字波导的核心方法,即利用延迟线和滤波器构建的高效网络来模拟行波,并对比了其与通用有限差分法在计算效率上的巨大优势。主要发现包括,数字波导技术已成功应用于乐器合成、人声建模和人工混响等多个领域,并且通过结合经典的、进化的以及新兴的神经网络优化方法(如可微分数字信号处理),其参数优化能力得到了显著增强,使其能更灵活地匹配目标声学特性。实际意义在于,该技术为实时、高保真的物理建模音频应用提供了坚实的理论基础和实践工具。局限性在于,作为一篇综述,它并未提出全新的波导结构,而是侧重于总结和整合现有技术,且对最新机器学习优化方法的讨论可能尚处初步阶段。 🏗️ 模型架构 由于本文是一篇综述论文,它并不提出一个单一的、具体的“模型架构”,而是系统性地描述了数字波导(Digital Waveguide, DWG) 这一建模范式及其各种变体和应用。其核心思想和典型架构如下: 核心原理与基本单元: 输入:激励信号(例如,拨弦的脉冲、吹管的噪声)。 核心组件:一个基本的数字波导段由一对反向传播的延迟线(通常长度相等)和位于其连接点的散射 junction(或滤波器)构成。延迟线模拟声波在介质中的传播时间,散射节点模拟波在边界处的反射和透射。 输出:在波导的某个特定点(通常是散射节点)提取信号作为合成声音。 典型应用架构示例(如Karplus-Strong弦模型): 激励生成:生成一个短促的噪声脉冲或采样作为初始扰动。 波导环路:信号进入一个闭合的波导环路,环路总延迟时间对应于音符的基频周期(延迟长度 = 采样率 / 基频)。 滤波与衰减:在环路中插入一个低通滤波器,模拟弦振动能量在高频的耗散(即音色变暗)和整体幅度衰减。 循环与输出:信号在环路中循环,每次循环都因滤波而衰减,形成自然的衰减振荡波形。从环路中持续输出合成音频。 高级扩展: 滤波器设计:使用更精细的数字滤波器(如插值滤波器、全通滤波器)来模拟更复杂的边界条件和色散效应。 非线性:在波导中引入非线性函数,以模拟如簧片振动、弓弦摩擦等非线性激励机制。 分布式参数:将多个波导段连接,模拟非均匀介质(如带有音孔的管乐器)。 与物理参数的映射:波导的长度、滤波器系数等直接对应于物体的物理参数(长度、张力、材料阻尼),使得控制直观。 数据流动:激励信号 → 进入波导网络(延迟与滤波) → 在网络中传播与相互作用 → 在观测点提取合成信号。这是一个前馈/循环的确定性信号处理流程,无需“训练”,其行为完全由物理参数决定。 ...

2026-04-19

From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

📄 From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench #语音对话系统 #基准测试 #多模态 #数据集 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:Ke Xu (推断) 通讯作者:Yu Wang (推断) 其他作者:Yuhao Wang (推断) (注:论文摘要中未明确列出作者所属机构。根据常见的学术论文作者署名惯例,以上推断基于作者姓名顺序和通讯作者的通常角色。如需准确信息,需查阅论文全文的作者 affiliations 部分。) 💡 毒舌点评 亮点:在“AI会抢话”这个未来人机交互的核心痛点上,率先搭了个擂台(ProVoice-Bench),把“主动性”这个模糊概念拆解成可量化的四个任务,研究方向很有前瞻性。 槽点:实验部分像请了三位武林高手(几个多模态LLM)来打擂,结果发现大家都有点“反应过度”和“想太多”,但论文没深入剖析为啥会这样,也没开源“擂台”本身,让后续挑战者有点无从下手。 📌 核心摘要 本文旨在解决当前语音代理评估中过度关注被动响应,而忽视其主动交互能力的问题。为此,作者提出了首个专门评估主动语音代理的基准测试框架 ProVoice-Bench。该框架包含四个新颖的任务,用以衡量代理在不同场景下的主动介入和监控能力。通过设计一个多阶段数据合成管道,研究团队构建了一个包含1,182个高质量样本的评测数据集。对多个前沿多模态大语言模型的评估结果显示,当前模型在主动语音交互方面存在显著性能差距,主要体现在过度触发(在不必要时主动发言)和推理能力不足两个方面。这项工作不仅揭示了现有模型的局限,也为开发更自然、具备上下文感知能力的主动语音代理指明了具体改进方向。 🏗️ 模型架构 本论文的核心贡献是提出了一个评估框架(Benchmark),而非一个新的模型架构。因此,其“模型架构”指的是被评估的现有先进多模态大语言模型以及评估框架本身的设计。 被评估模型架构(以通用多模态LLM为例): 输入:通常为音频流(语音)和可能的文本上下文。音频通过音频编码器(如Whisper、Qwen-Audio的编码器)转换为音频特征向量。 核心处理:特征向量被输入到一个统一的大语言模型(如Qwen2.5、LLaMA等架构)中。该LLM经过多模态对齐训练,能够同时理解文本、音频(有时包括视觉)信息。 输出:模型根据输入和内部推理,生成文本响应或决定保持沉默。在主动代理任务中,模型需要自主判断是否以及何时需要主动发起对话或干预。 连接方式:音频特征与文本token在LLM的嵌入空间或通过交叉注意力机制进行融合。模型的“主动性”体现在其自回归生成过程中,基于对上下文的理解,预测出应该输出响应还是特殊的“静默”或“等待”标记。 评估框架(ProVoice-Bench)架构: 整体流程:框架输入是设计好的多模态场景(包含语音对话、环境音频事件等),输出是被评估模型在该场景下的行为序列(如:何时说话、说了什么),最后通过预设的评估指标进行打分。 四个核心任务: 情境感知对话发起(Context-Aware Conversation Initiation, CACI):判断在特定环境声音(如敲门声、微波炉“叮”声)后,代理是否应主动发起相关询问。 任务导向型主动干预(Task-Oriented Proactive Intervention, TOPI):在用户执行任务(如做饭)遇到困难(如步骤错误、遗漏)时,代理是否应主动提供帮助。 情感状态主动关怀(Emotional State Proactive Care, ESPC):检测用户语音中的情感变化(如沮丧、困惑),并判断是否应主动表达关怀或提供支持。 持续监控与适时提醒(Continuous Monitoring and Timely Reminder, CMTR):在长时间交互中,监控用户状态(如长时间未操作、偏离目标),并在恰当时机进行提醒。 数据合成管道:这是一个关键组件,用于生成评测数据。它可能包含:a) 场景设计:人工或规则定义交互剧本;b) 语音合成:使用TTS生成对话语音;c) 音频事件合成:添加环境音效;d) 标注:由人工标注“正确”的主动行为时间点和内容。这个管道确保了数据的可控性和评估的客观性。 💡 核心创新点 首次定义并系统评估语音代理的“主动性”:之前的研究和基准(如Spoken-CQA、SD-Eval)主要评估模型对用户查询的被动响应能力。本文明确提出了“主动语音代理”的概念,并将其操作化为四个可衡量的具体任务,填补了该领域的评估空白。 构建了首个主动语音代理评测基准 ProVoice-Bench:这不是一个简单的数据集,而是一个包含多任务、多场景、高质量合成数据的完整评估框架。其创新在于任务设计的全面性(覆盖了发起、干预、关怀、提醒等主动行为的关键维度)。 设计了多阶段数据合成管道以生成高质量评测数据:主动行为的“正确答案”在真实世界中难以大规模、一致地获取。本文创新性地采用合成方法,通过可控的流程生成了1,182个带有明确评估标准(何时该主动、说什么)的样本,解决了主动交互评估数据稀缺的难题。 揭示了当前SOTA多模态LLM在主动交互上的具体缺陷:通过在ProVoice-Bench上的实验,论文不仅证明了性能差距,更具体地指出了“过度触发”(False Triggering)和“推理能力不足”是两大核心问题。这为未来的研究提供了明确的优化目标,而不仅仅是笼统的“性能提升”。 🔬 细节详述 训练数据:论文主要工作是构建评测数据集,而非训练新模型。评测数据集 ProVoice-Bench 包含 1,182 个样本,通过多阶段数据合成管道生成。该管道可能整合了剧本设计、文本转语音(TTS)、音频事件混合和人工校验等步骤,以确保数据质量和评估标准的一致性。 损失函数:不适用。本文为评估论文,未涉及模型训练。 训练策略:不适用。 关键超参数:论文未提及训练超参数。在评估中,可能涉及模型推理时的参数,如采样温度(temperature)、top-k/top-p等,但摘要中未说明。 训练硬件:不适用。 推理细节:论文未详细说明评估时模型的推理策略(如是否使用beam search)。通常,对于对话生成任务,可能使用核采样(nucleus sampling)以生成自然响应。 数据增强/正则化:不适用。 📊 实验结果 主要指标对比:根据提供的柱状图(图1),论文评估了多个模型在 CFC(可能指Context-aware Conversation Initiation相关任务)和 PIC(可能指Proactive Intervention and Care相关任务)两大类任务上的表现。每个任务下有Recall (Rec)、Accuracy (Acc) 和 $R_{acc}$(可能是Recall和Accuracy的调和平均或加权平均)三个指标。 CFC任务: Recall (Rec): Qwen3-Omni (w/ DC) 约为0.43,Qwen3-Omni (T) (w/ DC) 和 Step-Audio-R1 (T) (w/ DC) 均约为0.74。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.54,Qwen3-Omni (T) (w/ DC) 约为0.84,Step-Audio-R1 (T) (w/ DC) 约为0.83。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.46,Qwen3-Omni (T) (w/ DC) 约为0.83,Step-Audio-R1 (T) (w/ DC) 约为0.80。 PIC任务: Recall (Rec): Qwen3-Omni (w/ DC) 约为0.76,Qwen3-Omni (T) (w/ DC) 约为0.58,Step-Audio-R1 (T) (w/ DC) 约为0.91。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.78,Qwen3-Omni (T) (w/ DC) 约为0.78,Step-Audio-R1 (T) (w/ DC) 约为0.82。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.69,Qwen3-Omni (T) (w/ DC) 约为0.74,Step-Audio-R1 (T) (w/ DC) 约为0.72。 关键发现:1) 模型性能在不同类型任务上差异显著(如Step-Audio-R1在PIC的Rec上极高,但在CFC的Rec上极低)。2) “w/ DC”(可能指使用了某种对话上下文或解码策略)与“w/o DC”的对比显示,上下文信息对主动行为的准确性有复杂影响。3) 所有模型的Recall和Accuracy都远未达到完美(1.0),尤其在CFC任务上Recall普遍偏低,印证了“推理能力不足”和“过度触发”(可能对应高Recall但低Accuracy的情况)的问题。 消融实验:图中“w/ DC”与“w/o DC”的对比可视为一种消融,表明特定组件(如对话上下文)对模型主动性能有显著影响。 与SOTA方法的对比:论文评估的本身就是当前的多模态LLM SOTA(如Qwen3-Omni, Step-Audio-R1)。结果显示,即使在这些最强模型上,主动交互能力仍是短板。 用户研究/主观评价:摘要和图中未提及。 ⚖️ 评分理由 创新性:8.5/10 - 开创性地定义了“主动语音代理”的评估范式,并构建了首个专用基准。从“被动应答”到“主动交互”的视角转换具有重要学术价值,为领域发展设立了新的路标。 实验充分性:7.5/10 - 实验设计合理,对比了多个有代表性的SOTA模型,并使用了多维度指标。但评测模型数量可以更多(如包含更多开源和商业模型),且缺乏对模型失败案例的深入分析(如为什么会在某些场景过度触发)。 实用价值:9.0/10 - 直接指向未来语音助手发展的核心需求——更自然、更主动的交互。研究成果(Benchmark和发现的缺陷)能有效指导工业界优化产品,避免“人工智障”式的打扰,实用导向非常明确。 灌水程度:2.0/10 - 论文内容扎实,问题定义清晰,方法新颖,实验结论明确。没有明显的冗余内容或夸大表述,是一篇高质量的AI评估研究论文。 🔗 开源详情 论文中未提及开源计划。目前无法得知ProVoice-Bench数据集、评估代码或相关模型权重是否会公开。 ...

2026-04-19

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者: Yanning Wang(香港科技大学(广州)) Haofeng Tan(南卡罗来纳大学,美国) Boyi Chen(香港科技大学(广州)) Teng Fei(坎特伯雷大学,新西兰) Xianping Ma(西南交通大学,中国) Yang Yue(香港科技大学(广州)) Zan Zhou(北京邮电大学,中国) Xiaofeng Liu(香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。 📌 核心摘要 这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 🏗️ 模型架构 Geo2Sound的整体架构是一个三阶段流水线,将卫星图像最终转化为一个与地理环境最匹配的音频文件。 输入:一张512x512像素的卫星图像。 阶段一:结构地理空间属性建模 功能:将原始图像转化为结构化的、对声学推理有用的地理属性描述符。 流程: 使用固定的预训练视觉主干网络(DINOv3)提取密集的、 patch级别的图像特征。 对这些特征进行K-means聚类(k=8),将图像分割成空间上连贯的区域。 对每个聚类区域,计算一组视觉统计特征(RGB/HSV均值、纹理、边缘密度),并与该区域的平均特征拼接,形成该区域的描述。 通过启发式打分生成伪标签,并用这些伪标签训练一个两阶段随机森林分类器。第一阶段过滤低置信度样本,第二阶段在高质量样本上重训,作为最终分类器,输出每个区域属于不同类别(植被、水体、建筑区、道路等)的概率。 最后,将所有区域的分类概率按面积加权聚合,得到整幅图像的地理属性向量(5维:植被覆盖率、水体比例、建筑比例、道路密度、土地利用混合度),并计算香农熵作为场景多样性度量。 输出:一个紧凑的、图像级别的地理描述符(6维向量)。 阶段二:语义假设扩展 功能:解决卫星图像对应多种可能声音场景的歧义问题。 流程: 将卫星图像输入视觉语言模型(GPT-5.2),生成一个基础场景描述文本(C0)。 设计特定的提示词,要求模型基于C0生成两个在声学条件上明显不同(如繁忙vs安静、有自然声vs无自然声)但视觉上仍一致的替代描述(C1, C2)。 将这三个文本描述(C0, C1, C2)分别输入一个文本到音频(T2A)生成模型(如Make-An-Audio 2),每个描述生成2个音频样本,总计得到6个候选音频。 输出:一个包含6个候选音频片段的集合,每个都与原始卫星图像在语义上兼容,但声学氛围不同。 阶段三:地理-声学对齐模块 功能:从多个候选音频中,选择与该地点地理环境最匹配的一个。 流程: 使用一个轻量级的投影网络(两层MLP),将阶段一输出的地理属性向量映射到音频嵌入空间,得到一个“地理查询向量”。 使用预训练的音频模型(CLAP)对所有6个候选音频进行编码,得到它们的音频嵌入向量。 计算“地理查询向量”与每个候选音频嵌入向量之间的余弦相似度。 选择相似度最高的候选音频作为最终输出。 输出:最终生成的、地理对齐的声音景观音频。 整体数据流:卫星图像 -> 地理属性向量 & 文本描述 -> 候选音频集合 -> 选出最佳音频。核心思想是“先发散(生成多样候选),后收敛(基于地理信息筛选)”。 💡 核心创新点 定义新任务与基准:首次明确提出“从卫星图像生成声音景观”这一跨模态生成任务,并建立了首个大规模配对基准数据集 SatSound-Bench。这为该领域的研究奠定了基础,开辟了遥感与音频生成交叉的新方向。 语义假设扩展策略:针对卫星图像的“一对多”声学歧义,创新性地提出不依赖单一描述,而是为同一图像生成多个声学条件不同的文本假设,再通过T2A模型生成候选集。这显式地建模了不确定性,并为后续的地理对齐提供了选择空间,比直接生成单一音频更合理。 地理-声学对齐模块:设计了一个轻量级模块,将从图像中提取的宏观地理属性(如建筑密度)投影到音频特征空间,作为先验来选择候选音频。这巧妙地引入了更广泛的地理上下文约束,确保了生成声音的地理合理性,而无需在生成模型内部进行复杂改造。 可扩展的框架设计:整个框架是模块化的,可以灵活替换不同的视觉编码器、T2A生成器和音频编码器。其“属性提取-假设生成-对齐选择”的范式具有通用性,为处理其他具有语义模糊性的跨模态生成问题提供了新思路。 🔬 细节详述 训练数据: SatSound-Bench:总计28,630个卫星-文本-音频三元组。其中24,400用于训练,4,230用于测试。 来源:a) 实地录制:在中国、斯里兰卡、泰国等10多个国家多个城市使用车载设备(Zoom F6录音机、定向/全向麦克风、Insta360相机)录制。音频为10秒单声道片段,48kHz采样率。b) 公共数据集:SoundingEarth, iNaturalist Sounds, Freesound。 对齐与过滤:卫星图像来自Google Maps,与音频时间窗口对齐(±3个月)。文本描述:实地录制部分由人工标注后经LLM(GPT-5.2)扩展,公共数据集部分直接由LLM生成。使用CLAP相似度>0.5过滤低质量音文对。 损失函数: 地理-声学对齐模块训练:使用余弦回归损失。目标是让投影后的地理嵌入与参考音频的CLAP嵌入(经PCA降维到32维)在嵌入空间中的余弦相似度最大化。损失函数为:Loss = 1 - cosine_similarity(MLP(geo_descriptor), audio_embedding_PCA)。 训练策略: 优化器:AdamW。 学习率:1e-3,权重衰减1e-4。 Batch Size:64。 训练轮数:最多80轮,使用早停策略(耐心值12)。 学习率衰减:未明确提及,但早停策略隐含了训练过程的终止。 验证集:15%的训练数据,随机种子固定为42。 关键超参数: 聚类数K-means:k=8。 随机森林树数量:300。 伪标签置信度阈值:0.70。 最小聚类面积比:0.01。 地理描述符维度:5(加上多样性熵为6)。 音频嵌入PCA降维后维度:32。 对齐MLP结构:5 -> 256 (GELU) -> 256 (GELU) -> 32, dropout率0.1。 候选音频数量N:6(主实验设置)。 训练硬件:8块NVIDIA RTX Pro 6000 Blackwell GPU(96GB显存)。 推理细节: 每个场景生成6个候选音频(3个文本假设 x 2个样本)。 通过计算地理查询向量与6个候选音频嵌入的余弦相似度进行排序,选择最高分者输出。 数据增强/正则化: 在对齐模块的MLP中使用了dropout(率0.1)。 输入地理特征进行z-score标准化。 输出嵌入进行L2归一化。 📊 实验结果 主要指标对比表(部分关键数据): ...

2026-04-19