JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

📄 JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions #音乐生成 #多模态模型 #大语言模型 #基准测试 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.3/10 | 前25% | #音乐生成 | #多模态模型 | #大语言模型 #基准测试 | arxiv 👥 作者与机构 作者:Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang 机构:Jen Music AI 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题——长视频的连贯配乐,并提出了一个模块化的框架。其核心创意“LLM导演自适应过渡”确实新颖且吸引眼球,构建新基准的贡献也值得肯定。然而,论文在将这一创意落实为坚实技术贡献时,暴露出明显的短板。首先,对核心的LLM Agent决策能力的评估过于粗糙,缺乏对其鲁棒性和失败案例的深入剖析,仅凭几个精心挑选的定性案例和整体分数提升,难以证明其在复杂现实场景下的有效性。其次,作为技术核心的“生成式过渡模型”,其具体实现细节(如何将ControlNet用于音乐修补、‘无训练适配’的具体含义)语焉不详,这直接影响了方法的可复现性和技术深度。再者,完全忽略视频中已存在的音频信息(如对话),使得这个号称“端到端”的框架在面对真实世界复杂内容时显得天真和不完整。最后,对视频分割这一起始步骤的潜在影响缺乏任何敏感性分析,这是一个不可忽视的系统漏洞。总的来说,论文提出了一个有趣的系统框架,但未能充分证明其核心组件的鲁棒性和全面性,技术细节的缺失也削弱了其严谨性。 📌 核心摘要 针对长视频配乐中场景切换时音乐连贯性差的挑战,本文提出了JenBridge框架。该框架采用模块化设计,首先将长视频分割为语义片段,然后为每个片段独立生成音乐,最后通过一个自适应过渡机制将音乐片段连接成连贯的长片段。其核心创新点在于设计了一种新颖的自适应过渡机制:该机制包含一个提供四种过渡风格(突变、静音、淡入淡出、生成式过渡)的“工具包”,并独特地利用一个大语言模型(LLM)作为“导演”,根据前后片段的视觉和音乐上下文智能选择最合适的过渡方式。此外,为评估该任务,论文提出了首个专门的长视频配乐基准测试集(LVS Benchmark),包含精心策划的数据和新的评估范式。实验证明,JenBridge在客观指标和主观评估上均显著优于现有方法,尤其在“过渡自然度”和“制作复杂度”上优势明显。 ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 357 words

Kinship Verification Using Voice

📄 Kinship Verification Using Voice #声纹识别 6.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #声纹识别 | #声纹识别 | arxiv 👥 作者与机构 Jagabandhu Mishra, Tomi H. Kinnunen, 东芬兰大学。 💡 毒舌点评 这篇论文像一份详尽的“尸检报告”,而非“手术指南”。它用极其严谨的实验设计和统计方法,为一项目前性能堪忧的任务(语音亲缘验证)建立了评估基准和基线。其贡献在于“定义问题”和“制定游戏规则”,而非“解决问题”。提出的AS-AP后端思路有趣,但“给老的说话者嵌入做微整形”这种操作带来的提升,在任务整体32%的等错误率(EER)面前显得杯水车薪。最刺耳的真相在于:当排除同一说话者对后,EER从20.8%暴跌至39.7%,这几乎是在说:“看,我们其实主要是在认人,而不是认亲”。整篇论文充满了“控制变量”、“非参数标准化”等高级统计词汇,凸显了任务的棘手程度,但也暴露了当前语音模型在捕捉超越身份的“亲缘声学密码”方面的无能。这是一篇方法论上近乎满分(但任务本身太难)的“劝退”指南。 📌 核心摘要 本文针对语音亲缘验证(KV)任务进行了系统性基线研究。首先,论文建立了KV与说话人验证(SV)的统一理论视角,并明确区分了包含同一说话者的“整体KV”和排除后者的“严格KV”任务。其次,针对现有KAN-AV数据集,设计了一套经过多阶段清洗、采用家庭不重叠划分、并对性别和年龄差进行非参数标准化的新评估协议,以减少混杂因素影响。在此基础上,系统性地评估了三种预训练说话人嵌入模型(ECAPA-TDNN, WavLM-ECAPA, ReDimNet)在零样本和多种可训练后端(全连接网络FCN、对称仿射投影S-AP、非对称仿射投影AS-AP)下的性能。实验表明,说话人嵌入确实编码了亲缘线索,但在最严格的零样本KV任务上EER高达39.7%。所提出的AS-AP后端(基于年龄排序)在严格KV*任务上取得了最佳EER(32.0%),在整体KV上取得了18.6%的EER。论文为语音亲缘验证建立了初步的任务定义、严谨的评估标准和基线方法。 🔗 开源详情 代码:论文未提供作者自己提出的AS-AP后端、评估协议或数据清洗流程的代码仓库链接。 模型权重:论文未提供自己训练的后端模型权重的下载链接。 数据集:论文使用了KAN-AV数据集,并对其进行了筛选,但未提供最终使用的子集(6,056条语音)的具体下载链接或开源协议说明。 Demo:未提及。 复现材料:论文未提供集中的复现材料包。实验配置信息分散在论文第VII节。 论文中引用的开源项目: ECAPA-TDNN: https://github.com/TaoRuijie/ECAPA-TDNN/ WavLM-ECAPA: https://huggingface.co/microsoft/wavlm-base-sv ReDimNet: https://github.com/IDRnD/redimnet Pyannote (说话人计数): 未提供具体链接。 Audio Spectrogram Transformer (AST) (语音事件检测): 未提供具体链接。 WADA (SNR估计): 未提供具体链接。 rVAD (活动语音检测): 未提供具体链接。 🏗️ 方法概述和架构 论文的核心方法框架是利用预训练的说话人嵌入模型提取特征,并通过不同的后端策略进行亲缘关系判定。具体架构和流程如下: ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 310 words

Local Diagnostics of Continuous Normalizing Flow for Out-of-Distribution Detection

📄 Local Diagnostics of Continuous Normalizing Flow for Out-of-Distribution Detection #语音合成 #生成模型 8.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 🔥 8.1/10 | 前50% | #语音合成 | #生成模型 | arxiv 👥 作者与机构 Xinwei Cao, Mengxuan Lu, Torbjørn Svendsen, Giampiero Salvi。作者机构包括:挪威科技大学电子系(NTNU)与清华大学。 💡 毒舌点评 这篇论文的“拉格朗日子流”和“运动学密封”概念包装得挺花哨,本质上是在CNF中通过掩码对子空间向量场进行“外科手术式”的截断,以期获得更干净的诊断信号。想法有一定启发性,理论推导也算自圆其说。然而,实验部分堪称“单点支撑”:所有验证都局限在“语音发音错误检测”这一个任务、CMU Kids这一个小数据集上,且与SOTA判别方法(GOP-CTC-SF,AUC=0.915)的性能差距巨大(本文最好AUC=0.738)。论文声称“可与传统判别模型方法相当”,但这仅在与过时的GMM基线对比时成立,在顶会语境下这种claim显得底气不足。方法的核心优势——规避全局耦合——是否在其他领域(如图像)成立,完全是一个未解之谜。此外,论文将流匹配的“直线路径”假设作为几何度量的基础,但未深入分析该假设的普适性。整体而言,这是一篇有初步想法、但验证严重不足的工作,更像一篇领域内的初步探索报告,距离证明一个通用、强大的OOD检测方法还有很长的路要走。 📌 核心摘要 本文针对高维数据中目标观测嵌入子空间的分布外检测问题,提出了一种基于连续归一化流(CNF)的拉格朗日子流(LSF)框架。该框架通过“运动学密封”(Kinematic Sealing)隔离目标子空间的动力学,以分析其局部轨迹,从而规避全局流耦合带来的“维间密度泄漏”(inter-dimensional density leakage)干扰。论文进而定义了基于速度场和子流雅可比矩阵轨迹的几何诊断信号(如DISP, COS),并应用于CNF生成模型的“似然悖论”问题。在基于CNF的语音合成模型(F5-TTS)上的零样本音素级发音错误检测任务中,所提出的几何度量(如GOP-COS)在相对度量下表现出优于传统基于似然度量的性能,并接近但未超越基于判别模型的基线方法。 🔗 开源详情 代码:论文未提供作者代码仓库的链接。 模型权重:使用了公开预训练模型 F5-TTS,具体检查点为 F5TTS_v1_Base/1250000,可在 HuggingFace Hub 获取(https://huggingface.co/F5-TTS)。 数据集:使用了 CMU Kids 数据集(CMU Kids corpus),为公开语音数据集。 复现材料:论文在附录中提供了详细的实验设置: 模型:F5-TTS,检查点 F5TTS_v1_Base/1250000。 强制对齐工具:使用 Kaldi 训练的单音素强制对齐器。 ODE求解器:Euler方法,32步积分。 采样策略:摆动因子 SF=-1,禁用分类器自由引导(CFG)。 硬件环境:AMD Ryzen Threadripper 3960X CPU, 126 GB RAM, 2x NVIDIA GeForce RTX 3090 GPUs。 度量定义:所有MDD指标的数学定义及相对版本计算方法在附录B中给出。 引用的开源项目: F5-TTS:https://github.com/SWivid/F5-TTS Kaldi:https://github.com/kaldi-asr/kaldi PyTorch:https://github.com/pytorch/pytorch diffusions library:https://pypi.org/project/diffusions/ 🏗️ 方法概述和架构 本文提出的“拉格朗日子流(LSF)框架”旨在对预训练CNF生成模型进行事后(post-hoc)的局部诊断分析,以进行子空间OOD检测。其核心架构和组件如下: ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 322 words

MelT: GEMM-Native NDFT for Efficient Single-Stage Audio Frontends on Modern Accelerators

📄 MelT: GEMM-Native NDFT for Efficient Single-Stage Audio Frontends on Modern Accelerators #信号处理基础 7.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Augusto Camargo, Marcelo Finger Instituto de Ciências Matemáticas e de Computação, University of São Paulo, Brazil 💡 毒舌点评 这篇论文的核心论点——“把信号处理流水线硬塞进GEMM里能更快”——在工程上完全正确,也经受住了多平台基准测试的考验。但它在顶会主会(NeurIPS/ICML)的“创新性”标尺下会显得有些“薄”。论文的主要贡献是“重新表述”和“评估”,而非提出一个全新的数学变换或架构。对于追求理论突破的审稿人来说,这可能被看作是一篇扎实的“系统应用”或“工程优化”论文,其价值更易被MLSys或ICLR的“Systems for ML”轨道认可。不过,文中坦诚地指出了与传统方法的数学非等价性(先投影再能量 vs. 先能量再聚合),这种诚实值得称赞,避免了常见的夸大其词。跨硬件、测能耗、开源代码,这套组合拳打得很实在,为“绿色AI”在音频前端的落地提供了一个具体的范例。然而,下游任务的验证仅限于相对简单的分类,缺乏在语音识别(ASR)、音频理解等更复杂端到端任务上的锤炼,这使得“表示保真度”的论证略显单薄。 ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 500 words

MOSS-Audio Technical Report

📄 MOSS-Audio Technical Report #语音识别 #音乐理解 #多模态模型 #预训练 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.2/10 | 前25% | #语音识别 | #预训练 | #音乐理解 #多模态模型 | arxiv 👥 作者与机构 核心贡献者:Chen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei 贡献者:Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songlin Wang, Yang Gao, Yiyang Zhang 顾问:Xipeng Qiu§ 单位:上海创新研究院 (Shanghai Innovation Institute)、MOSI Intelligence、复旦大学 (Fudan University) ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 626 words

Multimodal Music Recommendation System using LLMs

📄 Multimodal Music Recommendation System using LLMs #音乐推荐 #多模态模型 #大语言模型 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #音乐推荐 | #多模态模型 | #大语言模型 | arxiv 👥 作者与机构 Srikar Prabhas Kandagatla (University of Massachusetts Amherst),Sreehitha R. Narayana (University of Massachusetts Amherst),Chandana Magapu (University of Massachusetts Amherst),Swetha Mohan (University of Massachusetts Amherst),Shamanth Kuthpadi (University of Massachusetts Amherst),Hongjie Chen (Dolby Laboratories),Ryan A. Rossi (Adobe Research),Franck Dernoncourt (Adobe Research),Nesreen Ahmed (Cisco Research) ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 416 words

MURMUR: An Efficient Inference System for Long-Form ASR

📄 MURMUR: An Efficient Inference System for Long-Form ASR #语音识别 8.3/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前50% | #语音识别 | #语音识别 | arxiv 👥 作者与机构 Wei-Tzu Lee, Keisuke Kamahori, Baris Kasikci University of Washington (华盛顿大学) 💡 毒舌点评 这篇论文的问题意识很好,瞄准了长语音识别中精度与延迟的核心矛盾。作者通过将“分块大小”这一常被忽视的超参数显性化,并利用注意力稀疏性进行KV缓存优化,提供了实用的系统级解决方案。然而,其贡献的深度和普适性值得商榷:1) 核心优化严重依赖一个特定的、目前尚不普及的模型(VibeVoice-ASR),这使得结论的“系统性”大打折扣;2) 所谓的“创新”更多是工程上的巧妙组合(分块+StreamingLLM式驱逐),而非算法层面的根本突破;3) 实验仅在英语上进行,对语言普遍性的声明过于保守。审稿人承认其工程价值,但对其作为“研究贡献”的显著性表示怀疑。 📌 核心摘要 本文提出了Murmur,一个针对长上下文ASR模型的推理优化系统。系统在两个层面工作:在chunk层面,将chunk大小作为可调超参数,通过实证分析发现300秒是一个平衡精度和延迟的中间点;在chunk内部,利用语音token注意力的稀疏性(少于25%的语音token在超过85%的层中贡献了99%的注意力权重),设计了基于滑动窗口的KV缓存驱逐策略,分别对输出token和语音token进行驱逐。在AMI-IHM数据集上,Murmur在匹配单次推理精度的同时,将延迟降低了4.2倍,其中语音token驱逐策略贡献了主要的加速(4.2倍),而精度退化小于1%的相对tcpWER。 🔗 开源详情 代码:https://github.com/uw-syfi/Murmur (Murmur实现,Apache 2.0许可证) 模型权重:论文中未提供 VibeVoice-ASR 模型的具体权重下载链接(如HuggingFace Hub)。VibeVoice-ASR本身是一个开源模型(MIT许可证),但需要用户自行查找其官方发布地址。 数据集: AMI Meeting Corpus:CC BY 4.0。论文未提供直接下载链接。 TED-LIUM 3:CC BY-NC-ND 3.0。论文未提供直接下载链接。 Earnings21:CC BY-SA 4.0。论文��提供直接下载链接。 Demo:论文中未提及。 复现材料:附录提供了关键配置、消融实验数据、归一化步骤,是重要的复现信息。但未提供预训练检查点或完整的配置文件。 论文中引用的其他开源项目:WhisperX (提供了GitHub链接), vLLM (提供了GitHub链接), pyannote.audio, StreamingLLM, faster-whisper等,均未在论文正文中提供其具体的GitHub或项目主页链接(尽管部分项目广为人知)。 🏗️ 方法概述和架构 Murmur系统处理长语音音频的流程分为三个阶段:分块并行推理、chunk内KV缓存驱逐、输出拼接与跨chunk对齐。 ...

2026-06-02 · 更新于 2026-06-19 · 1 min · 127 words

Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification

📄 Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification #参数高效微调 #模型融合 #音频分类 6.4/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 6.4/10 | 前25% | #音频分类 | #参数高效微调 | #模型融合 | arxiv 👥 作者与机构 Amirmohammad Mohammadi: 德克萨斯A&M大学,电气与计算机工程系博士生。 Joshua Peeples: 德克萨斯A&M大学,电气与计算机工程系助理教授。 Alexandra Van Dine: 麻省理工学院林肯实验室,先进水下系统与技术组助理组长。 💡 毒舌点评 这篇论文瞄准了一个实际且重要的领域(水下声学分类),并试图用一个听起来很“高级”的数学工具(Choquet积分)来解决多模态融合问题。然而,其核心贡献——那个所谓的“可微分Choquet积分融合层”——更像是一场精心包装的数学体操,而非一个稳健的工程解决方案。作者声称其能“动态路由”到“被最少腐蚀”的表示,但在实验中,当模型容量足够时(完全微调),这个复杂机制的“动态性”却消失了(权重恒为0.5),这恰恰暴露了其理论动机与工程实践之间的脱节。论文在解释“为什么这样工作”时用力过猛,但在证明“它确实这样工作”以及“它比简单方法好多少”上却显乏力。实验设计上,与简单基线(如Concatenation Fusion)的缺失对比是硬伤,让人怀疑其复杂性的必要性。此外,将水下声学分类——一个明确的音频信号处理任务——包装成与“Foundation Model”相关的工作,多少有些蹭热点之嫌,其核心创新与通用基础模型的发展关联甚微。 📌 核心摘要 本文针对水下声学分类中单一表示(波形或频谱图)信息不全的问题,提出了一种参数高效的双编码器架构。该架构使用冻结的预训练模型(AVES处理波形,AST处理频谱图)作为骨干,并集成参数高效微调(PEFT)模块(如LoRA、HPT)进行领域适配。核心创新在于引入了一个基于Choquet积分的可微分决策级融合机制。该机制通过一个基于sigmoid的“软排序门控”实现,能够根据两个编码器对各类别的置信度差异,动态调整融合时对波形或频谱图特征的依赖(通过可学习的模糊测度权重)。在DeepShip和ShipsEar数据集上的实验表明,该双编码器PEFT框架在仅训练少量参数(约10万)的情况下,分类准确率优于单编码器基线,并且通过分析学习到的模糊测度和梯度显著性图,提供了一定的决策可解释性,展示了模型在不同类别上对输入表示的动态依赖。 ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 567 words

PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects

📄 PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects #多语言 #低资源 #语音识别 #语音合成 8.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 #语音合成 | arxiv 👥 作者与机构 论文作者为 Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He。主要机构包括清华大学深圳国际研究生院、清华大学电子工程系以及京东AI研究。 ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 244 words

Privacy-preserving Prosody Representation Learning

📄 Privacy-preserving Prosody Representation Learning #自监督学习 4.9/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 4.9/10 | 前50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Kevin Everson, Mari Ostendorf 华盛顿大学电气与计算机工程系 💡 毒舌点评 这篇工作瞄准了一个非常实际且重要的痛点——语音中的韵律信息不可避免地携带了说话人身份,这对隐私是个大威胁。作者的思路是清晰的:用声门波形作为“纯净”输入,同时用目标归一化和对抗学习从学习目标端把说话人信息“挤出去”。方法组合有一定新颖性,实验也基本证明了思路的有效性。然而,审稿人的挑剔在于:1) 你声称方法有效,但最重要的基线(ProsodyBERT, PE-Wav2Vec)因为代码问题没法比,这让“优越性”的宣称打了折扣;2) 评估数据集太小太单一(BU Radio只有7个播音员),像在温室里测试抗风能力,泛化性存疑;3) 说话人识别准确率从0.64降到0.14,听起来不错,但0.14对一个真正的攻击者来说够低吗?论文对此避而不谈。总之,是个扎实但不够大胆的工作,解决了特定场景下的一个子问题,距离通用的隐私保护语音表示还有距离。 📌 核心摘要 本文提出一种新的自监督韵律表示学习方法,旨在学习既能有效捕捉韵律信息又能解耦说话人身份的语音表示,以应对隐私泄露风险。核心方法包括:以鲁棒的估计声门波形作为模型输入,以减少词汇信息泄露;利用包含周期性(P)、归一化对数基频(logF0)、ΔlogF0和第一梅尔倒谱系数(c1)的声学-韵律特征进行离线聚类生成隐藏单元标签,并在生成时对logF0进行说话人归一化;训练目标为标准掩码预测损失、跨度边界损失和新增的对抗性说话人识别损失的加权和。实验在音高重建、短语边界检测和音节重音检测三个韵律任务以及VoxCeleb1说话人识别任务上进行评估。结果表明,所提编码器在韵律任务上优于HuBERT-base基线和原始韵律特征,同时其说话人识别准确率显著降低(联合策略相对降低66%),证明了说话人解耦策略在维持韵律建模性能的同时有效削弱了身份信息泄露。 🔗 开源详情 代码: 主模型代码仓库:https://github.com/kpeverson/speaker_disentangled_prosody 下游任务评估工具包(s3prl修改版):https://github.com/kpeverson/s3prl_tobi 模型权重:论文中未提供。 数据集: 训练集:GigaSpeech(论文提及使用了其转录部分,但未提供直接下载链接或明确开源协议)。 评���集:LibriTTS(用于音高重建)、BU Radio Corpus(用于短语边界和音节重音检测)、VoxCeleb1(用于说话人识别)。论文提及了这些数据集,但未提供统一的下载链接或开源信息。 Demo:论文中未提及。 复现材料:论文中未提供独立的补充材料包。关键复现信息在文中提及:使用fairseq,在4个NVIDIA A40或L40 GPU上训练500K步,平均批大小~30。 论文中引用的开源项目(隐含链接): fairseq:https://github.com/facebookresearch/fairseq torchcrepe:https://github.com/marl/torchcrepe s3prl:https://github.com/s3prl/s3prl (论文使用其修改版本) pYAAPT:用于音高重建任务中提取基频。 🏗️ 方法概述和架构 本文提出的韵律编码器架构如图1所示,灵感来源于ProsodyBERT和HuBERT,但引入了针对隐私保护的改进。其方法可概括为输入特征工程、伪标签生成与目标设计、自监督训练框架三个核心部分。 ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 301 words