Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 476 words

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构 作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...

2026-06-02 · 更新于 2026-06-12 · 1 min · 132 words

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

📄 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue #语音合成 #语音转换 #数据增强 #变分自编码器 #扩散模型 #强化学习 #课程学习 🔥 8.9/10 | 前50% | #语音合成 | #变分自编码器 | #语音转换 #数据增强 | arxiv 学术质量 6.3/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者:Ruiqi Li (1), Yu Zhang (1), Changhao Pan (1,2), Ke Lei (1,2), Xiang Yin (1), Cheng Yang (1) 单位:1 ByteDance, 2 Zhejiang University 通讯作者及贡献:1为共同贡献,2为通讯作者(根据原文格式推断)。 💡 毒舌点评 这篇论文工整地完成了一个大型工业级语音合成系统应做的所有事:堆砌了看似合理的数据处理流程、模型架构和训练策略,最后在自建的Benchmark上宣称自己最好。其核心工作(SwanVoice模型本身)在架构上(VAE+Flow-matching DiT)并非独创,更多是工程上的整合与优化。最大的“贡献”似乎是那个数据处理管道(SwanData-Speech),但这更像是一个内部产品开发文档,而非可复用、可验证的学术方法。论文通篇都在强调“表现力”得分最高,但关键的“内容准确性”却是短板,这在一个语音合成系统中是相当尴尬的权衡。更值得玩味的是,评估所用的核心模型(如SpeechJudge)未开源,这使得其“表现力”领先的结论大打折扣。整篇论文更像是一份技术报告,而非一篇能推动领域进步的学术论文。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 453 words

Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation

📄 Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation #语音翻译 #多语言 #大语言模型 #课程学习 #参数高效微调 🔥 8.1/10 | 前25% | #语音翻译 | #课程学习 | #多语言 #大语言模型 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Ming Liu, Bing Qin, Yang Xiang 机构:哈尔滨工业大学(深圳),鹏城实验室 💡 毒舌点评 这篇论文试图在一个“不可能三角”——隐私、带宽、性能——上找到一个实用的平衡点,其工程野心和目标是值得肯定的。ESRT框架通过将推理拆分,将重量级的LLM留在云端,仅在边缘传输压缩的特征,这是一个直观且有效的工程解决方案。论文在FLEURS数据集上展示了强大的实验结果,尤其是ESRT-4B模型以较小的参数量超越了之前许多更大的模型,证明了其训练策略的有效性。开源代码和模型也值得鼓励。 然而,其核心创新点——边缘-云分割和特征压缩——在概念上并非开创性的,更偏向于系统优化和工程实现。论文声称的“隐私保护”主要基于信息压缩导致的重建困难(见图10),这是一种弱化的安全假设,而非经过严格密码学或对抗攻击验证的保障。对于顶会论文而言,这种论证略显单薄。实验虽然全面,但缺少在真实、动态的网络环境和多样化的边缘硬件上进行端到端延迟和功耗测试,这使得“边缘计算”的宣称有些理想化。整体而言,这是一篇扎实的系统论文,但理论深度和安全验证的严谨性有待加强。 📌 核心摘要 本文提出了ESRT(Edge-cloud Speech Recognition and Translation),一个隐私保护且带宽高效的边缘-云协同多方语音转文本翻译(S2TT)框架。该框架采用分割推理架构:在边缘设备部署轻量级的Whisper语音编码器和基于Q-Former的语音适配器,仅将高度压缩的声学特征(40或80个token)传输至云端,由云端大型语言模型(LLM,基于MiLMMT/Gemma-3)完成翻译解码。为支持45种语言的多方翻译并克服英语中心偏见,论文引入了改进的多任务加权课程学习策略(分三阶段,动态整合ASR、SMT、SRT任务)。在FLEURS数据集上的实验表明,ESRT-4B和ESRT-12B在45×44个翻译方向上达到了当时的最先进(SOTA)性能,显著优于多种基线模型,并证明了框架在隐私(防止声纹泄露)和带宽(高达15.6倍压缩)方面的有效性。 🔗 开源详情 代码:https://github.com/yxduir/esrt 模型权重:论文中承诺开源模型,并指向同一GitHub仓库(https://github.com/yxduir/esrt),但未单独列出HuggingFace或ModelScope等托管平台的权重下载链接。 数据集: FLEURS: https://huggingface.co/datasets/google/fleurs CommonVoice 24: https://datacollective.mozillafoundation.org/datasets?q=common+voice CoVoST-2: https://github.com/facebookresearch/covost Demo:论文中未提及。 复现材料:论文中提供了详细的训练配置(表I, II, III, V),并声称开源训练和推理框架。完整的训练脚本、依赖环境及详细文档可能包含在代码仓库中,但未提供独立的复现指南链接。 论文中引用的开源项目: Whisper: 来自OpenAI,论文中未提供GitHub链接。 NLLB-200: 作为对比基线,论文中未提供项目链接。 LLaMAX3: 作为对比基线,论文中未提供项目链接。 SeamlessM4T-V2: 作为对比基线,论文中未提供项目链接。 MiLMMT: 作为基础LLM,源自Gemma-3,论文中未提供MiLMMT的具体代码链接。 Gemma-3: 作为基础模型,论文中未提供其具体链接。 LoRA: 作为微调方法,论文中未提供具体实现仓库链接。 Q-Former: 作为语音适配器的核心组件,论文中未提供其原始实现仓库链接。 🏗️ 方法概述和架构 ESRT的核心是边缘-云协同的分割推理架构(如图3所示),旨在平衡性能、隐私和带宽。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 257 words

Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

📄 Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition #语音识别 #课程学习 #迁移学习 #多语言 #低资源 ✅ 7.0/10 | 前50% | #语音识别 | #课程学习 | #迁移学习 #多语言 | arxiv 学术质量 5.8/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 作者列表:Kush Juvekar (Adalat AI, India), Kavya Manohar (Adalat AI, India), Aditya Srinivas Menon (Adalat AI, India), Arghya Bhattacharya (Adalat AI, India), Kumarmanas Nethil (Adalat AI, India) 通讯作者:未说明 💡 毒舌点评 论文提出了一个诊断低资源语音识别中“studio-bias”现象的有用基准和训练策略,其系统化的因子设计实验是扎实的工程科学。但核心方法(高学习率、从难到易课程)本质上是超参数优化和课程学习思想在特定问题上的应用与组合,创新性更多是经验性的“最佳配方”而非原理性突破。更关键的是,所有结果完全依赖Whisper这一种模型架构和有限的两种语言,且实验缺少必要的统计稳定性分析,泛化结论需谨慎看待。 ...

2026-05-14 · 更新于 2026-06-12 · 3 min · 453 words

Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System

📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yangfan Du(东北大学计算机科学与工程学院,字节跳动) 通讯作者:Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) 作者列表: Yangfan Du(东北大学计算机科学与工程学院,字节跳动) Jun Zhang(字节跳动) Bin Wang(字节跳动) Jin Qiu(字节跳动) Lu Huang(字节跳动) Yuan Ge(东北大学计算机科学与工程学院) Xiaoqian Liu(东北大学计算机科学与工程学院) Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) Jingbo Zhu(东北大学计算机科学与工程学院,牛津翻译研究院) 💡 毒舌点评 亮点在于提出了一个物理意义明确、轻量且有效的检索范式(将注意力权重解释为出现概率),实验上确实大幅提升了检索召回率。短板则是“术业有专攻”,检索模型的“高召回”并未完美传递给下游的语音大模型,论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足,更像是抛出了一个漂亮的阶段性成果。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开检索器或微调后SLM的权重。 数据集:论文中提供了公开链接:https://huggingface.co/ByteDance/Attention2Probability。声称将数据集公开于此仓库。 Demo:未提及在线演示。 复现材料:论文提供了较为详细的训练设置(学习率、优化器、硬件等)和模型架构参数,但缺少完整的训练脚本、配置文件和预处理代码。课程学习的具体阶段划分和转换条件未说明。 论文中引用的开源项目: 音频编码器/SLM:Qwen2-Audio-Instruction TTS数据生成:MegaTTS 基础数据集:Wikiann, MSRA-NER, Few-nerd, CMeEE, LibriSpeech, Aishell-2, Rare5k 基线向量数据库方法参考:SEAL (使用SONAR编码器) 训练框架:Hugging Face Accelerator 📌 核心摘要 问题:语音大模型在通用场景表现优异,但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索,后者存在训练成本高、检索准确率不足的问题。 方法核心:提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库,通过计算语音特征与候选术语之间的交叉注意力权重,并将该权重池化归一化后,直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语,与提示词拼接后输入语音大模型,引导其生成正确术语。 创新之处:与已有方法相比,A2P完全舍弃了向量数据库和模态对齐训练,转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时,引入了课程学习(从单词到短语再到真实术语)策略来缓解数据稀疏问题。 实验结果:在自建数据集上,A2P(使用Qwen2-Audio-Instruction编码器)的检索召回率显著优于VectorDB基线。例如,在Top-10检索中,英文召回率达75.55%,中文达83.31%。在下游任务中,术语干预使ASR的术语准确率提升约5-6%,ST提升12-13%,但术语准确率与召回率仍有差距,表明SLM对术语的利用率存在局限。 实际意义:为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式,并公开了一个专用的术语干预语音数据集,有助于推动该领域研究。 主要局限性:检索到的术语在SLM(尤其在翻译任务)中未被充分利用,导致最终术语准确率远低于检索召回率;随着检索术语数量增加,SLM性能可能出现波动,反映了其上下文学习能力的不足。论文提出的挑战(如何提升ST术语准确率、如何保持基线性能)尚未完全解决。 🏗️ 模型架构 整体架构如图1所示,是一个典型的“检索增强生成”(RAG)流程,但检索器部分被替换。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 412 words

Curriculum Learning with Contrastive Loss for Lightweight Speaker Verification

📄 Curriculum Learning with Contrastive Loss for Lightweight Speaker Verification #说话人验证 #对比学习 #课程学习 #知识蒸馏 ✅ 6.5/10 | 前25% | #说话人验证 | #对比学习 #课程学习 | #对比学习 #课程学习 学术质量 7.0/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jin Li(香港理工大学电机工程系) 通讯作者:未说明 作者列表:Jin Li(香港理工大学电机工程系;布尔诺理工大学Speech@FIT)、Man-Wai Mak(香港理工大学电机工程系)、Johan Rohdin(布尔诺理工大学Speech@FIT)、Oldřich Plchot(布尔诺理工大学Speech@FIT) 💡 毒舌点评 亮点:将课程学习思想精巧地应用于对比学习的负样本选择,并通过一个“教师网络”来量化和迁移“难度”,这一设计既直观又有效,避免了手动筛选困难负样本的武断。短板:论文的实验部分略显“安全牌”,主要验证了在VoxCeleb单一数据集上的有效性,且基线模型(如ECAPA-TDNN的轻量化版本)未得到充分讨论,使得“state-of-the-art”的宣称需要读者自行查阅更多文献才能完全确认。 🔗 开源详情 代码:论文明确提供了代码仓库链接:GitHub (https://github.com/happyjin/CurriNegAMS)。 模型权重:论文中未提及公开预训练模型权重。 数据集:实验使用公开的VoxCeleb1和VoxCeleb2数据集。 Demo:未提供在线演示。 复现材料:论文详细说明了训练细节,包括特征提取(40维梅尔滤波器组)、数据增强(MUSAN, RIR)、优化器设置(Adam, lr=0.001, 5%/16epochs decay)、批量大小(200)、损失函数超参数(τ=0.1, m=0.3, s=30)以及节奏函数的选择。这些信息为复现提供了必要基础。 引用的开源项目:论文引用并使用了Fast ResNet34的官方实现(https://github.com/clovaai/voxceleb_trainer)。 📌 核心摘要 解决的问题:在资源受限的移动设备上部署说话人验证系统时,需要在模型轻量化(低参数量、低计算量)与高精度之间取得平衡。现有轻量级模型性能仍有提升空间,而标准对比学习在训练中对负样本的选择缺乏策略。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 428 words

DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift

📄 DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift #音频场景分类 #课程学习 #领域适应 #低资源 ✅ 7.0/10 | 前25% | #音频场景分类 | #课程学习 | #领域适应 #低资源 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Peihong Zhang(School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Peihong Zhang(School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China)、Yuxuan Liu(同上)、Rui Sang(同上)、Zhixin Li(同上)、Yiqiang Cai(同上)、Yizhou Tan(同上)、Shengchen Li(同上) 💡 毒舌点评 亮点在于巧妙地将“领域不变性”和“学习进度”两个动态信号融合成自适应的课程权重,避免了传统课程学习静态排序的僵化,设计轻量且即插即用。短板则是其动态调整高度依赖已知的设备标签进行原型计算,一旦面对完全无标签或设备信息未知的真实场景,该方法的适用性将面临直接挑战。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 355 words

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

📄 Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction #语音分离 #课程学习 #音频安全 #数据集 ✅ 7.0/10 | 前25% | #语音分离 | #课程学习 | #音频安全 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yun Liu(日本国立信息学研究所;综合研究大学院大学) 通讯作者:未说明(论文未明确指定通讯作者,通常根据邮箱判断,此处多个邮箱并列) 作者列表:Yun Liu(日本国立信息学研究所 & 综合研究大学院大学)、Xuechen Liu(日本国立信息学研究所)、Xiaoxiao Miao(昆山杜克大学自然科学与应用科学部)、Junichi Yamagishi(日本国立信息学研究所 & 综合研究大学院大学) 💡 毒舌点评 亮点:将“训练动态可视化”(Dataset Cartography)引入TSE任务,并创新性地结合多因子(SNR、说话人数、重叠率、数据来源)联合调度,克服了传统课程学习依赖预设单一难度指标的缺陷,在复杂多说话人场景下取得了显著的性能增益。 短板:实验仅在单一数据集(Libri2Vox)和一种相对简单的BLSTM模型上验证,未在更先进的模型架构(如基于Transformer的)和更多元的数据集上测试其通用性;TSE-Datamap区域的划分比例(30%,50%,20%)是经验值,缺乏理论支撑或自动优化机制。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:提及了使用Libri2Vox数据集及其合成变体,并引用了相关数据集论文,但未提供本工作生成的数据或脚本。 Demo:未提及。 复现材料:提供了较详细的训练配置(优化器、学习率调度、早停)、数据采样参数、模型架构描述,但缺少超参数网格搜索细节、具体的数据预处理脚本和硬件信息。 论文中引用的开源项目:ECAPA-TDNN(预训练说话人模型)、SALT(语音合成模型)、SynVox2(语音匿名化/合成模型)。 论文中未提及开源计划。 📌 核心摘要 问题:现有针对目标说话人提取(TSE)的课程学习方法通常单独处理不同难度因子(如SNR、说话人数),无法建模因子间的复杂交互,且依赖可能不符合模型实际学习情况的预设难度指标。 方法核心:提出多因子课程学习策略,联合调度SNR、干扰说话人数、时间重叠比和干扰源类型(真实/合成)四个因子;同时提出TSE-Datamap框架,通过跟踪训练过程中每个样本的损失置信度和变异性,在二维空间将数据分为“易学习”、“模糊”和“难学习”三个区域,以指导数据选择。 创新:相较于传统单因子、预设规则的课程学习,本文方法实现了多因子协同渐进式学习,并首次将训练动态可视化(TSE-Datamap)应用于TSE,使课程设计基于模型实际学习行为。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 294 words

Triage Knowledge Distillation for Speaker Verification

📄 Triage Knowledge Distillation for Speaker Verification #说话人验证 #知识蒸馏 #模型压缩 #课程学习 #语音 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #模型压缩 #课程学习 学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Ju-ho Kim(Samsung Research, AI Solution Team) 通讯作者:未说明 作者列表:Ju-ho Kim(Samsung Research, AI Solution Team)、Youngmoon Jung(Samsung Research, AI Solution Team)、Joon-Young Yang(Samsung Research, AI Solution Team)、Jaeyoung Roh(Samsung Research, AI Solution Team)、Chang Woo Han(Samsung Research, AI Solution Team)、Hoon-Young Cho(Samsung Research, AI Solution Team) 💡 毒舌点评 亮点:TRKD方法设计直观有效,将“评估-优先-关注”的分诊思想系统地应用于知识蒸馏,并通过动态τ课程调度巧妙地平衡了训练稳定性与后期聚焦难度,实验结果在各种架构组合上的一致性提升很有说服力。短板:论文对方法的局限性探讨不足,例如,累积概率阈值τ的最终值(0.05)和调度曲线(γ=0.001)是经验选择,其对不同数据集和任务规模的敏感性与最优性缺乏理论分析或更广泛的实验验证。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 329 words