Stage-adaptive audio diffusion modeling

📄 Stage-adaptive audio diffusion modeling #音频生成 #音频修复 #扩散模型 #自监督学习 #自适应采样 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #音频修复 #自监督学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xuanhao Zhang (中国药科大学,邮箱:2020230870@stu.cpu.edu.cn) 通讯作者:Chang Li (中国科学技术大学,邮箱:lc_lca@mail.ustc.edu.cn) 作者列表:Xuanhao Zhang(中国药科大学)、Chang Li(中国科学技术大学) 💡 毒舌点评 亮点:论文抓住了音频扩散模型训练过程中的核心动态矛盾——“语义获取”与“生成精炼”的阶段差异,并提出了一个统一的“进度变量”监控指标来驱动三个自适应机制,理论上是一个完整且优雅的解决方案。短板:实验部分存在明显的设计缺陷,三个机制(衰减SSL引导、自适应时间步采样、结构正则化)都只在“均匀基线”上单独评估,缺乏“三者结合”的完整方案验证,也缺少与近期高效训练方法(如动态权重调整、重要性采样)的直接对比,说服力打了折扣。此外,与外部SOTA的对比弱于框架内的自身对比,更凸显了该工作的定位是“训练效率改进”而非“性能颠覆”。 📌 核心摘要 要解决什么问题:解决当前音频扩散模型训练依赖静态优化配方、计算成本高昂的问题。论文指出,训练早期应侧重语义对齐与粗略组织,后期应侧重时域一致性、感知保真度与细节精炼,静态配方无法适应这种动态变化。 方法核心是什么:提出一种阶段自适应训练视角。核心是引入一个基于冻结自监督学习(SSL)编码器的差异斜率信号(g_k)作为“进度变量”,监控语义获取速度。基于此变量,设计并集成三个自适应机制:衰减的SSL引导、由进度变量驱动的自适应时间步采样、以及基于参数空间分组组织的结构感知正则化。 与已有方法相比新在哪里:1) 首次在音频扩散模型训练中提出一个统一的、基于SSL空间动态的“进度变量”来量化训练阶段;2) 将外部语义支持、内部结构约束和优化重点分配这三个通常独立考虑的因素,整合到同一个自适应控制框架下;3) 结构感知正则化不是预设的,而是基于观察到的训练中后期才出现的稳定分组结构“按需激活”。 主要实验结果如何:在文本到音频生成和音频超分辨率两个任务上,所提机制在各自单独加入时,均在关键指标上优于静态基线。例如,在文本到音频生成任务中,自适应时间步采样将FAD(越低越好)从基线的2.36降至1.91;在24kHz到48kHz超分辨率任务中,衰减SSL引导将LSD(越低越好)从基线的0.831降至0.760。 实际意义是什么:为高效训练音频扩散模型提供了一个新的、基于阶段动态的理论视角和实践框架。它表明,通过让训练配方与模型内部状态协同演化,可以在不增加模型容量或数据规模的前提下提升训练效率和最终质量。 主要局限性是什么:1) 核心局限在于三个自适应机制仅单独评估,未验证其组合后的协同效应或潜在冲突;2) 实验对比更侧重于验证自身机制相对于静态基线的提升,与近期其他高效扩散训练方法的对比不足;3) “结构感知正则化”中引用的“参考模式S_ref”的具体获取方式(如使用哪个数据集训练的哪个模型、在哪个训练阶段截取)未明确说明,影响复现和理解其普适性。 🔗 开源详情 代码:论文中未提及代码链接。论文所有实验均基于 stable-audio-tools 框架进行,但未提供本文方法的具体实现代码。 模型权重:论文中未提及。 数据集: AudioSet: 用于文本到音频生成任务的训练。需要向 Google Research 申请访问权限:https://research.google.com/audioset/ FreeSound: 用于文本到音频生成任务的训练。公开数据集:https://freesound.org/ AudioCaps: 用于文本到音频生成任务的评估。公开数据集:http://www.cs.toronto.edu/~kmn428/AudioCaps/ VCTK: 用于音频超分辨率任务的训练与评估。公开数据集,可从官方渠道获取,常见来源如:https://datashare.ed.ac.uk/handle/10283/3443 Demo:论文中未提及。 复现材料:论文中未提及。论文未提供训练脚本、配置文件、预训练检查点等额外复现材料。 论文中引用的开源项目: stable-audio-tools: 论文所有实验基于此框架实现。官方仓库:https://github.com/Stability-AI/stable-audio-tools USAD: 作为冻结的自监督音频编码器用于提取SSL特征。官方仓库:https://github.com/facebookresearch/audiocraft (注:USAD是AudioCraft库中的一部分,论文引用了Chang et al. (2025)) Make-An-Audio: 作为基线模型之一。官方仓库:https://github.com/lifeaudioml/Make-An-Audio AudioLDM 2: 作为基线模型之一。官方仓库:https://github.com/haoheliu/audioldm2 Tango 2: 作为基线模型之一。官方仓库:https://github.com/declare-lab/tango AudioSR: 作为基线模型之一。官方仓库:https://github.com/haoheliu/AudioSR NVSR: 作为基线模型之一。论文引用了Liu et al. (2022),通常指NVIDIA的超分辨率工作。 🏗️ 模型架构 论文并未提出一个新的网络架构,而是提出了一套可附加到现有扩散Transformer(DiT)架构上的训练自适应机制。整体流程如下: ...

2026-05-07 · 更新于 2026-06-22 · 2 min · 353 words

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

📄 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail #语音识别 #数据增强 #迁移学习 #多语言 #低资源 🔥 8.5/10 | 前25% | #语音识别 | #数据增强 | #迁移学习 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(论文中未明确说明其所属机构) 通讯作者:未说明(论文中未提及通讯作者信息) 作者列表:Venkata Pushpak Teja Menta(所属机构未说明) 💡 毒舌点评 亮点:这篇论文最聪明的地方在于,它用近乎“土法炼钢”的合成数据方法(TTS生成)解决了一个高端商业系统都搞不定的垂直痛点(实体密集型ASR),并给出了令人信服的量化提升(Telugu EHR提升17倍),成本却低到令人发指(<$50)。短板:其核心验证集仍然是合成的,虽然作者用少量原生人类录音做了补充验证,但这20条录音的样本量和单一说话人条件,对于宣称的“解决真实场景问题”来说,说服力稍显不足,存在“用魔法打败魔法”但魔法本身是否足够真实的疑问。 📌 核心摘要 要解决的问题:现有开源和商业的印度语言(Indic)ASR系统在识别实体密集型内容(如电话号码、货币金额、地址、品牌名、英印语码混)时表现极差,与其在标准朗读文本上的性能形成巨大差距。 方法核心:提出一个自包含的“TTS↔STT飞轮”框架。利用多种开源/商业TTS系统合成约22,000条实体密集、跨语言的印度英语码混语音,并设计了针对实体识别的评估指标EHR(实体命中率)。在此合成数据上对现有的开源SOTA模型(vasista22/Whisper)进行LoRA微调。 与已有方法相比新在哪里:(1) 提出并验证了使用多系统TTS合成数据来专门提升ASR在特定垂直领域性能的完整方法论。(2) 设计并开源了EHR指标,更公平地评估实体识别的语义准确性。(3) 发现并诊断了Whisper在特定语言(Telugu)上的“脚本坍塌”问题,并给出了条件性的修复方案。 主要实验结果:在Telugu(泰卢固语)上,其微调模型(Praxy-STT-rb)的实体密集型测试集EHR达到0.473,相比开源SOTA(vasista22的0.027)提升17倍,相比商业系统(Deepgram的0.160)提升3倍。在Tamil(泰米尔语)上EHR为0.543(比两者均高22倍),在Hindi(印地语)上为0.337(比开源高7倍,但低于Deepgram的0.485)。所有结果均未达到预设的0.65-0.75 EHR目标。标准朗读文本(FLEURS)上的WER回退在Telugu上控制在+6.6个百分点。 实际意义:证明了一种低成本(<$50边际成本)、可复现的路径,能够高效提升ASR系统在缺乏数据的垂直领域的特定能力,对工业应用(如IVR、客服)具有直接参考价值。 主要局限性:(1) 核心评估仍基于合成音频(尽管进行了人类录音验证,但样本量小);(2) 在商业系统已深耕的语言(如Hindi)上优势不明显;(3) 微调会导致在标准朗读文本集上性能轻微回退;(4) 所有语言的实体识别性能均未达到预设的高标准目标。 🔗 开源详情 代码:https://github.com/praxelhq/stt-flywheel 模型权重: 基于 vasista22 的实体密集识别适配器 (Praxy-STT-rb, 主要结果): Telugu: https://huggingface.co/Praxel/praxy-stt-te-rb Hindi: https://huggingface.co/Praxel/praxy-stt-hi-rb Tamil: https://huggingface.co/Praxel/praxy-stt-ta-rb 基于 Whisper-large-v3 的语言条件适配器 (Praxy-STT-r2): Telugu: https://huggingface.co/Praxel/praxy-stt-te-r2 Hindi: https://huggingface.co/Praxel/praxy-stt-hi-r2 Tamil: https://huggingface.co/Praxel/praxy-stt-ta-r2 数据集: EDSA 语料库:合成的实体密集音频及对应文本。包含在代码仓库中,采用 CC-BY-4.0 协议。 实体字典:用于生成 EDSA 的种子实体。包含在代码仓库中,采用 CC-BY-4.0 协议。 评估数据集 (Holdouts):包括 FLEURS、Common Voice 25.0、IndicVoices-General 以及用于实体密集评估的 Cartesia 合成数据的留出集。具体 JSONL 文件包含在代码仓库中。 Demo:论文中未提及在线演示链接。 复现材料: 预测结果:每个评估系统在每个数据集上的逐条假设 JSONL 文件,位于代码仓库的 evaluation/scorecards/stt_flywheel/ 目录下。 训练配置:论文第 III-C 节详细描述了 LoRA 微调的超参数、步骤、数据混合比例等。具体的训练脚本和配置应在代码仓库中。 评估脚本:论文中提到的 eval_ehr.py(EHR 指标)和 data_pipeline.py(数据生成管道)均包含在代码仓库中。 论文中引用的开源项目: vasista22/whisper-{te,ta,hi}-large-v2: 论文中使用的开源印地语 ASR 基线模型。许可证为 Apache-2.0。HuggingFace 地址未在论文中给出。 AI4Bharat 项目: IndicWhisper / Vistaar: 论文中提到的开源印地语 ASR 模型集,但在 HuggingFace 上为 gated 状态,未提供直接链接。 IndicConformer-600M: 同上,为 gated 模型。 Praxy Voice: 项目组开源的跨脚本印地语 TTS 模型。论文中提到其 arXiv 链接为 arXiv:2604.25441。其 GitHub/HuggingFace 链接未在论文中给出。 Whisper-large-v3: 由 OpenAI 开发的基础模型。论文中引用为 [14]。 评估数据集: FLEURS: 论文中引用为 [13]。数据集本身为开源,但论文未提供链接。 Common Voice 25.0: 论文中引用为 [12]。数据集本身为开源,但论文未提供链接。 IndicVoices: 论文中引用为 [11]。 TTS 后端: Vanilla Chatterbox Multilingual IndicF5: 用于合成代码混合语音频。 ElevenLabs v3 (商业) Cartesia sonic-3 (商业) 其他论文中引用的开源工具/库: torchaudio: 用于音频重采样。 transformers 和 peft: 用于模型微调。论文指定了特定版本 (transformers==4.36.2, peft==0.10.0)。 🏗️ 模型架构 本论文并非提出一种全新的模型架构,而是提出了一种基于现有架构的适应(Adaptation)框架。其核心是TTS-STT飞轮,可以理解为一个两阶段的数据生成与模型微调流水线。 ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 457 words

To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition

📄 To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition #语音情感识别 #多模态模型 #强化学习 #知识蒸馏 #基准测试 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #强化学习 #知识蒸馏 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yangchen Yu(合肥工业大学计算机科学与信息工程学院) 通讯作者:Jia Li(合肥工业大学计算机科学与信息工程学院) 作者列表:Yangchen Yu(合肥工业大学计算机科学与信息工程学院)、Qian Chen(合肥工业大学计算机科学与信息工程学院)、Jia Li(合肥工业大学计算机科学与信息工程学院)、Zhenzhen Hu(合肥工业大学计算机科学与信息工程学院)、Jinpeng Hu(合肥工业大学计算机科学与信息工程学院)、Lizi Liao(新加坡管理大学计算与信息系统学院)、Erik Cambria(南洋理工大学计算与数据科学学院;麻省理工学院媒体实验室)、Richang Hong(合肥工业大学计算机科学与信息工程学院) 💡 毒舌点评 这篇论文最大的亮点在于它给“多模态融合”这件事安了一个“交通灯”——能调和的(良性冲突)走蒸馏融合通道,调和不了的(严重冲突)就走强化学习选择通道,这个双路径设计思路清晰且有实证支撑,实验也做得相当全面扎实。但短板也很明显:对“严重冲突”的定义依赖启发式规则(单模态极性与多模态标签不一致),这在实际无标注场景下难以直接应用;此外,ADA的奖励函数设计相对朴素,可能无法完美捕捉“选择可靠性”的微妙之处。 📌 核心摘要 问题:多模态情感识别(MER)中,传统融合方法在模态间存在冲突(如讽刺时文本与表情矛盾)时会失效,甚至不如单模态模型。 核心方法:提出双路径冲突解决框架(DCR)。路径I(AFD) 通过反向知识蒸馏,将音视频模态的时序情感线索融入文本表征,用于处理可调和的“良性冲突”。路径II(ADA) 将路径选择建模为上下文赌博机问题,通过强化学习在融合结果和各单模态预测中做出决策,用于处理不可调和的“严重冲突”。 创新之处:首次系统性地将模态冲突按“可解性”分类(良性/严重),并设计了针对性的“软校准”(AFD)与“硬裁决”(ADA)的协同处理机制,区别于以往单一的融合或丢弃策略。 主要实验结果:在MELD、IEMOCAP、CMU-MOSEI、CH-SIMS和CH-SIMS v2五个基准上,DCR均取得SOTA或极具竞争力的性能。例如,在MELD上WF1达到68.84%,优于TelME(67.37%);在CH-SIMS v2上MAE达到0.290,优于MulT(0.291)。在CH-SIMS的冲突子集上,DCR在良性冲突子集准确率达72.4%,严重冲突子集达50.3%,显著优于基线(TelME分别为61.8%,41.5%)。 实际意义:为构建更鲁棒、可解释的多模态情感识别系统提供了新范式,尤其在对话、人机交互等易出现情感信号矛盾的场景中具有应用潜力。 主要局限:冲突的启发式分类方法可能不完美;ADA的策略优化可能受有限动作空间和奖励设计约束;框架增加了模型复杂度。 🔗 开源详情 代码:https://github.com/MSA-LMC/DCR 模型权重:论文中未提及具体的模型权重托管平台(如 HuggingFace、ModelScope)链接。论文仅在摘要中提到“Source code and models will be released at https://github.com/MSA-LMC/DCR”,表明模型权重将随代码一同发布。 数据集:论文中未提及各数据集的具体获取链接或开源协议。论文仅描述了五个使用的数据集:MELD、IEMOCAP、CMU-MOSEI、CH-SIMS 和 CH-SIMS v2。 Demo:论文中未提及在线演示链接。 复现材料:论文中提及了实现细节,包括: 使用 PyTorch 实现。 训练于单块 NVIDIA RTX 4090 GPU。 使用预训练模型作为特征提取器:RoBERTa-large (文本), Whisper-large-v3 (音频), CLIP-ViT-B/16 (视觉)。 报告了随机种子(从 {41, 42, 43, 44, 45} 中选择)、学习率 (1e-4)、批大小 (32) 等超参数设置。 提供了具体的数据增强策略参数(如模态丢弃概率 p1=0.2, p2=0.05, 高斯噪声 σ=0.01)。 论文中未提供独立的配置文件、检查点或详细的复现指南链接。 论文中引用的开源项目:论文引用了多个开源项目作为基线或组件,但未提供所有项目的具体链接。以下为论文中明确提及名称的开源相关项目(按章节顺序): 模型/基线方法:大部分作为参考文献引用,论文正文中未提供其 GitHub 链接。例如:MMML, TelME, FacialMMT, DialogueCRN, DialogueRNN, SACL-LSTM, MulT, PMR, Self-MM, UniMSE, SDT, RMER-DT, ECERC, GraphCFC, MMGCN, DialogueGCN, Joyful, LMF, DashFusion, HFR-AME, MAG-BERT, MFON, ConKI, CLGSI, KEBR, BC-LSTM, EmoCaps, BiosERC, InstructERC, DialogueMMT。 预训练模型:作为特征提取器使用,论文中提到了其名称但未提供开源链接。例如:RoBERTa-large, Whisper-large-v3, CLIP-ViT-B/16。 技术/方法:作为论文中使用的方法被引用。例如:Grad-CAM [60], A2C (优势演员-评论家算法) [33], CMAB (上下文多臂老虎机) [16]。 🏗️ 模型架构 图3展示了DCR框架的整体架构,它是一个包含两条互补路径的串行-并行结构: ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 540 words

Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity

📄 Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity #标签分布学习 #联邦学习 #质量自适应 #基准测试 #鲁棒性 🔥 8.0/10 | 前25% | #标签分布学习 | #联邦学习 | #质量自适应 #基准测试 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junxiang Wu 通讯作者:未说明(论文中未明确标注) 作者列表:Junxiang Wu、Zhiqiang Kou、Hongwei Zeng、Wenke Huang、Biao Liu、Hanlin Gu、Yuheng Jia、Di Jiang、Yang Liu、Xin Geng、Qiang Yang(所有作者所属机构在提供的论文文本中均未明确说明) 💡 毒舌点评 亮点在于将联邦学习的信任问题与标签分布学习的模糊性巧妙结合,并用一个优雅的理论(定理3.1)证明了“因材施教”(自适应校准)的必要性,避免了粗糙的一刀切方法。短板是质量指标\(q_m\)的定义(基于标注者数量)在现实中可能过于简化且难以准确获取,论文中对其局限性的讨论(附录F.1)虽坦诚,但也暴露了该框架落地时的一个潜在阿喀琉斯之踵。 📌 核心摘要 这篇论文研究了联邦标签分布学习(Fed-LDL) 中因客户端标注质量异质性导致的信任困境:低质量客户端的不可靠本地更新会污染全局模型,而传统的按样本量聚合策略会放大此问题。为解决此问题,论文提出了FedQual框架,其核心包含两个耦合机制:(1)客户端侧,引入全局语义锚点(GSA) 作为参考,并设计一个质量自适应校准权重,对低质量客户端施加更强校准,同时保留高质量客户端的自主性;(2)服务器侧,提出一种渐进式、可靠性感知的聚合策略,根据有效可靠信息(样本量×质量)而非原始样本量来加权客户端贡献。理论分析证明,在质量异质性下,客户端特定校准严格优于任何统一校准。为进行严格评估,论文构建了四个新的Fed-LDL基准数据集(FER-LDL, FI-LDL, PIPAL-LDL, KADID-LDL)。在四个基准上的广泛实验表明,FedQual在多种指标下均优于包括FedAvg、FedProx、MOON在内的多种基线方法,并且对噪声比例、标签分布偏斜、联邦规模变化等具有强鲁棒性。该工作的实际意义在于为医疗、情感分析等隐私敏感领域中的联邦协作学习提供了更可靠的方法。主要局限性在于当前质量指标\(q_m\)依赖于外部标注者数量信息,可能无法完全反映标注的真实保真度。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中创建并承诺发布四个新的Fed-LDL基准数据集:FER-LDL、FI-LDL、PIPAL-LDL 和 KADID-LDL。论文正文(摘要、结论)和附录F.2节均明确指出将发布这些数据集,但未提供具体的下载链接或托管平台地址。这些基准数据集基于公开的原始数据集构建,原始数据集信息如下: FER2013 (情感识别):原始数据集链接见论文引用 (Goodfellow et al., 2015)。 FI (情感识别):原始数据集链接见论文引用 (You et al., 2016)。 KADID-10k (图像质量评估):原始数据集链接见论文引用 (Lin et al., 2019)。 PIPAL (图像质量评估):原始数据集链接见论文引用 (Gu et al., 2020)。 新基准构建细节:论文在附录D中提供了完整的标注协议、指南和从原始数据生成标签分布的方法,但未提供新基准数据集的直接下载地址。 Demo:论文中未提及。 复现材料:论文在附录B中提供了完整的实验设置和实现细节,包括: 软件/硬件:PyTorch,8块NVIDIA RTX 4090 GPU。 模型架构:ResNet-18 backbone。 训练配置:每轮本地训练5个epoch,使用SGD优化器(学习率0.01,动量0.9,权重衰减10^{-4}),本地批次大小16,总通信轮次100。 损失函数:KL散度(公式B.1)。 FedQual超参数:β=5, λ0=0.5, γ_temp=1 (附录B.4)。 评估指标:六种标准LDL指标(Chebyshev, Clark, Canberra, KL, Cosine, Intersection)。 作者承诺:在附录F.2中明确表示“将发布我们的源代码、训练脚本和四个新构建的Fed-LDL基准”,但未给出具体的代码仓库或检查点链接。 论文中引用的开源项目:未提及具体开源项目链接。论文中作为基线方法引用了以下框架,但未提供其代码链接:FedAvg, FedProx, MOON, FedRDN, FedGloSS。论文中使用的原始公开数据集(FER2013, FI, KADID-10k, PIPAL)在参考文献中提供了来源,但未在正文中列出具体URL。 🏗️ 模型架构 FedQual是一个用于联邦标签分布学习(Fed-LDL)的框架,旨在解决客户端间标注质量差异带来的挑战。其整体架构围绕客户端-服务器范式展开,并集成了质量感知的双端优化机制。 ...

2026-05-07 · 更新于 2026-06-22 · 3 min · 570 words

VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

📄 VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models #音乐转录 #语音识别 #音频大模型 #预训练 ✅ 7.0/10 | 前25% | #音乐转录 | #音频大模型 | #语音识别 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yukun Chen(西安交通大学,南洋理工大学) 通讯作者:论文中未明确说明通讯作者。 作者列表:Yukun Chen(西安交通大学,南洋理工大学), Tianrui Wang(天津大学,南洋理工大学), Zhaoxi Mu(蚂蚁集团,浙江大学), Xinyu Yang(西安交通大学), EngSiong Chng(南洋理工大学) 💡 毒舌点评 亮点:将复杂的歌声转录多阶段任务优雅地统一到一个基于LALM的自回归生成框架中,其提出的“CoT式提示”策略巧妙地解决了预训练语义模型与结构化生成目标之间的冲突。 短板:模型的核心能力很大程度上继承自强大的基座模型(Qwen3-ASR),创新更多是“术”而非“道”的层面;同时,其赖以生存的训练数据(SingCrawl)虽方法开源,但数据本身和模型权重均不公开,使得论文的复现性和实用推广价值大打折扣。 📌 核心摘要 要解决什么问题:歌唱语音合成(SVS)需要大规模高质量标注数据,但人工标注成本高昂。现有的自动转录系统存在多阶段误差累积、词-音符对齐困难以及对分布外(OOD)歌唱数据泛化能力差等问题。 方法核心是什么:提出VocalParse,一个基于大型音频语言模型(LALM)的统一歌声转录框架。其核心是将转录重构为对交错(interleaved)歌词-音符序列的自回归生成。为解决交错格式破坏预训练LALM语义理解能力的问题,引入了链式思维(CoT)风格的提示策略:先生成纯歌词序列作为语义支架,再生成交错的歌词-音符序列。 与已有方法相比新在哪里:1) 统一框架:用一个自回归模型联合预测歌词、旋律及词-音符对应关系,无需复杂的多阶段流水线和后处理对齐。2) 结构化生成:交错提示序列直接编码了词与音符的层级关系。3) CoT适配策略:在保持预训练LALM强大语义解码能力的同时,实现了结构化输出的生成。4) 可扩展的数据管线SingCrawl:自动从网络爬取歌曲并生成伪标签训练数据。 主要实验结果如何:在多个歌唱数据集上达到最先进性能。在Opencpop数据集上,音频-歌词联合推理模式在音高MAE(0.35)、音符MAE(0.43)、时值MAE(0.33)和音符数量误差(0.11)上均优于ROSVOT等基线。歌词转录WER在三个数据集上与专用ASR模型Qwen3-ASR接近(Opencpop上3.79% vs 3.41%)。消融实验证明,CoT策略将WER从7.18%显著降低至3.79%;移除SingCrawl数据后,音高MAE从0.56急剧上升至0.94。下游SVS实验证明,使用VocalParse生成的伪标签训练的模型,在节奏和旋律相似度上显著优于仅使用小规模人工标注数据训练的模型。 ...

2026-05-07 · 更新于 2026-06-22 · 4 min · 643 words

语音/音乐/音频论文速递 2026-05-07

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分 前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分 前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分 前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分 前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分 前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分 前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分 前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分 前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分 前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分 前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分 前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分 前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分 前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分 前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分 前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分 前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分 前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分 前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分 前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分 前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

2026-05-07 · 更新于 2026-06-22 · 14 min · 2879 words

A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language

📄 A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language #语音识别 #自监督学习 #模型评估 #多语言 #端到端 ✅ 7.0/10 | 前50% | #语音识别 | #自监督学习 | #模型评估 #多语言 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Thibault Bañeras-Roux(未说明) 通讯作者:未说明 作者列表:Thibault Bañeras-Roux(未说明)、Mickael Rouvier(未说明)、Jane Wottawa(未说明)、Richard Dufour(未说明) 💡 毒舌点评 本文像一份详尽的“ASR系统配置说明书”,通过大量消融实验清晰地展示了分词策略和SSL模型选择对法语识别性能在多维度上的影响,这对于工程实践极具参考价值。但遗憾的是,它并未提出任何突破性的新方法或新模型,更像是一次站在前人肩膀上的系统性总结与验证,其“分析”重于“创新”的定位限制了其学术高度。 🔗 开源详情 代码:https://github.com/thibault-roux/systems-analysis 模型权重:论文中未提及具体的模型权重下载链接(论文仅提及使用了LeBenchmark的wav2vec 2.0模型,但未提供模型存储地址)。 数据集:论文中提及了以下法语语音数据集,但未提供具体下载链接: ESTER 1 ESTER 2 EPAC ETAPE REPERE Demo:论文中未提及。 复现材料:论文中仅提及“For reproducibility, settings are detailed in our GitHub code repository”,具体的训练配置、检查点等信息需从上述代码仓库中获取。论文中未单独列出。 论文中引用的开源项目: SpeechBrain (语音处理工具包): 论文中作为ASR系统构建基础,但未在文中给出具体链接(通常指 https://speechbrain.github.io/)。 CamemBERT (法语BERT模型): 用于计算SemDist指标的句子嵌入模型基础。论文中未给出具体链接。 SentenceBERT (句子嵌入模型): 论文在脚注中提供了HuggingFace模型链接:https://huggingface.co/dangvantuan/sentence-camembert-large。 PoemesProfonds (音素转换工具): 用于计算PhonER指标的自动图素-音素转换器。论文中提供了GitHub链接:https://github.com/Remiphilius/PoemesProfonds。 LeBenchmark (自监督学习模型集合): 论文引用[7]指代,未提供项目主页链接。 wav2vec 2.0 (自监督学习模型): 论文引用[2]和[12],未提供项目主页链接。 XLSR (跨语言自监督学习模型): 论文引用[1],未提供项目主页链接。 补充信息 [细节详述] 补充:论文中明确给出了关键的训练超参数设置。微调时,SSL模型部分的学习率(LR)为1e-5,DNN部分的初始学习率为1e-3。这提供了更精确的复现细节。 ...

2026-05-06 · 更新于 2026-06-22 · 2 min · 411 words

A Paradigm for Interpreting Metrics and Identifying Critical Errors in Automatic Speech Recognition

📄 A Paradigm for Interpreting Metrics and Identifying Critical Errors in Automatic Speech Recognition #语音识别 #模型评估 #基准测试 ✅ 6.0/10 | 前50% | #语音识别 | #模型评估 | #基准测试 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Thibault Bañeras-Roux(论文中未提及机构) 通讯作者:论文中未说明 作者列表:Thibault Bañeras-Roux(未说明)、Mickael Rouvier(未说明)、Jane Wottawa(未说明)、Richard Dufour(未说明) 💡 毒舌点评 这篇论文的亮点在于它直指了WER/CER的痛点并试图从范式层面给出一种更可解释的解决方案,这种将评估指标与人类感知对齐的思路很有价值。但短板也极其明显:一篇宣称提出新评估范式的论文,在摘要中竟然完全没有展示任何实验验证数据,这就像提出了一把新尺子,却没告诉我们用它量过什么、量出来的结果是否更准,严重削弱了其说服力。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 📌 核心摘要 这篇论文旨在解决自动语音识别(ASR)中常用评估指标(如WER和CER)与人类感知相关性差、无法捕捉语言语义信息的问题。其方法核心是提出一个范式(Paradigm),该范式能够将任意选定的评估度量(如语义相似度、词嵌入距离等)整合进来,生成一个等效的“最小编辑距离(minED)”分数。这个新范式将转录错误与人类感知直接关联,并允许从人类角度研究错误严重性。与之前仅提出难以解释的嵌入分数的方法相比,该范式的新颖之处在于它保持了类似传统错误率(如WER)的直观可解释性。根据摘要,该论文主要贡献是方法论层面的,但未提供具体的实验结果数据(如在标准数据集上的性能对比、消融研究等)。其实际意义在于有望为ASR研究和开发提供更可靠、更具解释性的评估工具。主要局限性是缺乏实验验证,其实际效果和优越性未知。 🏗️ 模型架构 根据摘要描述,本文提出的不是一个传统的生成式或判别式模型,而是一个评估范式。其架构可以理解为一个框架或流程: 输入:参考转录文本和系统生成的ASR转录文本。 核心组件:一个可选的、基于度量的嵌入(metric-based embedding)模块。该模块能够根据特定的度量标准(例如,语义相似度、词向量距离等)将文本对映射到一个能反映人类感知的向量空间或分数。 范式处理:将选定的度量嵌入模块集成到一个计算流程中。该流程旨在计算出一个最小编辑距离的等价物(equivalent of the error rate: a Minimum Edit Distance (minED))。这意味着它可能通过某种方式(例如,将嵌入空间的距离定义为“成本”)来寻找将参考文本转换为假设文本所需的最小“感知”编辑操作序列。 输出:一个可解释的、类似于传统错误率(如WER)的分数,但其计算基于更能反映人类感知的度量。 整个范式的核心是解耦了“度量选择”和“错误率计算”,使得研究者可以灵活地测试不同的人类感知度量在ASR评估中的有效性。 💡 核心创新点 提出一个可解释的评估范式:是什么:一个将任意文本度量嵌入整合进最小编辑距离(ED)计算,从而生成类似WER/CER的可解释分数的框架。局限:传统WER/CER不考虑语义;新提出的基于嵌入的度量分数难以直观解释。如何起作用:该范式充当“转换器”,将复杂度量映射回易于理解的错误率形式。收益:在保持可解释性的同时,有能力融入更丰富的语言和语义信息。 实现错误严重性的人类视角研究:是什么:通过范式计算出的minED分数及其分解,可以分析不同类型错误(如拼写、语法、语义替换)对最终感知分数的影响。局限:传统错误率对所有替换错误一视同仁,无法区分“猫”误识为“狗”与“猫”误识为“车辆”的严重性差异。如何起作用:基于度量的编辑操作可以赋予不同的成本。收益:能够量化并研究错误的“严重性”,为优化ASR系统提供更细粒度的反馈。 提供一个统一的评估对接框架:是什么:任何新的、旨在模拟人类感知的ASR评估指标都可以通过此范式被包装成一个易懂的错误率。局限:目前社区存在多种新指标,但解释和使用门槛不一。如何起作用:作为标准化接口。收益:降低新指标的理解和应用门槛,促进评估方法的统一和比较。 🔬 细节详述 训练数据:未说明。本文是方法论研究,可能不涉及模型训练,但验证其范式有效性需要在多个ASR数据集上进行实验,这些细节摘要未提供。 损失函数:未说明。该范式本身可能不涉及传统意义上的训练损失函数。 训练策略:未说明。 关键超参数:未说明。可能涉及嵌入模型的选择、距离度量的具体定义、编辑操作的成本函数参数等。 训练硬件:未说明。 推理细节:未说明。主要指如何使用该范式计算给定文本对的minED分数。 正则化或稳定训练技巧:不适用。 📊 实验结果 根据提供的论文摘要,未提供任何具体的实验结果数据、数值、图表或对比。摘要仅描述了方法的动机和概念,没有提及: ...

2026-05-06 · 更新于 2026-06-22 · 1 min · 112 words

AfriVox-v2: A Domain-Verticalized Benchmark for In-the-Wild African Speech Recognition

📄 AfriVox-v2: A Domain-Verticalized Benchmark for In-the-Wild African Speech Recognition #语音识别 #基准测试 #多语言 #低资源 #模型评估 🔥 8.0/10 | 前25% | #语音识别 | #模型评估 | #基准测试 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Busayo Awobade(Intron Health) 通讯作者:未明确说明(论文提供了两个邮箱:research@intron.io 和 tobi@intron.io) 作者列表:Busayo Awobade(Intron Health)、Gabrial Zencha Ashungafac(Intron Health)、Tobi Olatunji(Intron Health) 💡 毒舌点评 亮点:论文成功地将评估从“读稿”推向“真实场景”,并首次系统性地进行了10大领域的垂直化分析,这比单纯报告一个平均WER要实用得多,为非洲本地化语音AI开发提供了清晰的性能地图。短板:域标签的自动标注精度只有42%,这意味着所有关于“哪个领域更难”的结论都需要打个折扣;同时,论文中表现最好的模型Sahara-v2来自作者所在机构,但其训练数据和架构细节却语焉不详,这让公平对比和结果分析打了点折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提到了以下数据集,但未提供具体的下载链接或开源协议信息: Intron-YT:论文中提及为本研究引入的新语料库,由公开的多媒体源构建,但未提供具体获取链接。 Africa Next Voices (AFN):论文中提及为一个去中心化的非洲会话语音语料库,由盖茨基金会资助,但未提供具体获取链接。 Waxal:论文中提及为一个多语言会话语音语料库,由谷歌资助,但未提供具体获取链接。 基准测试本身 (AfriVox-v2):论文中未提及该基准数据集的具体公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点或详细的复现附录。 论文中引用的开源项目: wav2vec 2.0:论文中引用了自监督模型。其官方GitHub仓库链接为:https://github.com/facebookresearch/wav2vec。 Whisper:论文中引用了多任务模型。其官方GitHub仓库链接为:https://github.com/openai/whisper。 Omni-ASR (论文中指 Omni-CTC 模型):论文中引用了该开源多语种ASR模型,参考文献标记为 [omnilingualasrteam2025omnilingualasropensourcemultilingual],但未在论文中提供直接的项目链接。 Sahara-v2:论文中引用了由作者机构 (Intron Health) 开发的区域性调优ASR模型,但未提供开源链接。 补充信息 经过对比分析结果与论文原文,发现已有分析在核心内容上已相当全面。但仍有以下几个方面可进行补充,以使分析更完整: ...

2026-05-06 · 更新于 2026-06-22 · 3 min · 439 words

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐理解 #多任务学习 #自监督学习 #音乐生成 🔥 8.0/10 | 前25% | #音乐理解 | #多任务学习 | #自监督学习 #音乐生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design) 通讯作者:Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 作者列表:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design)、Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 💡 毒舌点评 论文的最大亮点是首次为AI生成音乐构建了流行度与美学质量的联合预测框架,并用严谨的跨架构泛化实验证明了美学特征的有效性,为这一新兴领域提供了有价值的分析视角。短板在于其核心的多任务学习框架在技术上相对常规,且实验结果显示美学辅助任务对主流行度任务的提升有限,这使得“联合预测”带来的增益不够突出。 ...

2026-05-06 · 更新于 2026-06-22 · 2 min · 357 words