The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion

📄 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion #歌唱语音转换 #基准测试 #数据集 #开源工具 ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Lester Phillip Violeta(Nagoya University, Japan) 通讯作者:未说明 作者列表:Lester Phillip Violeta(Nagoya University, Japan),Xueyao Zhang(The Chinese University of Hong Kong, Shenzhen, China),Jiatong Shi(Carnegie Mellon University, USA),Yusuke Yasuda(National Institute of Informatics, Japan),Wen-Chin Huang(Nagoya University, Japan),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen, China),Tomoki Toda(Nagoya University, Japan) 💡 毒舌点评 这篇论文的核心价值在于清晰地将“歌唱风格转换”确立为一个独立的、系统性的研究基准,并提供了精心设计的任务和评估框架,这对推动领域从单纯的“歌手克隆”向更精细的控制迈进具有导航意义。然而,作为一项挑战赛报告,其主要贡献在于提出问题、组织比赛和总结现有方法的表现,而非提出一个能显著超越现有技术的新模型或算法,论文中也坦承“歌唱风格转换仍然挑战重重”,未能给出引领性的解决方案。 ...

2026-04-29

Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation

📄 Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation #音乐生成 #自回归模型 #音频生成 #开源工具 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频生成 #开源工具 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Tongxi Wang(Southeast University, 中国) 通讯作者:Junlang Qian(Nanyang Technological University, 新加坡) 作者列表:Tongxi Wang(Southeast University), Yang Yu(Southeast University), Qing Wang(Southeast University), Junlang Qian(Nanyang Technological University) 💡 毒舌点评 这篇论文的“先乐谱后表演”范式巧妙地将复杂音频生成问题解耦为可解释的符号生成和相对成熟的音频渲染问题,在可控性和效率上取得了显著进步,是思路清晰的“曲线救国”方案。然而,其“演奏”阶段严重依赖商用歌声合成软件VOCALOID和通用MIDI合成器FluidSynth,这使得最终音频质量的上限被锁定在这些工具的能力上,论文的“端到端”生成能力并非完全自包含,这在一定程度上削弱了其作为完全自主生成系统的创新性说服力。 📌 核心摘要 问题:现有基于音频的歌曲生成方法存在可控性差、可解释性弱、计算开销大的问题。将歌曲生成视为同时学习音乐理论与演奏的“即兴表演”,任务过于复杂。 方法核心:提出“先作曲后演奏”的新范式和BACH(Bar-level AI Composing Helper)框架。核心是使用小节(bar)作为语义单元进行符号乐谱生成,再将生成的乐谱渲染为音频。 创新点:首次将小节级符号乐谱生成引入歌曲生成;提出小节流分块(bar-stream patching) 和双流预测(Dual-NTP) 方法,分别处理人声与伴奏;引入链式乐谱(Chain-of-Score) 条件化以保持长程结构一致性。 实验结果: 自动评估(表1):BACH在多个指标上达到SOTA,尤其是内容感知指标(CE、CU)和音频-文本对齐指标(CLaMP3)。其KL散度显著优于商业系统(如0.391 vs Suno的0.620)。 人类评估(图4):BACH在音乐性上超越所有开源基线(YuE、YuE-light等),并与Udio有竞争力,略逊于Suno。在可控性(图5)上,其节拍/节奏和人声伴奏平衡表现突出。 效率:在RTX 4090上生成3分钟歌曲仅需约5分钟,远快于YuE等模型。 实际意义:提供了一种高效、可控、可解释的AI歌曲生成路径,生成的乐谱可被人直接阅读和编辑,极大促进了人机协作创作。代码开源有助于推动该方向研究。 主要局限性:最终音频渲染质量受限于外部工具(VOCALOID, FluidSynth),非端到端的纯AI生成;在风格和情感控制等可控性维度上仍有提升空间;论文未公开模型权重和完整训练细节。 🏗️ 模型架构 BACH是一个三阶段的系统流水线: ...

2026-04-29

Z-Scores: A Metric for Linguistically Assessing Disfluency Removal

📄 Z-Scores: A Metric for Linguistically Assessing Disfluency Removal #语音识别 #模型评估 #大语言模型 #语音大模型 #开源工具 ✅ 6.5/10 | 前50% | #模型评估 | #语音大模型 | #语音识别 #大语言模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(作者列表按字母顺序排列,未明确标注) 通讯作者:未说明 作者列表:Maria Teleki (德州农工大学), Sai Janjur (德州农工大学), Haoran Liu (德州农工大学), Oliver Grabner (德州农工大学), Ketan Verma (德州农工大学), Thomas Docog (德州农工大学), Xiangjue Dong (德州农工大学), Lingfeng Shi (德州农工大学), Cong Wang (德州农工大学), Stephanie Birkelbach (德州农工大学), Jason Kim (德州农工大学), Yin Zhang (德州农工大学), James Caverlee (德州农工大学) 💡 毒舌点评 本文提出的Z-Scores指标和配套的对齐模块,确实为评估生成模型去除语音不流畅性的能力提供了一个比整体F1分数更细致的诊断视角,这对于理解和改进模型行为很有帮助。然而,其核心创新(一个特定任务的评估指标和基于字符串匹配的对齐算法)更像是一次精心的“工具开发”,在技术深度和实验广度(仅用一个LLM基线、一个数据集进行了演示性案例研究)上稍显不足,离改变领域范式还有距离。 ...

2026-04-29

Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments

📄 Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments #音乐生成 #自回归模型 #少样本 #开源工具 #实时处理 ✅ 6.5/10 | 前50% | #音乐生成 | #自回归模型 | #少样本 #开源工具 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Charles Patrick Martin(澳大利亚国立大学) 通讯作者:Charles Patrick Martin(charles.martin@anu.edu.au,澳大利亚国立大学) 作者列表:Charles Patrick Martin(澳大利亚国立大学,堪培拉,ACT,澳大利亚) 💡 毒舌点评 本文最大亮点在于其“平民化”立场和扎实的艺术实践:它用15美元的硬件和艺术家自己收集的数据,证明了生成式AI可以脱离巨型实验室,成为乐手手中可玩、可折腾的“电子乐器模块”。然而,短板也同样明显:它本质上是一篇以“艺术创作”为名的系统设计报告,其核心模型(MDRNN)和硬件(树莓派)都是现成的技术,论文的创新更侧重于“如何组合与应用”而非技术突破,且所有“实验结果”都是主观的音乐表演描述,缺乏客观的性能评估与对比,学术硬度稍显不足。 📌 核心摘要 本文旨在解决生成式AI工具在音乐领域“艺术家不友好”、难以集成到现有硬件乐器与现场实践中的问题。作者提出了一个基于树莓派和MIDI通信的低成本、便携式生成式AI乐器平台(IMPSY),并采用“第一人称艺术研究”方法,通过设计、使用五款原型乐器(如Intelligent Volca, Intelligent MicroFreak等)在两年间的15场演出中进行探索。与已有方法相比,其新在于:1)强调“小型数据”与艺术家自主训练模型,而非依赖工业级大数据;2)平台设计高度依赖灵活的MIDI映射而非频繁重训练模型;3)探索了极快速的“呼叫-响应”式人机控制交替作为新的协同创作策略。主要实验结果是定性的艺术体验描述:如AI能同时控制多个合成器参数产生“非人类”音色变化(图5、7),快速控制权切换带来有趣的协作感,以及廉价硬件降低了准入门槛(表1显示最便宜的Zero 2 W启动需114秒)。实际意义是为音乐科技社区提供了一个可负担的、可扩展的AI乐器原型设计与实验工具包,推动以艺术家为中心的可持续AI音乐实践。主要局限性包括:研究基于作者单人视角,缺乏更广泛的用户研究;模型训练与迭代的长期影响未系统探讨;所有评估基于主观艺术判断,缺乏客观性能指标。 🏗️ 模型架构 图1:智能音乐乐器系统示意图。展示了平台如何连接硬件合成器:树莓派运行AI软件,通过MIDI接收人类演奏者的信号(键盘、旋钮),同时发送AI生成的MIDI信号(音符、控制变化)来控制合成器的发声与音色。 系统核心是运行在树莓派上的Python程序,其内部架构如下: AI模型:采用混合密度循环神经网络(MDRNN)。这是一个自回归的LSTM模型(通常使用2层,每层64个LSTM单元),其输出不是单一值,而是一组概率分布参数(混合高斯模型的权重、均值、方差),用于生成下一个数据点。模型输出两个值:一个表示音乐参数值(0.0-1.0),一个表示时间增量(秒)。该模型可以并行建模多个参数(1-8个),每个参数对应一个输出通道。 MIDI接口模块:负责双向通信。输入:监听来自外部乐器(键盘、控制器)的MIDI音符开/关、控制变化消息。输出:将AI生成的参数值转换为对应的MIDI消息(如将0.0-1.0映射到0-127的MIDI音高或控制值),并根据生成的时间增量调度发送。支持通过USB MIDI、串口(UART,需简单电路)、网络(OSC/WebSocket)等多种方式连接。 映射与配置引擎:这是平台灵活性的核心。用户通过Web界面配置:a) AI模型监听哪些MIDI输入(哪些通道、哪些控制号);b) AI模型的输出如何映射到MIDI输出(哪个通道、哪个控制号);c) 输入与输出之间是否存在直接的“透视”映射(即人类控制直通到设备)。这种配置无需修改代码或重新训练模型。 数据记录器:自动记录所有通过MIDI接口接收和发送的数据,保存为带时间戳的日志文件。这些日志构成了用于未来模型重训练的“小型数据集”。 Web服务器:提供配置界面、日志文件下载、新模型上传功能,便于用户在电脑浏览器中管理树莓派上的平台。 工作流程:人类操作乐器 -> MIDI信号发送到树莓派 -> 映射引擎将部分或全部信号路由给AI模型 -> AI模型根据历史序列和当前输入生成新的参数值与时间延迟 -> 映射引擎将AI输出转换为MIDI消息 -> 发送到目标乐器控制发声。整个过程强调实时性。 ...

2026-04-28

Audio Video Verbal Analysis (AVVA) for Capturing Classroom Dialogues

📄 Audio Video Verbal Analysis (AVVA) for Capturing Classroom Dialogues #音视频 #模型评估 #开源工具 ✅ 6.0/10 | 前50% | #音频问答 | #模型评估 | #音视频 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Vivek Upadhyay(Indian Institute of Science, Bangalore,联系方式为viveku@iisc.ac.in) 通讯作者:Vivek Upadhyay(Indian Institute of Science, Bangalore) 作者列表:Vivek Upadhyay(Indian Institute of Science, Bangalore)、Amaresh Chakrabarti(Indian Institute of Science, Bangalore) 💡 毒舌点评 这篇论文的亮点在于它将社会科学研究方法(Verbal Analysis)与多模态数据分析进行了系统性整合,并创新性地引入了基于Bootstrap的置信区间和“粒度不变性”等稳定性评估标准来处理时间序列数据的聚合问题,方法论上十分扎实。然而,其短板在于“验证”部分仅使用了自家框架对有限数据(23小时)的单次应用,缺乏与现有成熟工具(如NVivo、ATLAS.ti内置分析)或其他量化方法在精度、效率上的直接对比实验,说服力稍显不足,更像一份详尽的“用户手册”而非具有突破性的研究论文。 📌 核心摘要 这篇论文旨在解决课堂话语分析中从丰富的音视频多模态数据提取可量化信息的系统性方法缺失问题。核心是提出“音视频语言分析”框架,这是一个包含数据收集、转录、编码、分析等10个步骤的标准化流程,并将三角互证作为核心设计原则。与传统方法相比,AVVA框架的创新点在于:1)系统性地整合了定性解读与定量建模;2)特别针对时间序列观测数据提出了“时间单元可修改性问题”的解决方案,包括基础率过滤、Bootstrap置信区间以及基于四个标准(符号一致性、置信区间重叠、零排除、幅度稳定性)的稳定性评估。主要实验结果为对23小时印度学校课堂录音的应用分析,展示了框架的可行性(例如,通过图3中的森林图展示了变量对在不同时间粒度下的稳定性特征),并识别出如“粒度不变型”等变量关系模式。该框架的实际意义在于为将丰富的课堂话语转化为可分析数据集提供了可扩展的标准化路径。主要局限性在于实验规模有限且缺乏与外部方法的对比验证,且分析焦点主要落在语言模态,对非语言模态的深度利用不足。 🏗️ 模型架构 本文提出的并非一个传统的机器学习模型架构,而是一个系统性的方法论框架。AVVA框架是一个包含10个步骤的流程,旨在指导研究者从原始音视频数据到最终模式解释的全过程。 ...

2026-04-27

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确排序,但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测,第一作者可能为 Xi Wang)。 通讯作者:未说明(论文作者列表未明确标注,根据邮箱 zywu@sz.tsinghua.edu.cn 推测,通讯作者可能为 Zhiyong Wu)。 作者列表:Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。 机构列表:1. 清华大学,中国;2. 小米公司 MiLM Plus,中国;3. 东京大学,日本。 💡 毒舌点评 这篇论文像一个严谨的“语音体检医生”,为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”,确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是,这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”(ASR预训练偏差),体检结论的权威性打了点折扣。 ...

2026-04-27

语音/音频论文速递 2026-04-27

语音/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-04-27

DiariZen Explained: A Tutorial for the Open Source State-of-the-Art Speaker Diarization Pipeline

📄 DiariZen Explained: A Tutorial for the Open Source State-of-the-Art Speaker Diarization Pipeline #说话人分离 #自监督学习 #预训练 #说话人日志 #开源工具 ✅ 6.5/10 | 前50% | #说话人分离 | #自监督学习 | #预训练 #说话人日志 | arxiv 学术质量 4.0/7 | 选题价值 1.5/2 | 复现加成 +1.0 | 置信度 高 👥 作者与机构 第一作者:Nikhil Raghav(TCG CREST, Institute for Advancing Intelligence, Kolkata, India;Department of Computer Science, RKMVERI, Howrah, India) 通讯作者:Nikhil Raghav(论文中未明确标注通讯作者,但提供了其邮箱nikhil.raghav.92@tcgcrest.org,通常可视为通讯作者) 作者列表:Nikhil Raghav(TCG CREST, Institute for Advancing Intelligence;RKMVERI) 💡 毒舌点评 这篇教程论文的最大亮点是“保姆级”的清晰度和极致的实用性,它把DiariZen这个复杂的SOTA系统拆解得明明白白,代码和可视化一应俱全,堪称复现指南的典范。然而,其短板也相当明显:作为一篇独立的“论文”,它本质上是对他人工作的详尽解释和封装,缺乏自己的算法创新、对比实验和深入分析,更像是一份高质量的“技术文档”而非推动领域前进的“学术研究”。 📌 核心摘要 要解决什么问题:解决当前最先进的开源说话人日志(Speaker Diarization)系统DiariZen因代码分散、架构复杂而导致的难以理解、复现和扩展的问题。 方法核心是什么:将DiariZen混合流水线分解为七个独立的功能模块(音频分块、WavLM特征提取、Conformer后端与幂集分类、重叠相加聚合、说话人嵌入提取、VBx聚类、RTTM重建),并为每个模块提供概念解释、源代码引用、中间张量形状和可视化示例。 与已有方法相比新在哪里:本文并非提出新的SD算法,而是首次为现有的SOTA系统DiariZen提供了自包含、可执行的完整教程。其新颖性在于教学方法和呈现形式,而非技术本身。 主要实验结果如何:论文在AMI语料库的一个30秒样本(EN2002a_30s.wav)上进行了端到端演示。结果显示,该流水线检测出4位说话人,输出13个片段,最长片段持续12.82秒。论文未提供与其它方法的定量对比(如DER数值),仅展示了该样本的处理流程和中间结果。 实际意义是什么:极大地降低了研究人员和开发者理解和使用当前SOTA说话人日志技术的门槛,促进了技术的传播、复现和二次创新,具有很高的工程和教育价值。 主要局限性是什么:本文是一篇教程,而非原创研究论文。其主要局限在于:(1) 缺乏对DiariZen系统本身的改进或新颖的算法贡献;(2) 实验部分仅限于单个样本的定性演示,没有提供系统性的定量评估或与其它基线的对比;(3) 未涉及模型的训练细节和超参数搜索过程。 🏗️ 模型架构 本文详细描述了DiariZen说话人日志系统的完整流水线,其架构是一个七阶段的混合系统,结合了端到端神经分割(EEND)前端和概率聚类后端。整体流程如下: ...

2026-04-24

Centering Ecological Goals in Automated Identification of Individual Animals

📄 Centering Ecological Goals in Automated Identification of Individual Animals #生物声学 #模型评估 #数据集 #开源工具 ✅ 6.5/10 | 前25% | #生物声学 | #模型评估 | #数据集 #开源工具 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Lukas Picek(University of West Bohemia in Pilsen, Czechia;Massachusetts Institute of Technology, USA) 通讯作者:论文中未明确说明通讯作者。通常可根据投稿信息或邮箱判断,但本文提供的文本中未明确标注。 作者列表: Lukas Picek(University of West Bohemia in Pilsen, Czechia;Massachusetts Institute of Technology, USA) Timm Haucke(未说明具体机构) Lukáš Adam(未说明具体机构) Ekaterina Nepovinnykh(LUT University, Lappeenranta, Finland) Lasha Otarashvili(Conservation X Labs, USA) Kostas Papafitsoros(Queen Mary University of London, UK) Tanya Berger-Wolf(未说明具体机构) Michael B. Brown(Giraffe Conservation Foundation, Windhoek, Namibia) Tilo Burghardt(University of Bristol, UK) Vojtech Cermak(Czech Technical University in Prague, Czechia) Daniela Hedwig(未说明具体机构) Justin Kitzes(Cornell Lab of Ornithology, Cornell University, USA) Sam Lapp(University of Pittsburgh, USA) Subhransu Maji(未说明具体机构) Daniel Rubenstein(未说明具体机构) Arjun Subramonian(未说明具体机构) Charles Stewart(未说明具体机构) Silvia Zuffi(CNR, Milan, Italy) Sara Beery(未说明具体机构) 💡 毒舌点评 亮点在于其犀利地指出了当前AI在生态学应用中的“皇帝新衣”——高准确率的实验室数据与野外部署的现实需求严重脱节,并提出了极具操作性的四个实践考量问题。短板则是一篇纯观点文章,缺乏原创算法和定量实验验证,其提出的框架虽好,但“如何具体实施”和“效果如何”仍需后续工作填充,说服力更多依赖于逻辑而非实证。 ...

2026-04-23