Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

📄 Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs #音乐生成 #生成模型 #音频编码 📝 4.0/10 | 前50% | #音乐生成 | #生成模型 | #音频编码 | arxiv 学术质量 4.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 中 👥 作者与机构 第一作者:Konstantinos Soiledis(University of Ioannina, University of Patras) 通讯作者:未说明 作者列表:Konstantinos Soiledis(University of Ioannina, University of Patras)、Maximos Kaliakatsos-Papakostas(University of Ioannina)、Dimos Makris(University of Ioannina)、Konstantinos Tsamis(University of Ioannina, University of Patras) 💡 毒舌点评 本文系统性地比较了三种神经音频编解码器在鼓网格到音频生成任务中的表现,为后续工作选择目标表示提供了有价值的实证参考,这是其亮点。然而,论文主要贡献是将已有技术(神经编解码器+Transformer)进行组合应用,且核心实验发现(增大模型反而导致性能下降)未能给出深入分析或有效解决方案,显得方法部分的创新深度和工程鲁棒性有所不足。 📌 核心摘要 问题:如何从包含微时值和力度信息的鼓网格(Expressive Drum Grid)生成真实、富有表现力的鼓音频,以捕捉人类演奏的细微感觉(“groove”)。 方法核心:采用“编解码器token预测”范式。系统将鼓网格输入到一个非自回归Transformer编码器中,预测预训练神经音频编解码器(EnCodec, DAC, X-Codec)的离散token序列,然后使用固定的编解码器解码器将token序列转换为波形音频。 创新点:与现有方法相比,本文的主要创新在于: 提出了一个完整的从表达性鼓网格到音频的生成系统(DrumGrid2Audio)。 在一个受控的、统一的建模框架下,首次(原文描述为“one of the first”)对EnCodec、DAC和X-Codec三种主流神经音频编解码器作为中间表示的效能进行了系统比较。 在公开的大规模鼓数据集E-GMD上进行了多方面的客观评估。 主要实验结果: 在Base模型设置下,EnCodec在大多数指标上表现最优:token准确率最高(单套鼓42.7%,全套鼓43.4%),感知距离(FAD)最低(单套鼓0.281,全套鼓0.193)。 DAC在样本级误差(RMSE/MAE)上最低,但token预测难度极大(困惑度高达500+),感知质量最差(FAD最高,全套鼓0.405)。 X-Codec性能介于两者之间。 反常发现:将模型容量从Base增大到Large后,所有编解码器的性能均显著下降,表明训练过程不稳定。 实际意义:为音乐制作和音频生成领域提供了一种新的从符号化鼓谱(MIDI+表情信息)渲染逼真音频的途径,并为如何选择神经音频编解码器作为生成目标提供了实践指导。 主要局限性:论文明确承认缺乏主观听感评估和正式统计检验;Large模型训练不稳定,原因未深究;研究仅限于鼓音频,结论的泛化性未验证。 🔗 开源详情 代码:https://github.com/kostantinos-soiledis/midigroove_poc 模型权重: EnCodec: facebook/encodec_32khz (HuggingFace预训练检查点) DAC: descript/dac_44khz (HuggingFace预训练检查点) X-Codec: hf-audio/xcodec-hubert-general (HuggingFace预训练检查点,配置为2.0 kbps带宽) 数据集:Expanded Groove MIDI Dataset (E-GMD)。论文中未提供该数据集的具体下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 项目页面:https://github.com/kostantinos-soiledis/midigroove_poc(包含生成的音频示例和扩展结果/图表,如所有套件的完整评估细分)。 训练配置:Base模型 (d_model=768, L=6, H=8) 和 Large模型 (d_model=1536, L=10, H=12) 的详细架构参数;优化器为AdamW,学习率 6×10^{-5},全局梯度裁剪1.0,最大200,000步,早停5000步。 训练硬件:所有模型均在单个NVIDIA GeForce RTX 3080 GPU (10 GB VRAM)上训练。 评估协议:具体评估指标(NLL, PPL, Acc, RMSE, MAE, MR-STFT SC, Env RMS corr, TTER MAE, Onset P/R/F1, FAD)的定义和计算方法。 论文中引用的开源项目: EnCodec (神经音频编解码器): https://github.com/facebookresearch/encodec (论文引用 [4]) DAC (神经音频编解码器): https://github.com/descriptinc/descript-audio-codec (论文引用 [6]) X-Codec (神经音频编解码器): https://github.com/zhangzwfcn/xcodec (论文引用 [5]) AudioLM (基于编解码器令牌的语言模型): https://github.com/google-research/audioLM (论文引用 [1]) MusicLM (文本到音乐生成): https://github.com/google-research/musiclm (论文引用 [2]) SoundStream (神经音频编解码器): https://arxiv.org/abs/2107.10759 (论文引用 [11]) GrooVAE (表达性节奏建模): https://github.com/wayne391/beat-dance-datasets (论文引用 [8],数据集链接) CRASH (基于分数的扩散模型): https://github.com/hugoflorentino/CRASH (论文引用 [10]) MIDI-VALLE (符号到音频合成): https://github.com/yangdongchao/MIDI-VALLE (论文引用 [12]) STAGE (伴奏生成): https://github.com/facebookresearch/audiocraft (论文引用 [13]) DARC (鼓生成): https://github.com/DARG/darc (论文引用 [14]) TRIA (基于令牌的鼓合成): https://github.com/ZiyueXu77/TRIA (论文引用 [15]) madmom (用于起点检测): https://github.com/CPJKU/madmom (论文引用 [16],隐含) fadtk (用于计算FAD): https://github.com/AudioLDM/fadtk (论文引用 [17],隐含) 🏗️ 方法概述和架构 本文提出的方法(命名为DrumGrid2Audio)是一个条件生成系统,旨在将输入的表达性鼓网格转换为对应的鼓音频波形。整个系统可以看作一个两阶段流水线:首先是一个由Transformer构成的“网格到token”预测器,然后是一个固定的神经音频编解码器解码器。 ...

2026-05-12 · 更新于 2026-06-12 · 4 min · 663 words

Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets

📄 Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets #音频编码 #脉冲神经网络 #信号处理 #高效推理 ✅ 7.0/10 | 前25% | #音频编码 | #脉冲神经网络 | #信号处理 #高效推理 | arxiv 学术质量 7.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jens Egholm Pedersen(丹麦技术大学,电气与光子工程系) 通讯作者:Jens Egholm Pedersen(丹麦技术大学) 作者列表:Jens Egholm Pedersen(丹麦技术大学,电气与光子工程系)、Tony Lindeberg(瑞典KTH皇家理工学院,计算科学与技术系)、Peter Gerstoft(丹麦技术大学,电气与光子工程系) 💡 毒舌点评 这篇论文在理论层面做出了扎实且有价值的贡献,成功地将LIF神经元模型这一工程实践,严谨地嵌入到尺度空间理论和小波帧的数学框架中,填补了神经形态计算与经典信号处理之间的理论鸿沟。这种概念性的创新值得高度肯定。然而,实验部分存在明显短板,未能充分兑现其核心承诺。论文声称其方法“直接映射到神经形态硬件”,却未提供任何在真实神经形态平台上的功耗、延迟或脉冲率测量数据;解码器严重依赖离线的最小二乘法,与“实时、流式”的目标相去甚远;且实验仅局限于信号重建任务,对编码表示在下游任务中的效用未做探索,使得实际影响力大打折扣。 📌 核心摘要 本文旨在为基于脉冲的编码器建立一个严谨的信号处理理论框架。作者提出,可将常用的基于泄漏积分-发放(LIF)神经元的脉冲编码器重新解释为一种时间因果的尺度协变小波帧。核心方法是构造了两种新的脉冲小波家族:截断指数差(DoE) 和时间因果极限核差(DoT)。与现有工作相比,新在:(1)首次为脉冲编码提供了正式的帧定义、重建保证和误差界;(2)将多尺度框架与事件驱动表示统一;(3)提出的波形可直接映射到神经形态硬件。实验结果显示,在MIT-BIH ECG和LibriSpeech音频数据集上,所提出的脉冲小波(尤其是DoT)的归一化均方根误差(nRMSE)与经典的非因果Morlet小波及连续小波变换(CWT)相当(例如,在LibriSpeech上脉冲DoT的nRMSE为0.073,与Morlet的0.064处于可比范围)。本文的实际意义在于为神经形态前端提供了具有可证明重建保证的编码理论基础。主要局限性在于解码过程依赖离线的最小二乘权重求解,且缺乏在神经形态硬件上的实测性能验证。 🔗 开源详情 代码:https://github.com/jegp/swavelet 模型权重:论文中未提及 数据集:论文中提及使用MIT-BIH (Moody and Mark, 2001)和LibriSpeech (Panayotov et al., 2015)数据集,但未提供具体下载链接。 Demo:论文中未提及 复现材料:代码仓库 https://github.com/jegp/swavelet 应包含复现所需的主要材料。论文附录中提供了算法(Algorithm 1)和实验细节(Appendix J)。 论文中引用的开源项目: PyWavelets:用于实现离散小波变换(Haar和Morlet)。链接:https://github.com/PyWavelets/pywt Jax:实验所用的机器学习加速器。链接:https://github.com/google/jax Neuromorphic Intermediate Representation (NIR):文中提及的用于编译到神经形态硬件的表示,但未给出具体链接。 🏗️ 方法概述和架构 本文提出了一个端到端的信号编码与解码框架,旨在将连续时间信号转换为稀疏的脉冲序列,并能够稳定地重建原信号。该框架将传统的模数转换问题重新构建为基于尺度空间理论的小波分解与重构问题。 ...

2026-05-12 · 更新于 2026-06-12 · 2 min · 405 words

PoDAR: Power-Disentangled Audio Representation for Generative Modeling

📄 PoDAR: Power-Disentangled Audio Representation for Generative Modeling #语音合成 #自监督学习 #音频编码 #表示解耦 #生成模型 ✅ 7.3/10 | 前25% | #语音合成 | #自监督学习 #表示学习 #扩散模型 | #自监督学习 #音频编码 | arxiv 置信度 高 👥 作者与机构 第一作者:Alejandro Luebs(Descript) 通讯作者:未明确指定(所有作者均来自Descript并提供了邮箱) 作者列表:Alejandro Luebs, Mithilesh Vaidya, Ishaan Kumar, Sumukh Badam, Stephen W. Bailey, Matthew Bendel, Jose Sotelo, Xingzhe He (所有作者均来自 Descript) 💡 毒舌点评 论文的核心思路——通过简单的功率扰动和一致性损失来“强迫”自编码器学会解耦——方法设计直接且有效,在下游生成任务上取得了令人信服的收敛速度与性能提升,这本身就是一个扎实的工程化insight。不过,其理论深度有限,对于“为何这种简单的功率解耦能如此显著提升模型可建模性”的解释更多停留在实证层面,且对解耦后各通道的物理意义与信息流分析不足,使得方法在学术创新性上略显平实。 📌 核心摘要 问题:音频潜扩散模型的性能受生成器表达力和潜空间“可建模性”(modelability)双重制约。现有工作多聚焦于提升重建保真度,但高保真重建并不必然带来易于建模的潜空间。例如,信号功率等与语义内容无关的扰动因素在潜空间中的纠缠,会增加下游生成器学习分布的复杂度。 方法核心:提出PoDAR框架,通过在自编码器(如VAE)训练中引入随机功率增强(在[-6, +6] dB范围内随机调整增益)和潜空间一致性损失(惩罚内容通道对功率增强的敏感度),显式地将音频表示分解为“功率子空间”(前k个通道)和“功率不变语义子空间”(剩余通道)。 创新性:与当前主流的表示对齐(如REPA,使用预训练编码器)方法正交,PoDAR提供了一条自监督的、针对特定干扰因素的解耦路径来提升潜空间模型性,无需外部预训练模型。 主要实验结果:在LibriSpeech-PC等数据集上,使用F5-TTS作为生成器,PoDAR表示相比基线(相同架构的VAE)显著提升了生成性能。例如,在VAE1上,收敛到基线最佳性能所需训练步数减少约2倍;说话人相似度(Speaker SIM)提升0.055;语音质量(UTMOS)提升0.22。具体结果见表2。 模型 WER ↓ Speaker SIM ↑ UTMOS ↑ LibriSpeech-PC VAE1-Baseline 0.023±0.003 0.592±0.005 3.75±0.03 VAE1-PoDAR 0.023±0.003 0.647±0.005 3.97±0.02 VAE2-Baseline 0.024±0.003 0.559±0.005 4.10±0.02 VAE2-PoDAR 0.025±0.003 0.595±0.005 4.17±0.01 Seed-TTS (EN) VAE1-Baseline 0.017±0.003 0.613±0.006 3.69±0.02 VAE1-PoDAR 0.017±0.003 0.660±0.005 3.72±0.02 VAE2-Baseline 0.017±0.003 0.594±0.006 3.87±0.02 VAE2-PoDAR 0.019±0.003 0.615±0.006 3.89±0.02 Seed-TTS (ZH) VAE1-Baseline 0.016±0.002 0.713±0.003 2.79±0.02 VAE1-PoDAR 0.017±0.002 0.761±0.002 2.87±0.02 VAE2-Baseline 0.020±0.002 0.688±0.003 2.98±0.02 VAE2-PoDAR 0.018±0.002 0.701±0.003 2.96±0.02 图1(论文Fig. 1)展示了训练过程中,基于PoDAR的生成器在Speaker SIM和UTMOS指标上持续优于基线,且收敛更快。 5. 实际意义:该方法提供了一种即插即用的框架,可加速音频生成模型训练并提升最终性能。其解耦特性还催生了Partial CFG,允许仅对语义内容通道进行引导,增强了在高引导尺度下的生成鲁棒性。 6. 主要局限性:自编码器训练计算开销增加(需双前向传播);有效性仅在语音域验证;解耦主要针对功率因素,未探讨其他声学因素。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 618 words

MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method

📄 MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method #音频事件检测 #异常检测 #多语言 #自监督学习 #音频编码 🔥 8.5/10 | 前25% | #音频事件检测 | #异常检测 | #多语言 #自监督学习 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sofia Callejas (Université Paris-Saclay LISN, Orsay, France) 通讯作者:论文中未明确标注通讯作者。 作者列表:Sofia Callejas (Université Paris-Saclay LISN, Orsay, France), Nahuel Gomez (Universidad de Chile DCC, Santiago, Chile), Catherine Pelachaud (Sorbonne University ISIR, Paris, France), Brian Ravenet (Université Paris-Saclay LISN), Valentin Barriere (Université Paris-Saclay LISN) 邮箱:论文提供了三个邮箱地址:@universite-paris-saclay.fr, @dcc.uchile.cl, @sorbonne-universite.fr。 💡 毒舌点评 该研究精准地指出了监督式笑声检测模型在“英语中心主义”训练下的跨语言失效问题,并用“笑声声学特征跨语言通用”这一洞察,通过无监督异常检测的巧妙设计来规避这一痛点,展现了清晰的问题导向思维。然而,其流水线中的“基于能量的音频分割”步骤在复杂噪声环境下可能成为瓶颈(论文也承认此为未来工作方向),且对笑声普遍存在的“社交-情感”语境信息完全忽视,仅依赖低级声学特征,这限制了其在高噪声或非典型笑声场景下的鲁棒性上限。 ...

2026-05-08 · 更新于 2026-06-12 · 4 min · 774 words

PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization

📄 PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization #音频编码 #自监督学习 #序列生成 #对比学习 #语音表示学习 ✅ 7.0/10 | 前25% | #音频编码 | #自监督学习 | #序列生成 #对比学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Adhiraj Banerjee(印度理工学院坎普尔分校电气工程系) 通讯作者:Vipul Arora(印度理工学院坎普尔分校电气工程系) 作者列表:Adhiraj Banerjee(印度理工学院坎普尔分校电气工程系)、Vipul Arora(印度理工学院坎普尔分校电气工程系) 💡 毒舌点评 这篇论文为音频Tokenization提供了一个新颖且严谨的理论视角,将“对齐”的概念从行为调整提升到了构建符号接口本身,其三阶段训练流程和反解码器绕过的设计展现了方法上的巧思。然而,方法复杂度极高,且严重缺乏开源,实验又局限于3秒短时语音片段和特定的检索任务,使得这项精致的学术探索目前距离成为音频领域的实用基础设施还有很长的路要走。 📌 核心摘要 解决的问题:现有音频Tokenization方法(如VQ、Codec)主要基于帧级或短窗口的局部几何分配,导致生成的符号序列在全局性质(如跨实现一致性、紧凑性、编辑距离几何)上并非优化目标,限制了其在检索、比较等序列级任务中的表现。 方法核心:提出PairAlign框架,将音频Tokenization建模为条件序列生成问题。其核心是利用自监督学习中的“跨视图”思想,训练一个编码器-自回归解码器模型,使得同一内容不同声学实现的两个视图,其生成的Token序列能在对方的编码器表示下获得高条件似然,同时与不相关样本的序列区分开。 与已有方法相比新在哪里:不同于将Token序列视为固定帧率量化结果的传统方法,PairAlign直接学习Token身份、顺序、长度和终止符号(EOS)。它不直接优化编辑距离,而是利用互预测似然作为可微代理。其三阶段训练(从确定性VQ教师到EMA自对齐教师)和一系列稳定化技术(前缀损坏、编码器摘要偏差、结构化自注意力丢弃等)是其方法论上的主要创新。 主要实验结果:在LibriSpeech和TIMIT数据集的3秒语音片段上,PairAlign生成的Token序列比几何基线短约55-67%,同时保持了相似或更高的跨视图编辑相似度。具体而言,在TIMIT上,PairAlign的平均编辑相似度为0.691(基线为0.616),序列长度从78.65降至26.19。检索实验显示,在将档案Token总量减少约55%的情况下,仍能保持有效的编辑距离检索能力(Recall@1约为0.71)。连续扫描分析表明,PairAlign的Token序列在100ms窗口滑动下表现出更小的绝对编辑操作次数和长度变化,尽管其归一化Token重叠率较低。 数据集 模型 编辑相似度 平均序列长度 精确匹配率 LibriSpeech-100 Stage I Geometric 0.609 92.09 0.264 LibriSpeech-100 PairAlign 0.630 35.55 0.291 TIMIT Stage I Geometric 0.616 78.65 0.267 TIMIT PairAlign 0.691 26.19 0.301 实际意义:该工作为构建更“序列感知”的音频符号接口提供了新思路,可能启发未来在低资源检索、符号化音频编辑或作为生成模型更好前端等方面的研究。它强调了Token序列本身的结构可以作为学习目标。 主要局限性:模型复杂,训练涉及多个阶段和多种正则化技巧;实验主要集中在短时(3秒)语音片段和检索任务,未在长语音、音乐或多模态任务上验证;学习到的Token符号不具有明确的音素或单词等语言学意义解释;为了紧凑性牺牲了原生的帧级时序信息,需后处理恢复时间戳;缺乏与最先进音频编解码器(如EnCodec, DAC)的直接对比。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: LibriSpeech (Panayotov et al., 2015):用于模型训练和评估。数据集由LDC发布,可通过访问以下链接获取详细信息及下载:https://www.openslr.org/12 (开源语音识别资源库)。 TIMIT (Garofolo et al., 1993):作为跨语料库评估集使用。可通过LDC(LDC93S1)或NIST网站获取。 Demo:论文中未提及。 复现材料:论文中未提供模型检查点、训练配置文件或详细复现脚本的下载链接。论文详细描述了三阶段训练流程(Stage I, II, III)及关键超参数(如码本大小|𝒜|=512,解码束宽K,重复惩罚γ,长度约束比率ρ等),为复现提供了详细的方法论基础。 论文中引用的开源项目: SoundStream (Zeghidour et al., 2021): https://github.com/google-deepmind/soundstream EnCodec (Défossez et al., 2022): https://github.com/facebookresearch/encodec Descript Audio Codec (DAC) (Kumar et al., 2023): https://github.com/descriptinc/descript-audio-codec vq-wav2vec (Baevski et al., 2019): https://github.com/facebookresearch/vq-wav2vec HuBERT (Hsu et al., 2021): https://github.com/facebookresearch/hubert w2v-BERT (Chung et al., 2021): https://github.com/facebookresearch/wav2vec/blob/main/examples/hubert/README.md (相关模型,如wav2vec 2.0) SpeechTokenizer (Zhang et al., 2023a): https://github.com/jishengpeng/SpeechTokenizer FACodec (Ju et al., 2024): https://github.com/FunAudioLLM/CosyVoice (其核心代码仓库,论文提及) AudioLM (Borsos et al., 2023): https://github.com/google-research/google-research/tree/master/audiolm (相关研究) MusicLM (Agostinelli et al., 2023): 未提及明确代码仓库,但研究由Google发布。 AudioGen (Kreuk et al., 2022): https://github.com/facebookresearch/audiocraft (Meta的audiocraft库包含AudioGen) MusicGen (Copet et al., 2023): https://github.com/facebookresearch/audiocraft (Meta的audiocraft库包含MusicGen) VALL-E (Wang et al., 2023a): https://github.com/microsoft/UniAudio (论文提及的后续工作UniAudio) wav2tok (Banerjee & Arora, 2022): https://github.com/adhirajbanerjee35/wav2tok BEST-STD (Singh et al., 2025a): https://github.com/ShivamS2022/BEST-STD Mamba (Dao & Gu, 2024): https://github.com/state-spaces/mamba Whisper (Radford et al., 2023): https://github.com/openai/whisper 🏗️ 方法概述和架构 整体流程概述:PairAlign是一个用于从连续音频学习紧凑离散Token序列的自监督框架。其核心流程是:输入一段音频,通过一个编码器得到连续表示;然后,一个自回归解码器以该表示为条件,从BOS开始逐步生成完整的Token序列,直到发出EOS。整个系统通过跨视图自对齐进行训练,即对于同一音频的两个声学增强视图,训练目标是让一个视图的编码器表示能够高概率生成另一个视图的Token序列,反之亦然。 ...

2026-05-08 · 更新于 2026-06-12 · 3 min · 566 words

Enhanced Generative Machine Listener

📄 Enhanced Generative Machine Listener #音频分类 #生成模型 #深度学习 #音频编码 ✅ 7.0/10 | 前25% | #音频分类 | #生成模型 | #深度学习 #音频编码 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Vishnu Raj(Dolby Laboratories)、Gouthaman KV(Dolby Laboratories)、Shiv Gehlot(Dolby Laboratories)、Lars Villemoes(Dolby Laboratories)、Arijit Biswas(Dolby Laboratories) 💡 毒舌点评 亮点:论文将主观听测分数建模问题,从传统的单点预测提升到对分数概率分布(Beta分布)的建模,这一理论视角的升级更为本质,能自然处理分数的边界和偏态分布。短板:实验虽全面,但核心创新是改进损失函数(Beta loss)和数据扩展,缺乏对模型架构本身(如Inception块)的深入剖析或创新,且置信区间的预测价值未被定量验证,略显“画饼”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:论文中提到了使用的训练集和测试集来源(如ODAQ),但未说明是否公开或如何获取其扩展的完整训练数据集。 Demo:未提供在线演示。 复现材料:论文提供了较为详细的训练配置(GPU型号、batch size、优化器、学习率、训练步数、语谱图参数),但缺少网络具体架构配置、完整的预处理脚本和检查点信息。 论文中引用的开源项目:引用了多个公开的神经音频编解码器模型(如Encodec, Descript Audio Codec, MDCTNet),这些可能作为测试数据的一部分。也提到了PEAQ和ViSQOL的开源实现。 📌 核心摘要 问题:自动化的客观音频质量评估模型通常输出单一分数,无法捕捉主观评价中的内在不确定性和变异性,尤其是在边界或歧义情况下。 核心方法:提出GMLv2,一个基于Beta分布的生成式模型。它通过神经网络预测Beta分布的形状参数(α, β),从而联合估计期望的MUSHRA分数(分布均值)和不确定性(分布方差/形状)。 创新点:相较于使用高斯/逻辑斯蒂分布的GMLv1,Beta分布天然定义在[0,1]区间,完美匹配归一化的MUSHRA分数,无需后处理修正,且其灵活的形状能更好地拟合有偏或双峰的听众评分分布。 主要实验结果:在8个涵盖传统编解码器(AAC, Dolby AC-4等)和神经编解码器(Encodec, DAC等)的测试集上,GMLv2在皮尔逊相关性(Rp)、斯皮尔曼相关性(Rs)和离群点率(OR)上均显著优于PEAQ、ViSQOL-v3和重新训练后的GMLv1(见下表)。聚合Rp/Rs达到0.9526/0.9205,OR降至0.0964。 表1:主要实验结果对比 评测集 PEAQ (Rp/Rs) ViSQOL (Rp/Rs) GMLv1* (Rp/Rs/OR) GMLv2 (Rp/Rs/OR) USAC-1 0.47/0.40 0.81/0.84 0.91/0.90/0.045 0.92/0.90/0.045 USAC-2 0.42/0.20 0.77/0.78 0.89/0.84/0.067 0.93/0.89/0.067 USAC-3 0.56/0.62 0.82/0.90 0.92/0.92/0.046 0.94/0.93/0.046 Binaural 1 0.75/0.79 0.90/0.93 0.95/0.93/0.182 0.98/0.94/0.182 Binaural 2 0.42/0.56 0.96/0.85 0.98/0.91/0.012 0.99/0.91/0.012 NAC Mono 0.34/0.31 0.89/0.86 0.92/0.94/0.833 0.97/0.94/0.071 NAC Stereo 0.58/0.40 0.82/0.89 0.93/0.90/0.589 0.95/0.93/0.078 ODAQ 0.71/0.65 0.70/0.80 0.81/0.81/0.817 0.83/0.83/0.271 聚合 0.56/0.52 0.85/0.86 0.93/0.90/0.725 0.95/0.92/0.096 实际意义:为音频编码(特别是神经编解码器)的研发提供了一个更可靠、可解释的自动化质量评估工具,能够量化预测的不确定性,加速评估迭代。 主要局限性:(1) 论文中未提供模型权重和代码开源计划,复现依赖外部资源;(2) 虽然模型预测了分布参数,但文中明确指出“置信区间的定量评估留待未来工作”;(3) 模型架构主体沿用前作的Inception块,创新主要集中在损失函数和训练数据扩展。 🏗️ 模型架构 GMLv2是一个参考型深度学习模型,其输入为参考音频(x)和待测音频(˜x)的信号对,输出为预测的MUSHRA分数均值及其对应的Beta分布参数(α, β)。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 256 words

EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding

📄 EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding #音频生成 #自编码器 #复数值 #音频编码 🔥 8.0/10 | 前25% | #音频生成 | #自编码器 | #复数值 #音频编码 学术质量 8.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Luca Cerovaz (Sapienza University of Rome) 通讯作者:Emanuele Rodolà (Sapienza University of Rome, Paradigma) 作者列表:Luca Cerovaz (Sapienza University of Rome), Michele Mancusi (Moises Systems Inc.), Emanuele Rodolà (Sapienza University of Rome, Paradigma) 💡 毒舌点评 亮点在于其优雅的理论动机——完全在复数域操作以自然地保留音频的相位-幅度耦合,这直接消除了对复杂且不稳定的GAN训练的依赖,实现了令人印象深刻的训练效率提升(仅需5万步,减少了约95%的计算)。短板是其评估完全局限于LibriTTS一个数据集,尽管分了域内/域外,但应用场景相对狭窄,且论文未提供代码或模型,极大地影响了社区验证和实际应用。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 437 words