Parametric Neural Amp Modeling with Active Learning

📄 Parametric Neural Amp Modeling with Active Learning #音频生成 #主动学习 #LSTM #WaveNet 🔥 8.0/10 | 前25% | #音频生成 | #主动学习 | #LSTM #WaveNet 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未明确说明(Florian Grötschla和Longxiang Jiao标注为“Equal contribution”,即共同贡献) 通讯作者:未说明 作者列表:Florian Grötschla(ETH Zurich)、Longxiang Jiao(ETH Zurich)、Luca A. Lanzendörfer(ETH Zurich)、Roger Wattenhofer(ETH Zurich) 💡 毒舌点评 亮点:将主动学习与梯度优化巧妙结合,在连续参数空间中自动寻找最具信息量的数据点,这一思路比暴力网格扫描或随机采样聪明太多,显著减少了“调参数录样本”的苦力活。短板:实验仅验证了单一高质量放大器插件,对于真正复杂、非线性的物理硬件放大器,或者包含更多、更敏感旋钮的型号,该方法的鲁棒性和样本效率是否依然成立,需要打个大大的问号。 📌 核心摘要 本文旨在解决参数化吉他放大器神经网络建模中,因旋钮参数组合爆炸导致的高成本数据收集难题。核心方法是提出一个名为PANAMA的主动学习框架,通过训练多个LSTM模型构成的集成,计算它们对不同参数设置下输出信号的分歧度(disagreement),并利用梯度优化直接在连续的参数空间中搜索能最大化该分歧度的设置点,从而确定最值得录制的放大器响应数据。与已有方法相比,这是首次将主动学习策略应用于此类建模任务,变被动采样为主动选择,极大提升了数据效率。主要实验结果表明,仅使用75个主动学习选定的数据点训练的模型,在MUSHRA主观听测中其感知质量与领先的开源非参数模型NAM(需要为每个设置单独训练)无显著差异。该工作降低了创建可实时调节参数的虚拟放大器的技术门槛,但研究仅针对单一数字放大器插件,其在真实硬件放大器上的有效性尚未验证。 🏗️ 模型架构 论文提出了两个核心模型组件:用于主动学习过程中的集成(Ensemble)的LSTM模型,以及用于最终部署的WaveNet前馈模型。 LSTM模型(用于集成与主动学习): 输入/输出:输入为原始吉他信号x(时间序列)和一个表示放大器参数设置的向量g(维度k,每个分量在[0,1]区间)。输出为经过效果处理后的湿信号y。 结构:采用标准LSTM单元。在每个时间步t,将当前输入信号样本x_t与全局广播的参数向量g进行拼接(cat(x_t, g)),然后输入LSTM单元更新隐藏状态h_t,并由输出层(一个全连接层)生成输出样本y_t。 动机与数据流:LSTM训练速度快,适合在主动学习循环中反复训练多个独立模型。参数g通过广播被拼接到每个时间步,使模型能够根据当前设置调整对输入信号的处理。 WaveNet前馈模型(用于最终模型): 输入/输出:与LSTM模型相同,输入x和g,输出y。 结构:改编自自回归生成模型WaveNet,但以前馈方式使用。采用堆叠的膨胀因果卷积层来处理输入信号。条件注入方式沿用了原WaveNet: 局部条件(Local Conditioning):设置为输入信号自身c = x,用于在每个时间步引入局部影响。 全局条件(Global Conditioning):设置为参数向量g,通过线性映射后广播到时间维度,影响整个序列的处理。 关键公式:条件被融入膨胀卷积层中,其核心操作可表示为: z = tanh(W_f ∗ x + V_f ∗ c + V'_f^T g) ⊙ σ(W_g ∗ x + V_g ∗ c + V'_g^T g) 其中∗表示膨胀卷积,V_是1x1卷积核,V'_是将参数向量g映射到条件维度的线性层,⊙为逐元素乘法。 动机:WaveNet架构在音频效果建模上通常表现出更高的保真度,因此被选作最终部署的模型架构。采用前馈模式避免了自回归生成中的累积误差问题,更适合实时音频处理。 图1:展示了最终参数化放大器模型的设置。模型(Amp Model)接收DI吉他输入信号(Input Guitar Signal)和虚拟旋钮设置(Amp Settings),输出湿信号(Wet Signal)。 ...

2026-04-29

A novel LSTM music generator based on the fractional time-frequency feature extraction

📄 A novel LSTM music generator based on the fractional time-frequency feature extraction #音乐生成 #LSTM #时频分析 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Li Ya(海南师范大学音乐学院) 通讯作者:根据邮箱推断,Li Ya (liya@hainnu.edu.cn) 和 Chen Wei (chenwei@hainanu.edu.cn) 可能为共同通讯作者。 其他作者: Chen Wei(海南师范大学外国语学院) Li Xiulai(海南海瑞众创科技有限公司,研发部) Yu Lei(海南师范大学音乐学院) Deng Xinyi(海南师范大学音乐学院) Chen Chaofan(海南海瑞众创科技有限公司,研发部) 💡 毒舌点评 这篇论文的亮点在于把信号处理领域的“古老神器”分数阶傅里叶变换(FrFT)拽进了AI音乐生成的派对,试图在时频平面上找个更刁钻的角度来“撬开”音乐的特征,想法值得点赞。但槽点在于,实验部分寒酸得像用MIDI键盘弹了个单音旋律就宣称自己复刻了交响乐团——缺乏与SOTA方法的正面PK,没有听众盲测,仅靠几条损失曲线和波形对比图就得出“生成质量媲美人类”的结论,这自信程度堪比认为学会了音阶就能写《月光奏鸣曲》。 📌 核心摘要 本文提出了一种基于分数阶傅里叶变换(FrFT)和长短期记忆网络(LSTM)的新型AI音乐生成系统。核心目标是利用FrFT在分数阶域(时频平面的旋转表示)中提取比传统时域或频域更丰富的音乐信号特征,以解决传统LSTM在捕捉音乐复杂时频结构上的不足。关键方法是将输入音乐信号进行FrFT变换,分离其实部和虚部并归一化后,分别输入到一个多层LSTM网络中进行训练和预测,最后将网络输出的实部和虚部合并并通过逆FrFT重构为音频信号。主要发现是,在GiantMIDI-Piano钢琴数据集上,该方法在训练集的损失值(0.0155)低于不使用FrFT的基线方法(0.0351),并且生成的波形与原始音乐在视觉上相似。实际意义在于探索了将经典信号处理工具与深度学习结合用于音乐生成的新路径。主要局限性在于实验验证极不充分,缺乏与SOTA方法的对比、客观音乐质量评估和主观听感测试,方法细节(如FrFT公式的准确性、为何选择α=0.05)阐述模糊,结论的可靠性存疑。 🏗️ 模型架构 该模型是一个端到端的音乐音频生成系统,流程如下: 输入:读取一个音乐文件(如WAV格式)。 特征提取(FrFT):对音乐信号进行分数阶傅里叶变换(FrFT),参数α设为0.05。此步骤将一维时域信号映射到分数阶域,得到一个复数序列。 特征分离与归一化:将FrFT输出的复数序列分离为实部和虚部两个独立的序列。分别对这两个序列进行归一化处理。 序列建模(LSTM):构建一个4层的堆叠LSTM网络,隐藏层维度为256。网络以归一化后的实部序列和虚部序列作为输入进行训练。训练时,网络学习预测下一个时间步的实部和虚部值。损失函数为预测值与真实值之间的均方误差(MSE)。 输出生成:训练好的LSTM网络生成新的实部和虚部序列。将这两个序列合并为复数序列,并进行反归一化。 信号重构(IFrFT):对合并后的复数序列进行逆分数阶傅里叶变换(IFrFT),得到生成的音频信号。 输出:将生成的音频信号保存为音乐文件。 关键设计选择理由: 使用FrFT:作者认为音乐是非平稳信号,FrFT通过旋转时频平面(由α控制),能提供比传统傅里叶变换更灵活的时频表示,从而“深度挖掘”音乐特征。 使用LSTM:因其擅长处理序列数据,能捕捉音乐中的长期依赖关系,并缓解梯度消失/爆炸问题。 分离实虚部:作者将FrFT后的复数信号拆分为实部和虚部两个独立通道输入LSTM,认为它们具有不同特性,需要分别建模。 💡 核心创新点 将FrFT引入音乐生成特征工程:首次(根据作者所述)将分数阶傅里叶变换作为音乐信号的前端特征提取器,旨在利用其在分数阶域的表示能力来捕获更丰富的音乐时频结构,为后续的神经网络模型提供更有区分度的输入特征。 构建FrFT-LSTM联合生成框架:提出了一种结合经典信号处理(FrFT)与深度学习(LSTM)的混合架构。该框架将FrFT的时频分析能力与LSTM的序列建模能力相结合,形成了一个从原始音频到生成音频的完整流水线。 基于波形回归的生成范式:与许多基于MIDI符号或音乐事件序列的生成方法不同,该方法直接对FrFT域中的连续数值序列(实部和虚部)进行回归预测,然后通过逆变换重构波形,探索了一种直接的音频波形生成路径。 🔬 细节详述 训练数据:使用GiantMIDI-Piano数据集,这是一个高质量的独奏钢琴MIDI文件集合。论文中提到将数据采样率设为5000 Hz,并截取200个采样点作为一组输入。但未说明如何将MIDI转换为该采样率下的波形,也未说明数据集的具体规模(使用了多少首曲子)。 损失函数:使用均方误差(MSE),公式为 MSE = (1/n) * Σ(y_i - ŷ_i)^2,其中y_i是真实值(FrFT后的实部或虚部),ŷ_i是预测值。 训练策略: 优化器:未明确说明,但提到了学习率。 学习率:0.0003。 Batch Size:32。 训练轮数:30 epochs。 学习率衰减:未提及。 关键超参数: FrFT阶数 α = 0.05。 LSTM隐藏层维度 256。 LSTM网络层数 4。 输入序列长度 200 个采样点。 训练硬件:未提及。 推理细节:未提及特殊的推理策略(如温度采样、beam search),似乎是自回归地逐步预测。 数据增强/正则化:未提及使用任何数据增强或正则化技术(如dropout, weight decay)。 📊 实验结果 论文提供的实验结果非常有限且以定性描述为主: ...

2026-04-21

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21