LSTM | 语音/音频论文速递

Parametric Neural Amp Modeling with Active Learning

📄 Parametric Neural Amp Modeling with Active Learning #音频生成 #主动学习 #LSTM #WaveNet 🔥 8.0/10 | 前25% | #音频生成 | #主动学习 | #LSTM #WaveNet 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未明确说明（Florian Grötschla和Longxiang Jiao标注为“Equal contribution”，即共同贡献）通讯作者：未说明作者列表：Florian Grötschla（ETH Zurich）、Longxiang Jiao（ETH Zurich）、Luca A. Lanzendörfer（ETH Zurich）、Roger Wattenhofer（ETH Zurich） 💡 毒舌点评亮点：将主动学习与梯度优化巧妙结合，在连续参数空间中自动寻找最具信息量的数据点，这一思路比暴力网格扫描或随机采样聪明太多，显著减少了“调参数录样本”的苦力活。短板：实验仅验证了单一高质量放大器插件，对于真正复杂、非线性的物理硬件放大器，或者包含更多、更敏感旋钮的型号，该方法的鲁棒性和样本效率是否依然成立，需要打个大大的问号。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/ETH-DISCO/PANAMA 模型权重：论文中未提及是否公开训练好的模型权重。数据集：论文使用了公开的IDMT-SMT-GUITAR数据集用于测试。训练用的初始数据和最终主动学习采集的数据集未提及是否公开。 Demo：论文中未提及在线演示。复现材料：提供了算法伪代码（算法1）和主要实验设置（如集成大小、优化器、损失函数组成）。关键超参数（如学习率、批大小）和训练时长未详细说明。引用的开源项目： NAM (Neural Amp Modeler)：作为基线对比。 IDMT-SMT-GUITAR 数据集：用于测试音频。 Descript Audio Codec：用于参考梅尔频谱损失的设置。 Adam优化器：用于梯度优化。 📌 核心摘要本文旨在解决参数化吉他放大器神经网络建模中，因旋钮参数组合爆炸导致的高成本数据收集难题。核心方法是提出一个名为PANAMA的主动学习框架，通过训练多个LSTM模型构成的集成，计算它们对不同参数设置下输出信号的分歧度（disagreement），并利用梯度优化直接在连续的参数空间中搜索能最大化该分歧度的设置点，从而确定最值得录制的放大器响应数据。与已有方法相比，这是首次将主动学习策略应用于此类建模任务，变被动采样为主动选择，极大提升了数据效率。主要实验结果表明，仅使用75个主动学习选定的数据点训练的模型，在MUSHRA主观听测中其感知质量与领先的开源非参数模型NAM（需要为每个设置单独训练）无显著差异。该工作降低了创建可实时调节参数的虚拟放大器的技术门槛，但研究仅针对单一数字放大器插件，其在真实硬件放大器上的有效性尚未验证。 ...

A novel LSTM music generator based on the fractional time-frequency feature extraction

📄 A novel LSTM music generator based on the fractional time-frequency feature extraction #音乐生成 #LSTM #时频分析 #数据集 ✅ 评分：6.5/10 | arxiv 👥 作者与机构第一作者：Li Ya（海南师范大学音乐学院）通讯作者：根据邮箱推断，Li Ya (liya@hainnu.edu.cn) 和 Chen Wei (chenwei@hainanu.edu.cn) 可能为共同通讯作者。其他作者： Chen Wei（海南师范大学外国语学院） Li Xiulai（海南海瑞众创科技有限公司，研发部） Yu Lei（海南师范大学音乐学院） Deng Xinyi（海南师范大学音乐学院） Chen Chaofan（海南海瑞众创科技有限公司，研发部） 💡 毒舌点评这篇论文的亮点在于把信号处理领域的“古老神器”分数阶傅里叶变换（FrFT）拽进了AI音乐生成的派对，试图在时频平面上找个更刁钻的角度来“撬开”音乐的特征，想法值得点赞。但槽点在于，实验部分寒酸得像用MIDI键盘弹了个单音旋律就宣称自己复刻了交响乐团——缺乏与SOTA方法的正面PK，没有听众盲测，仅靠几条损失曲线和波形对比图就得出“生成质量媲美人类”的结论，这自信程度堪比认为学会了音阶就能写《月光奏鸣曲》。 🔗 开源详情代码：论文在“Experimental support”部分提到“please view the build logs for errors”并提供了GitHub Issue报告链接（格式为“Report GitHub Issue ×”），暗示代码可能托管在GitHub上，但未提供完整的仓库URL。因此，无法确认代码是否完全开源及具体状态。模型权重：未提及是否公开。数据集：使用了公开的GiantMIDI-Piano数据集，但论文未提供基于此数据集处理后的具体数据或索引。预训练权重：未提及。在线Demo：未提及。引用的开源项目：未明确列出。 📌 核心摘要本文提出了一种基于分数阶傅里叶变换（FrFT）和长短期记忆网络（LSTM）的新型AI音乐生成系统。核心目标是利用FrFT在分数阶域（时频平面的旋转表示）中提取比传统时域或频域更丰富的音乐信号特征，以解决传统LSTM在捕捉音乐复杂时频结构上的不足。关键方法是将输入音乐信号进行FrFT变换，分离其实部和虚部并归一化后，分别输入到一个多层LSTM网络中进行训练和预测，最后将网络输出的实部和虚部合并并通过逆FrFT重构为音频信号。主要发现是，在GiantMIDI-Piano钢琴数据集上，该方法在训练集的损失值（0.0155）低于不使用FrFT的基线方法（0.0351），并且生成的波形与原始音乐在视觉上相似。实际意义在于探索了将经典信号处理工具与深度学习结合用于音乐生成的新路径。主要局限性在于实验验证极不充分，缺乏与SOTA方法的对比、客观音乐质量评估和主观听感测试，方法细节（如FrFT公式的准确性、为何选择α=0.05）阐述模糊，结论的可靠性存疑。 🏗️ 模型架构该模型是一个端到端的音乐音频生成系统，流程如下： ...

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...