回归模型 | 语音/音乐/音频论文速递

📄 DPO-Regularized Regression for Age Prediction #说话人识别 #回归模型 #偏好学习 #DPO #多任务学习 ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30 🏗️ 模型架构本文提出的模型架构旨在同时进行连续值回归和离散类别分类（用于DPO监督），并在推理时丢弃分类头。整体流程如下： ...

📄 Natural Language to Spatial Audio Parameters: Lightweight Deterministic Rendering for Creative Authoring #空间音频 #回归模型 #多语言 #跨模态 #工业应用 ✅ 7.5/10 | 前25% | #空间音频 | #回归模型 | #多语言 #跨模态学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Seungryeol Paik（首尔大学情报与智能学系）通讯作者：Kyogu Lee（首尔大学情报与智能学系 / 人工智能跨学科项目 / 人工智能研究所）作者列表：Seungryeol Paik（首尔大学情报与智能学系）、Kyogu Lee（首尔大学情报与智能学系；首尔大学人工智能跨学科项目；首尔大学人工智能研究所） 💡 毒舌点评亮点：论文精准地瞄准了专业音频创作工具“学习曲线陡”与生成式模型“输出不可控”之间的鸿沟，提出了一个轻量、确定性、参数可编辑的回归框架，思路清晰，工程实用价值高。短板：核心指标33.2°的角误差在精确定位要求高的场景下可能仍显不足，且对于“比喻性”描述（如“幽灵般的低语”）的处理效果极差（>90° AE），暴露了当前文本嵌入模型在抽象语义与几何空间映射上的根本局限。 🔗 开源详情代码：论文未提供代码仓库链接。模型权重：论文未提及公开预训练模型权重。数据集：论文未提及数据集是否公开及获取方式。 Demo：提供了在线演示链接：https://paiiek.github.io/mmhoa-demo/。复现材料：论文提供了详尽的训练细节（架构、损失函数、超参数、数据集规模与划分、增强策略），可作为复现的良好参考，但未提供官方训练脚本或配置文件。论文中引用的开源项目：依赖MiniLM-L12-v2模型、BitFit微调方法、CIPIC和KEMAR HRTF数据库、SOFA格式标准、IEM Ambisonics插件等开源/开放标准。开源计划：论文未提及未来的开源计划。 📌 核心摘要要解决的问题：传统空间音频参数控制复杂，学习门槛高；近期基于生成模型的方法虽然降低了门槛，但输出随机、不可复现、难以编辑，无法满足专业创作工作流的需求。方法核心：提出一个轻量级框架，使用经过微调的多语言MiniLM编码器，将自然语言（英语、韩语）直接回归为8维确定性空间音频参数向量（方位角正弦/余弦、仰角、距离、扩展、混响比、增益、房间深度），再通过标准DSP算法（如VBAP/HRTF）进行渲染。与已有方法相比新在哪里：与依赖大规模随机生成模型（如Diff-SAGe）的方法不同，本方法采用参数回归范式，实现了输出确定性、参数可编辑、低延迟（<100ms CPU）。相比简单的基于规则的基线，其精度更高，且具备语义理解能力。主要实验结果：在自建的多语言数据集上，模型达到平均33.2°的角误差（AE），显著优于基于规则的基线（71.0°）和SBERT/E5基线（51.8-76.8°）。消融实验验证了角度损失（Ldir）和自适应边缘（m）的有效性。在25人参与的主观听力测试中，本模型在“文本-空间匹配度”、“定位清晰度”和“自然度”上均显著优于基线（p < 0.001）。在特定OOD测试中，数值提示表现好（19.9° AE），比喻性提示表现差（>90° AE）。方法输入 AE (°) ↓ MOS（匹配度）↑ FoleySpace [11] 视频+文本 45.0^1 3.81^3 Diff-SAGe [6] 文本 37.9^1 N/A 本文（Proposed）文本 33.2 4.12 规则基线文本 71.0 3.06 E5 encoder基线文本 38.2 N/A ^1 Diff-SAGe报告的为主观方向感知误差，其他为算法计算AE。^3 FoleySpace的MOS评分协议不同。 ...