优化 | 语音/音乐/音频论文速递

AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

📄 AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State #音乐视频生成 #资源分配 #优化 #多模态模型 #评估指标 📝 4.8/10 | 前50% | #音乐视频生成 | #资源分配 | #优化 #多模态模型 | arxiv 学术质量 4.8/8 | 影响力 0.5/2 | 可复现性 0.2/1 | 置信度高 👥 作者与机构第一作者：Huimin Wang (小米) 通讯作者：未说明作者列表：Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang。根据论文作者列表，所有作者均隶属于小米（Xiaomi）。 💡 毒舌点评这篇论文将长音乐视频生成中的资源分配问题形式化为MCKP，并引入“结构化持久状态”概念，尝试系统性地解决成本与一致性权衡问题，其提出的新评估指标CQR也具有启发性。然而，论文的核心贡献在很大程度上停留在概念和框架层面。“结构化持久状态”作为关键创新点，其具体生成算法和如何与生成模型交互的细节在正文中严重缺失，仅依赖于对闭源商业模型（Seedream， Seedance）的调用。这使得工作看起来更像是一个针对特定商业工具链的系统集成演示，而非一个可复现、可独立验证的方法论贡献。其实验评估规模（5首歌）极小，严重削弱了结论的可信度和泛化能力。 📌 核心摘要这篇论文旨在解决长音乐视频（MV）生成中计算成本高昂以及跨镜头一致性难以保持的问题。核心方法是将MV生成任务形式化为一个“多选择背包问题”（MCKP），并提出了一个名为AllocMV的层级框架。与以往采用均匀资源分配的方法不同，AllocMV的核心创新在于引入了一个“结构化持久状态”，并在生成前通过全局规划器估计片段显著性，然后通过一个两阶段的动态规划算法在预算约束下，将每个片段最优分配到高保真生成（High-Gen）、中等保真生成（Mid-Gen）或复用（Reuse）分支。实验在一个自建的5首歌曲基准上进行，主要结果如表1所示：方法 BeatAlign ↑ CQR ↑ CLIP ↑ Motif ↑ Cost ↓ MuseV 0.0831±.021 0.2083±.028 0.2512±.019 0.8812±.024 3.04±.19 VideoComposer 0.1024±.024 0.2210±.031 0.2318±.022 0.8754±.026 3.15±.21 AutoMV 0.0960±.023 0.4697±.036 0.3222±.017 0.8521±.029 3.25±.22 AllocMV (Ours) 0.6679±.039 0.7586±.034 0.3014±.018 0.9984±.0008 1.69±.10 结果显示，AllocMV在节奏对齐（BeatAlign）和成本-质量比（CQR）上显著优于所有基线，同时大幅降低了成本（与最强基线AutoMV相比降低约48%）。其实际意义在于为结构化视频生成提供了一个资源优化调度的框架。主要局限是评估规模非常小（仅5首歌），且框架中多个关键组件（如持久状态的生成）高度依赖未开源的商业模型，限制了其可复现性和普适性验证。 ...

语音/音乐/音频论文速递 2026-05-12

语音/音乐/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...

Secondary Source Placement for Sound Field Control Based on Ising Model

📄 Secondary Source Placement for Sound Field Control Based on Ising Model #空间音频 #优化 #麦克风阵列 #信号处理 ✅ 6.0/10 | 前25% | #空间音频 | #优化 | #麦克风阵列 #信号处理学术质量 5.5/7 | 选题价值 0.8/2 | 复现加成 -0.2 | 置信度高 👥 作者与机构第一作者：Shihori Kozuka（NTT, Inc., Tokyo, Japan）通讯作者：未说明作者列表：Shihori Kozuka（NTT, Inc., Tokyo, Japan）、Shoichi Koyama（National Institute of Informatics, Tokyo, Japan）、Hiroaki Itou（NTT, Inc., Tokyo, Japan）、Noriyoshi Kamado（NTT, Inc., Tokyo, Japan） 💡 毒舌点评论文的亮点在于将Ising模型这一求解组合优化问题的物理启发式算法，成功迁移到声场控制的次级声源布局问题上，在低频段实现了计算速度（提升约300倍）和性能（NMSE降低约8dB）的双重提升。然而，这种“方法迁移”的创新模式略显平淡，且其核心近似（假设多源互作用可忽略）的理论保证不足，导致了高频段性能反而不如基线方法，这就像为了抄近路而不得不容忍一些绕远的风险。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。本研究为优化算法，不涉及传统意义上的神经网络模型。数据集：未提及。实验数据为模拟生成。 Demo：未提供在线演示。复现材料：论文提及了使用OpTuna进行超参数优化，但未给出具体的超参数范围、优化轨迹或最终配置。未提供模拟退火或虚拟Ising机的实现细节。论文中引用的开源项目：引用了OpTuna超参数优化框架[34]。总体而言，论文中未提及明确的开源计划。 📌 核心摘要问题：在基于压力匹配的声场控制中，次级声源（扬声器）的布局优化是一个复杂的组合优化问题。传统贪心算法因代价函数（MSE）的非单调性，无法保证解的近优性，且计算耗时长。方法核心：提出基于Ising模型的优化方法。核心是将MSE代价函数重新表达为关于二元选择变量（Ising自旋）的二次型与线性型之和的形式，并加入数量约束的惩罚项，从而可利用Ising机器（或模拟退火）进行高效求解。新在哪里：首次将Ising模型框架应用于声场控制的源放置优化问题，并为此重构了代价函数。与仅适用于单一期望场的稀疏优化方法或不直接评估性能的实验设计方法不同，本方法直接最小化MSE，并允许融入关于期望场的先验统计信息。主要实验结果：在2D混响场实验中，从200个候选位置选择20个源。所提方法在500Hz以下频段的平均归一化均方误差（NMSE）显著低于贪心算法（例如在300Hz，贪心算法平均NMSE为-36.7dB，所提方法为-44.7dB）。计算时间方面，所提方法（1.1秒）比贪心算法（331秒）快约300倍。但在500Hz以上频段，所提方法的平均NMSE略高于贪心算法。实际意义：为声场控制系统的快速、优化布置扬声器提供了一种新工具，特别适合需要频繁更新布局的动态场景（如目标声场变化时）。可能加速虚拟现实音频、个人音频区域等应用的系统设计。主要局限性：1）为适配Ising模型对代价函数的重构引入了近似（忽略了三源及以上互作用），导致高频段性能下降；2）方法性能对Ising机器（或模拟退火）的超参数设置敏感，论文未提供复现所需的全部细节；3）研究范围限于压力匹配框架下的平面波期望场，泛化性有待验证。 🏗️ 模型架构本文并非提出一个传统的端到端神经网络模型，而是提出一个用于求解“次级声源布局优化”问题的优化框架。其核心是将一个离散组合优化问题，转化为适合Ising机器求解的形式。 ...