凸优化 | 语音/音乐/音频论文速递

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

📄 Convex Low-resource Accent-Robust Language Detection in Speech Recognition #** #凸优化 #语音识别 #语言检测 #低资源 #口音鲁棒性 #ADMM ✅ 7.5/10 | 前25% | #** | #凸优化 | #语音识别 #语言检测 | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Accelerating Regularized Attention Kernel Regression for Spectrum Cartography

📄 Accelerating Regularized Attention Kernel Regression for Spectrum Cartography #频谱测绘 #预条件共轭梯度 #凸优化 #无线电传感 🔥 8.5/10 | 前25% | #频谱测绘 | #预条件共轭梯度 | #凸优化 #无线电传感 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Liping Tao（南洋理工大学计算与数据科学学院）通讯作者：Chee Wei Tan（南洋理工大学计算与数据科学学院）作者列表：Liping Tao（南洋理工大学计算与数据科学学院）、Chee Wei Tan（南洋理工大学计算与数据科学学院） 💡 毒舌点评亮点：论文精准抓住了注意力机制在频谱测绘中引入的计算痛点（核矩阵光谱不平衡），并设计了一套从统计建模（Tyler估计）到优化求解（CCCP+PCG）的完整解决方案，实验验证扎实，效果显著（条件数降低三个数量级）。短板：核心创新更多是将已有工具（Tyler估计、DC规划）应用于一个特定场景，理论分析相对基础（主要依赖固定点定理），且解决的问题场景（无线网络频谱测绘）相对垂直，通用性有待进一步探索。 🔗 开源详情代码：论文明确提供了代码仓库��接：https://github.com/convexsoft/kernelSC。模型权重：本方法不涉及神经网络预训练模型，其输出为预条件矩阵和回归系数。论文未提及单独的“模型权重”文件。数据集：论文中说明使用NVIDIA Sionna RT仿真生成数据，但未提供公开下载链接或固定数据集标识符。复现需自行运行仿真。 Demo：论文中未提及在线演示。复现材料：提供了算法1（LAKER）的完整伪代码、所有关键超参数的设置值（λ=0.01, γ=0.1等）、仿真参数（表I）以及数值实验的详细设置。论文中引用的开源项目：提到了NVIDIA Sionna [5]（仿真平台）和CVXPY [12]（凸求解器）。 📌 核心摘要要解决的问题：在基于核学习的频谱测绘（无线电地图重建）中，采用注意力机制诱导的指数型核函数会导致核矩阵光谱极度不平衡（条件数巨大），使得标准的迭代求解器（如共轭梯度法）收敛缓慢甚至失效。方法核心：提出LAKER算法。核心是学习一个数据依赖的预条件器来近似逆算子结构，以改善线性系统的条件数。该预条件器通过求解一个正则化最大似然估计问题（具有差凸结构）得到，并集成为预条件共轭梯度法的一部分。与已有方法相比新在哪里：不同于传统的对角预条件（Jacobi）或低秩近似，该方法直接针对注意力核的光谱特性进行建模和学习。它利用了注意力核的统计特性（通过生成样本方向），采用差凸规划框架求解预条件器，属于一种“学习的预条件”方法。主要实验结果：条件数：LAKE将原系统（n=2000时）的条件数从约2.02e+5降低至2.09e+2，改善近三个数量级。收敛速度：达到目标精度所需迭代次数，LAKER比Jacobi PCG减少20%-50%，且随问题规模增长更缓慢。求解时间：在n=2000时，LAKER比凸求解器（CVXPY）快超过22倍。重建精度：在n=1000和2000时，LAKER的RMSE（0.5240， 0.6212）优于高斯过程回归基线（GPRT）（0.6921， 0.7585）。方法 n=50 RMSE n=200 RMSE n=500 RMSE n=1000 RMSE n=2000 RMSE LAKER 1.6946 1.1610 0.7841 0.5240 0.6212 GPRT 1.3785 0.6956 0.7483 0.6921 0.7585 图6：展示了真实场、凸求解器参考解、GPRT和LAKER的重建结果。LAKER与参考解视觉上几乎无差，而GPRT在峰值强度和空间平滑度上存在偏差。 ...

语音/音乐/音频论文速递 2026-04-29

语音/音乐/音频论文速递 2026-04-29 共分析 29 篇论文 ⚡ 今日概览 📥 抓取 29 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 4篇 ████ #多模态模型 3篇 ███ #语音情感识别 3篇 ███ #语音识别 3篇 ███ #语音对话系统 2篇 ██ #音乐生成 2篇 ██ #生成模型 1篇 █ #频谱测绘 1篇 █ 📊 论文评分排行榜（28 篇，按分数降序）排名论文评分分档主任务 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D 8.5分前25% #生成模型 🥈 Accelerating Regularized Attention Kernel Regression fo 8.5分前25% #频谱测绘 🥉 Nemotron 3 Nano Omni: Efficient and Open Multimodal Int 8.5分前25% #多模态模型 4. Step-Audio-R1.5 Technical Report 8.0分前25% #语音对话系统 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分前25% #语音合成 6. ML-SAN: Multi-Level Speaker-Adaptive Network for Emotio 8.0分前25% #语音情感识别 7. Unrequited Emotions: Investigating the Gaps in Motivati 8.0分前25% #语音情感识别 8. UNet-Based Fusion and Exponential Moving Average Adapta 7.5分前25% #说话人验证 9. Walking Through Uncertainty: An Empirical Study of Unce 7.5分前25% #音频问答 10. ASAP: An Azimuth-Priority Strip-Based Search Approach t 7.5分前25% #声源定位 11. Mutual Forcing: Dual-Mode Self-Evolution for Fast Autor 7.5分前25% #音频生成 12. SymphonyGen: 3D Hierarchical Orchestral Generation with 7.5分前25% #音乐生成 13. PSP: An Interpretable Per-Dimension Accent Benchmark fo 7.5分前25% #基准测试 14. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 15. Robust Accent Identification via Voice Conversion and N 7.5分前25% #语音识别 16. Independent-Component-Based Encoding Models of Brain Ac 7.5分前25% #神经编码 17. Beyond Isolated Utterances: Cue-Guided Interaction for 7.5分前25% #多模态模型 18. Mitigating Shared-Private Branch Imbalance via Dual-Bra 7.5分前25% #多模态模型 19. MMEB-V3: Measuring the Performance Gaps of Omni-Modalit 7.5分前25% #基准测试 20. Human-1 by Josh Talks: A Full-Duplex Conversational Mod 7.5分前50% #语音对话系统 21. ClawMark: A Living-World Benchmark for Multi-Turn, Mult 7.0分前25% #基准测试 22. The Structured Output Benchmark: A Multi-Source Benchma 7.0分前25% #基准测试 23. WhisperPipe: A Resource-Efficient Streaming Architectur 6.5分前50% #语音识别 24. S-SONDO: Self-Supervised Knowledge Distillation for Gen 6.5分前25% #音频分类 25. Monitoring exposure-length variations in submarine powe 6.5分前50% #音频事件检测 26. Generative UI as an Accessibility Bridge: Lessons from 6.5分前50% #无障碍 27. Korean aegyo speech shows systematic F1 increase to sig 6.0分前50% #语音情感识别 28. Huí Sù: Co-constructing a Dual Feedback Apparatus 5.5分后50% #音乐生成 29 Cross-Linguistic Rhythmic and Spectral Feature-Based An N/A - - 📋 论文列表 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv ...