Posts

Pro-KLShampoo: Projected KL-Shampoo with Whitening Recovered by Orthogonalization

📄 Pro-KLShampoo: Projected KL-Shampoo with Whitening Recovered by Orthogonalization #大语言模型 #优化器 #高效推理 ✅ 7.5/10 | 前25% | #大语言模型 | #优化器 | #高效推理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ruotong Sun（论文中未提供机构信息）通讯作者：未说明作者列表：Ruotong Sun， Ermin Wei（均未说明所属机构） 💡 毒舌点评该论文巧妙地将KL-Shampoo预条件器的理论特性（特征值谱的“尖峰-平坦”结构）与正交化操作相结合，提出了一种计算更高效、内存更友好的优化器变体，体现了理论指导工程优化的优雅思路。不过，其创新更多是针对现有框架的“精装修”，而非开辟新赛道；此外，在LLM预训练如此依赖算力和数据的时代，仅靠在100M-450M规模模型上的验证，能否稳定泛化到更大规模模型并说服工业界采用，仍需打上一个问号。 📌 核心摘要要解决什么问题：现有利用梯度矩阵结构的LLM预训练优化器（如KL-Shampoo和Muon）各有优势但独立发展。KL-Shampoo通过KL散度最小化来估计克罗内克分解预条件器，效果显著但计算成本和内存占用较高。本文旨在设计一种新优化器，以更高效的方式获得与KL-Shampoo相当甚至更好的性能。方法核心是什么：方法的核心是发现并利用KL-Shampoo预条件器的Kronecker因子具有“尖峰-平坦”的特征值谱结构。作者将其中一个因子限制在一个参数化族中：在一个被跟踪的低维子空间（维度为r）上保留完整的谱结构（完整的特征值和特征向量），而在剩余的（n-r）个方向上使用一个共享的特征值。对于后者，应用正交化操作，该操作在代数上能恢复完整KL-Shampoo的预条件器形式。与已有方法相比新在哪里：新方法（Pro-KLShampoo）在两大前沿——Kronecker-factored preconditioning与gradient momentum orthogonalization——之间建立了结构性桥梁。它并非简单结合，而是基于对KL-Shampoo内在结构的深刻理解，通过参数化限制大幅降低了计算和内存开销，同时通过正交化保证了数学上的等价性，从而在实践中实现了更优的权衡。主要实验结果如何：在GPT-2（124M， 350M）和LLaMA（134M， 450M）四个预训练规模上，Pro-KLShampoo在所有测试的子空间秩（r）下，在验证损失、峰值GPU内存使用和达到特定损失水平所需的墙钟时间这三个指标上均一致性优于基线KL-Shampoo。论文摘要中未提供具体数值，但强调了其全面优势。实际意义是什么：该工作提供了一种理论上更清晰、实践中更高效的LLM预训练优化器。它能降低训练过程中的计算开销和内存需求，有望加速模型开发迭代并降低训练成本，对于资源受限的预训练场景尤其有价值。主要局限性是什么：论文摘要未明确提及该方法的局限性。可能的局限包括：对“尖峰-平坦”特征值谱结构的假设在更多样化的任务或模型架构上的普适性；子空间维度r的选择需要调参；以及在更大规模（如数百亿至千亿参数）模型上的有效性和扩展性尚未验证。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 🏗️ 方法概述和架构整体流程概述：Pro-KLShampoo是一个用于神经网络预训练的优化器。其完整流程是：在每个训练步骤，接收模型参数和计算得到的梯度，利用当前优化器状态（历史梯度动量）以及一个对预条件器矩阵结构的参数化估计，来更新模型参数。它本质上是一个单阶段的、基于一阶梯度信息构建二阶预条件信息的自适应学习率优化器。主要组件/模块详解： ...

Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features

📄 Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features #音频深度伪造检测 #量子内核 #时频分析 #低资源 #音频安全 ✅ 6.5/10 | 前50% | #音频深度伪造检测 | #量子内核 | #时频分析 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Lisan Al Amin（论文原文上标“1”指示其所属机构）通讯作者：未说明作者列表：Lisan Al Amin^1， Rakib Hossain^1， Mahbubul Islam^2， Faisal Quader^3， Thanh Thi Nguyen^4^5 注意：原文中作者姓名后附有上标数字（如^1, ^2等），通常对应于文末或首页脚注的机构列表，表明每位作者的所属单位。但所提供的论文原文片段未包含具体的机构列表，因此无法明确各作者的具体机构信息。 💡 毒舌点评本文提出了一种将量子内核与音频频谱图的局部时频补丁结构相结合的新颖框架，其设计动机清晰，且为在NISQ时代构建硬件高效的量子电路提供了务实的思路。然而，其核心论证建立在一个规模极小（仅100个样本）、伪造生成方式极为简单（高斯噪声与频谱失真）且完全基于理想模拟的受控实验之上。这使得其声称的性能提升和实用价值显得非常初步，更像一个在严格控制条件下的概念验证，距离解决真实世界音频伪造检测的复杂性和鲁棒性挑战还非常遥远。 📌 核心摘要解决的问题：现有的音频深度伪造检测方法常将频谱图视为通用图像，忽略了其独特的时间-频率结构。此外，在数据有限、新攻击频发的低资源场景下，现有检测器的泛化能力面临挑战。方法核心：提出了Q-Patch框架。该方法首先从音频生成对数梅尔频谱图，然后将其划分为4×4的非重叠“补丁”，每个补丁被压缩为一个四维声学描述向量（平均激活、频谱质心、带宽、帧间相干性）。基于能量（平均激活）选择最显著的两个补丁，其8维特征被直接用作量子电路的旋转角度，通过一个浅层（深度≤3）、具有邻域纠缠的量子电路编码为量子态。最终，通过计算量子态的保真度作为量子内核，输入到量子支持向量机（QSVM）中进行分类。与已有方法相比新在哪里：表示层面：首次为量子内核学习设计了明确针对音频频谱图时间-频率结构的“补丁”表示，而非将其视为通用图像。量子电路层面：设计了轻量级、硬件高效的量子特征映射，限制了量子比特数（8个）和电路深度（≤3层），并引入了模拟空间邻接性的纠缠结构，更适合近期的NISQ设备。框架层面：提出了一种在低资源音频安全任务中应用量子内核的端到端框架，并系统地与规模匹配的基线进行对比分析。主要实验结果：在从LJ Speech数据集构建的100个样本的平衡子集（训练集80个样本，开发集20个样本）上，Q-Patch在开发集取得了0.87的AUROC和14.8%的EER，优于使用相同补丁特征的RBF-SVM（0.82 AUROC, 18.2% EER）和一个参数量≤100k（具体为98.4k）的微型CNN（0.85 AUROC, 16.3% EER）。内核分析显示，同类样本间相似度（约0.62-0.68）高于跨类相似度（约0.61-0.62），表明量子内核能捕捉与真实/伪造相关的结构。方法 AUROC EER (%) 复杂度 RBF-SVM 0.82 18.2 支持向量机 Tiny CNN 0.85 16.3 98.4K参数 Q-Patch 0.87 14.8 8量子比特图4展示了开发集上量子内核的相似度矩阵。图中样本按类别排序，可见同一类别内（对角线附近块）颜色更亮（相似度更高），不同类别间颜色较暗（相似度更低），直观证实了量子内核能诱导出与真实/伪造类别一致的相似性结构。 ...

Task-Aware Answer Preservation under Audio Compression for Large Audio Language Models

📄 Task-Aware Answer Preservation under Audio Compression for Large Audio Language Models #音频大模型 #长音频处理 #音频压缩 #音频问答 #模型评估 #部署优化 ✅ 6.5/10 | 前25% | #音频问答 | #音频压缩 | #音频大模型 #长音频处理 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Amir Ivry（Technion–Israel Institute of Technology，电气与计算机工程系）通讯作者：Amir Ivry（aivry@ieee.org）作者列表：Amir Ivry（Technion–Israel Institute of Technology，电气与计算机工程系） 💡 毒舌点评这篇论文为“如何在压缩音频时保住回答正确率”这个实际问题，搭建了一套非常严谨的理论评估框架（家庭级超额风险），比简单地看平均准确率高级得多。它还煞费苦心地设计了实验来验证理论预测，比如平均指标如何“隐藏”最差情况。然而，理论很丰满，实践却骨感：论文自己用作案例的“学习型选择器”不仅在V1里训练得“早退”了，而且在V2实验中，那个理论上能省预算的“查询条件压缩”，增益忽正忽负，甚至在特定数据集（MMSU）上还帮了倒忙，让人怀疑这个“任务感知”到底有多少实战价值。最终，它更像是一份严谨的“评估方法论文”而非一个“压缩算法突破”。 📌 核心摘要要解决什么问题：大型音频语言模型在部署时，常需压缩输入音频以降低内存和延迟。但这可能导致对某些特定类型问题的回答准确性急剧下降，而这种损害会被整体平均准确率所掩盖，存在部署风险。方法核心是什么：提出一个任务感知的答案保留框架。该框架将压缩器的评估从“整体误差”转向“最坏查询家族的超额误差”。它形式化了家庭级超额风险（Δ_𝒬）和答案保留前沿（b_𝒬⋆），并推导出一个实用的签核协议，该协议考虑了查询家族划分、统计置信区间和解耦审计（§4, 5）。与已有方法相比新在哪里：据作者称，这是首个将部署时的压缩预算决策与特定查询家族的答案保留明确联系起来的框架。它超越了基于平均性能或感知保真度的传统评估，引入了家庭级风险保证和查询条件压缩的理论优势分析（定理3.4），并提供了可操作的签核流程（算法1）。主要实验结果如何：在五个音频问答基准和两个Qwen骨干模型上评估。关键发现包括： (a) 家庭级损害隐藏：数据集平均误差（Δ_avg）总是低估了最坏家族的误差（Δ_fam），差距在AudioMCQ-StrongAC上高达6.79个百分点（在关键词划分下，见表1和图1、图3）。 (b) 划分决定结论：查询家族划分的粒度（关键词、原生、语义）显著影响测得的家庭级风险差距和批准的压缩预算（表13）。 (c) 查询条件压缩是情景依赖的：理论上可节省预算（定理3.4），但在实践中仅在AudioMCQ-StrongAC数据集上表现出稳定正增益（表3和表20、21），在MMSU的某些任务（如对话轮次计数、语调感知）上甚至有害（表28、图13，§I.11）。 (d) 查询条件压缩器在使用查询：解耦审计（§5.1）表明，在AudioMCQ-StrongAC上，查询条件选择器的查询使用对下游答案保留前沿有显著影响（表4）。实际意义是什么：为音频大模型的部署提供了一套更可靠的压缩接口签核流程。它强调了报告家庭级性能、审慎选择查询划分的重要性，并指出了查询条件压缩策略的适用边界和局限性。主要局限性是什么：(a) 实验依赖特定类型的“硬分块保留”压缩器和启发式查询家族划分（§H.2，§G.6）。(b) 作为案例的学习型选择器在V1中训练不完整（早停，§H.3），其查询条件压缩优势在实践中不稳定（§I.7）。(c) 理论假设查询在编码时可用，且与音频独立，这不适用于离线归档压缩（§Limitations）。(d) 论文未完全解耦信息丢失与下游模型能力不足的影响（仅部分估计了模型类差距，§J.5）。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提供（论文引用了 Qwen2-Audio-7B-Instruct [3] 和 Qwen2.5-Omni-7B [25]，但未提供具体下载链接）。数据集： DCASE 2026 dev: https://dcase-repo.github.io/dcase2026/challenge/task_audio_dependent_question_answering/dev/ AudioMCQ-StrongAC: https://huggingface.co/datasets/voidful/AudioMCQ (论文中引用了 [9]，并指出评测集为 “StrongAC” 子集) MMSU: https://huggingface.co/datasets/moonwu/MMSU (论文引用 [24]) MMAR: https://huggingface.co/datasets/juliusfrost/MMAR (论文引用 [15]) BigBench Audio: https://huggingface.co/datasets/juliusfrost/bigbench-audio (论文引用 [20, 21]) Demo：论文中未提及。复现材料：论文提供了非常详尽的附录，构成了主要的复现材料：附录 D：扩展的问题设置和操作预算细节。附录 E：主文所述理论的完整证明和辅助推导。附录 F：实际估计器、不确定性聚合和坐标轴约定。附录 G：数据集和查询家族详情。附录 H：实验协议，包括模型、选择器架构、训练配方、评估协议和推断时压缩器配置。算法 1：面向实践者的候选压缩器签核协议。附录 I：包含所有次要图表、表格、消融研究和家族级分析。附录 J：记录了不完整或可疑结果及注意事项。论文中引用的开源项目： Qwen2-Audio: https://arxiv.org/abs/2407.10759 (论文引用 [3]) Qwen2.5-Omni: https://arxiv.org/abs/2503.20215 (论文引用 [25]) SoundStream: https://arxiv.org/abs/2107.00637 (论文引用 [28]) EnCodec: https://arxiv.org/abs/2210.13438 (论文引用 [5]) AudioLM: https://arxiv.org/abs/2208.09392 (论文引用 [2]) Gumbel-softmax: https://arxiv.org/abs/1611.01144 (论文引用 [10]) AdamW 优化器: 未提供具体链接，但为标准优化器（论文提及）。 e5-large-v2 嵌入模型：用于语义分区，但未提供具体链接（论文在 J.6 部分提及）。 Bootstrap 重采样方法：论文引用了 [12, 6, 19, 8] 等标准统计文献。 🏗️ 方法概述和架构该论文提出的是一个评估框架和签核协议，而非一个端到端的压缩模型。其核心是定义一套方法论，用于判断一个给定的音频压缩器在特定部署配置下是否可被接受。 ...

Topological Signatures of Grokking

📄 Topological Signatures of Grokking #模型可解释性 #拓扑数据分析 #神经网络表征学习 #泛化理论 ✅ 7.0/10 | 前25% | #模型可解释性 | #拓扑数据分析 | #神经网络表征学习 #泛化理论 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Yifan Tang（Imperial College London，邮箱：yifan.tang23@imperial.ac.uk）通讯作者：未明确说明，但根据邮箱后缀（@imperial.ac.uk），Anthea Monod（Imperial College London）可被视为主要联系人。作者列表： Yifan Tang（Imperial College London） Qiquan Wang（Queen Mary University of London） Inés García-Redondo（University of Fribourg） Anthea Monod（Imperial College London） 💡 毒舌点评本文最大的亮点在于将持久同调这一拓扑数据分析工具成功应用于解释“顿悟”现象，并通过严谨的控制实验（如标签置换）清晰地将观察到的拓扑签名与泛化能力相关联，为理解神经网络表示学习提供了新的几何视角。然而，其核心局限也显而易见：研究高度依赖具有天然循环结构的模加法任务，在结构更复杂的MNIST上效果模糊，这使得该方法的普适性存疑。更重要的是，作者坦诚承认持久同调主要提供描述性的几何摘要，而非学习动态的因果机制解释。因此，本文更像是一项针对特定现象的精细观测分析，而非一个通用的、具有强解释力的分析框架。 📌 核心摘要问题：深度神经网络在训练过程中会出现“顿悟”现象——先记忆训练数据，然后突然泛化。目前对其内在机制，特别是表征空间的全局结构如何演变，理解有限。方法：核心是使用持久同调（Persistent Homology, PH），一种拓扑数据分析工具，来量化分析训练过程中神经网络表征（如token embedding矩阵）的几何与拓扑结构变化。与基于傅里叶分析（频域）或局部内在维度（LID，局部几何）的诊断工具相比，PH提供了一种统一的几何与拓扑视角，能同时捕捉局部和全局多尺度结构。创新：本文首次将持久同调应用于“顿悟”研究。论文发现了一个清晰且可复现的拓扑签名：在泛化发生时，第一同调群（H1）的持久性（最大值和总和）急剧上升，并在持久性图中出现一个主导的长寿命1维特征。这表明“顿悟”伴随着表征空间中相干1维拓扑结构的涌现。实验：核心设置：在模加法任务（质数 p=113, 149, 197；训练比例 α=0.20, 0.25, 0.30）上，使用Transformer和MLP架构验证了该签名的一致性。关键结果：对于p=197，H1最大持久性从基线0.075-0.08跃升至0.20-0.25，H1总持久性从~20增至30-50，且这一变化与LID的下降以及测试准确率的突变在时间上精确对齐（图3）。该结果在p=113, 149及MLP模型上得到复现。消融实验：通过控制标签随机置换比例，发现当置换比例P_frac ≤ 10%时，模型能发生顿悟，并伴随H1持久性的上升和H0持久性的下降（与测试准确率强相关，见表1）。当P_frac ≥ 20%时，顿悟失败，上述拓扑签名也随之消失（图5）。跨任务对比：在缺乏简单全局循环结构的MNIST任务上，H1指标表现为缓慢渐变，无主导循环出现，与模加法形成鲜明对比（图6）。意义：表明持久同调提供了一个原则性和可解释的框架，用于分析神经网络如何在训练中内化任务的潜在结构（如循环群结构），揭示了“顿悟”本质上是表征空间的一次拓扑重组。局限：该强信号主要依赖于模加法这类具有简单潜在拓扑（循环）的任务。在更复杂现实任务中的普适性有待验证。此外，持久同调主要提供描述性摘要，而非学习动态的因果机制解释。 🔗 开源详情代码：论文中未提供代码仓库的具体URL。模型权重：论文中未提及。数据集：模加法数据集：论文未提供下载链接。该数据集由作者根据任务描述生成，具体方法在论文第3节中详细描述。 MNIST：论文中提及用于对比实验，是公开数据集，但未提供具体下载链接。 Demo：论文中未提及。复现材料：论文未提供训练配置文件、检查点文件或代码仓库的链接。但论文第3节“Experimental Setup”中详细描述了模型架构、训练超参数、优化器设置以及实验所用的硬件和软件环境，这些信息足以用于复现。论文中引用的开源项目： Ripser：用于计算Vietoris-Rips持续同调。论文引用为 [2]。链接：https://github.com/Ripser/ripser skdim：用于估计局部内在维数。论文提及使用了其中的 TwoNN 估计器，引用为 [7]。链接：https://github.com/microsoft/skdim (论文未直接给出此链接，但为常用库) PyTorch：用于模型训练和MNIST实验的默认初始化。论文提及为 [12]。链接：https://github.com/pytorch/pytorch 🏗️ 方法概述和架构整体流程概述：本文是一个分析框架，而非生成模型。其核心流程是：1）在神经网络训练过程中，定期保存特定层的表征（如token embedding矩阵的行向量）；2）将每一层的表征视为一个高维点云；3）对点云应用持久同调计算，生成描述其拓扑特征的持久性图；4）量化持久性图（如计算H1的最大持久性和总持久性），并将其与训练准确率、LID、傅里叶谱等指标对齐分析，以发现“顿悟”现象的拓扑签名。 ...

WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling

📄 WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling #语音生成 #自监督学习 #统一音频模型 #语音合成 #零样本 ✅ 7.5/10 | 前25% | #语音生成 | #自监督学习 | #统一音频模型 #语音合成 | arxiv 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Guanrou Yang（上海交通大学，上海创新研究院）通讯作者：Xie Chen（上海交通大学，上海创新研究院）作者列表（按原文顺序）： Guanrou Yang (1, 2) Tian Tan (1) Qian Chen (4) Zhikang Niu (1, 2) Yakun Song (1, 2) Ziyang Ma (1, 2) Yushen Chen (1, 2) Zeyu Xie (5) Tianrui Wang (6) Yifan Yang (1) Wenxi Chen (1, 2) Qi Chen (1, 2) Wenrui Liu (7) Shan Yang (3) Xie Chen (1, 2) 机构映射： Shanghai Jiao Tong University Shanghai Innovation Institute Tencent Independent Researcher Peking University Tianjin University Zhejiang University 💡 毒舌点评这篇论文的亮点在于其系统性的诊断思维和工程实现。它没有盲目追逐“统一”的口号，而是清晰指出了当前SSL特征（如WavLM）直接用于生成模型的两大“硬伤”：一是高维特征空间的冗余性让扩散模型难以建模，二是SSL判别性训练导致的声学细节缺失。提出的“压缩-富集”两阶段训练范式逻辑自洽，设计精巧：第一阶段用自编码器压缩维度，第二阶段端到端微调注入声学信息，并用“语义锚定”防止语义漂移。实验设计全面，覆盖了理解、重建、生成（特别是零样本TTS和SUPERB-SG）多个维度，结果有说服力，尤其是消融实验清晰地证明了各设计模块的必要性。 ...

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

📄 X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning #语音合成 #语音克隆 #流匹配 #多语言 #零样本 🔥 8.0/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Rixi Xu（上海交通大学，MoE Key Lab of Artificial Intelligence, X-LANCE Lab）通讯作者：Xie Chen（上海交通大学，MoE Key Lab of Artificial Intelligence, X-LANCE Lab; 上海创新研究院）作者列表：Rixi Xu（上海交通大学X-LANCE实验室）、Qingyu Liu（上海交通大学X-LANCE实验室; 约翰霍普金斯大学CLSP）、Haitao Li（浙江大学; 北京海天瑞声科技有限公司）、Yushen Chen（上海交通大学X-LANCE实验室; 上海创新研究院）、Zhikang Niu（上海交通大学X-LANCE实验室; 上海创新研究院）、Yunting Yang（吉利汽车研究院(宁波)有限公司）、Jian Zhao（吉利汽车研究院(宁波)有限公司）、Ke Li（北京海天瑞声科技有限公司）、Berrak Sisman（约翰霍普金斯大学CLSP）、Qinyuan Cheng（上海创新研究院; 复旦大学）、Xipeng Qiu（上海创新研究院; 复旦大学）、Kai Yu（上海交通大学）、Xie Chen（上海交通大学X-LANCE实验室; 上海创新研究院）注：论文明确说明第一作者Rixi Xu与通讯作者Xie Chen贡献相当，且Xie Chen为通讯作者。 💡 毒舌点评亮点在于其“两阶段免文本提示”训练范式非常巧妙，利用第一阶段模型生成的数据来训练第二阶段的免文本能力，形成了一个优雅的数据自举闭环，并且全套资源（数据、模型、评测）的开源诚意十足。短板是模型规模（0.4B）限制了其在极端复杂口音或高保真场景下的表现上限，且非流式推理的时延对于实时交互应用可能仍是一个瓶颈。 ...

语音/音频论文速递 2026-05-08

语音/音频论文速递 2026-05-08 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #多模态压缩 1篇 █ #语音增强 1篇 █ #音频事件检测 1篇 █ #语音大模型 1篇 █ #语音克隆 1篇 █ #语音情感识别 1篇 █ #语音生成 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Ne 8.5分前25% #多模态压缩 🥈 Predictive-Generative Drift Decomposition for Speech En 8.5分前25% #语音增强 🥉 MultiLinguahah : A New Unsupervised Multilingual Acoust 8.5分前25% #音频事件检测 4. Minimizing Modality Gap from the Input Side: Your Speec 8.0分前25% #语音大模型 5. X-Voice: Enabling Everyone to Speak 30 Languages via Ze 8.0分前25% #语音克隆 6. Modality-Aware Contrastive and Uncertainty-Regularized 8.0分前25% #语音情感识别 7. WavCube: Unifying Speech Representation for Understandi 7.5分前25% #语音生成 8. PianoCoRe: Combined and Refined Piano MIDI Dataset 7.5分前25% #数据集 9. Do Melody and Rhythm Coevolve? 7.5分前25% #音乐认知 10. Automated Clinical Report Generation for Remote Cogniti 7.5分扎实工作，位于前列 #临床报告生成 11. Linear Semantic Segmentation for Low-Resource Spoken Di 7.5分前25% #语义分割 12. Edge-specific signal propagation on mature chromophore- 7.5分前25% #蛋白质工程 13. Cross-Modal Navigation with Multi-Agent Reinforcement L 7.5分前25% #具身导航 14. Pro-KLShampoo: Projected KL-Shampoo with Whitening Reco 7.5分前25% #大语言模型 15. Optimal Transport Audio Distance with Learned Riemannia 7.0分前10% #音频质量评估 16. PairAlign: A Framework for Sequence Tokenization via Se 7.0分前25% #音频编码 17. Topological Signatures of Grokking 7.0分前25% #模型可解释性 18. Task-Aware Answer Preservation under Audio Compression 6.5分前25% #音频问答 19. NDF+: Joint Neural Directional Filtering and Diffuse So 6.5分前30% #空间音频 20. Quantum Kernels for Audio Deepfake Detection Using Spec 6.5分前50% #音频深度伪造检测 21. More Than Can Be Said: A Benchmark and Framework for Pr 6.5分前25% #基准测试 22. PersonaKit (PK): A Plug-and-Play Platform for User Test 6.0分前50% #全双工对话系统评估 23. Preliminary Insights in Chronos Frequency Data Understa 6.0分前25% #模型评估 📋 论文列表 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv ...

Adaptive Diagonal Loading for Norm Constrained Beamforming

📄 Adaptive Diagonal Loading for Norm Constrained Beamforming #波束成形 #信号处理 #麦克风阵列 #鲁棒性 #自适应信号处理 ✅ 7.0/10 | 前25% | #波束成形 | #信号处理 | #麦克风阵列 #鲁棒性 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Manan Mittal（机构未说明）通讯作者：未说明作者列表：Manan Mittal（机构未说明）、Ryan M. Corey（机构未说明）、John R. Buck（机构未说明）、Andrew C. Singer（机构未说明） 💡 毒舌点评亮点在于将经典的对角加载问题提升到了具有严格数学保证的层面，通过Kantorovich不等式为白噪声增益（WNG）提供了确定性的理论边界，工程实用性很强；但计算复杂度从O(M)到O(M³)的谱系虽然覆盖全面，却可能让实时系统在精度和算力间纠结，且仿真场景（15元ULA，1kHz窄带）与论文宣称的“大型麦克风阵列”和“高动态声学环境”相比仍显单薄。 📌 核心摘要这篇论文旨在解决自适应波束形成在快变干扰和样本不足（snapshot-deficient）场景下，因空间相关矩阵（SCM）病态导致的目标信号自消除问题。其核心方法是提出一种自适应对角加载技术，通过Kantorovich不等式建立白噪声增益（WNG）与SCM条件数之间的严格数学映射，从而将对加载水平μ的选取转化为对矩阵条件数的显式约束。与传统固定或启发式加载方法不同，该方法能保证WNG始终不低于预设阈值，并从理论上推导出所需的最小加载量。论文提出了三种计算复杂度可选（O(M), O(M²), O(M³)）的特征值边界估计方法（Trace、Gershgorin、Exact EVD）来实现这一约束。实验在15元均匀线阵的快变“出生-死亡”干扰场景下进行，结果显示，Exact EVD和Gershgorin模式在输出SINR上接近“全知”基准（约比Cox方法高数dB），且所有提出方法均将WNG稳定约束在8.76 dB以上。该方法的意义在于为鲁棒波束形成提供了一个具有可证明性能保证的自适应调节框架。其局限性在于计算开销（尤其是EVD模式）以及仿真验证的场景规模和复杂性有待进一步扩展。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及（模拟中使用的数据为论文作者自行生成，未提供公开链接或数据集名称） Demo：论文中未提及复现材料：论文中未提及（文中详细描述了仿真设置，包括阵列参数、场景配置、窗长等，但未提供具体的代码、配置文件或检查点）论文中引用的开源项目：未提及 🏗️ 模型架构本文并非提出一个神经网络模型，而是提出一种用于改进传统自适应波束形成器（MPDR/GSC）信号处理流程的自适应参数调节算法。其核心数据流与处理流程如下： ...

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐评估 #多任务学习 #自监督学习 #预训练模型 ✅ 7.5/10 | 前25% | #音乐评估 | #多任务学习 | #自监督学习 #预训练模型 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）通讯作者：Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design）作者列表：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）、Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design） 💡 毒舌点评这篇论文为AI生成音乐这个“野蛮生长”的领域提供了一个扎实的多任务学习基线，首次将“好听”（美学）和“流行”（数据）放在一起建模，且跨模型的泛化实验证明了学到的美学特征具有普适性。但令人遗憾的是，联合学习“流行度”这个主任务本身并未带来显著提升，似乎美学和流行在特征上互补但并不互促，这削弱了“多任务学习能提升主任务”这一核心动机的说服力。 ...

AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

📄 AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner #视频编辑 #扩散模型 #音频生成 #音视频 🔥 8.0/10 | 前25% | #视频编辑 | #扩散模型 | #音频生成 #音视频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Haojie Zheng（北京大学软件与微电子学院，北京人工智能研究院）通讯作者：Boxin Shi（北京大学计算机科学学院，多媒体信息处理国家重点实验室，国家视觉技术工程研究中心），Xinlong Wang（北京人工智能研究院）作者列表：Haojie Zheng（北京大学软件与微电子学院，北京人工智能研究院），Shuchen Weng（北京人工智能研究院，北京大学计算机科学学院），Jingqi Liu（北京大学软件与微电子学院，北京人工智能研究院），Siqi Yang（北京大学人工智能研究院），Boxin Shi（北京大学计算机科学学院，多媒体信息处理国家重点实验室，国家视觉技术工程研究中心），Xinlong Wang（北京人工智能研究院） 💡 毒舌点评这篇工作就像一位细心的“音频-视频外科医生”，不仅能精准切除或替换视频中的特定实例（如把狗变成猫），还能确保它的叫声也同步变化，这种对模态间精细时空对齐的执着在现有编辑工具中相当稀缺。然而，其“手术”目前一次只能处理一个“病人”（单实例），且整个“手术器械”（自反馈音频代理）依赖一个外部模型“工具箱”，这让人担心其在真实世界复杂场景下的自主性和鲁棒性。 📌 核心摘要问题：现有视频编辑方法主要关注视觉层面，破坏了原始视频中至关重要的音频-视频同步，且缺乏实例级别的精细空间和时间控制。方法核心：提出AVI-Edit框架，包含三个关键组件：基于Wan2.2的音频同步视频骨干网络（通过帧级交叉注意力融合音频信息）、粒度感知遮罩精炼器（GAMR，迭代式地将用户提供的粗糙遮罩精化为精确的实例轮廓）、自反馈音频代理（通过“分离-生成-重混-修正”的闭环流程，利用外部工具生成高质量的引导音频）。创新点：a) 引入“精度因子”来量化和控制遮罩的粗糙程度，实现迭代式遮罩精化；b) 设计了自反馈音频代理，能够根据场景自适应选择分离和生成模型，并通过质量评判进行迭代优化；c) 构建了首个大规模、实例中心的音频-视频编辑数据集AVISet。实验结果：在AVISet和AvED-Bench两个数据集上，AVI-Edit在视觉质量(FVD/IS)、条件遵循(TC/AC)和音视频同步(Sync-C/D)等定量指标上均优于现有方法（AvED, Ovi, VACE-Foley）。用户研究显示，在音视频同步、文本对齐和总体偏好方面，AVI-Edit均获得最高支持率（最高达49.20%）。实际意义：为高质量的视频内容创作提供了新工具，允许用户在保留背景和非目标音频的前提下，对视频中的特定实例及其关联音频进行精准、同步的编辑，适用于影视后期、短视频创作等场景。主要局限性：a) 目前仅支持单实例顺序编辑，无法同时处理多个目标实例；b) 框架的音频代理模块依赖一组预设的外部模型，其性能受限于这些外部组件的质量和泛化能力。 🔗 开源详情代码：论文中未提及代码链接 ...