Icassp-2026

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”，未明确标注第一作者）通讯作者：未说明作者列表：Shentong Mo（卡内基梅隆大学，MBZUAI，清华大学），Zehua Chen（清华大学），Jun Zhu（清华大学） 💡 毒舌点评亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内，为音视频预训练提供了新范式，实验结果在多个指标上刷新了SOTA；短板是论文对于模型具体架构细节（如扩散模型中噪声预测网络的具体设计）、训练硬件和完整超参数列表描述不足，且未提及开源计划，这使得严格的复现存在挑战。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开数据集VGGSound、AudioSet和Panda70M，但未说明是否提供了特定的预处理脚本。 Demo：未提及在线演示。复现材料：给出了部分训练细节（优化器、学习率、批次大小、训练轮数），并参考了Diff-Foley的扩散设置。但模型架构的具体实现细节、完整的超参数列表和训练日志/检查点未提供。论文中引用的开源项目：引用并基于Diff-Foley [6]的生成器设置；使用Adam优化器。开源计划：论文中未提及开源计划。 📌 核心摘要本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架，它统一了多尺度视频-音频对齐（MSA）的对比学习目标与多尺度空间-时间扩散（MSD）的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比，GMS-CAVP能捕获从细到粗的时空依赖关系，并直接建模模态间的转换映射。主要实验结果表明，在VGGSound等数据集上，GMS-CAVP在视频到音频生成任务（KLD: 1.63, FAD: 0.75, Align Acc: 95.87）和检索任务（如视频到音频R@1: 28.90）上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销，以及对扩散模型采样速度的潜在影响（论文未深入讨论）。 ...

Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation

📄 Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation #多模态情感识别 #图神经网络 #对比学习 #会话理解 #情感计算 ✅ 7.5/10 | 前25% | #多模态情感识别 | #图神经网络 | #对比学习 #会话理解学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Huan Zhao (论文中作者列表首位，但未明确标注“第一作者”，因此按惯例推断) 通讯作者：Yingxue Gao (论文明确标注“*Corresponding authors: Y. Gao”) 作者列表：Huan Zhao (湖南大学计算机科学与电子工程学院)、Gong Chen (湖南大学计算机科学与电子工程学院)、Zhijie Yu (湖南大学计算机科学与电子工程学院)、Yingxue Gao* (湖南大学计算机科学与电子工程学院) 💡 毒舌点评该论文的亮点在于其“共识感知学习模块”设计得相当精巧，通过原型学习和说话人对比损失双管齐下，直击多模态情感识别中“模态冲突”这一核心痛点，理论动机清晰且有效。短板在于其创新更多是增量式的改进而非范式突破，且“共识原型”的学习本质上还是依赖于有监督的类别标签，对于完全未知的、细粒度的或混合情感表达，其泛化能力有待进一步验证。 🔗 开源详情代码：是。论文提供了GitHub代码仓库链接：https://github.com/Clancyy/ConGraNet。模型权重：未提及。论文未说明是否公开预训练模型权重。数据集：未提及。论文使用的是公开数据集（IEMOCAP， MELD），但未说明是否提供处理后的数据或额外资源。 Demo：未提及。论文未提供在线演示链接。复现材料：提供了部分复现材料，包括：关键的超参数配置表（表1）。模型架构描述和公式。代码仓库（假设包含实现）。但未提供：训练日志、最终检查点、详细的环境配置文档。论文中引用的开源项目：论文在参考文献中引用了多个开源数据集（如IEMOCAP [17]， MELD [18]）和基线模型代码（如DialogueRNN [19]， DialogueGCN [21]等）。 📌 核心摘要要解决的问题：现有对话多模态情感识别（MERC）方法常忽略同一情感类别在不同模态（如声音、语言、表情）下所体现的“情感共识”，导致模态间冲突信号影响识别精度，且难以处理类别混淆和样本不均衡问题。方法核心：提出图基情感共识感知（GECP）框架。其核心是共识感知学习（CAL）模块，包含两阶段：1) 构建多模态传播图以捕获跨模态共享信号与特有差异；2) 通过情感共识学习单元将各模态信号与共同的“情感原型”对齐，提炼类别本质特征。与已有方法相比新在何处：不同于以往主要关注上下文依赖或简单融合的方法，GECP显式地建模并学习了类别级的情感共识原型，并通过引入说话人引导的对比学习损失，在对齐跨模态语义的同时，保留了个体表达的多样性。主要实验结果：在IEMOCAP和MELD数据集上，GECP均取得了最佳性能。 IEMOCAP：Weighted-F1 72.85%， Accuracy 72.91%，较之前最优模型（Frame-SCN）分别提升约1.85%和1.93%。 MELD：Weighted-F1 66.96%， Accuracy 68.08%，较之前最优模型（FrameERC）分别提升约0.33%和0.46%。消融实验证明，移除CA单元或任一损失函数（Lc, LSpk）都会导致性能下降，其中移除CA单元下降最明显。实际意义：提升了机器在复杂对话场景中理解人类情感的能力，尤其在处理情感类别易混淆和样本分布不平衡的情况下更为有效，可直接应用于提升智能客服、社交机器人等系统的交互体验。主要局限性：论文中未深入讨论。潜在局限可能包括：对动态演变的情感共识建模不足（未来工作已提及）、模型复杂度较高、以及在跨文化、跨语言场景下的泛化能力未被验证。 🏗️ 模型架构图1展示了GECP的总体架构，其处理流程如下： ...

Graph-based Modality Alignment for Robustness in Conversational Emotion Recognition

📄 Graph-based Modality Alignment for Robustness in Conversational Emotion Recognition #多模态模型 #语音情感识别 #对比学习 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #对比学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Dae Hyeon Kim（光云大学电子通信工程系）通讯作者：Young-Seok Choi*（光云大学电子通信工程系）作者列表：Dae Hyeon Kim（光云大学电子通信工程系）， Young-Seok Choi（光云大学电子通信工程系） 💡 毒舌点评亮点：该论文最大的贡献在于将对话上下文、说话者关系和多模态信息统一建模在一个异构图中，并通过一种无增强的跨模态图对比学习，显式地将不同模态的嵌入对齐到共享的情感空间，这在理论上优雅地解决了传统堆叠模型的信息瓶颈和模态崩溃问题。短板：论文的实验部分虽然全面，但其鲁棒性验证主要局限于单一模态缺失的极端情况，对于现实场景中更常见的模态质量退化（如音频噪声、视频模糊）或部分缺失的鲁棒性探讨不足。此外，代码未开源，这对于一篇依赖复杂图结构和对齐目标的工作而言，无疑是可复现性上的一个显著扣分项。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开预训练模型或检查点。数据集：使用的IEMOCAP和MELD是公开的标准学术数据集。 Demo：未提及在线演示。复现材料：论文中提供了非常详细的超参数设置、优化器配置、训练硬件和轮数等关键信息。论文中引用的开源项目：openSMILE [13]（音频特征提取）、Sentence-BERT [14]（文本特征提取）、DenseNet [15]（视觉特征提取）、AdamW优化器 [23]。 📌 核心摘要解决的问题：多模态会话情感识别（MERC）中，传统堆叠式模型容易产生信息瓶颈和冲突的归纳偏见，且缺乏显式的模态对齐，导致模型在推理时遇到某些模态缺失（即“缺失模态问题”）时鲁棒性差。方法核心：提出了一个名为EmotionHeart的统一框架。其核心是一个异构图Transformer，它将对话（作为节点集合）和其中的关系（说话者内、说话者间、模态间）构建为一个单一的图进行联合建模。同时，引入了一种无增强的跨模态图对比学习（GCL）训练目标，强制对齐不同模态（音频、文本、视觉）的嵌入表示。创新之处：1）与以往“序列+图”的堆叠架构不同，采用统一的异构图结构同时编码所有信息源，避免了信息瓶颈。2）提出了跨模态图对比学习，直接对齐单个模态的特征，而非早期融合后的特征，从而更好地解决模态崩溃和缺失模态问题。主要实验结果：在IEMOCAP和MELD两个基准数据集上达到了新的SOTA。具体而言，在IEMOCAP上加权F1（w.F1）达到73.1%，在MELD上达到69.0%，均显著优于之前的最佳模型（p<0.001）。消融实验证明了异构性和跨模态GCL组件的有效性。关键实验数据如下：方法年份架构 IEMOCAP (w.F1 %) MELD (w.F1 %) BIG-FUSION 2025 混合 72.9 67.2 EmotionHeart – 统一 73.1 69.0 表2（消融实验）显示，从标准Transformer（68.99%）到完整模型（73.13%），每一步添加核心组件都带来了性能提升和稳定性改善（标准差从4.73降至1.09）。 ...

Graph-Biased EEG Transformers for Silent Speech Decoding

📄 Graph-Biased EEG Transformers for Silent Speech Decoding #语音生物标志物 #预训练 #图神经网络 #脑机接口 #小样本学习 ✅ 6.5/10 | 前25% | #语音生物标志物 | #预训练 | #图神经网络 #脑机接口学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Saravanakumar Duraisamy（University of Luxembourg）通讯作者：Luis A. Leiva（University of Luxembourg）作者列表：Saravanakumar Duraisamy（University of Luxembourg）， Eug´enie J. M. Delaunay（University of Luxembourg）， Luis A. Leiva（University of Luxembourg） 💡 毒舌点评亮点：论文精准地指出了当前EEG Transformer在静默语音解码任务上“水土不服”的关键原因——缺乏对EEG电极物理布局和频段特异性的先验建模，并提出了一个即插即用的图偏置模块（Graphormer++）来优雅地解决这个问题，思路清晰且有神经科学依据。短板：受试者内解码准确率仅从20%的瞎猜水平提升至约29%，绝对值仍较低；更致命的是，该方法完全无法解决跨受试者泛化的难题（仍为20%），且论文未开源代码，极大限制了其作为可复现基准的价值。 🔗 开源详情论文中未提及任何开源计划，具体包括：代码：论文中未提及代码链接。模型权重：论文中未提及公开的模型权重。数据集：论文使用了两个公开数据集（BCI Competition 2020 Dataset [19] 和 Overt/Covert Speech Dataset [20]），但未提供获取方式或统一数据加载代码。 Demo：论文中未提及在线演示。复现材料：论文提供了算法伪代码（Algorithm 1）、详细的超参数表（Table 1）和数据集描述，为复现提供了文本依据。引用的开源项目：论文未明确列出依赖的开源工具或模型代码库，仅引用了作为对比的预训练模型名称（EEGPT, LaBraM, NeuroLM）。 📌 核心摘要要解决什么问题：预训练的EEG Transformer（如EEGPT, LaBraM）在应用于静默语音解码任务时，即使经过微调，性能也接近随机猜测（~20%）。根本原因是模型分词方式无法保持电极身份和跨电极关系，导致表示不匹配。方法核心是什么：提出Graphormer++，一个可插入任何预训练EEG Transformer编码器的模块。它首先将编码器的patch token按电极进行池化对齐，然后构建一个偏置张量，包含基于电极空间邻近度和四个频段（θ, α, β, γ）的相位锁定值（PLV）的先验知识。该偏置被用于调整Graphormer层中注意力头的得分，引导模型关注具有生理合理性的电极交互。与已有方法相比新在哪里：不同于直接微调或简单添加分类头，该方法显式地将EEG的拓扑结构（空间）和功能连接（频段同步性）作为归纳偏置注入Transformer的注意力机制，实现了对预训练模型的结构化适配。主要实验结果如何：在两个公开的静默语音数据集上，Graphormer++在受试者内设置下，将基于EEGPT骨干的平均分类准确率从微调后的约22%提升至约29.4%。在受试者间设置下，所有方法性能均停留在随机水平（~20%）。注意力图分析显示，该方法使模型更关注与语音相关的额叶、中央和颞区。关键实验结果表格如下：表2. Graphormer++在不同骨干和设置下的准确率（%） ...

Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models

📄 Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models #语音识别 #图神经网络 #提示调优 #语音大模型 🔥 8.0/10 | 前25% | #语音识别 | #图神经网络 | #提示调优 #语音大模型学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yuhang Lu（广西师范大学，教育区块链与智能技术重点实验室）通讯作者：Li-e Wang*（广西师范大学，教育区块链与智能技术重点实验室）；Linghui Meng†（东南大学，计算机科学与工程学院）作者列表：Yuhang Lu（广西师范大学，教育区块链与智能技术重点实验室）、Li-e Wang*（广西师范大学，教育区块链与智能技术重点实验室）、Xianxian Li（广西师范大学，教育区块链与智能技术重点实验室）、Feng Yu（广西师范大学，教育区块链与智能技术重点实验室）、Linghui Meng†（东南大学，计算机科学与工程学院） 💡 毒舌点评这篇论文的亮点在于其精巧的系统设计，将图神经网络用于声学-文本的细粒度对齐，并辅以复杂的无梯度优化策略，展现了扎实的工程创新和在“灰色盒”这一受限场景下解决实际问题的能力。但其优化策略（三重损失、Dirichlet先验、CMA-ES）的复杂度较高，且论文未提供任何开源代码，对于想快速复现或验证其优越性的读者而言，这无疑是一道高墙，使得漂亮的实验结果略显“空中楼阁”。 🔗 开源详情根据论文内容，未提及任何开源计划。具体包括：代码：论文中未提及代码仓库链接。模型权重：未提及公开训练好的适配器或提示的权重。数据集：使用了LLaSO语料子集，但未说明该子集是否公开及获取方式。 Demo：未提供在线演示。复现材料：给出了部分超参数设置（表1），但缺失了大量关键细节（如CMA-ES参数、损失函数权重初始值、自适应调度具体公式等）。引用的开源项目：论文中提及并依赖了Llama-3.2-3B-Instruct、HuBERT等开源模型/工具。 📌 核心摘要本文旨在解决语音-语言模型（SLM）在灰色盒场景下（即模型参数冻结，仅有有限接口可注入提示）适配下游任务时面临的两大挑战：无梯度提示调优的低效不稳定，以及声学-文本对齐不足。为此，作者提出了一个轻量级的提示调优框架，其核心包含两个阶段：1) 图引导的跨模态对齐：利用图注意力网络（GAT）在联合表征空间中构建一个异构图，将声学节点和文本节点通过注意力边动态连接与聚合，实现鲁棒的跨模态对齐与融合，并通过一个对齐损失（公式10）进行监督。2) 渐进式无梯度优化策略：设计了一个两阶段优化目标（公式11），结合任务交叉熵、温度缩放蒸馏（公式12）和自适应高置信度一致性约束（公式14），并利用Dirichlet先验自适应调整各项权重，以稳定地优化提示。提示本身通过CMA-ES在低维子空间中联合生成声学和文本前缀。实验在LLaSO语料库的子集上进行，涉及语音识别（ASR）和多个副语言任务。结果显示，本方法在灰色盒约束下取得了优异性能（例如，ASR的WER为0.09，优于部分主流模型），同时在达到目标WER=0.15时，其时间-计算-内存开销优于基于强化学习的提示调优方法（RL-Prompt），并接近参数高效微调方法LoRA。消融实验证明了图对齐模块能有效提升语义级任务（如NER）的性能。本文的实际意义在于提供了一种在不修改主干参数的前提下，低成本、高效率适配语音-大语言模型的新范式。主要局限性在于优化策略的复杂性，以及论文未开源代码和详细复现信息。 🏗️ 模型架构本文提出的“Grey-Box Prompt Tuning with Graph Alignment”框架旨在冻结的语音-语言模型（如Llama）中注入可学习的提示，以实现下游任务适配。其整体架构可分为图引导的跨模态对齐阶段和提示调优阶段。 ...

GRNet: Graph Reconstruction Network for Robust Multimodal Sentiment Analysis

📄 GRNet: Graph Reconstruction Network for Robust Multimodal Sentiment Analysis #多模态情感分析 #图神经网络 #鲁棒性 #缺失模态学习 #多任务学习 ✅ 7.5/10 | 前25% | #多模态情感分析 | #图神经网络 | #鲁棒性 #缺失模态学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zhaopan Xu (哈尔滨工业大学) 通讯作者：Hongxun Yao (哈尔滨工业大学) 作者列表：Zhaopan Xu（哈尔滨工业大学）、Lulu Tian（未提供具体机构，邮箱为个人邮箱）、Panpan Zhang（新加坡国立大学 NUS）、Xiaojiang Peng（深圳技术大学）、Hongxun Yao（哈尔滨工业大学） 💡 毒舌点评本文清晰地指出了现有多模态情感分析方法在“重建”缺失信息时忽略了数据内在的时序与跨模态对齐关系，并针对性地提出了两个基于图的模块（TGN/NGN），逻辑自洽且在实验中取得了全面的SOTA，证明其思路有效。不足之处在于，其“图重建”方法仍依赖于启发式设计的图结构（时序边、邻域窗口），这种强假设在更复杂、动态的真实场景下是否依然稳健有待验证，且模型整体框架虽优雅但并未带来根本性的范式变革。 📌 核心摘要问题：现实世界中的多模态情感分析常面临模态数据不完整（如文本、音频、视觉信息缺失）的挑战，而现有方法在重建缺失特征时未能充分利用数据固有的时间关系和跨模态对齐关系。方法核心：提出图重建网络（GRNet），利用两个基于关系图卷积网络（R-GCN）的模块进行重建：(1) 时间图神经网络（TGN）将多模态序列拼接后建模时间依赖关系；(2) 邻居图神经网络（NGN）将每个模态在每个时间步作为独立节点，建模固定窗口内的跨模态邻居对齐关系。同时，采用多路径分类策略，联合优化单模态分类器和最终分类器以增强鲁棒性。新意：与先前独立重建各模态特征的方法不同，GRNet显式地利用图结构对多模态序列的时序上下文和跨模态同步关系进行联合建模与重建，从而获得更符合数据内在规律的恢复特征。主要结果：在三个基准数据集（MOSI、MOSEI、SIMS）上，GRNet在二分类准确率（Acc-2）、F1分数、平均绝对误差（MAE）和相关性（Corr）等指标上全面超越了包括P-RMF、LNLN在内的最新方法。例如，在MOSI数据集上，GRNet的Acc-2为73.45%，F1为73.68%，MAE为1.026，均优于次优方法P-RMF的72.81%、72.93%、1.038。消融实验证明移除TGN或NGN均会导致性能下降。实际意义：为处理现实世界中不可避免的数据缺失问题提供了一种更鲁棒的解决方案，增强了多模态情感分析系统在噪声和干扰下的可靠性，推动了MSA技术向实际应用落地。主要局限性：邻居图神经网络（NGN）依赖于预设的固定窗口大小w，这可能限制了其适应不同场景下动态跨模态对齐关系的能力；论文未探讨该方法在更极端或非随机缺失模式下的表现。 🏗️ 模型架构模型（GRNet）的整体流程如图2所示，包含三个主要阶段：特征提取与不完整数据模拟： ...

Group Relative Policy Optimization for Text-to-Speech with Large Language Models

📄 Group Relative Policy Optimization for Text-to-Speech with Large Language Models #语音合成 #强化学习 #多语言 #零样本 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Chang Liu（中国科学技术大学，国家语音及语言信息处理工程技术研究中心）通讯作者：Zhen-Hua Ling（中国科学技术大学，国家语音及语言信息处理工程技术研究中心）作者列表：Chang Liu（中国科学技术大学），Ya-Jun Hu（科大讯飞研究院），Ying-Ying Gao（九天人工智能研究院），Shi-Lei Zhang（九天人工智能研究院），Zhen-Hua Ling（中国科学技术大学） 💡 毒舌点评亮点在于巧妙地将源自数学推理的GRPO算法“移植”到语音合成领域，并用一个现成的ASR模型构建了简单有效的复合奖励，实现了训练复杂度的显著降低和性能的稳定提升。短板则在于对“自然度提升”的深层机理探讨不足，仅通过MOS分数和少量示例论证，缺乏更系统的声学或韵律学分析，且Llasa-1B上的主观评估结果不佳也未得到充分解释。 🔗 开源详情代码：提供了GitHub仓库链接：https://ryuclc.github.io/LLM-TTS-GRPO。模型权重：论文提及公开了微调后的模型权重（通过上述链接获取）。数据集：使用了公开的Emilia（微调）、seed-tts-eval和Common Voice（评估）数据集。 Demo：提供了在线音频演示（通过上述链接访问）。复现材料：提供了训练代码、详细的超参数设置（如β, G, 学习率）和实验配置。引用的开源项目：基线TTS模型：CosyVoice2 [4], Llasa-1B [6]。 ASR模型：Whisper-large-v3 [20]。评估工具：Paraformer-zh (来自FunASR[22]) 用于中文CER，WavLM[23]用于说话人嵌入提取。算法参考：GRPO [19] (源自DeepSeekMath)。 📌 核心摘要问题：现有基于大语言模型（LLM）的文本到语音（TTS）模型在使用强化学习（RL）进行微调时，面临训练流程复杂（如PPO需要维护价值模型）、或依赖昂贵的偏好数据（如DPO）等问题。方法核心：提出一种基于分组相对策略优化（GRPO）的微调方法。该方法利用一个现成的自动语音识别（ASR）模型，从生成的语音波形中计算字符错误率（CER）和负对数似然（NLL），并通过调和平均融合为一个复合奖励信号。该奖励用于计算组内相对优势，从而微调预训练的LLM-TTS模型。创新点：首次将GRPO算法应用于LLM-based TTS的微调；设计了一种无需额外训练模型、结合客观可懂度（CER）与模型置信度（NLL）的复合奖励函数。主要实验结果：在CosyVoice2和Llasa-1B两个开源基线模型上，GRPO微调显著提升了零样本合成的可懂度（CER/WER降低）和自然度（MOS提升）。例如，对CosyVoice2，中文CER从1.41降至1.07，英文WER从2.46降至2.30；主观平均意见得分（MOS）在四种语言上均有统计显著提升（如中文从4.42提升至4.58）。消融实验证明，结合CER与NLL的复合奖励优于单一奖励。实际意义：该方法简化了LLM-TTS模型的RL训练管线，使其更稳定、易于实施，并有效提升了合成语音的质量和鲁棒性。主要局限性：方法依赖于一个高质量的ASR模型作为奖励提供者；论文未深入分析NLL奖励如何具体改善语音自然度的机理；在Llasa-1B模型上，RL微调未能带来主观自然度的显著提升，原因未充分探究。 🏗️ 模型架构本文的核心贡献是提出一种基于GRPO的微调流程，而非一个全新的TTS生成架构。其流程如图2所示，适用于两类主流的LLM-based TTS模型。 ...

Group-Sparse Gaussian Process Regression for Inhomogeneous Sound Field Estimation

📄 Group-Sparse Gaussian Process Regression for Inhomogeneous Sound Field Estimation #声场估计 #高斯过程回归 #麦克风阵列 #稀疏优化 ✅ 7.5/10 | 前25% | #声场估计 | #高斯过程回归 | #麦克风阵列 #稀疏优化学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Ryo Matsuda（京都大学工学部）通讯作者：Makoto Otani（京都大学工学部）作者列表：Ryo Matsuda（京都大学工学部）、Makoto Otani（京都大学工学部） 💡 毒舌点评这篇论文在传统声场估计框架下做出了扎实的改进，亮点在于巧妙地将群稀疏约束引入高斯过程回归核权重优化，摆脱了对先验声源位置的依赖，并在仿真中取得了显著的性能提升。然而，其短板在于实验部分过于理想化（无回声、二维平面），缺乏对实际复杂声学环境（如混响、三维空间）的验证，且未提供任何开源代码，这使得其提出的方法在实际应用中的鲁棒性和可复现性存疑。 🔗 开源详情代码：论文中未提及代码链接或开源仓库。模型权重：未提及。数据集：实验为数值仿真生成，未提供生成代码或具体数据。 Demo：未提供在线演示。复现材料：论文给出了部分实验设置（如麦克风数量、区域大小、频率范围、噪声模型、部分超参数范围），但关键训练细节（如优化器停止准则、ν_tr的具体计算公式、ζ的最终取值）不充分，难以完全复现。论文中引用的开源项目：论文引用的文献中，[18] (Koyama & Daudet, 2019) 的算法被用于基线实现，但未说明是否使用其开源代码。论文本身未明确列出依赖的开源工具。结论：论文中未提及开源计划。 📌 核心摘要要解决什么问题：传统稀疏点源分解（PSD）方法估计包含声源的非均匀声场时，依赖预设的潜在声源位置网格，若与实际位置不匹配会导致估计精度下降。另一类基于高斯过程回归（GPR）和连续核函数的方法虽然更准确，但需要先验的声源位置信息进行贪婪优化，这在实际中往往不可用。方法核心是什么：本文提出一种基于群稀疏（group sparsity）的核权重优化方法。在GPR框架下，将声场建模为多个“源区域”（SR）核函数的加权和。核心假设是：(i) 声源空间分布是稀疏的；(ii) 该分布在所有频率上是相同的。利用这两个假设，将核权重矩阵的优化问题转化为一个带群稀疏正则化（L1,2范数）的负对数边缘似然最小化问题，并通过近端梯度法求解。与已有方法相比新在哪里：新在无需任何先验声源位置信息。通过群稀疏约束自动学习一个跨频率共享的、稀疏的核权重集合，从而识别出与观测数据最相关的少数几个SR核。这比依赖先验位置贪婪选择二进制权重的旧方法更灵活、更优化。主要实验结果如何：在无回声、二维圆形区域（半径1.0m）的数值仿真中，与单极子PSD和多极子PSD方法相比，所提方法在几乎所有频率上实现了最低的归一化均方误差（NMSE）。例如，在125 Hz附近，NMSE降低了超过15 dB；在4 kHz附近，降低了超过5 dB。图2（pdf-image-page4-idx1）直观显示，该方法能更准确地重建2 kHz的声场，误差分布（图3，论文未提供图3的URL，故无法展示）更小。实际意义是什么：为在未知声源位置情况下，利用麦克风阵列数据准确估计包含声源的复杂声场提供了一种更有效、更自动化的方法，可提升后续声场重现、噪声控制等应用的性能。主要局限性是什么：实验局限在理想的无回声条件和二维平面；假设声源分布跨频率不变可能在某些动态场景下不成立；对计算复杂度和参数（如平衡参数ζ）的选择敏感性未深入讨论。 🏗️ 模型架构该方法并非一个神经网络架构，而是基于概率模型（高斯过程回归）的优化框架。其核心组件和流程如下： ...

H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability

📄 H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability #语音增强 #信号处理 #时频分析 #实时处理 #低资源 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #时频分析 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jitao Ma（浙江大华技术股份有限公司）（论文标注为共同第一贡献）通讯作者：Ruidong Fang（浙江大华技术股份有限公司）作者列表：Jitao Ma（浙江大华技术股份有限公司），Jingbiao Huang（浙江大华技术股份有限公司），Ruidong Fang（浙江大华技术股份有限公司），Jucai Lin（浙江大华技术股份有限公司），Han Xue（浙江大华技术股份有限公司），Yapeng Mao（浙江大华技术股份有限公司），Jun Yin（浙江大华技术股份有限公司） 💡 毒舌点评本文亮点在于提出了“块激活概率”这一巧妙机制，用一个紧凑的神经网络同时解决了传统自适应滤波器步长选择和滤波器长度固定两大痛点，且计算开销极低。然而，纯线性框架可能在处理设备扬声器严重非线性失真时存在天花板，而论文中的对比实验（如与Deep Adaptive AEC的比较）也显示在复杂场景下其性能仍不及更重的混合方法，且代码未开源限制了复现价值。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中使用的LibriSpeech、DNS Challenge、SLR28、Aachen Impulse Response、AEC Challenge数据集均为公开可获取的。 Demo：未提及在线演示。复现材料：论文提供了模型架构概述、关键公式和部分训练数据设置，但缺乏详细的训练超参数（优化器、学习率、batch size等）、训练硬件信息以及最终模型的具体配置，复现难度较高。论文中引用的开源项目：数据集：LibriSpeech [17], DNS Challenge [18], SLR28 [19], Aachen Impulse Response [20], AEC Challenge Dataset [21]。工具：AECMOS评估工具包 [23]。对比方法：公开的NKF Demo [12]， Deep Adaptive AEC [10]。开源计划：论文中未提及开源计划。 📌 核心摘要问题：在低成本消费设备上部署声学回声消除（AEC）时，传统自适应滤波器（如PBFDAF）面临步长选择困难、滤波器长度需手动固定以适应不同回声路径、以及现有神经网络混合方法计算成本过高的挑战。方法核心：提出神经网络分块频域自适应滤波器（nnPBFDAF）。核心是一个轻量神经网络，它同时估计频域步长向量（用于替代固定步长）和块激活概率向量（每个分块一个概率值）。块激活概率向量的和可用于间接控制有效滤波器长度，实现自动适应。进一步提出两阶段层次结构（H-nnPBFDAF），第一阶段估计的回声作为第二阶段的参考信号，以提升鲁棒性。创新点：a) 将神经网络步长估计与PBFDAF深度融合；b) 引入块激活概率向量，首次解决了固定分块数PBFDAF无法自适应不同回声路径长度的难题；c) 设计两阶段级联架构（H-nnPBFDAF），以粗到精的方式提升回声估计精度。实验结果：在三个测试集上进行评估。如表1所示，在模拟短回声路径（Subset 1）上，H-nnPBFDAF的PESQ为3.12，ERLE为34.57 dB，优于传统PBFDKF（PESQ 2.93, ERLE 25.77 dB）。在AEC Challenge盲测集（Subset 2）上，H-nnPBFDAF在双讲回声评价（DT-E）得分为3.40，略低于Deep Adaptive AEC（4.40），但计算复杂度仅为其约1/26。在真实消费设备数据（Subset 3）上，H-nnPBFDAF的ERLE为21.47 dB，显著优于NKF（7.29 dB）。消融实验（表2）证实，采用块激活概率的nnPBFDAF在不同回声路径长度下的平均PESQ（2.87）优于所有固定分块数模型。实际意义：该方法在极低计算开销（仅占ARM Cortex-A35单核<9%资源）下实现了高性能AEC，并能自动适应回声路径变化，非常适合资源受限的消费类电子产品（如智能音箱、会议设备）部署，且模型已实际部署。主要局限性：作为线性AEC框架，对高度非线性失真的回声消除能力可能有限；神经网络部分的具体结构和训练策略细节（如优化器、学习率）未完全公开；代码未开源。 🏗️ 模型架构模型的核心是nnPBFDAF模块，其整体流程和内部结构如下图所示： ...

Hair Noise Analysis and Mitigation for Smart Glasses Audio Captures

📄 Hair Noise Analysis and Mitigation for Smart Glasses Audio Captures #语音增强 #信号处理 #麦克风阵列 #音频分类 #数据集 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #麦克风阵列 #音频分类学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Subrata Biswas（Worcester Polytechnic Institute, MA, USA 及 Meta Reality Labs, WA, USA）通讯作者：未明确说明（根据邮箱排列，可能是Daniel Wong）作者列表： Subrata Biswas（Worcester Polytechnic Institute 及 Meta Reality Labs） Daniel Wong（Meta Reality Labs） Bashima Islam（Worcester Polytechnic Institute） Sanjeel Parekh（Meta Reality Labs） Vladimir Tourbabin（Meta Reality Labs） 💡 毒舌点评亮点：论文开创性地将“头发噪音”这个长期困扰智能眼镜用户却鲜少被学界系统研究的“房间里的大象”定义为明确的学术问题，其用户研究和数据集构建工作扎实且具有长远价值。短板：提出的NMF基准方法略显保守，虽然有效，但在深度学习大行其道的今天，缺乏与基于深度学习的降噪/分离方法（如论文引用但未深入对比的[6][7][8]）的直接较量，使得“基准”的标杆高度受限。 ...