Icassp-2026

SED: Structural Entropy Based Speech Discretization for Discrete Token-Based ASR

📄 SED: Structural Entropy Based Speech Discretization for Discrete Token-Based ASR #语音识别 #自监督学习 #聚类 #语音大模型 #基准测试 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 #聚类 | #自监督学习 #聚类学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Ling Dong (昆明理工大学，云南人工智能重点实验室) 通讯作者：Shengxiang Gao (昆明理工大学，云南人工智能重点实验室) 作者列表：Ling Dong (昆明理工大学，云南人工智能重点实验室)、Wenjun Wang (昆明理工大学，云南人工智能重点实验室)、Yan Xiang (昆明理工大学，云南人工智能重点实验室)、Yantuan Xian (昆明理工大学，云南人工智能重点实验室)、Shengxiang Gao (昆明理工大学，云南人工智能重点实验室) 💡 毒舌点评亮点：将“结构熵”这一图论概念引入语音离散化，动机清晰（自适应确定簇数、显式建模帧间关系），为改进语音token质量提供了一个新颖的理论视角，实验结果也验证了其在WER和聚类纯度上优于K-means。短板：实验的“深度”不足——仅在LibriSpeech一个数据集上验证，且用于下游LLM（GPT2、Qwen2-0.5B）规模偏小，无法充分展示该方法在大模型时代的真正价值；同时，论文未提供任何代码或模型，对于一篇方法论文来说，严重削弱了其可复现性和社区影响力。 🔗 开源详情代码：论文中未提及任何代码仓库链接或开源计划。模型权重：论文中未提及是否公开SED离散化后的token序列或训练好的ASR模型权重。引用的预训练模型（HuBERT, WavLM, GPT2, Qwen2）本身是公开的。数据集：使用的是公开的LibriSpeech数据集，论文中未提供额外数据的获取方式。 Demo：论文中未提及提供在线演示。复现材料：论文给出了一些关键的超参数（如下采样因子s=0.001，块长度L=1000，优化器和学习率），但缺少许多完整复现所��的细节（如具体的图构建阈值搜索范围、增量优化中的迭代次数I、训练的具体batch size、日志记录等）。论文中引用的开源项目：HuBERT、WavLM的预训练模型；GPT2和Qwen2的LLM权重；使用了fairseq或类似框架进行语音特征提取（但未明确说明）。 📌 核心摘要要解决什么问题：如何将连续语音特征离散化为token序列，以适配大语言模型（LLM）的离散输入空间，同时保留足够的声学-语言学信息。现有方法（如K-means）需要预设簇数（码本大小），对多样的语音特征适应性差。方法核心是什么：提出SED方法。首先利用自监督模型（HuBERT/WavLM）提取语音特征；然后将特征建模为图节点，边权基于余弦相似度；最后通过最小化二维结构熵（2D-SE）对图进行自适应聚类，自动确定最优簇数，得到离散语音token。与已有方法相比新在哪里：1）自动确定簇数，无需人工调参；2）显式建模声学相关性，通过图结构捕捉帧间关系；3）采用增量式2D-SE最小化算法和分块处理策略，以应对长语音序列的计算开销。主要实验结果如何：在LibriSpeech ASR任务上，SED在多个子集上取得了低于K-means的WER。例如，在HuBERT+GPT2模型下，SED的WER（dev-clean: 2.83, dev-other: 5.71）优于K-means（3.05, 6.63）。聚类质量分析显示，SED的聚类纯度（ClsPur: 16.45%）远高于K-means（最高7.00%），音素纯度和PNMI也有提升。下表展示了关键WER对比结果：架构模型 dev-clean dev-other test-clean test-other Decoder-Only, Discretized via K-means HuBERT-Large + GPT2 3.05 6.63 3.11 7.12 WavLM-Large + GPT2 3.41 7.26 3.59 7.21 Decoder-Only, Discretized via SE (ours) HuBERT-Large + GPT2 2.83 5.71 2.94 6.02 WavLM-Large + GPT2 3.10 6.52 3.21 6.58 图2：展示了Ground Truth, K-means (K=2000), 和 SE聚类在top-10和top-20簇上的PCA可视化。论文指出，SE聚类比基于质心的K-means更能保持数据的有机结构，并在复杂簇中表现更优。 ...

Segmentwise Pruning in Audio-Language Models

📄 Segmentwise Pruning in Audio-Language Models #音频问答 #音频场景理解 #token剪枝 #音频大模型 #模型评估 ✅ 7.0/10 | 前50% | #音频问答 | #token剪枝 | #音频场景理解 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明（根据作者列表顺序推测为Marcel Gibier，但未明确标注）通讯作者：未说明作者列表：Marcel Gibier（Inria Paris），Pierre Serrano（Inria Paris），Olivier Boeffard（Inria Paris），Raphaël Duroselle（AMIAD），Jean-François Bonastre（AMIAD） 💡 毒舌点评亮点：方法设计巧妙且实用，通过简单的“分段再选Top-K”约束，显著缓解了标准Top-K可能导致的token时间聚集问题，在保持甚至提升性能的同时大幅降低计算开销，为ALM的推理加速提供了一个即插即用的轻量级方案。短板：方法本质是启发式规则，并未深入探究“为什么分段有效”背后的表征理论，例如分段大小如何与音频内容的时长、节奏特性相匹配。实验仅展示了推理加速，未涉及训练成本或对模型微调的潜在影响。 🔗 开源详情代码：论文中未提及代码链接。模型权重：使用了公开的预训练模型权重（Whisper-large-v3, Qwen2-Audio-7B-Instruct, Audio Flamingo 3），但未提及本次研究产生的新模型权重。数据集：使用了公开的标准基准数据集（Clotho v2, AudioCaps, ClothoAQA, MMAU）。 Demo：论文中未提及在线演示。复现材料：论文详细描述了实验设置（模型版本、音频处理参数、解码方式、关键超参数S=10），这为复现提供了良好基础。但未提供具体的脚本、配置文件或结果检查点。论文中引用的开源项目：Whisper-large-v3 (语音识别模型), Qwen2-Audio (音频语言模型), Audio Flamingo 3 (音频语言模型), Sentence-BERT (句子嵌入模型), VisionZip (视觉token剪枝方法)。 📌 核心摘要要解决什么问题：音频-语言模型（ALMs）通常将长序列的音频编码与文本嵌入拼接后送入Transformer，导致注意力机制的计算复杂度随序列长度平方增长，造成巨大的计算开销，限制了模型在长音频任务中的效率。方法核心是什么：提出一种名为“分段Top-K（Segmentwise Top-K）”的轻量级推理时token剪枝方法。该方法将音频编码器的输出序列划分为S个时间片段，在每个片段内独立选择注意力得分最高的若干token，从而保证剪枝后的token在时间维度上分布均匀。与已有方法相比新在哪里：不同于仅依赖注意力分数的全局Top-K（可能导致选中的token在时间上聚集）或基于相似度的合并方法（如VisionZip），本文方法显式地利用了音频信号的时序结构，通过分段约束在剪枝时促进了token的时间多样性，能更好地覆盖音频全程信息。主要实验结果如何：在Audio Flamingo 3和Qwen2-Audio-7B两个模型上进行的实验表明，仅保留25%的音频token，模型在音频描述（CIDEr）和音频问答（准确率）等任务上的性能下降通常小于2%（相对最大下降）。例如，在Audio Flamingo 3上保留25% token时，在ClothoAQA和MMAU-total上甚至比原始模型性能略高。同时，推理预填充阶段速度提升显著（从162.54ms降至29.55ms，提速约5.5倍）。实际意义是什么：该方法为部署和实时运行大型音频-语言模型提供了一种简单高效的优化途径，能大幅减少推理延迟和内存占用，而对核心任务性能影响极小，有助于推动ALM在边缘设备或低延迟场景的应用。主要局限性是什么：分段数量S=10是启发式选择，对不同长度或特性的音频可能非最优；方法仅在推理时应用，未探索与训练结合是否能带来更大收益；未深入分析剪枝后丢失的信息类型以及对极长或复杂音频的鲁棒性。 🏗️ 模型架构本文主要评估的是现有的音频-语言模型（Qwen2-Audio-7B-Instruct和Audio Flamingo 3），并提出应用于这些模型的剪枝方法。其架构（以所研究的模型为依据）如下： ...

SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection

📄 SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection #音频事件检测 #声源定位 #迁移学习 #多通道音频 ✅ 7.0/10 | 前25% | #音频事件检测 | #迁移学习 | #声源定位 #多通道音频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yun Liang (华南农业大学) 通讯作者：Cankun Zhong (华南农业大学, email: ck.zhong@scau.edu.cn) 作者列表：Yun Liang (华南农业大学), Peng Zhang (华南农业大学), Cankun Zhong (华南农业大学), Yishen Lin (华南农业大学), Luoan Gu (华南农业大学), Yan Chen (华南农业大学, 温氏食品集团股份有限公司) 💡 毒舌点评亮点：在适配器设计上做得相当扎实，没有满足于用一个万能MLP适配器，而是精心设计了Conv、DCT、SE三种分别针对时频局部结构、去相关、通道注意力的异构适配器，并通过可视化（图1）清晰展示了各自专注的“工作区域”，这种“专家治领域”的思路值得借鉴。短板：论文最大的遗憾是“关门谢客”——没有开源代码。对于一个强调“参数高效”和“可复现”的微调方法，不提供代码就像厨师不分享菜谱，大大降低了工作对社区的实际推动力。 ...

Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition

📄 Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition #多模态模型 #混合专家 #跨模态 #情感识别 ✅ 6.5/10 | 前25% | #多模态模型 | #混合专家 | #跨模态 #情感识别学术质量 8.0/7 | 选题价值 6.0/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Huan Zhao（湖南大学计算机科学与电子工程学院）通讯作者：Kehan Wang（湖南大学计算机科学与电子工程学院，邮箱：wangkh@hnu.edu.cn）作者列表：Huan Zhao（湖南大学计算机科学与电子工程学院），Ling Xiong（湖南大学计算机科学与电子工程学院），Kehan Wang（湖南大学计算机科学与电子工程学院） 💡 毒舌点评这篇论文的“选择性Hub融合”机制确实巧妙地解决了直接跨模态注意力带来的计算冗余和噪声放大问题，像一个精准的路由器；但其“模态异质专家”的设计相对直观，主要差异在于使用1D卷积处理音频、2D卷积处理视觉，对于是否真正深刻捕捉了模态特异性情感模式的论证稍显薄弱，更像是一种工程上的有效组合而非理论洞察。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开数据集CMU-MOSI和CMU-MOSEI，但未提供论文自身的数据集。 Demo：未提及。复现材料：论文提供了部分训练细节（如优化器、学习率、批大小、Hub大小、专家数量），但未提供完整的配置文件、训练脚本或附录中的详细复现步骤。论文中引用的开源项目：提到了预训练模型RoBERTa，以及特征提取工具COVAREP和FACET。总体而言，论文中未提及明确的开源计划。 📌 核心摘要要解决什么问题：现有方法在进行多模态情感识别时，直接融合音频和视觉模态会引入大量冗余和噪声（如环境噪音、背景运动），同时传统方法忽略了不同模态对情感识别的差异性贡献，导致单模态情感特征提取不足。方法核心是什么：提出SH-MHMoE模型，包含两个核心模块：a) 选择性Hub中介融合（SHMF）：引入少量（L=8）容量受限的Hub token作为中间枢纽，所有跨模态信息交换都必须经过这些Hub，通过路径约束过滤冗余信息。b) 多模态异构混合专家（MHMoE）：为文本、音频、视觉分别设计结构不同的专家网络（MLP、1D卷积、2D卷积），并通过稀疏门控网络激活少量专家，以增强每个模态独特的情感表达能力。与已有方法相比新在哪里：a) 相比直接跨模态注意力、特征拼接等融合方式，SHMF通过Hub token实现了更高效、低冗余的信息交换。b) 相比使用同质专家（如所有模态都用FFN）的MoE方法，MHMoE针对不同模态信号特点设计了异构专家，更符合归纳偏置。主要实验结果如何：在CMU-MOSI数据集上，SH-MHMoE在ACC-2（88.2%）、F1（88.1%）上超越所有对比方法，MAE（0.691）最低；在CMU-MOSEI数据集上，Corr（0.798）、ACC-2（87.6%）、F1（87.5%）、ACC-7（56.1%）均为最佳，MAE（0.516）次佳。关键实验对比表（CMU-MOSI）：模型 MAE ↓ Corr ACC-2% F1% MMA 0.693 0.803 86.4 86.4 Ours 0.691 0.797 88.2 88.1 关键实验对比表（CMU-MOSEI）：模型 MAE ↓ Corr ACC-2% F1% — — — — — AcFormer 0.531 0.786 86.5 85.8 Ours 0.516 0.798 87.6 87.5 消融实验（CMU-MOSEI）：移除SHMF或MHMoE模块都会导致性能明显下降，验证了模块有效性。替换SHMF为其他融合方式或MHMoE为同构专家，性能均不如原设计。实际意义是什么：为多模态情感识别提供了一个更鲁棒、高效的融合框架，能够抑制噪声并挖掘各模态特有情感信息，对提升人机交互、心理健康分析等应用的性能有直接帮助。主要局限性是什么：论文未讨论模态缺失情况下的鲁棒性；Hub token的具体选择和更新机制还有优化空间；异构专家的设计更多是基于模态信号特性的直观工程选择，缺乏更深入的理论分析。 🏗️ 模型架构整体架构（参考图1a）：输入为文本(Xt)、音频(Xa)、视频(Xv)特征，首先通过一个选择性Hub中介融合（SHMF）模块进行跨模态信息交互，生成增强后的各模态特征（̂Xt, ̂Xa, ̂Xv）。然后，这些特征分别输入多模态异构混合专家（MHMoE）模块进行进一步的情感特异性增强。最后，将增强后的各模态特征与Hub token连接，送入分类器得到最终预测。 ...

Self-Supervised Note Tracking and Multi-Pitch Estimation Via Reconstruction-Based Learning

📄 Self-Supervised Note Tracking and Multi-Pitch Estimation Via Reconstruction-Based Learning #多音高估计 #音符跟踪 #自监督学习 #音乐信息检索 #低资源 🔥 8.5/10 | 前25% | #多音高估计 #音符跟踪 | #自监督学习 #重构学习 | #多音高估计 #音符跟踪学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Heng-Hsiu Hu（中央研究院资讯研究所）通讯作者：未说明作者列表：Heng-Hsiu Hu（中央研究院资讯研究所）、Li Su（中央研究院资讯研究所） 💡 毒舌点评这篇论文的亮点在于其“无缝集成”的思路：将看似独立的MPE和OD模块通过统一的自监督框架和伪标签机制优雅地结合起来，最终构建了一个无需任何人工标签的完整音符跟踪流水线，这在工程实现和方法论上都颇具巧思。然而，其短板也同样明显：尽管在MPE上取得了亮眼成绩，但音符跟踪（POnOff）的整体F1分数相比监督学习的Basic-Pitch仍有显著差距（例如，在MusicNet上为49.1% vs. 46.9%），这暴露了当前纯自监督方法在精准捕捉音符完整时间结构上的局限性，论文对此的解释稍显不足。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/DeReKPIgg/Timbre-Drill。模型权重：论文中未提及公开预训练模型权重。数据集：使用了四个公开数据集（NSynth, URMP, MAPS, MusicNet），并说明了划分方式，读者可自行获取。 Demo：论文中未提供在线演示。复现材料：论文详细说明了模型架构（U-Net，跳跃连接）、输入特征（HCQT）、所有损失函数的公式与权重、优化器（AdamW）、学习率（1e-4）、批量大小（20）、训练步数（30,000）、硬件（单张RTX-3090）和训练时长（约12小时/模块）。这些信息对于复现训练过程足够充分。论文中引用的开源项目：主要依赖参考文献中提及的Timbre-Trap [9] 和 SS-MPE [10] 的架构与思想，以及Basic-Pitch [12] 的后处理流程和mir_eval [24] 的评估工具。 📌 核心摘要要解决什么问题：自动音乐转录领域因高质量标注数据稀缺而发展受限，特别是从多音高估计（MPE）扩展到包含起始点（onset）和结束点（offset）检测的完整音符跟踪（note tracking）任务时，挑战更大。 ...

Semantic Anchor Transfer from Short to Long Speech in a Distillation-Based Summarization Framework

📄 Semantic Anchor Transfer from Short to Long Speech in a Distillation-Based Summarization Framework #语音摘要 #知识蒸馏 #端到端 #迁移学习 ✅ 7.5/10 | 前25% | #语音摘要 | #知识蒸馏 | #端到端 #迁移学习学术质量 7.5/7 | 选题价值 7.0/2 | 复现加成 -0.3 | 置信度高 👥 作者与机构第一作者：Xiang He (新疆大学计算机科学与技术学院，新疆多模态信息技术工程研究中心) 通讯作者：Liang He (新疆大学计算机科学与技术学院，新疆多模态信息技术工程研究中心；新疆大学智能科学与技术学院；清华大学电子工程系) 作者列表：Xiang He (新疆大学计算机科学与技术学院，新疆多模态信息技术工程研究中心)、Xuejian Zhao (新疆大学计算机科学与技术学院，新疆多模态信息技术工程研究中心)、Longwei Li (新疆大学计算机科学与技术学院，新疆多模态信息技术工程研究中心)、Liang He (新疆大学计算机科学与技术学院，新疆多模态信息技术工程研究中心；新疆大学智能科学与技术学院；清华大学电子工程系) 💡 毒舌点评亮点：论文直击当前端到端语音摘要的一个实际痛点——长语音处理中的语义漂移问题，并提出了一个逻辑自洽且工程上可行的“锚点迁移”两阶段训练策略，实验也证实了其有效性。短板：核心创新“锚点迁移”本质上是对现有Q-Former架构的一种适配性工程优化和训练策略设计，在基础理论或模型结构上的原创性贡献相对有限；此外，论文对伪标签噪声这一关键问题仅在动机部分提及，实验中未做深入分析或缓解。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中使用的LibriSpeech、MEGA-SSum、CNN/DailyMail均为��开数据集。论文指出，对于训练，他们基于LibriSpeech使用文本摘要模型生成伪标签，具体生成方式和使用的摘要模型未详述。 Demo：未提及。复现材料：提供了模型架构的详细描述（如Q-Former的层数、头数、查询token数）、损失函数公式、训练阶段设计。但缺失关键训练超参数（优化器、学习率、batch size等）和训练环境信息。论文中引用的开源项目/模型： HuBERT：用作语音编码器。 MiniChat-3B / Llama 2 7B：用作冻结的LLM。 WeNet：用于构建ASR级联基线。 LLaMA 2-Chat 7B：用于生成评估用的参考摘要。 fairseq s2：用于CNN/DailyMail数据集的语音合成。总结：论文依赖多个公开的预训练模型和数据集，提供了详细的架构和策略描述，但核心创新部分（如训练好的Q-Former和投影层W）未开源，完全复现仍需大量实验工作。论文中未提及开源计划。 📌 核心摘要要解决什么问题：在基于知识蒸馏的端到端语音摘要系统中，现有方法存在冗余token多、推理效率低、难以建模长语音跨段依赖、分段处理导致语义漂移等问题。方法核心是什么：提出一种增强的蒸馏框架。首先，设计一个改进的锚点感知Q-Former（Anchor-aware Q-Former），用于对短语音进行语义感知的特征压缩和对齐。其次，提出“语义锚点迁移”策略：将短语音阶段学到的输出投影层（W）作为“语义锚点”，通过滑动窗口分段的Q-Former将其迁移到长语音输入，并配合“冻结-解冻”的两阶段训练策略，以抑制语义漂移并稳定训练。与已有方法相比新在哪里：主要新在两个方面：1）使用改进的Q-Former替代了原有的池化、交互式注意力或层级合并等融合策略，实现了更高效的语义压缩；2）提出了将短语音上学到的投影矩阵作为“锚点”迁移到长语音处理中，并结合专门设计的两阶段训练流程，这是解决跨段语义漂移问题的具体新方案。主要实验结果如何：在CNN/DailyMail长语音数据集上，所提方法（QF*+ LLM）的ROUGE-L分数为47.96，相对最强基线（Pooling+ LLM的37.48）提升了约10%。推理时间从1.15小时降至1.08小时，输入token数从1125个降至264个。消融实验证明，省略“冻结锚点”的第一阶段训练会导致METEOR分数从49.14显著下降至43.01。关键实验数据如下表所示：数据集模型 Rouge-1 Rouge-2 Rouge-L METEOR BERTScore Tokens Time CNN/DailyMail (Anchor Transfer) Ground-truth text + LLM 53.79 29.83 49.67 56.48 90.66 — — WeNet + LLM 49.62 21.31 43.88 39.57 87.83 — — Stack + LLM [11] 44.58 20.05 40.11 37.90 86.30 1125 1.25h Multi-head + LLM [22] 31.89 7.55 27.54 22.67 84.82 60 1.20h Pooling + LLM [9] 51.12 27.50 37.48 45.63 90.50 1125 1.15h QF*+ LLM (Ours) 53.21 25.59 47.96 49.14 89.37 264 1.08h w/o Stage-1 52.03 24.26 46.84 43.01 88.34 264 1.13h w/o Stage-2 52.96 25.09 47.86 44.10 89.37 264 1.10h 实际意义是什么：该方法为在高质量配对数据稀缺条件下，如何利用冻结的大语言模型（LLM）高效处理长语音并生成高质量摘要提供了一种有效的解决方案，通过“锚点迁移”降低了长语音处理的难度和计算成本。主要局限性是什么：1）核心创新偏向工程优化和策略设计，在架构原创性上深度有限；2）实验主要基于合成语音（CNN/DailyMail）和LibriSpeech读语，对真实世界嘈杂、对话式长语音的泛化能力有待验证；3）论文未讨论并分析其使用的伪标签本身的质量和噪声影响。 🏗️ 模型架构该模型是一个基于知识蒸馏的端到端语音摘要系统，核心是在冻结的大语言模型（LLM）前，接入一个可训练的语音编码器和一个跨模态桥接模块（Q-Former）。整体架构如图2所示。 ...

Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning

📄 Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning #音频分类 #零样本学习 #多模态模型 #对比学习 #音视频 ✅ 7.0/10 | 前25% | #音频分类 #零样本学习 | #多模态模型 #对比学习 | #音频分类 #零样本学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Siteng Ma（苏州大学）通讯作者：Wenrui Li（哈尔滨工业大学）作者列表：Siteng Ma（苏州大学）、Wenrui Li（哈尔滨工业大学）、Haocheng Tang（北京大学）、Yeyu Chai（哈尔滨工业大学）、Jisheng Chu（哈尔滨工业大学）、Xingtao Wang（哈尔滨工业大学） 💡 毒舌点评本文的亮点在于将自适应模态加权、语义引导的变分生成与语义对齐的对比学习巧妙融合，形成了一个逻辑自洽的统一框架来解决GZSL中的核心矛盾，并在两个基准数据集上取得了SOTA。然而，其短板在于对SVG模块中具体网络结构的描述较为简略，且未提供任何开源代码或详细的超参数搜索过程，使得完全复现该工作的细节变得困难。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了ActivityNet, VGGSound, UCF等公开基准数据集，但论文中未提供具体获取方式。 Demo：未提及。复现材料：论文中提及了部分超参数（损失函数权重λ1-λ5），但缺乏训练细节（如学习率、batch size、优化器、训练轮数）、模型具体配置（如编码器/解码器结构、隐藏维度）以及预训练骨干网络信息。论文中引用的开源项目：论文引用了多个相关工作，但未明确说明其SGPAN实现依赖了哪些具体的开源代码库或工具。总结：论文中未提及开源计划。 📌 核心摘要这篇论文旨在解决音频-视觉广义零样本学习（GZSL）中因模态竞争和类间分布重叠导致的对可见类过度偏置问题。核心方法是提出一个名为SGPAN的多模态框架，它集成了三个关键组件：1）自适应模态重加权（AMR），动态调整音频和视觉分支的损失权重以平衡学习；2）语义引导变分生成（SVG），利用文本语义条件化的VAE生成伪特征，以扩大类内覆盖并缓解类别混淆；3）语义对齐对比损失（SACL），在投影空间中对齐跨模态特征并扩大类间距。与已有方法相比，新在将特征生成、动态模态平衡与对比学习在同一个端到端框架内协同优化。实验表明，SGPAN在UCF-GZSL和VGGSound-GZSL数据集上的调和平均精度（HM）上取得了当时最优的结果。该工作的实际意义在于为开放世界下的多模态视频理解提供了一个更鲁棒的零样本识别方案。主要局限性包括模型性能对语义标签的质量以及batch统计量的依赖。 🏗️ 模型架构模型的整体架构如图1所示。SGPAN是一个基于交叉注意力的多模态框架，其输入是来自预训练骨干网络的音频和视觉特征。 ...

SEP-ST: Incorporating Speech Entity Prompt Into Large Language Models for Speech Translation

📄 SEP-ST: Incorporating Speech Entity Prompt Into Large Language Models for Speech Translation #语音翻译 #大语言模型 #多任务学习 #命名实体识别 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #多任务学习 | #大语言模型 #命名实体识别学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Fei OuYang (昆明理工大学，云南人工智能重点实验室) 通讯作者：Zhengtao Yu (昆明理工大学，云南人工智能重点实验室) 作者列表：Fei OuYang (昆明理工大学，云南人工智能重点实验室)、Linqin Wang (昆明理工大学，云南人工智能重点实验室)、Zhengtao Yu (昆明理工大学，云南人工智能重点实验室) 💡 毒舌点评亮点在于直击端到端语音翻译中“命名实体”这个老大难问题，提出了一种无需外部知识库、通过联合训练从语音中直接提取实体特征提示LLM的优雅方案，在CoVoST-2和MuST-C上的实体翻译准确率（TSR）提升非常亮眼。短板是方法高度依赖于预训练的NER模型生成训练标签，且消融实验显示一种核心变体（Transformer-based）效果不佳，这使得其“端到端”的纯粹性打了折扣，更像是一个“半端到端”的增强方案。 🔗 开源详情代码：论文中提供代码仓库链接：https://github.com/Crabbit-F/SEP。模型权重：未提及是否公开预训练或训练好的模型权重。数据集：使用公开数据集CoVoST-2和MuST-C，但未提及是否提供自建的SEP提取数据集。 Demo：未提及。复现材料：提供了基本的训练细节（优化器、学习率、warmup步数、调度策略）和模型架构描述。关键超参数（λ值）、硬件信息、完整的训练配置文件未说明。引用的开源项目：依赖预训练模型：Whisper-large-V3（语音编码器）、Qwen2.5（LLM）、Q-Former（适配器）、roberta-large-ner-english（NER工具）。 📌 核心摘要问题：当前端到端语音翻译模型在翻译命名实体（如人名、地名、机构名）时准确率不足，而依赖级联或外部知识库的方法存在误差传播和泛化性差的问题。方法核心：提出SEP-ST，一个端到端框架。其核心是新增一个“语音实体提示（SEP）提取模块”，直接从语音表征中学习并提取实体相关的嵌入特征。然后将该特征与原始语音特征和文本指令拼接，共同输入大语言模型（LLM）进行翻译，从而引导模型关注并准确翻译实体。创新点：与已有方法相比，该工作是首个提出直接在语音表征层面进行端到端实体特征提取并作为提示整合进LLM的统一框架，摆脱了对外部实体词典或检索模块的依赖。主要实验结果：在CoVoST-2数据集上，平均BLEU从39.1提升至40.6，实体翻译成功率（TSR）从36.4%提升至70.5%。在MuST-C零样本评估中，平均BLEU从16.9提升至20.6。具体对比数据见下表。方法 CoVoST-2 (En2X) Avg BLEU CoVoST-2 (En2X) Avg TSR MuST-C (zero-shot) Avg BLEU MuST-C (zero-shot) Avg TSR LLM-SRT-7B (基线) 39.1 36.4 16.9 43.2 SEP-ST (CTC-based) 40.6 70.5 20.6 55.0 实际意义：提升了语音翻译在真实场景（常包含大量实体）中的可用性和保真度，简化了现有实体翻译增强方案的流程。主要局限性：SEP提取模块的训练依赖于预训练NER模型标注的伪标签；其Transformer变体效果不佳，表明该特征学习方式有待探索；实验仅限于英译德/日/中三种语言方向。 🏗️ 模型架构整体架构（如图2(a)所示）由四个核心组件顺序连接，输入为语音，输出为翻译文本。 ...

Separate this, and all of these Things Around It: Music Source Separation Via Hyperellipsoidal Queries

📄 Separate this, and all of these Things Around It: Music Source Separation Via Hyperellipsoidal Queries #音乐分离 #音频检索 #零样本 #少样本 #信号处理 ✅ 7.0/10 | 前25% | #音乐分离 | #音频检索 | #零样本 #少样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Karn N. Watcharasupat（佐治亚理工学院音乐信息学组）通讯作者：未说明作者列表：Karn N. Watcharasupat（佐治亚理工学院音乐信息学组）、Alexander Lerch（佐治亚理工学院音乐信息学组） 💡 毒舌点评亮点：论文将“用几何形状圈定目标”这一优雅直觉成功转化为音乐源分离的模型输入，让“我想分离‘这个声音以及它周围所有类似的玩意儿’”这样的模糊创意需求变得可计算，思路非常漂亮且具扩展性。短板：然而，论文的“灵活性”很大程度上停留在理论设计层面，其训练仍完全依赖于监督学习下的固定茎干数据集，这使得实际能分离的“任意目标”依然受限于训练数据的分布，用户界面上的“自由绘制超椭球”体验可能远不如想象中流畅。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开的MoisesDB数据集，但论文未说明如何获取其特定处理后的版本。 Demo：未提及在线演示。复现材料：未提供训练细节（如优化器、学习率）、模型配置文件或检查点。arXiv补充材料仅包含部分数学推导和更多实验结果图。论文中引用的开源项目：引用了MoisesDB数据集、BSSEval工具包、PaSST模型等作为基线或组件来源。 📌 核心摘要要解决什么问题：传统音乐源分离（MSS）系统通常只能提取预设的固定类别（如人声、鼓、贝斯、其他），限制了其在创意音乐制作中的灵活性。论文旨在构建一个能根据用户查询，提取任意单一或复合目标声音的分离系统。方法核心是什么：提出“基于超椭球体查询的区域查询”范式。用户通过在预训练音频嵌入空间（如PaSST）中指定一个超椭球体的中心（代表目标）和形状（代表目标的“范围”或“相似度容差”），来描述要提取的声音。模型（在作者前作Banquet基础上扩展）通过FiLM条件模块接收该查询，并从混合音频中分离出所有嵌入落在该超椭球体内的声源。与已有方法相比新在哪里：从“点查询”升级为“区域查询”。之前的查询式分离方法（如Banquet）只能通过一个点（单个示例的嵌入）来指定目标，无法控制查询的宽泛程度。本工作引入超椭球体，允许用户直观地控制目标的“位置”和“扩散范围”，支持从非常具体到宽泛的连续查询，是首个系统化实现音乐源分离中区域查询的工作。主要实验结果如何：在MoisesDB数据集上进行评估。单源查询：通过遍历不同尺度因子α，发现模型性能对查询宽度敏感。采用最佳α后，本方法在长尾乐器（如管风琴、合成器、铜管、簧片）上的性能（中位SNR）显著优于前作Banquet，解决了其输出坍塌问题（如图4所示）。在MUSDB18-HQ上，对人声、贝斯、鼓的中位SNR分别为8.5 dB、6.8 dB、3.0 dB。多源查询：系统性能随目标源占混合源比例的增加而提升（如图5、6所示）。整体检索指标为：平均精度（AP）0.83，加权mAP 0.86，准确率0.76，F1值0.81（见表1）。检索评估：论文创新性地提出一种基于最小二乘投影的近似检索评估方法，将分离输出视为检索结果，并计算准确率、召回率、mAP等指标。实际意义是什么：为专业音乐人、混音师和普通用户提供了一种更灵活、更接近自然语言描述的音频分离工具。例如，用户可以分离“所有钢琴独奏片段”或“贝斯和鼓的节奏部分”，而不仅仅是固定的茎干，极大扩展了MSS在创意工作流中的应用潜力。主要局限性是什么：训练依赖监督数据：模型的灵活性受限于训练数据中提供的声音类别和组合。对于训练集中从未共同出现过的声音组合，超椭球查询的泛化能力未经验证。查询设计依赖嵌入空间：查询的有效性高度依赖于PaSST嵌入空间的质量，其PCA降维可能损失了部分区分信息。开源缺失：未提供代码和预训练模型，难以验证和复现。 🏗️ 模型架构论文描述的整体系统架构是一个经典的基于时频掩膜的音源分离网络，但在其瓶颈层引入了基于查询的条件适应机制。 ...

Sequence-Level Unsupervised Training in Speech Recognition: A Theoretical Study

📄 Sequence-Level Unsupervised Training in Speech Recognition: A Theoretical Study #语音识别 #无监督学习 #低资源 ✅ 6.5/10 | 前50% | #语音识别 | #无监督学习 | #低资源学术质量 4.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Zijian Yang（RWTH Aachen University， Human Language Technology and Pattern Recognition组）通讯作者：未说明作者列表：Zijian Yang（RWTH Aachen University）， Jörg Barkoczi（RWTH Aachen University）， Ralf Schlüter（RWTH Aachen University， AppTek GmbH）， Hermann Ney（RWTH Aachen University， AppTek GmbH） 💡 毒舌点评论文构建了一个从分类误差界到训练损失的严谨理论链条，逻辑自洽且推导细致。但讽刺的是，作为一篇标题和摘要都直指“语音识别”的论文，它竟然没有展示任何真实语音识别任务（如音素、单词或句子识别）的实验结果，让漂亮的理论悬在空中，无法证明其对实际性能的提升作用。 ...