语音/音乐/音频论文速递 2026-06-15

共分析 26 篇论文

⚡ 今日概览

📥 抓取 26 篇 → 🔬 深度分析完成

🏷️ 热门方向

方向	数量	分布
#语音识别	4篇	████
#语音合成	4篇	████
#说话人识别	3篇	███
#数据增强	2篇	██
#音频问答	2篇	██
#语音增强	1篇	█
#音乐信息检索	1篇	█
#强化学习	1篇	█

📊 论文评分排行榜（26 篇，按分数降序）

排名	论文	总分	分档	主任务
🥇	Listening with Attention: Entropy-Guided Explainability	9.6分	前25%	#语音识别
🥈	MaskedFOP: Polyglot Speaker Identification under Missin	9.2分	前25%	#说话人识别
🥉	HIDVAS: A Hearing Instrument Dataset in Various Acousti	9.0分	前25%	#语音增强
4.	BayLing-Duplex: Native Full-Duplex Speech Dialogue with	9.0分	前10%	#语音合成
5.	Moonlight in Latent Space: Chirality and Structural Cor	8.7分	前50%	#音乐信息检索
6.	Who Spoke When in Multi-Conversation: Target Speaker Ta	8.6分	前50%	#说话人识别
7.	Learning to Hear Hesitation: Continual Learning for Dis	8.3分	前25%	#语音识别
8.	The Holistic Storage of Verb+Up Phrases in Text-based a	8.2分	前50%	#语音识别
9.	OmniVideo-100K: A Dataset for Audio-Visual Reasoning th	8.2分	前50%	#数据增强
10.	Orchestra-o1: Omnimodal Agent Orchestration	8.1分	前50%	#强化学习
11.	Unsupervised Approaches for Global Prosodic Embedding E	7.8分	前25%	#语音合成
12.	Instantaneous Pitch Estimation via Wave-U-Net-Based Fun	7.7分	前25%	#数据增强
13.	A Deep Zero-Inflated Model of North Atlantic Right Whal	7.6分	前50%	#概率图模型
14.	FAConformer: Frequency-Aware Convolutional Transformer	7.5分	前25%	#Transformer
15.	From Self-Supervised Speech Models to Mixture-of-Expert	7.5分	前50%	#自监督学习
16.	The Perceived Fragility of Explanations in Audio Models	7.5分	前25%	-
17.	A Multi-Domain Feature Fusion Framework for Generalizab	7.4分	前50%	#多模态模型
18.	AudioDER: A Deduplication-Enhanced Reasoning Dataset fo	7.3分	前50%	#音频问答
19.	Beyond task performance: Decoding bioacoustic embedding	7.1分	前50%	-
20.	Explainable and Trustworthy Speech Emotion Recognition	7.0分	前50%	#语音情感识别
21.	FoleyGenEx: Unified Video-to-Audio Generation with Mult	7.0分	前50%	#语音合成
22.	Spatio-Temporal Audio Language Modeling for Dynamic Sou	6.9分	前25%	#音频问答
23.	Mask, Sample, Revise: A Revisable CTMC Inference Stack	6.8分	前25%	#语音合成
24.	MoDiCoL: A Modular Diagnostic Continual Learning Datase	6.5分	前50%	#语音识别
25.	Multimodal Speaker Identification in Classroom Environm	6.0分	前50%	#说话人识别
26.	Efficiency-Performance Trade-offs in Neural Speaker Dia	5.1分	后50%	#说话人日志

📋 论文列表

🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models

9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

👥 作者与机构

Ravi Ranjan (Florida International University，通讯作者)，Utkarsh Grover (University of South Florida)，Xiaomin Lin (University of South Florida)，Agoritsa Polyzou (Florida International University)。论文已被INTERSPEECH 2026接收。

💡 毒舌点评

这篇论文在可解释AI（XAI）这个“网红”赛道上试图解决一个实际痛点：Transformer ASR模型的“黑箱”问题。LEAF-X这个名字起得很有品牌感，将“聆听”、“熵”、“注意力”、“忠实”几个关键词打包。其核心思想——用注意力的熵来筛选“靠谱”的注意力头，再结合跨层传播和因果消融——逻辑上是通的，也确实针对了现有方法（如纯注意力、LIME等）在音频时序定位和忠实度上的弱点。作者在实验设计上做足了功课，用了两个主流模型（Whisper, Canary）和两个数据集（LibriSpeech, TED-LIUM）进行交叉验证，并提出了一个相对全面的评估指标体系（LEAF-XBench）。结果也显示，在多项指标上取得了“最优或接近最优”的成绩。然而，作为一篇旨在提升透明度的方法论文，其自身的“透明度”仍有改进空间：1）实验部分对多次运行的标准差描述略显模糊（仅给出范围而非具体数值），这在严格的顶会审稿中可能会被追问统计显著性；2）关于计算开销的讨论，尤其是因果重加权部分的成本-收益权衡，目前的描述更像是功能开关而非定量的工程分析；3）最大的遗憾在于，尽管提到了“用户研究验证”，但最终并未提供，这使得“可解释性”在人类用户层面的价值未能闭环；4）方法中对“音频伪令牌”的描述以及其与编码器-解码器模型处理方式的差异，可以更清晰地阐述以提升通用性印象。总体而言，这是一篇扎实、有明确贡献的工作，但距离让审稿人无可挑剔（尤其是对实验严谨性和实用性论证的挑剔）还差临门一脚。

📌 核心摘要

论文针对基于Transformer的自动语音识别（ASR）模型（如Whisper）缺乏可解释性的问题，提出了一种名为LEAF-X的模型内在可解释性框架。该框架旨在为每个解码的token生成对应的音频帧归因图，以揭示支持预测的声学证据。LEAF-X的核心组件包括：1）基于注意力输出熵的注意力头加权，用于突出低熵、高置信度的注意力模式；2）跨层注意力传播（rollout），以聚合多层信息；3）可选的轻量级因果重加权，通过逐层消融估计层重要性。在Whisper-large-v3和Canary-Qwen-2.5B模型、LibriSpeech与TED-LIUM 3数据集上的实验表明，LEAF-X在五项评估指标（D-AOPC， TLoc， SPR， STAB， INF）中的四项上取得了最优或接近最优的结果，证明了其在解释忠实度、稀疏性和稳定性方面优于现有强基线方法。论文还提出了一套用于评估音频可解释性方法的综合指标（LEAF-XBench），并提供了定性示例和审计场景分析。

🔗 开源详情

代码：https://github.com/raviranjan-ai/LEAFX-interspeech-2026 (提供实现框架与复现脚本)
模型权重：论文中未提及
数据集：论文中提及使用了LibriSpeech（标准划分train-clean-100，测试集test-clean与test-other）和TED-LIUM Release 3（官方划分train-70%/val-10%/test-20%），但未提供数据集的具体下载链接。
Demo：论文中未提及
复现材料：论文中提供了详尽的算法伪代码与实现细节（附录A），并给出了主要超参数的设置（如熵温度\(\tau\)的典型范围为[0.5, 2]）。未提供具体的训练配置文件或预训练检查点。

🥈 MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

9.2/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

👥 作者与机构

Ayoub Elkhouzari, Youssef Iraqi, Loubna Mekouar College of Computing, University Mohammed VI Polytechnic, Ben Guerir, Morocco

💡 毒舌点评

这篇论文像一台为特定比赛精心调校的赛车，在POLY-SIM 2026的封闭赛道上跑出了令人印象深刻的圈速（0.9989）。但它的“创新”更像是高超的“工程缝合”：把现成的ECAPA-TDNN、FaceNet、模态Dropout和图传播像乐高一样拼起来，核心亮点——“级联稠密播种”——本质上是在利用比赛协议提供的“上帝视角”（完整测试集）进行转导学习。这在一个开放世界或流式场景里会立刻失效，论文自己也承认了。实验部分，那个“面部最近邻手术补丁”和“得分API验证补丁”让我眉头一皱——这到底是严谨的科学实验，还是为了刷榜而进行的“后处理调参”？虽然作者声称为了透明度而报告，但这严重削弱了端到端自动化系统的说服力。消融实验表格清晰，但所有分数都是单次运行，在统计可靠性上有所欠缺。总的来说，这是一个在特定约束下高效解决问题的系统工程案例，但其技术贡献的通用性和深度有限，更像是一份优秀的竞赛报告而非突破性的研究论文。

📌 核心摘要

针对POLY-SIM 2026挑战赛中“测试时视觉模态完全缺失”和“跨语言（英语到乌尔都语）泛化”两大核心难题，MaskedFOP系统提出了一个三管齐下的解决方案：1）基于FOP骨干网络的模态Dropout双头训练，迫使音频分支在训练时就学习独立的判别能力；2）使用两个不同随机种子训练的模型，对输出音频嵌入进行平均，以提升表征的鲁棒性；3）一个两阶段级联推理流水线：第一阶段在包含人脸模态的划分上通过图标签传播生成高质量的多模态标签，第二阶段将这些标签作为稠密锚点，通过余弦最近质心为仅音频划分进行分配。该系统在挑战赛中以0.9989的平均P-准确率获得第一名，消融实验证明级联稠密播种是性能提升最大的单一组件。

🔗 开源详情

代码：https://github.com/Ayoub-Elkhouzari/POLY-SIM2026
模型权重：论文中未提及。
数据集：论文中提及使用了POLY-SIM 2026数据集，但未提供该数据集的具体下载链接或官方主页��论文脚注1指向评估计划的arXiv链接：https://arxiv.org.abs/2603.24569。
Demo：论文中未提及。
复现材料：论文中提供了详细的训练配置，包括优化器（Adam，学习率\(10^{-3}\)，权重衰减\(10^{-5}\)）、批大小（32）、训练轮次（最多300轮，使用余弦退火）、损失函数（标签平滑交叉熵\(\varepsilon=0.05\)，正交投影损失\(\lambda=0.5\)）。两个模型种子的具体划分（s1：验证比例0.05，早停耐心30；s2：验证比例0.10，耐心15）。图传播参数（\(K=7\)，\(\alpha=0.65\)，迭代50步）。未提供训练好的检查点或附录。
论文中引用的开源项目：
- ECAPA-TDNN：论文提及为预训练的说话人嵌入模型，源自论文“Desplanques et al., 2020”，但未提供具体开源实现链接。
- FaceNet：论文提及为预训练的人脸嵌入模型，源自论文“Schroff et al., 2015”，但未提供具体开源实现链接。
- VoxCeleb：论文提及为ECAPA-TDNN的预训练数据集，未提供数据集链接。
- POLY-SIM 2026挑战赛：提供了评估计划的arXiv链接：https://arxiv.org/abs/2603.24569。
- 其他引用项目（如ModDrop, FOP, Wav2vec 2.0等）均为方法论文引用，未在论文中提供具体开源代码或模型链接。

🥉 HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training

9.0/10 | 创新 1.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5

👥 作者与机构

作者: Arnout Roebben (共同一作), Giuliano Bernardi (共同一作), Jan Wouters, Toon van Waterschoot, Marc Moonen 机构: KU Leuven (Department of Electrical Engineering, ESAT-STADIUS; Department of Neurosciences, ExpORL) 单位邮箱: {arnout.roebben, giuliano.bernardi, jan.wouters, toon.vanwaterschoot, marc.moonen}@kuleuven.be

💡 毒舌点评

这篇论文的核心贡献是“构建并发布”了一个数据集，而非提出新算法或理论。创新性主要在于将多种已知变量（多麦克风、多扬声器、多耳罩、多混响）在一个助听器场景下系统性地组合并录制，这更像是工程上的整合与整理工作，学术新颖性有限。尽管数据集构建过程详细、校准严谨，但论文对于“为何是这些特定条件”以及“如何确保这些组合的代表性”讨论不足。三个用例分析较为基础，更侧重于验证数据集本身特性的“可观测性”，而非展示其在驱动算法创新上的“可能性”。论文声称数据集是“全面且真实的”，但“真实”性受限于假人头模型，而“全面”性则受限于单一品牌助听器组件和有限的声学场景。对于一篇顶会论文而言，其贡献深度略显单薄。

📌 核心摘要

本文介绍了助听器应用场景音频数据集（HIDVAS）。该数据集旨在为助听器及相关音频信号处理算法的评估和数据驱动训练提供一个全面且真实的基准。数据集使用一个配备耳后式（BTE）助听器外壳（含双麦克风）和接收器在耳道内（RIC）助听器扬声器的假人头，在可控混响的实验室环境中录制。录制内容包括使用扫频正弦波计算的脉冲响应，以及通过八个外部扬声器播放的多种声源（男女语音、语音整形噪声、歌声、弦乐、管乐、打击乐）的同步音频录制。录制覆盖了四种助听器耳罩（开放、半开放、封闭、无RIC）与四种混响条件（\(T_{30}\) = 0.09s, 0.47s, 0.73s, 1.48s）的组合。论文通过三个示例用例（反馈路径、直接与混响声比DRR、泄漏分析）验证了数据集的效用，并发现耳罩类型对反馈和泄漏有显著影响，混响时间对BTE麦克风处的DRR有显著影响。数据集总规模约为157.5小时，51.03 GB，已公开可用。

🔗 开源详情

代码：论文提及代码仓库 [roebben_github]，包含用于播放、录制以及复现论文第3.2节、第5节和第6节结果的脚本。未直接给出URL，但提供了引用标识。
模型权重：未提及。
数据集：数据集名为 HIDVAS (Hearing Instrument Dataset in Various Acoustical Scenarios)。
1. 主数据集：通过引用标记 [roebben_dataset] (figshare) 获取，包含完整音频录制和脉冲响应，或仅包含脉冲响应的经济版本。
2. 扩展版本：通过引用标记 [roebben_dataset2] (Zenodo) 获取，包含因许��证限制而未包含在主数据集中的 LISTf 和 LISTm 材料及相应的 SSN 录音，并附有许可证合规信息。
Demo：未提及。
复现材料：复现所需的代码已包含在上述代码仓库 [roebben_github] 中。
论文中引用的开源项目：
1. IoSR MATLAB Toolbox：用于估计混响时间（T30）和计算直达混响比（DRR）。
2. pyloudnorm：一个用于根据 ITU-R BS.1770-4 标准对音频文件进行响度标准化的 Python 工具箱。

4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

9.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5

👥 作者与机构

论文有三位作者：Qingkai Fang、Shoutao Guo、Yang Feng。他们都隶属于中国科学院计算技术研究所（ICT/CAS）的智能信息处理重点实验室、中国科学院AI安全重点实验室以及中国科学院大学。

💡 毒舌点评

这篇论文在“如何让LLM学会实时对话”这个问题上给出了一个相当聪明的答案。它没有像Moshi那样另起炉灶搞一套复杂的双流并行架构，而是巧妙地在现有的单工LLM（GLM-4-Voice）上“打补丁”——通过精心设计的多通道交错序列和四个特殊令牌，把“什么时候该说话、什么时候该闭嘴、什么时候该被打断”这些复杂决策，统统变成了LLM最擅长的“下一个词预测”游戏。这个想法非常优雅，工程上也极其友好，40万样本微调就能从单工变全双工，成本控制堪称典范。实验结果也足够亮眼，尤其是在轮流和打断的成功率上碾压了Moshi，证明了“内化决策”的有效性。然而，它的软肋也很明显：所有实验都在干净、无噪、单人的合成语音上进行，这就像在无菌实验室里测试越野车，真正开上马路（复杂现实环境）表现如何，谁也不知道。此外，0.8秒的固有延迟虽然被提及，但分析深度不足，对于追求极致响应速度的应用来说，这可能是一个硬伤。总体而言，这是一篇工程思维出色、架构设计巧妙的工作，但其宣称的“原生全双工”能力，还需要在更“脏”的真实世界数据中经受考验。

📌 核心摘要

本文提出了BayLing-Duplex，一个基于单一自回归大语言模型（LLM）的原生全双工语音对话系统。该系统通过一种创新的多通道交错序列布局，将用户语音、助手文本和助手语音三个流以固定块大小交错组织，并引入[SILENCE]、[ASSISTANT]、[PAD]、[EPAD]四个对话状态特殊令牌。这一设计将全双工对话中的轮流说话和打断决策，完全转化为标准LLM的下一个令牌预测任务，无需任何额外的分类头、状态机或外部语音活动检测（VAD）模块。模型以GLM-4-Voice为骨干，仅通过在40万全双工合成样本上进行有监督微调（SFT）和直接偏好优化（DPO）两阶段训练，便实现了从单工到全双工的能力转换。实验表明，BayLing-Duplex在轮流说话成功率（92.0%）和打断成功率（100%）上大幅超越了基线模型Moshi，并在语音问答等任务上保持了与单工版本相当或更优的性能，验证了全双工建模并未以牺牲回复质量为代价。

🔗 开源详情

代码：https://github.com/BayLing-Models/BayLing-Duplex
模型权重：论文中未直接提供独立的模型权重下载链接，但根据摘要中的信息，代码和模型已发布于上述GitHub仓库。模型基于GLM-4-Voice检查点训练。
数据集：论文中描述的数据集为基于Alpaca和UltraChat数据集，通过Llama-3.3-70B-Instruct改写并使用CosyVoice合成的多轮对话语音语料，后被转换为全双工格式。原始合成数据集的获取链接论文中未提及。
Demo：论文中未提及。
复现材料：论文中提供了详细的训练配置。SFT阶段：在400K全双工样本上训练1个epoch，批量大小32，峰值学习率1e-5，使用带10%预热的余弦学习率调度。DPO阶段：训练200步，峰值学习率3e-7，β=0.5，λ_ftx=0.5，使用带5%预热的余弦学习率调度。训练代码基于LLaMA-Factory。但检查点文件的具体下载链接论文中未提及。
论文中引用的开源项目：
- GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice
- Whisper-large-v3: https://github.com/openai/whisper
- CosyVoice: https://github.com/FunAudioLLM/CosyVoice
- LLaMA-Factory: https://github.com/hiyouga/LLaMA-Factory

5. Moonlight in Latent Space: Chirality and Structural Correspondence Between Beethoven's Op. 27 No. 2 and Machine Learning Mechanisms

8.7/10 | 创新 1.6/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5

👥 作者与机构

Chen Ying Claude：贡献为分析、写作、代码实现。
Zhihan Luo：贡献为现象学观察、乐谱验证、编辑。机构：论文未明确说明所属机构，Zhihan Luo被标注为“独立研究者”。

💡 毒舌点评

这篇论文像一位试图用微积分重写十四行诗的浪漫主义数学家，野心勃勃，试图在贝多芬的乐谱和神经网络的损失函数之间找到一种“形而上学的同构”。其核心论点——音乐与机器学习是“相同形状”——在精美的分析外衣下，论证略显脆弱。它提出的方法论和“手性”概念很有趣，但跨领域的严谨映射仍停留在类比层面。作者诚实地报告了样本量混淆和基线校正的影响，这值得称赞，但也削弱了最初的诗意主张。总的来说，这是一篇思想活跃、有待严格验证的探索性工作。

📌 核心摘要

本文分析了贝多芬《月光奏鸣曲》三个乐章的结构，并论证其与机器学习机制存在“结构同构”关系。研究提出了一系列反直觉的发现：感知上的音乐“温度”由信息吞吐量而非分布宽度决定；听起来最轻盈的第二乐章具有最高的和声不和谐度；三个乐章分别体现了周期性位置编码、循环模型和流式模型三种记忆架构。论文还引入了“手性”概念来量化编码-解码循环中的序列信息损失，并通过“现象学-计算反馈”循环（人类观察引发计算分析）发现了这一特性。跨领域比较显示，自然语言比音乐具有更高的“手性”。

🔗 开源详情

代码：https://github.com/Lune-lys/moonlight-in-latent-space （论文在“附录B：Repository”中明确给出）
模型权重：论文中未提及
数据集：
- 论文分析使用的原始乐谱数据来自 KernScores 仓库的 Humdrum kern 格式文件（Sapp, 2005），具体文件在上述 GitHub 仓库中提供。
- 论文创建的数据集（如特征向量、生成的 MIDI 文件）包含在上述 GitHub 仓库中。
Demo：论文中未提及
复现材料：论文中说明“所有代码、数据、图表和生成的 MIDI 文件”均包含在上述 GitHub 仓库中，可直接用于复现分析。
论文中引用的开源项目：
1. music21：一个用于计算机辅助音乐学的工具包。论文引用了 (Cuthbert & Ariza, 2010)。链接：https://github.com/cuthbertLab/music21
2. KernScores：一个在线乐谱数据库，以 Humdrum kern 格式存储。论文引用了 (Sapp, 2005)。链接：http://kern.humdrum.org

6. Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark

8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

作者：Minjae Lee, Hee-Soo Heo, Youngki Kwon, Han-Gyu Kim, You Jin Kim, Bong-Jin Lee 机构：NAVER Cloud Corporation, NAVER Corporation

💡 毒舌点评

这篇论文像一个设计精良的“应用题”：它精准地指出了实际场景中说话人识别技术落地的痛点（需要同时解决“谁在何时说话”和“说话的是谁”），并为此量身定做了一套考试（TST任务）和考卷（TST-Bench）。优点在于问题定义清晰、考卷设计周全（规模大、可控、有全局标签），并通过实验证明了“做题技巧”（专用系统设计）比“直接套公式”（模块堆叠）更有效。然而，其“答题方法”（系统本身）更多是现有技术的合理组装与调优，原创性略显不足。合成数据虽然解决了隐私和可控性问题，但其与真实会话的鸿沟（朗读vs对话、缺乏自然打断和重叠等）是一个需要反复强调的“房间里的大象”，论文对此讨论尚可但解决方案有限。总体而言，它是一项扎实的工程贡献，为社区提供了一个急需的标准化评测平台，但其方法论的深度和广度距离“顶会突破”尚有一步之遥。

📌 核心摘要

本文提出了目标说话人标记（Target Speaker Tagging， TST）任务，旨在将说话人分割、验证和识别整合为一个统一的流程，以处理包含多说话人的长音频录音，并针对预注册的目标说话人进行标签标注。为解决缺乏合适评估资源的问题，作者构建了TST-Bench，一个大规模合成基准数据集，包含超过150名注册说话人、300段时长20-60分钟的音频会话，并提供了带有全局说话人标签的参考标注。论文定义了涵盖分割和完整流程的评估协议。在合成数据和真实数据（ICSI会议语料库）上的实验表明，TST任务具有传统基准未捕捉到的独特挑战，而专用的系统设计相较于简单集成现有方案能带来显著性能提升。该基准数据集和评估协议已公开发布。

🔗 开源详情

代码：论文未提供完整系统代码链接。仅提及将发布评估脚本。
模型权重：未提及。
数据集：TST-Bench 数据集。论文明确指出该数据集和评估协议已公开发布，可从以下链接获取：https://tst-bench.naver.com/
Demo：未提及。
复现材料：论文中提及评估协议（Evaluation Protocol）和相关脚本已公开发布（与TST-Bench一同提供）。未提供训练配置、检查点等详细复现材料。
论文中引用的开源项目：
1. Resemble Enhance（语音增强工具）：https://github.com/resemble-ai/resemble-enhance
2. Montreal Forced Aligner (MFA)（强制对齐工具）：https://montreal-forced-aligner.readthedocs.io/
3. Freesound（背景噪声来源）：https://freesound.org/

7. Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

👥 作者与机构

作者: Henri-Leon Kordt, Theresa Pekarek Rosin, Jae Hee Lee, Stefan Wermter 机构: Knowledge Technology, Department of Informatics, University of Hamburg, Germany

💡 毒舌点评

这篇工作选题很有意思，直击ASR领域的痛点——不流畅语音处理，并试图用持续学习这个“时髦”工具来解决。作者实验做得挺认真，对比了四种主流CL方法，还挖到了注意力头特化这个有趣的“彩蛋”，分析部分比许多只会刷点的论文强不少。但是，话说回来，顶会审稿人的眼睛是雪亮的：你只用了一个whisper-small.en，而且任务顺序固定，这就好比只用一道菜的食谱去证明一种烹饪方法的普适性，说服力打了折扣。另外，你的方法最终是落在ASR性能上的，但和那些专攻不流畅识别或超大模型的SOTA比起来，数字上好像没特别亮眼啊？你的“可解释性”发现很酷，但能稳定复现吗？别只是恰好在whisper上观察到的现象。总的来说，是一篇不错的“探索性”工作，但离“里程碑”还有距离。

📌 核心摘要

本文针对预训练ASR模型难以处理不流畅语音（如填充、重复、停顿）且在适配新领域时易发生灾难性遗忘的问题，提出了一种基于持续学习的解决方案。研究首先将四种不流畅标记（FILLER, REP, DISRUPT, PAUSE）引入Whisper模型，并在标准马来西亚英语（SME）数据集上使用EWC, ER, A-GEM, WA四种持续学习方法进行训练。结果发现，引入标记与维持ASR性能（pWER）之间存在固有权衡，且成功的标记学习伴随着一组特定解码器交叉注意力头的稳定特化。随后，在Pitt（痴呆）和Delaware（轻度认知障碍）数据集上进行顺序适应实验，表明WA在保持ASR性能方面最稳定，而ER在标记保留和泛化上表现最佳。本工作首次系统评估了持续学习在不流畅ASR中的应用，并通过可解释性分析揭示了模型内部的适应机制。

🔗 开源详情

代码：论文中未提供训练、评估或分析的代码仓库链接。
模型权重：https://huggingface.co/openai/whisper-small.en （基础预训练模型）
数据集：
- SME Corpus（Standard Malaysian English Corpus）：来自TalkBank仓库，论文未提供直接下载链接。
- Pitt Corpus：DementiaBank的一部分，论文未提供直接下载链接。
- Delaware Corpus：来自TalkBank仓库，论文未提供直接下载链接。
- LibriSpeech：广泛使用，论文未提供链接。
Demo：论文中未提及。
复现材料：论文中未提及是否提供训练配置文件、检查点或详细附录。
论文中引用的开源项目：提到了使用HuggingFace上的whisper-small.en模型。

8. The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

8.2/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5

👥 作者与机构

作者: Zachary N. Houghton, Yu Zhou, Dan Pluth, Vijay K. Gurbani
机构: University of Oregon, Vail Systems, Inc.

💡 毒舌点评

这篇论文像个严谨的侦探，试图在AI的“大脑”里寻找人类语言处理的痕迹。它最大的优点是问题问得漂亮——模型是“死记硬背”整个短语，还是像拼积木一样临时组合？实验设计也算全面，从迷你模型测到大模型，从文本测到语音，证据链是完整的。但问题也很明显：你用一个“探针”去测量表征差异，就敢断定这是“整体存储”？万一只是一种更通用的“上下文敏感性”呢？论文在区分这两者上没下够功夫。另外，对Whisper encoder里发现效应的解释有点绕，缺乏更直接的验证。最让人皱眉的是局限性部分，写得像匆匆结尾的附录，把自家方法的软肋（比如探针偏差、定义操作化问题）都藏了起来。总的来说，一篇扎实但结论需要加点问号的工作。

📌 核心摘要

本文研究文本和音频语言模型对“动词+up”短语的表征机制，核心问题是这些短语是作为整体存储，还是由组成成分计算生成。研究方法是在多个模型（三个不同规模的BabyLM、OLMo-3 7B、Whisper-small）的隐藏层训练一个二元分类器，该分类器能够识别独立的“up”表征。然后，用这个分类器去测试出现在“动词+up”短语中的“up”的表征。如果短语是整体存储的，那么其中“up”的表征应与独立“up”更不相似，分类器会给出更低的logit分数。实验分析了语料库频率和条件可预测性（\(log\text{-predictability} = \log(\frac{c_{vup}}{c_V - c_{vup}})\)）对这一分数的影响。结果显示，所有模型中，高频、高可预测性短语中的“up”都表现出更低的logit分数，支持整体存储假说。这一效应在文本和音频模型中均存在。此外，可预测性效应在更大模型中更显著，且在更大模型的更早Transformer层级中就已出现。

🔗 开源详情

代码：未提及代码仓库链接。
模型权重：论文明确承诺将发布三个在BabyLM v3上训练的开源模型（OPT架构）。
数据集：
- BabyLM v3语料库：https://babyLM.github.io/
- Dolma v1.7数据集：https://huggingface.co/datasets/allenai/dolma
- GigaSpeech音频语料库：文中提及但未提供具体链接。
Demo：未提及。
复现材料：附录A提供了BabyLM模型的训练超参数细节（Table 1）。附录提供了实验的详细统计数据（Tables 3-12）。
论文中引用的开源项目：
- infini-gram API：用于查询语料库统计信息，链接：https://infini-gram.nlp.cs.utexas.edu/
- spaCy：用于对音频实验的文本进行词性标注，链接：https://spacy.io/
- WhisperX：用于音频实验的强制对齐，链接：https://github.com/m-bain/whisperX
- brms：用于贝叶斯混合效应模型分析的R包，链接：https://paul-buerkner.github.io/brms/
- mgcv：用于广义可加模型（GAM）分析的R包。

9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5

👥 作者与机构

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan。南京大学，中国科学院自动化研究所。

💡 毒舌点评

这篇论文的出发点很好，瞄准了当前音频-视觉QA数据合成中的“叙事断裂”和“浅层推理”痛点。提出的两阶段管道（实体锚定脚本+线索引导QA）在技术路线上是合理的。论文的实验部分做得相当扎实，在多个基准上展示了微调后的显著增益，且消融实验提供了有力的证据链。然而，其核心贡献更偏向于一个“数据工程”的工作包，而非具有强大理论新颖性或技术突破的方法。创新性在于精心的系统设计和组件的巧妙组合，但单个组件（如实体列表、线索挖掘）并非全新概念。最大的短板在于，其数据合成完全依赖于商用黑盒模型，这使得方法的可复现性和对数据质量的控制存在根本性隐患。论文在影响力上有所妥协，因为其核心贡献（数据集）直接服务的“音频-视觉推理”领域相对狭窄，对广大语音/音乐领域的读者直接助益有限。

📌 核心摘要

该论文旨在解决现有音频-视觉问答数据合成管线中叙事不连贯、音视关联断裂以及生成问题缺乏长时程依赖和深度跨模态推理的问题。为此，作者提出了一个自动化的数据合成引擎，包含两个核心机制：1) 实体锚定的视频脚本生成，利用一个主实体列表作为全局先验，将视频转化为包含摘要、主实体列表和分段音视描述的结构化脚本，确保跨片段的实体一致性和音视关联；2) 线索引导的问答生成，先引导大语言模型从脚本中挖掘跨片段、跨模态的线索链，再基于这些高价值线索生成问答对。基于此管道，作者构建了包含100K条自动合成问答对的指令微调数据集OmniVideo-100K，以及一个包含505个人工验证样本的测试集OmniVideo-Test。实验表明，在OmniVideo-100K上微调VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B模型，可在OmniVideo-Test上获得高达20.59%的性能提升，并在Daily-Omni、JointAVBench等多个现有基准上展现出一致的泛化增益，且未损害模型的通用视频理解能力。

🔗 开源详情

代码：https://github.com/MiG-NJU/OmniVideo-100K
模型权重：论文中未提供微调后模型的权重。实验中使用的VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B均为第三方模型。
数据集：OmniVideo-100K 和 OmniVideo-Test。获取链接：https://github.com/MiG-NJU/OmniVideo-100K
Demo：未提及
复现材料：论文在附录B（表13）提供了详细的微调参数设置，包括最大像素数、帧率、最大帧数、训练轮数、批大小、学习率和预热比例。

10. Orchestra-o1: Omnimodal Agent Orchestration

8.1/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

👥 作者与机构

作者: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng 机构: 香港中文大学 (CUHK), LIGHTSPEED, 北京大学 (PKU), 清华大学 (THU), 同济大学 (Tongji University)

💡 毒舌点评

这篇工作在“多智能体编排”这个热门赛道上又砌了一块砖。想法不新鲜（AOrchestra已在前），但工程做得扎实，尤其是在“依赖感知的并行调度”和“离线决策强化学习”上挖得比较深。最大的尴尬在于，它号称“全模态”，但最亮眼的性能（72.8%）完全依赖闭源的GPT-5，自家训练的8B开源模型只有30.0%。这相当于吹嘘自己造了一辆顶级赛车（框架），结果发现赛车手（开源主脑）是个实习生，只能靠租借现成的F1车手（GPT-5）才能跑出好成绩。对于社区的真正贡献，可能更多是提供了一套复杂的工程组件和一份详尽的、可复现的训练菜谱（虽然数据还没开源），而不是一个在闭源依赖之外具有突破性的方法论。适合做系统工程的同行参考，但对于追求“自主可控”或“学术新范式”的读者来说，吸引力有限。

📌 核心摘要

本文提出了Orchestra-o1，一个面向全模态任务的多智能体编排框架。该框架将复杂任务解耦为高层编排与低层执行，主智能体负责感知感知的任务分解（构建依赖图）、在线子智能体与工具的选择、以及并行子任务的调度。子智能体则使用指定的工具集执行具体的感知或行动任务。为训练开源主智能体，作者提出了决策对齐的组相对策略优化（DA-GRPO），该算法通过离线评估主智能体的每一步决策（而非仅最终答案），并使用多维度评分（格式、动作、工具、决策质量）进行策略优化。实验表明，在OmniGAIA基准上，使用GPT-5作为主智能体时，Orchestra-o1达到了72.8%的准确率，超越最强基线Gemini-3-Pro（62.5%）10.3%。开源模型Orchestra-o1-8B（基于Qwen3-8B训练）达到30.0%的准确率，大幅超越此前最佳开源模型（20.8%）。论文同时提供了效率分析，显示其在成本和延迟上优于AOrchestra框架。

🔗 开源详情

代码：论文中明确提供了GitHub仓库链接：https://github.com/zfkarl/Orchestra-o1
模型权重：论文中明确提供了HuggingFace模型权重链接：https://huggingface.co/Karl28/Orchestra-o1-8B
数据集：论文未提供构建后的训练数据集直接下载链接。其训练数据是基于公开数据集（如FineVideo、LongVideoBench、COCO 2017）的种子集，通过文中描述的数据策展流程（使用Claude模型进行改写、验证）扩充而来。最终的数据集未公开。
Demo：论文中未提及在线演示链接。
复现材料：
- 训练配置：论文详细说明了训练Orchestra-o1-8B的配置，包括在单节点8×H20 GPU上的训练，训练批次大小24，rollout组大小8，学习率5×10^-6，KL系数0.01，余弦学习率衰减，最大提示长度和响应长度分别为24,576和4,096，训练在5个epoch后停止。奖励函数权重为：格式正确性0.1，动作有效性0.1，工具合理性0.2，决策质量0.6。
- 检查点：论文中未提及是否公开发布训练检查点（checkpoints）。
- 附录：论文提供了系统提示（附录B.2， B.3）和评估奖励提示（附录B.4）等详细内容，作为复现的参考材料。
论文中引用的开源项目：
1. Serper API：用于Web搜索工具。论文中提及。
2. Jina Reader API：用于页面访问工具（网页爬取）。论文中提及。（注：Claude-Opus-4.6 和 Claude-Haiku-4.5 是闭源模型，虽被引用但非开源项目。）

11. Unsupervised Approaches for Global Prosodic Embedding Extraction

7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5

👥 作者与机构

作者：Martin Meza, Luciana Ferrer, Pablo Riera 机构：1 Departamento de Computación, FCEyN, Universidad de Buenos Aires (UBA), Argentina; 2 Instituto de Investigación en Ciencias de la Computación (ICC), CONICET-UBA, Argentina

💡 毒舌点评

这篇论文的工作是扎实的，但并非颠覆性的。其核心价值在于提供了一个更干净的评估框架来审视“纯韵律”信息的上限。方法论上，基于AE的思路并不新颖，但作者通过系统性的消融（架构、任务、损失）和精心设计的下游协议（特别是TCC），揭示了现有方法在“鲁棒性”上的软肋。问题在于，所提出的最佳配置（如Transformer全序列模型）在TCC上胜出，恰恰是因为它编码了更多“非纯”但“有用”的细节，这与“纯韵律”的初衷存在微妙矛盾。另外，整个方法强依赖于预定义的IU分割，这在实际应用中是个黑箱且可能引入偏差。论文的写作清晰，但部分实验结论（如“重建误差与下游性能不相关”）的普适性有待商榷，毕竟他们只在一个合成数据集上做了详细消融。

📌 核心摘要

本文旨在解决语音自监督表示中韵律信息与其他信息（说话人、文本）纠缠的问题，提出无监督的全局韵律嵌入提取方法。作者的核心贡献有四点：一是设计了一套包含说话人独立、说话人文本独立及文本标签相关性三个难度的下游评估协议，能严格测试嵌入的“纯度”与鲁棒性；二是构建了一个名为SynthID的合成语音数据集，可完全控制说话人、文本和韵律风格，用于可控评估；三是系统比较了多种基于F0和能量输入的自编码器架构（GRU、Transformer）、预训练任务（标准AE、掩码MAE）和损失函数；四是与eGeMAPS、WavLM、emotion2vec、ProsodyVQ-VAE等基线进行了全面对比。结果表明，所提方法在更具挑战性的条件下（尤其是TCC协议）比基于波形的模型更鲁棒，并在纯语调任务（Bestiary）上达到或超越SOTA。

🔗 开源详情

代码：https://github.com/martinBmeza/prosodic_embeddings
模型权重：论文中提及公开发布了训练好的模型，但未给出具体的HuggingFace或ModelScope托管链接。
数据集：
1. SynthID（为本工作新生成的合成语音数据集）：论文中提及将公开发布生成该数据集的代码和数据本身，但未给出具体链接。
2. RAVDESS：论文中引用了原始论文 [RAVDESS]，未提供直接下载链接。
3. Bestiary：论文中引用了原始论文 [bestiary]，未提供直接下载链接。
4. eGeMAPS特征集：论文中提及是使用openSMILE工具提取的，未提供直接下载链接。
Demo：论文中未提及。
复现材料：论文中提及公开发布了新的基准测试、训练好的模型和代码。具体的训练配置、检查点等信息可能包含在公开的代码仓库中。
论文中引用的开源项目：
- Praat（用于F0提取）：官网 http://www.praat.org/
- openSMILE（用于提取eGeMAPS特征）：GitHub 仓库 https://github.com/audeering/opensmile
- WavLM：论文中引用了原始论文 [wavlm]，未提供具体代码或模型链接。
- Emotion2Vec：论文中引用了原始论文 [emo2vec]，未提供具体代码或模型链接。

12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fundamental Waveform Enhancement

7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5

👥 作者与机构

作者: Junya Koguchi, Tomoki Koriyama 机构: CyberAgent, Japan

💡 毒舌点评

这篇工作像一个精心设计的“特洛伊木马”，用语音增强的包装，成功偷袭了传统瞬时音高估计的城墙。将基波滤波这个棘手的手工特征工程问题，打包成一个端到端的DNN学习问题，思路相当讨巧。Wave-U-Net的选型也颇为老练，其时域处理能力和跳跃连接对波形结构重建至关重要。实验部分堪称模范，多领域数据集、从准确率到调制响应的全面评估、诚实的结论，都体现了扎实的工程素养。然而，它也像一个“偏科生”：理论解释几乎缺席，为何MAE优于MSE？λ为何是5.0？全凭经验。更致命的是，没有与任何近期的DNN音高估计方法对比，仿佛活在一个只有传统方法的平行宇宙。消融实验的缺失则让“关键创新点”的贡献度成了谜。作者自己都承认可能存在的混叠问题，这更像是一个已知的系统缺陷，而非偶然。总的来说，这是一篇出色的工程应用论文，但离一篇理论完备的顶级方法论文还有距离。

📌 核心摘要

本文提出了一种基于Wave-U-Net的瞬时音高估计新方法。其核心思想是将传统方法中关键的基波波形提取步骤，重新建模为一个语音增强问题。具体而言，训练一个Wave-U-Net模型直接从输入语音波形中回归出基波波形，随后通过计算其解析信号的瞬时频率来获得连续、平滑的音高轨迹。该方法旨在克服传统信号处理方法依赖复杂信道选择和打分机制、对噪声和强谐波敏感的缺点。实验在涵盖语音、歌声和多种乐器的多个数据集上进行，并在加噪条件下测试鲁棒性。与IRAPT、Halcyon、NINJAL等经典瞬时音高估计方法对比，所提方法在大多数评估指标（尤其是噪声鲁棒性）上表现更优。基于CAPRICEP的调制响应分析进一步表明，该方法在噪声环境下随机误差增长较小，但在纯净条件下对高频调制的跟踪能力略逊于NINJAL。

🔗 开源详情

代码：未提及代码链接。
模型权重：未提及模型权重。
数据集：论文使用了多个公开数据集进行训练与评估，需从原始来源获取：Bagshaw, Keele, CMU ARCTIC, PTDB-TUG, MOCHA-TIMIT, MIR-1K, MDB-stem-synth。噪声增强使用了NOISEX92和QUT-NOISE。
Demo：未提及。
复现材料：论文未提供检查点或复现脚本。但文中详细描述了模型架构（Wave-U-Net，6层编码器/解码器）、训练超参数（RAdam with ScheduleFree，学习率1.0e-4，λ=5.0，批大小16，训练轮数30，输入长度4096采样点）以及数据预处理细节，这些构成了复现的核心配置。

13. A Deep Zero-Inflated Model of North Atlantic Right Whale Presence To Support Blue Economy Management in the U.S. East Coast

7.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5

👥 作者与机构

Jiaxiang Ji (罗格斯大学工业与系统工程系) Laura Nazzaro (罗格斯大学海洋与海岸科学系) Joshua Kohut (罗格斯大学海洋与海岸科学系) Ahmed Aziz Ezzat (罗格斯大学工业与系统工程系)

💡 毒舌点评

这篇论文试图用深度学习包装一个经典的统计模型，然后套用在一个实际但狭窄的生态监测问题上。核心工作是将深度神经网络（DNN）塞进零膨胀伯努利（ZIB）框架的两个“黑箱”（π和φ）里，然后声称这是“深度”模型。理论贡献（Lemma 1-3）虽然正确，但更像是为组合方法提供合法性，而非真正的理论突破。实验设计较为全面，模拟数据验证了模型在非线性场景下的优势，真实数据案例展示了应用潜力，但关键的评估存在“自说自话”的嫌疑——由于无法观测真实存在状态，所有评估都基于“检测即存在”的强假设，且与外部DSM模型的比较仅限于定性视觉对比。作者将论文定位为支持“蓝色经济管理”，但模型输出的高分辨率概率地图如何转化为具体的管理决策，缺乏可操作的路径或案例分析。整体看，这是一篇工程整合性强、应用导向明确，但在方法创新深度和评估严谨性上有所欠缺的领域应用论文。

📌 核心摘要

本文针对利用水下滑翔器被动声学监测（PAM）数据建模北大西洋露脊鲸（NARW）存在概率时面临的零膨胀和复杂协变量关系两大挑战，提出了深度零膨胀伯努利（DeepZIB）模型。该模型将经典ZIB统计框架中的存在概率（π）和条件检测概率（φ）函数，分别用两个独立的深度神经网络（MLP）进行参数化，从而能够灵活学习复杂的栖息地关系。模型进一步通过一个时空高斯随机场（GRF）扩展为DeepZIB-ST，以捕获存在过程中的空间时间依赖性。理论分析证明了模型的可识别性及其与经典ZIB模型的联系。通过模拟实验（线性与非线性场景）和美国中大西洋地区的真实NARW监测数据验证，DeepZIB及其时空变体在模型适配度（更低的负对数似然和Brier分数）上优于传统统计模型（如逻辑回归、ZIB）和标准机器学习模型（如XGBoost， MLP）。模型生成的高分辨率存在概率地图显示了捕获动态、局部化栖息地结构的能力，为平衡海洋保护与蓝色经济活动（如船舶航行、渔业管理）提供了潜在的信息支持。

🔗 开源详情

代码：论文中未提及代码链接
模型权重：论文中未提及
数据集：论文中未提及具体开源数据集链接。文中所述数据（水下滑翔机声学数据与卫星数据）为研究团队采集与整合，未提供公开获取的URL。
Demo：论文中未提及
复现材料：论文中未提及
论文中引用的开源项目：未提及具体项目名称和链接（论文引用的为通用工具如“多层感知机”、“Adam优化器”、“变分高斯过程近似”等方法名，而非特定开源代码库）。

14. FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding

7.5/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.3/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5

👥 作者与机构

作者：Ziwei Wang, Xingyi He, Tianwang Jia, Hongbin Wang, and Dongrui Wu。机构：华中科技大学人工智能与自动化学院，脑启发智能系统湖北省重点实验室。

💡 毒舌点评

论文在实验上做得扎实，对比了足够多的基线，消融实验和可视化分析也挺充分。但核心创新点——把多个频带的编码器独立开再做个注意力融合——感觉更像是工程上的巧妙组合，而非对AAD问题机理的突破。那个带级辅助监督（BAS）倒是个不错的小技巧，能防止某些分支“躺平”，但算不上革命性。最大的软肋在于，整个架构复杂度（8个并行分支、额外的FAA模块）换来那几个点的提升，在实时性要求高的脑机接口场景里是否真有实用价值，得打个问号。另外，所有实验都只在经典的、被用烂了的双说话人数据集上跑，结论的泛化能力存疑。审稿人最烦看到在“温室环境”里刷点然后大谈意义的工作。

📌 核心摘要

本文针对听觉注意力解码（AAD）任务中现有模型对EEG频域信息利用不充分的问题，提出了FAConformer框架。该框架包含三个核心组件：1）多频带分解；2）带内独立编码器（WBE），为每个频带分配独立的CNN-Transformer编码器；3）频率感知注意力（FAA）模块与带级辅助监督（BAS）。FAA将各频带的特征视为序列化的“频带标记”，通过Transformer建模跨频带依赖并进行自适应融合。BAS在训练时为每个频带分支提供独立的分类监督，防止分支优化不足。在DTU和KUL两个公开AAD数据集、三种决策窗口长度下的实验表明，FAConformer在所有设置下均显著优于12种基线模型。消融研究、注意力可视化和特征分布分析进一步验证了各组件的有效性和模型的可解释性。

🔗 开源详情

代码：https://github.com/wzwvv/FAConformer （论文提供链接，实际开源状态需验证）
模型权重：论文中未提及提供预训练模型权重。
数据集：论文使用了两个公开数据集：DTU和KUL。论文未提供直接下载链接，但明确指出了数据集的名称和出处。
Demo：论文中未提及。
复现材料：论文提供了详细的算法伪代码（Algorithm 1）和完整的参数设置（例如：批量大小32，最大训练轮数200，早停耐心10，学习率 \(5 \times 10^{-4}\)，权重衰减 \(3 \times 10^{-4}\)，损失权衡 \(\lambda=1\)），但未提及是否提供详细的训练配置文件（如config.yaml）或预训练检查点。
论文中引用的开源项目：
- FAConformer: https://github.com/wzwvv/FAConformer
- 其余在基线模型中提到的项目（如 EEGNet、SCNN、IFNet 等）论文中未提供具体的代码链接。

15. From Self-Supervised Speech Models to Mixture-of-Experts for Robust Anti-Spoofing

7.5/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 0.8/1.5 | 开源 0.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5

👥 作者与机构

作者：Hugo Daumain, Driss Matrouf, Khaled Khelif, Mickael Rouvier 机构：LIA (Laboratoire d’Informatique d’Avignon), Université d’Avignon, France；Airbus Defence & Space, France

💡 毒舌点评

这篇论文的“野心”不小，试图用“大而全”的MoE改造SSL模型来对抗所有合成攻击，实验规模（6训练，14测试）堪称豪华。但仔细一看，核心贡献点——“完全转换”优于LoRA——在某种程度上是“用参数和算力换性能”，其边际效益和代价权衡并未被充分探讨。消融实验做得很细，但结论部分对“专家未专业化”这一有趣现象的讨论过于轻描淡写，仿佛只是实验附录。论文更像是一个扎实的工程实践报告，而非一个能引发深度思考的算法研究。最终11.9%的相对提升固然不错，但放在整个14个数据集的复杂场景下，以及相对于其增加的模型复杂度，这个改进是否足够“性感”且“高效”，要打个大大的问号。

📌 核心摘要

本文提出了一种将预训练自监督语音模型（SSL）转换为完整混合专家（MoE）架构的方法，以提升语音反欺骗任务的跨数据集泛化能力。具体做法是在SSL Transformer编码器选定的层中，用多个前馈网络专家替换原有的前馈模块，并通过一个基于统计池化的逐层门控机制进行路由。专家由原始预训练权重初始化，整个模型（包括SSL骨干、专家和分类头）进行联合微调。在WavLM-Large骨干网络上，最佳配置（在最后6层插入，使用4个专家，top-1路由，统计池化）在14个评估数据集上将宏观等错误率（Macro EER）从基线的5.46%降低至4.81%，相对改进11.9%。消融研究系统地分析了层位置、池化策略、专家数量和top-k等设计选择。分析表明，所提方法优于基于LoRA的MoE适配方案，但专家在攻击类型上未显示出明显的专业化分工。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文中未提及本文模型权重的发布链接。
数据集：论文中未提供数据集的具体获取链接或统一处理脚本。
Demo：论文中未提及。
复现材料：论文中未提供训练脚本、环境配置或复现指南。
论文中引用的开源项目：
- Kiwano：https://github.com/kiwano-toolkit/kiwano （用于说话人嵌入提取）

16. The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions

7.5/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

Piotr Kitłowski, Dominik Wiącek, Mateusz Modrzejewski。所属机构论文未明确提及。

💡 毒舌点评

这篇论文就像给“AI法官”的判决书找到了一个隐蔽的涂改液——它能让你在完全不改变判决结果（预测）的情况下，偷偷把证据链（归因图）改得面目全非，而且人类（音频感知）还察觉不到。作者提出的“心理声学攻击”框架确实巧妙，利用人类听觉掩蔽效应藏起了扰动。但说实话，实验有点“偏科”：只攻击了两种XAI方法（Grad-CAM, LRP），样本量也只有100个，结论的普适性值得商榷。更关键的是，这篇论文本质上是在揭示一个问题，而解决问题（即构建真正鲁棒的解释）的工作留给了未来。在NeurIPS这个级别，这种“发现问题”型的工作需要极其扎实的分析和无懈可击的实验，而本文在模型多样性、XAI方法覆盖面和更广泛的消融研究上还有差距。它提出了一个重要的安全警示，但距离给出一个圆满的答案还差得远。

📌 核心摘要

本文研究了音频深度伪造检测模型中事后解释方法的脆弱性。作者指出，现有的解释攻击主要在图像领域使用\(L_p\)范数进行衡量，但这与人类听觉感知无关。为此，他们提出了一个新颖的、基于心理声学的优化框架。该框架的核心是在损失函数中引入动态心理声学掩蔽阈值，目标是在严格保持模型预测类别不变且扰动对人耳不可闻的前提下，最大限度地扭曲模型的归因图（如Grad-CAM和LRP）。通过在三种不同架构（VGGish、AST、SpecTTTra）和两种XAI方法上的实验，以及使用多种感知质量指标评估，该研究证明了攻击的有效性。研究发现，基于自注意力的模型（如AST）比卷积模型更脆弱，而密集、宽带的音频信号因其更大的掩蔽预算而更容易被攻击。这揭示了现有音频可解释AI方法在安全信任方面存在的重大缺陷。

🔗 开源详情

代码：https://github.com/cncPomper/Audio-XAI
模型权重：论文中未提及提供预训练模型权重。
数据集：论文使用了SONICS数据集 (Rahman et al., 2025)，但未提供具体获取链接或开源协议信息。
Demo：论文中未提及提供在线演示。
复现材料：论文在Impact Statement中明确声明代码仓库提供了完整的代码、配置、攻击超参数、预处理脚本和评估脚本以支持可复现性。
论文中引用的开源项目：未提及具体的第三方开源项目链接。论文中提到了Grad-CAM和LRP等方法，但仅引用了相关学术论文，未提供其具体代码实现仓库的链接。

17. A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators

7.4/10 | 创新 1.5/2 | 严谨 1.0/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

第一作者：Amna Amjid，单位：国家科学技术大学（NUST），巴基斯坦。通讯作者：Sana Qadir，单位：国家科学技术大学（NUST），巴基斯坦。其他作者：Mehwish Fatima（同NUST），Raja Khurram Shahzad（密德瑞典大学及吕勒奥理工大学）。

💡 毒舌点评

这篇论文的“多领域融合”听起来挺唬人，但实际上就是把RGB、梯度图和DWT小波系数三个东西拼接在一起，然后丢进一个现成的双路残差网络（DRN）里。这种“融合”缺乏任何新颖的交互或注意力机制，更像是工程上的简单叠加。论文最大的亮点是实验设置比较系统，把跨模型、跨范式、多源和真实世界测试都做了一遍，这值得肯定。但问题在于，所有实验结果都强烈暗示，在这个任务上，数据的多样性（多源训练）和标准的数据增强策略，比你那个“多领域特征融合”的设计本身贡献大得多。看看表VIII，用MIX_ALL加增强就从49%提到75.8%，而模型架构的改进从baseline DRN到SGFF-Net的提升幅度在跨模型测试中（表V）远没有这么明显。所以，这篇论文更像是一份详尽的深度伪造检测实验报告，而不是一个在方法论上有坚实贡献的工作。核心方法部分（III节）描述还算清晰，但理论深度几乎为零。最要命的是，摘要和结论中声称的“显著提升”需要更审慎地限定范围——在最具挑战性的真实世界泛化上，75.8%的准确率离实用还很远，而且这提升很大程度归功于训练数据策略，而非模型架构本身。

📌 核心摘要

针对现有深度伪造检测方法（尤其是基于空间或单一频率域的方法）在面对扩散模型生成内容时泛化能力不足的问题，本文提出SGFF-Net（空间-梯度-频率融合网络）。该框架在一个双路残差网络（DRN）架构中，并行提取并融合图像的RGB空间特征、基于预训练ResNet-50的梯度特征以及基于离散小波变换（DWT）的频率特征。论文通过系统性的消融研究确定了DWT（尤其是Symlet小波族和反射边界模式）作为最优的频率表示方法，并验证了三路特征融合的必要性。实验评估涵盖五个场景：数据集内评估、跨模型评估、跨范式评估、多源评估和真实世界评估。结果表明，SGFF-Net在数据集内评估中达到98.95%的准确率。然而，在最具挑战性的跨范式（如用扩散模型训练测试GAN数据）和真实世界测试中，其性能仍显著下降（跨范式约70%，真实世界最高75.8%）。关键发现是，引入多源训练和标准数据增强策略，比单纯改进模型架构对提升泛化能力（尤其是跨模型和真实世界场景）的贡献更为显著。

🔗 开源详情

代码：论文中声称代码在GitHub公开，但未提供具体仓库链接。
模型权重：论文中未提及。
数据集：论文中明确提到了三个公开数据集，其获取链接在论文中已给出：
1. DeepFakeFace (DFF): https://github.com/OpenRL-Lab/DeepFakeFace
2. Diffusion Face (DiffFace): https://github.com/Rapisurazurite/DiffFace
3. Diverse Fake Face Dataset (DFFD): https://cvlab.cse.msu.edu/dffd-dataset.html
Demo：论文中未提及。
复现材料：论文中提供了详细的训练配置参数（如使用PyTorch框架、AdamW优化器、学习率、批大小、训练轮次等），但未提及是否提供检查点、完整训练脚本或数据预处理/划分脚本。
论文中引用的开源项目：未提及除数据集外的其他第三方开源项目。

18. AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

7.3/10 | 创新 1.2/2 | 严谨 1.0/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

作者：Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Xie Chen, Hengzhu Liu, Kele Xu 机构：国防科技大学计算机学院（Hui Geng, Yi Su, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Kele Xu）；韩国科学技术院（KAIST）（Han Yin）；上海交通大学（Xie Chen）

💡 毒舌点评

这篇论文的出发点很好，瞄准了音频数据集“又多又像”的痛点。构建流程设计得挺规整，像个流水线工厂。实验结果在三个基准上都刷了开源SOTA，数字看起来很漂亮。但问题在于，这个“去重”流水线的核心步骤——声学去重，虽然画了图、给了公式，但最后到底去掉了多少重复的？去重前后数据集在嵌入空间的具体分布变化如何？论文只给了些定性描述，缺乏像样的定量分析，这就像做实验只说“效果不错”但不给误差条，说服力打了折扣。更关键的是，生成的CoT推理过程质量到底行不行？只用长度分布来衡量有点敷衍。最后，所有实验都拴在一个7B模型上，这能代表对所有LALMs都有效吗？消融实验更是缺席，读者无法判断流水线里哪个环节是真正的功臣，哪个可有可无。总的来说，工作扎实但深度不足，像一个精心包装但缺少深度解剖报告的标准化产品。

📌 核心摘要

本文针对大型音频语言模型后训练中数据集冗余和推理能力不足的问题，提出了一个冗余感知的数据构建流水线。该流水线包含三个阶段：基于CLAP嵌入的声学相似性去重、跨数据集标注整合与格式统一、以及使用Qwen3-30B生成结构化的链式思维推理。基于此流水线，作者构建并开源了AudioDER数据集，包含约19.1万样本，覆盖声音、语音和音乐领域。实验在Qwen2-Audio-7B-Instruct模型上进行，监督微调后在MMAU-mini、MMSU和MMAR等推理基准上性能显著提升，证明了去重和高质量推理数据对增强模型音频推理能力的重要性。

🔗 开源详情

代码：论文中未提供代码仓库链接。已声明开源，但未明确代码是否开源及链接。
模型权重：论文中未提及模型权重链接。未说明后训练模型是否开源。
数据集：AudioDER数据集开源，通过项目主页获取：https://www.audioder.com/。开源协议在项目页面中会注明。
Demo：论文中未提及。
复现材料：论文提供了详细的训练配置（基础模型、学习率、轮次、批大小等），但未提供预训练检查点或完整训练代码。未提供去重或CoT生成的具体代码或脚本。
论文中引用的开源项目：
- Qwen2-Audio: 论文中未提供代码仓库链接。
- Qwen3-30B: 论文中未提供代码仓库链接。
- Audio Flamingo: 论文中未提供代码仓库链接。
- SALMONN: 论文中未提供代码仓库链接。
- LTU / LTU-AS: 论文中未提供代码仓库链接。
- GAMA / GAMA-IT: 论文中未提供代码仓库链接。
- Mellow: 论文中未提供代码仓库链接。
- Audio-Reasoner: 论文中未提供代码仓库链接。
- SARI: 论文中未提供代码仓库链接。
- R1-AQA: 论文中未提供代码仓库链接。
- CLAP: 论文中未提供代码仓库链接。
- Clotho: 论文中未提供数据集链接。
- CompA-R: 论文中未提供数据集链接。
- AVQA: 论文中未提供数据集链接。
- LibriTTS-R: 论文中未提供数据集链接。
- MusicCaps: 论文中未提供数据集链接。
- LP-musiccaps-MTT (MTT): 论文中未提供数据集链接。
- MusicBench: 论文中未提供数据集链接。
补充链接（自动提取）：
- 代码仓库：https://github.com/MyVision666/AudioDER

19. Beyond task performance: Decoding bioacoustic embeddings with speech features

7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5

👥 作者与机构

作者：Ines Nolasco, Jules Cauzinille, Marius Miron, Gagan Narula, Milad Alizadeh, Emmanuel Fernandez, Matthieu Geist, Ellen Gilsenan-McMahon, Olivier Pietquin, Emmanuel Chemla, Sara Keen 机构：Earth Species Project

💡 毒舌点评

这篇论文的立意很好，想给黑箱的生物声学嵌入模型做个“CT扫描”，看看里面到底编码了哪些声学特征。方法上使用线性/非线性探针搭配NMI，思路清晰。但有几个关键弱点让它无法达到顶会水准：第一，验证特征相关性的因果关系薄弱。NMI衡量的是特征与标签的统计相关性，但模型到底是不是“依靠”这些特征来做分类，论文并没有通过特征重要性分析（如SHAP、注意力图）来证实，存在过度解读的风险。第二，选择eGeMAPS作为“真理”特征集是一个强假设，且作者自己也承认了这一点，但缺乏对其他特征集（如专门的生物声学特征）的对比实验来验证结论的稳健性。第三，关于时间动态的缺失，作者仅作为局限性提及，但未在方法设计上做任何弥补（如尝试分帧探针），使得关于F0等时变特征难解码的结论打了折扣。第四，论文声称“超越任务性能”，但最终未能将特征层面的发现与下游任务性能的提升建立定量关联，使得框架的实用性声明略显空洞。实验结果丰富（多个模型、数据集、特征），但部分结论（如“互补性”）的深度挖掘不足。总的来说，是一篇扎实的工作，但距离深刻改变领域认知还有一步之遥。

📌 核心摘要

本文提出了一种分析预训练生物声学嵌入模型所编码内容的框架。研究从六个涵盖不同动物类群及人类语音的数据集中提取了88个eGeMAPS声学特征，并对六个主流预训练模型（自监督与监督，Transformer与CNN架构）的嵌入应用线性与非线性回归探针，以量化每个特征的可解码性（R²）。同时，计算了特征与数据集任务标签间的归一化互信息（NMI）以衡量其任务重要性。主要发现包括：1) 没有单一模型能编码全部特征，模型间存在互补性；2) 响度特征易解码，F0特征难解码；3) 将特征可解码性与任务重要性交叉比对，揭示了当前模型表示中的缺口，即任务相关特征未必被良好编码。本研究为生物声学领域提供了基于内容而非纯性能的模型选择新视角。

🔗 开源详情

代码：论文中未提供完整的训练或分析代码。仅提及用于访问模型检查点和提取嵌入的AVEX API链接：https://github.com/earthspecies/avex。
模型权重：论文中未提供模型权重下载链接（如HuggingFace/ModelScope）。所用六个预训练模型的检查点通过上述AVEX API访问。
数据集：使用了BEANS基准数据集（Hagiwara et al., 2023）的训练分割。论文未提供直接下载链接，但指明了数据集来源。
Demo：未提及。
复现材料：论文详细描述了回归探针（线性与非线性）的架构、超参数和评估协议，但未提供完整的训练代码或配置文件。
论文中引用的开源项目：
1. openSMILE：用于提取eGeMAPS声学特征。链接：https://github.com/audeering/opensmile。
2. scikit-learn：用于实现线性回归探针（岭回归）。链接：https://scikit-learn.org/。

20. Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors

7.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

1 The Chinese University of Hong Kong, Hong Kong SAR, China 2 Institute of Software, Chinese Academy of Sciences, China 3 National Research Council Canada, Canada 4 Tsinghua University, China 作者：Youjun Chen, Xurong Li, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Shujie Hu, Huimeng Wang, Haoning Xu, Chengxi Deng, Bowen Zhang, Xunying Liu

💡 毒舌点评

一篇典型的“组合创新”论文，将已有的置信度数据筛选和RL控制思想应用到一个新任务（基于自动标注SED的SER）上。优点是工作量扎实，实验充分；缺点是创新点相对有限，更多是工程上的集成与调优，而非概念上的突破。作者坦诚地指出了部分局限，但有些关键问题（如SED标签质量的上限、RL奖励函数的简单性）未被深入探讨。性能提升是实打实的，但离“显著改变领域”还有距离。

📌 核心摘要

本文针对基于语音情绪描述符（SED）的可解释性语音情绪识别（SER）系统因依赖自动标注低质量SED标签而导致的性能与可信度不足问题，提出了一种后训练方法。该方法包含两个核心组件：1）一个置信度估计模块（CEM），用于量化自动标注SED标签的可靠性，并据此筛选出高质量子集用于监督微调；2）一个基于强化学习的SED控制器，在SER系统训练过程中在线生成SED标签的修正策略，实现对噪声标签的动态校正。在IEMOCAP和MELD数据集上的实验表明，集成这两个组件能显著提升SER系统的准确性和可解释性，其最优系统相比基线分别取得2.9%和3.3%的绝对准确率提升，并优于多个开源对比模型。工作系统地验证了SED标签质量对可解释SER系统的关键作用。

🔗 开源详情

代码：未提供
模型权重：未提供
数据集：
- IEMOCAP：获取地址：https://sail.usc.edu/iemocap/
- MELD：获取地址：https://affective-meld.github.io/
- SpeechCraft (子集 GigaSpeech-m)：论文中提及使用该工具及项目提供的大规模子集进行预训练。项目地址：https://speechcraft.org/ （具体子集获取方式未说明）
Demo：未提供
复现材料：未提供。论文在“5.1 Experimental setup”中详细描述了训练超参数。
论文中引用的开源项目：
- BLSP-Emo: 引用为 [wang2025opens2s]。
- VIB-Emo: 引用为 [chen2025towards]。
- OSUM-EChat: 引用为 [geng2025osum]。
- Kimi-Audio: 引用为 [ding2025kimi]。
- Qwen2-Audio: 引用为 [chu2024qwen2]。
- Audio-Flamingo-3: 引用为 [goel2025audio]。
- Step-Audio-R1: 引用为 [tian2025step]。
- SpeechCraft: 引用为 [jin2024speechcraft]。项目地址：https://speechcraft.org/ （注：以上引用项目均未在论文中提供具体的代码或模型下载链接）

7.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 0.0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5

👥 作者与机构

作者：Shiyao Wang, Xijuan Zeng, Hui Wang, Shiwan Zhao, Feng Deng, Chen Zhang, Yong Qin。机构：南开大学先进交叉科学研究院，快手科技。论文注明工作于王诗瑶在快手科技实习期间完成。

💡 毒舌点评

这篇工作像一个精心打磨的“集大成者”，把MMDiT的同步能力和参考音频条件控制缝合到一起，试图包揽所有可控VTA任务。动机很清晰，指出了现有方法要么同步好但控制弱，要么控制好但同步差的trade-off。技术上有三个明确的创新点，尤其是副词数据增强，虽然思路直接，但确实能解决一个实际痛点。实验做得很全，几乎把VTA能想到的任务变体都跑了一遍，表格数据详实。然而，这也暴露了它的“缝合”本质——核心架构是MMAudio的，条件注入借鉴了其他工作的思路，数据增强是基于简单规则。论文最大的弱点在于“统一”的声明和“音频编辑”能力的论证都比较弱，编辑功能没有独立的定量评估，说服力不足。此外，作为一篇强调“统一”的工作，在最大的挑战集Greatest Hits上，与针对该数据训练的CondFoleyGen对比时，只强调了自己是“零样本”，这并不公平。分数给7.0，是一篇扎实但缺乏颠覆性创新的工作，属于“好学生”而非“开创者”。

📌 核心摘要

FoleyGenEx是一个统一的视频到音频生成框架，旨在同时实现强时间同步性、灵活的多模态控制（文本、视频、参考音频）以及细粒度的语义精度（特别是对副词的控制）。其核心贡献在于三个设计：1）条件注入机制：通过InputEmbedding层将参考音频条件注入音频流，支持AC-VTA和Foley扩展任务。2）多模态动态掩码：在训练时对音频、视频语义和视频同步特征进行同步掩码，确保训练目标（上下文+掩码）与推理工作流（参考音频+生成音频）一致，防止模型产生对齐捷径。3）副词数据增强：利用信号处理和LLM自动构建了一个包含速度、距离、音量等维度变化的副词增强数据集，以增强模型对细粒度文本语义的响应能力。实验表明，FoleyGenEx在多个基准测试上，相较于MMAudio和MultiFoley等基线方法，在分布匹配、语义对齐、时间同步和风格迁移等方面取得了具有竞争力或更优的表现。

🔗 开源详情

代码：论文中未提及FoleyGenEx自身的独立代码仓库链接。论文指出其架构和训练实现基于MMAudio框架，引用的MMAudio代码链接为：https://github.com/hkchengrex/MMAudio
模型权重：论文中未提及任何模型权重的托管链接。
数据集：论文使用了以下公开数据集，但未提供专门的获取链接：
- VGGSound（VTA任务训练）
- AudioCaps（TTA任务训练）
- WavCaps（TTA任务训练）
- Greatest Hits（AC-VTA任务评估）此外，论文提及并开源了一个自建的副词增强数据集（AA），包含88,370个样本。论文在项目主页提供了数据生成提示的详细信息，但未直接提供数据集下载链接。项目主页为：https://foleygenex.github.io/FoleyGenEx
Demo：在线演示链接为：https://foleygenex.github.io/FoleyGenEx
复现材料：论文中提及了部分训练配置细节（学习率、调度器、批次大小256、A100 GPU、训练步数300k/330k等），并说明配置基于MMAudio。但未提供完整的训练配置文件、环境文件或模型检查点下载链接。
论文中引用的开源项目：
1. MMAudio：https://github.com/hkchengrex/MMAudio （核心实现基础）
2. FoleyCrafter：https://github.com/open-mmlab/FoleyCrafter
3. VTA-LDM：https://github.com/ariesssxu/vta-ldm
4. av-benchmark：https://github.com/hkchengrex/av-benchmark （评估工具包）
5. MultiFoley：https://ificl.github.io/MultiFoley/ （评估基准）
6. CondFoleyGen：https://github.com/XYPB/CondFoleyGen/tree/main （评估协议与代码）
7. Resemblyzer：https://github.com/resemble-ai/Resemblyzer （风格相似度评估工具）
8. DAC-VAE：https://github.com/descriptinc/descript-audio-codec
9. Synchformer：https://github.com/facebookresearch/synchformer
10. OpenAI Sora：在引言中提及，未提供链接。
11. 其他提及的通用工具（如FFmpeg, SoX, Pyroomacoustics）和模型（CLIP, CLAP, ImageBind等）。

22. Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

6.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5

👥 作者与机构

作者：Oh Hyun-Bin (POSTECH), Kazuki Shimada (Sony AI), Yuhta Takida (Sony AI), Kim Sung-Bin (POSTECH), Toshimitsu Uesaka (Sony AI), Takashi Shibuya (Sony AI), Kyeongyoon Lee (Sungkyunkwan University), Tae-Hyun Oh (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 机构：POSTECH， Sony AI， Sony Group Corporation， Sungkyunkwan University， KAIST

💡 毒舌点评

这篇论文雄心勃勃地试图弥合音频语言建模中“语义理解”与“空间定位”之间的鸿沟，方向是正确的，且工程实现看似扎实。然而，其核心弱点在于对“受控合成数据”的过度依赖，这极大地削弱了其在真实复杂声学场景中有效性的证明力。论文提出了一套复杂的系统（ST-AudioQA、ST-Audio Encoder、ST-AudioLM），但评估几乎完全局限于其自建的合成基准，这更像是在一个精心设计的“温室”中展示盆栽，而非热带雨林里的真实生长。将SoundSpaces的静态RIR交叉淡化来模拟运动，这种简化是否足以代表现实世界的动态声学（如多普勒效应、散射变化）值得怀疑。此外，模型架构的“新意”更多是工程上的巧妙组合（AST骨干 + 轨迹头 + LLM），核心算法创新有限。对于NeurIPS/ICML/ICLR级别的审稿人来说，缺乏对真实世界复杂性的有力论证和更深入的理论分析，是其难以获得更高评价的关键。

📌 核心摘要

本文针对现有音频语言模型缺乏对动态声源进行时空感知与推理能力的问题，提出了一个完整的框架。首先，构建了ST-AudioQA基准，这是一个基于一阶高保真音频渲染的受控数据集，包含静态和动态声源，提供密集的轨迹标注和自动生成的时空问答对。其次，设计了ST-Audio编码器，一个基于AST的时序分辨编码器，能够联合预测事件语义和声源的方向、距离轨迹。最后，构建了ST-AudioLM，通过一个可训练的MLP连接器将编码器的语义令牌和轨迹令牌映射到LLM（OLMo2-7B-Instruct）的嵌入空间，并采用分阶段课程学习进行微调。实验表明，该方法在保持事件语义能力的同时增强了轨迹跟踪，并在所提出的时空问答任务上优于基线模型，验证了将“声音内容”与“时空状态”绑定的重要性。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文中未提及模型权重下载链接。
数据集：
- 名称：ST-AudioQA。
- 获取链接：论文中未提供具体的公开下载链接，但说明该数据集基于以下开源资源构建：
  - 渲染工具：SoundSpaces 2.0 (论文链接：https://arxiv.org/abs/2206.11796)。
  - 3D场景：Matterport3D (论文链接：https://arxiv.org/abs/1707.06640)。
  - 音频事件源：AudioSet (论文链接：https://research.google/pubs/archive/45857.pdf)。
- 开源协议：论文中未提及具体协议。
Demo：论文中未提及。
复现材料：
- 论文中提供了详细的训练配置：使用OLMo2-7B-Instruct作为基础LLM，采用三阶段编码器训练，以及分三阶段的QA课程训练LLM适配器。具体的学习率（如3e-5）、LoRA配置（rank=16, α=32）、训练样本数等信息见论文第4.2节和第5.1节。
- 论文附录（Appendix）中提供了更多关于音频渲染和QA生成的细节，但未在正文提供可访问的链接。
论文中引用的开源项目：
1. SoundSpaces 2.0：用于空间音频模拟。论文链接：https://arxiv.org/abs/2206.11796
2. Matterport3D：提供3D室内场景网格。论文链接：https://arxiv.org/abs/1707.06640
3. AudioSet：用于声音事件分类的大规模数据集。论文链接：https://research.google/pubs/archive/45857.pdf
4. BAT (Spatial Audio Encoder)：双耳空间音频编码器基线。论文链接：https://arxiv.org/abs/2309.16650
5. OLMo：作为基础大语言模型（LLM）。论文链接：https://arxiv.org/abs/2402.00838
6. PSELDNets：动态声音事件定位与检测（SELD）模型。论文链接：https://arxiv.org/abs/2502.16682
7. Spatial-AST：基于音频频谱图Transformer（AST）的空间音频编码器。论文链接：https://arxiv.org/abs/2309.16650 (与BAT引用相同)
8. AST (Audio Spectrogram Transformer)：音频频谱图Transformer骨干网络。论文链接：https://arxiv.org/abs/2104.01778

23. Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech

6.8/10 | 创新 1.2/2 | 严谨 1.0/1.5 | 实验 1.2/1.5 | 清晰 1.2/1 | 影响 1.0/1.5 | 开源 0.5/1.5 | 复现 0.8/0.5 | 工程 1.0/1.5

👥 作者与机构

作者: Alef Iury Siqueira Ferreira, Lucas Rafael Stefanel Gris, Luiz Fernando de Araújo Vidal, Frederico Santos de Oliveira, Christopher Dane Shulby, Anderson da Silva Soares, Arlindo Rodrigues Galvão Filho 机构: 巴西米纳斯吉拉斯联邦大学（根据作者背景推断，论文原文未明确列出机构全称）

💡 毒舌点评

这篇论文抓住了无对齐离散流匹配TTS在推理时控制不稳定的痛点，并提出了一个设计巧妙的集成方案。其核心贡献在于将“可修订性”这一概念形式化为CTMC的显式转换（SC-ReMask），并与其他控制手段（PFG，条件耦合）统一到一个采样器中，系统性地证明了它们的协同作用。消融实验设计扎实，结论清晰。然而，作者似乎满足于在单一英语数据集上“自证有效性”，却对“为何不与最强对手（如F5-TTS）在相同条件下正面较量”这一问题采取回避态度，仅提供外部系统参考值作为对比。这使得其声称的“优越性”大打折扣。更关键的是，说话人相似度（SIM-o）的巨大差距（0.42 vs. 0.78）被轻描淡写地归因于“缺乏显式说话人目标”，但这恰恰暴露了其条件建模在音色保持上的根本弱点。论文在方法论上提供了有价值的见解，但在工程验证和全面性上偷懒了，其“系统创新”的贡献大于“算法突破”。

📌 核心摘要

本文提出了一种名为“Mask, Sample, Revise”的可修订推理堆栈，用于改进基于离散流匹配（DFM）的无对齐文本到语音（TTS）系统。该系统（G-DFlow-TTS）在推理时集成了三个关键组件：（1）预测器无关引导（PFG），通过混合条件与无条件CTMC转移率来增强文本条件控制；（2）提示匹配条件耦合，在训练时通过复制随机长度的目标序列前缀来修改源序列，以模拟推理时的提示任务；（3）SC-ReMask，一种调度约束重掩码机制，在推理过程中引入显式的“标记到掩码”CTMC转移，允许对早期生成的标记进行修订。这些组件无需事后微调，集成在单一tau-leaping采样器中。控制消融实验证明，该推理堆栈能在低函数评估次数（NFE）下显著提升生成的可懂度和鲁棒性。论文在LibriSpeech数据集上进行了系统评估，并提供了演示页面。

🔗 开源详情

代码：未提及代码仓库链接。
模型权重：未提及模型权重下载链接。
数据集：
- 名称：Emilia-YODAS（英文部分）
- 协议：CC BY 4.0
- 获取链接：论文未提供直接下载链接，但明确提及数据集来自Emilia家族，并因其开放许可证而选用。
Demo：https://gdflowtts.github.io/G-DFlow-TTS-Demo
复现材料：论文提及了部分训练配置（1M iterations, 1x NVIDIA B200 GPU, AdamW, lr=3e-4, cosine decay, effective batch size 64等），但未提供可执行的训练脚本、配置文件或模型检查点。
论文中引用的开源项目：VALL-E, E2-TTS, Discrete Flow Matching (DFM) [8], DiFlow-TTS [23], H-DFM [17], GibbsTTS [36], ReMDM [31], NeuCodec [14], XCodec2 [37], F5-TTS [4], CosyVoice2 [5], MaskGCT [34], NaturalSpeech 3 [13], VoiceBox [16], Matcha-TTS [22], DiTTo-TTS [18], LibriSpeech [25], WavLM-TDCNN [2], UTMOS [30], GPT-2 BPE tokenizer [27]。论文对这些项目的引用主要作为背景或对比参考，未说明与本文实现的关联。

24. MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

6.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

👥 作者与机构

作者：Theresa Pekarek Rosin, Matthias Kerzel, Stefan Wermter 机构：德国汉堡大学信息学系知识技术实验室

💡 毒舌点评

这篇论文想法不错，想解决ASR鲁棒性评估脱离实际的痛点，用持续学习（CL）这个“时髦”工具来诊断。但“诊断”这词用得有点大。用Whisper-small.en这个本身就不太强的模型在一堆精心构造的任务上做实验，结论的普适性存疑。方法创新有限，主要是把因子设计和CL结合到语音领域。实验部分，虽然对比了三种CL方法，但都比较经典，缺少和近期更先进的CL方法对比。最大的亮点是数据集设计和开源，这点要给赞。但要说对领域有多大推动，可能更多是提供了一个不错的基准和工具，离深刻洞察还差一步。CL在ASR上的实际应用价值？目前看更像是个学术玩具。

📌 核心摘要

本文针对现有自动语音识别（ASR）鲁棒性评估基准孤立看待噪声、口音、疾病等分布偏移因素的问题，提出将鲁棒性视为一个动态发展的持续学习（CL）能力。为此，作者构建了MoDiCoL数据集，这是一个基于正交阵列和折叠设计的模块化、可诊断CL数据集，系统地覆盖了语言内容、说话人特征和声学环境三大类因素。数据集包含8100个样本（18.79小时，其中14.08小时为合成语音），通过可配置的增强管道精确控制因素水平。论文设计了一个模拟真实世界增量更新的CL课程，包含四个顺序任务（控制设置、声学漂移、说话人漂移、语言漂移、复合漂移），并通过排列任务顺序评估鲁棒性迁移。在实验上，使用Whisper-small.en作为骨干模型，对比了经验重放缓冲区（ER-5%， ER-10%）、表示级正则化（RLR）和正交梯度下降（OGD）三种CL策略。结果表明，ER-10%在平均词错误率（A-WER）和遗忘度量（FM）上表现最优，甚至超过了联合训练上界；OGD在平均增量词错误率（AI-WER）上最佳。研究发现，顺序引入偏移可以提高模型的学习可塑性，但任务顺序对记忆稳定性影响显著。作者总结认为，CL不仅能保持模型鲁棒性，也可作为诊断预训练模型遗忘机制的工具。MoDiCoL数据集、增强流程及CL课程设置已开源。

🔗 开源详情

代码：论文未提供完整的代码仓库链接。但声明提供了数据集、增强管道（augmentation pipeline）及持续学习课程设置（CL curriculum）。
模型权重：未提供。
数据集：
- 名称：MoDiCoL (Modular Diagnostic Continual Learning Dataset)
- 获取链接：https://huggingface.co/datasets/TPekarekRosin/modicol
- 内容：包含所有运行配置的语音样本及相关元数据。
Demo：未提及。
复现材料：
- 训练配置：论文第3节详细描述了实验设置，包括骨干模型（whisper-small.en）、持续学习策略（ER, RLR, OGD）、超参数（学习率1e-5）、在线流式CL设置（batch size为1）、数据划分（70% train, 20% validation, 10% test）及评估指标（A-WER, AI-WER, FM, BWT, FWT, IM）。
- 检查点：未提及提供训练好的模型检查点。
- 附录：未提及提供附录。
论文中引用的开源项目：
1. 语音数据集：NNCES, Children Speech Recordings, UXTD, Cleft, Svarah, TIS, TED-LIUMv2, Common Voice, DailyDialog, ATCO-2, UWB-ATCC, United-Syn-Med, Eka, PVQD, VCTK, UXSSD, TORGO（均仅引用，未提供链接）。
2. 文本数据集/知识库：Wikipedia, MedRAG, Medical Transcriptions, MedDialog, NoteChat, Simulated Medical Exams（均仅引用）。
3. 语音处理工具/模型：XTTS-v2（引用）；DNN-HMM混合系统去噪检查点：https://huggingface.co/speechbrain/mtl-mimic-voicebank（提供链接）。
4. 噪声数据集：MS-SNSD（引用）。
5. 持续学习方法/基线：ER, RLR, OGD（均仅引用）。
6. 基准模型：whisper-small.en（引用）。
7. 评估工具：BERTScore（引用）。

25. Multimodal Speaker Identification in Classroom Environments

6.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5

👥 作者与机构

Michael Leon Chrzan1, Meghavarshini Krishnaswamy1, Robert Gibboni2, Katie Wetstone2, Wei Ai3, Jing Liu1

未明确具体机构名称（论文中未说明）
未明确具体机构名称（论文中未说明）
未明确具体机构名称（论文中未说明）（论文作者列表及机构信息未在提供的原文片段中明确列出）

💡 毒舌点评

这篇论文就像给课堂分析系统装上了一个“顺风耳”加“读心术”的混合引擎。它试图解决一个真实痛点：教室里小朋友们叽叽喳喳，老师声音被淹没，纯靠声音识别谁在说话简直是噩梦。作者的想法很直接：把声音特征和说话内容结合起来猜。用现成的ECAPA-TDNN模型提取声音指纹，再让GPT-5-mini这个“大语文课代表”从转录文本里猜猜是谁在说话，最后把这些特征塞给XGBoost这个“分类老手”。想法朴实，但实现上确实有点“缝合怪”——ECAPA-TDNN是别人的，XGBoost是别人的，LLM的提示词也简单得像是课堂练习题。最让人哭笑不得的是，花了这么大劲，对于最难也最有价值的学生识别，整体准确率才勉强过半（50.3%），还不如抛硬币（考虑多个学生）稍微强点。不过，论文也坦诚得可爱，老老实实分析了为什么对短语句没辙，为什么老师识别比学生识别准得多——毕竟老师话多，声音特征更稳定，LLM也更容易从“同学们”之类的词猜出是老师。总的来说，这是一篇工程意义大于科学创新的“集成创新”论文，在教育技术这个特定领域提供了一个可行的baseline，但要离真正的“课堂AI助教”还有十万八千里。

📌 核心摘要

本文针对K-12教室环境中背景噪声大、儿童语音可变性强导致纯声学说话人识别（SID）效果差的问题，提出了一种多模态说话人识别框架。该框架将ECAPA-TDNN提取的声学嵌入与基于GPT-5-mini从转录文本推断的语义上下文（称为“语义锚点”）相结合，并通过XGBoost分类器进行最终预测。在EDSI数据集的8个数学课堂（2801个标注语句）上进行的留一课堂交叉验证表明，该多模态方法在教师-学生角色区分上达到99.3%的准确率，远超纯声学基线（88.0%）；在具体学生身份识别上，总体Top-1准确率为50.3%，较基线（39.0%）提升11.3个百分点，对于超过5秒的语句准确率可达76.9%。研究证实，在声学信号不足的短语句中识别个体学生仍是主要挑战，而结合语义上下文能显著提升对长时、有意义发言的识别能力，为构建可扩展的课堂个体参与分析系统提供了基础。

🔗 开源详情

代码：论文中未提及任何代码仓库或链接。
模型权重：论文中未提供其使用的具体模型权重链接。论文所用的ECAPA-TDNN基础模型（spkrec-ecapa-voxceleb）是SpeechBrain项目的开源组件，其官方权重托管于 HuggingFace Hub: https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb。
数据集：论文使用了 EDSI (Educational Data Science and Innovation) Dataset 的一个子集。论文未提供该数据集的公开获取链接或明确的开源协议，通常需要向相关机构申请。
Demo：论文中未提及。
复现材料：论文详细描述了实验设置（特征、超参数、交叉验证），但未提供任何训练脚本、配置文件、预处理代码或模型检查点。
论文中引用的开源项目：
- SpeechBrain: ECAPA-TDNN模型的来源。官方项目：https://github.com/speechbrain/speechbrain。
- XGBoost: 核心分类模型。官方项目：https://github.com/dmlc/xgboost。
- Optuna: 用于超参数优化的框架。官方项目：https://github.com/optuna/optuna。
- TranscribeMe: 论文中提及用于生成转录文本的商业服务，非开源项目。

26. Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization

5.1/10 | 创新 0.5/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5

👥 作者与机构

Rishit Chatterjee, Tahiya Chowdhury Department of Computer Science, Colby College, Waterville, Maine, United States

💡 毒舌点评

这篇文章就像一份详尽的“产品规格说明书”，而不是一篇提出新思想的科研论文。它非常诚实地告诉你：“别指望剪枝或量化能让你的端到端系统跑得更快，模型小了，但整体速度几乎没变。” 这对于幻想“一键压缩加速”的工程人员来说是一盆冷水，但其价值也仅限于此。论文的贡献在于系统地验证了一个略显悲观的工程现实：在成熟的复杂流水线中，单一组件的优化（分割模型）对端到端性能的提升存在瓶颈。这种“发现”虽然实用，但缺乏学术上的兴奋点。更关键的是，所有结论都基于一个非常特定的、模拟的、仅有两个说话人的数据集（SIMSAMU）和一个固定的BiLSTM管道，其结论的普适性大打折扣。说白了，它是在一个自己搭建的、条件受限的沙盒里做了一套完整的性能测试，然后给出了一个谨慎的结论。作为顶会论文，其技术深度和影响力都显得不足。

📌 核心摘要

本文针对医疗调度场景下的流式说话人日志任务，研究了模型效率与性能的权衡。研究使用了公开的SIMSAMU数据集及其官方端到端管道（分割-嵌入-聚类），并保持管道架构、超参数和评估协议固定。核心工作分为三部分：1) 扫描流式推理的延迟参数（块长度C和右向上下文R），发现增加右向上下文超过约1秒后性能下降，且过小的块长度（<0.1秒）会严重损害性能。2) 对管道中的分割模型（BiLSTM架构）进行迭代结构化剪枝，发现隐藏单元剪枝会导致性能急剧下降，而对后置线性层进行40%的通道剪枝可在可控性能损失下实现微小的模型压缩。3) 在剪枝后的模型（Linear-40）上应用低比特量化，发现FP16（混合精度）在模型大小减半的同时，仅导致约40%的相对DER增加，且是量化方案中的最佳选择；INT4量化则导致性能严重退化。最重要的发现是，尽管压缩显著降低了分割模型的参数量和内存占用，但端到端处理时间的实时因子（RTF）几乎没有改善。论文指出，这表明端到端运行时可能由非压缩组件（如特征提取、聚类）主导。因此，论文的核心结论是：在评估压缩技术时，应在完整的流水线层面进行，单一组件的优化未必能转化为端到端加速，且压缩的性能代价需要仔细权衡。

🔗 开源详情

代码：论文中未提及具体的代码仓库链接。论文中多次使用了公开发布的SIMSAMU管道（medkit/simsamu-diarization）以及pyannote框架的模型，但未给出这些项目的GitHub或任何代码托管平台链接。
模型权重：论文中未提及具体的模型权重下载链接。论文中使用的分割模型（pyannote/segmentation-3.0）和说话人嵌入模型（pyannote/wespeaker-voxceleb-resnet34-LM）均为公开的预训练模型，但未在论文中提供其Hugging Face页面的直接URL。
数据集：论文中使用的数据集为SIMSAMU，这是一个公开的医疗调度对话语料库。论文中提供了Hugging Face数据集引用链接：https://huggingface.co/datasets/ALM/MedITIS-SIMSAMU。
Demo：论文中未提及在线演示链接。
复现材料：论文中未提及训练配置文件、详细检查点或附录等具体复现材料。论文提到遵循SIMSAMU数据集发布时提供的实验设置，并保持所有超参数为默认值。
论文中引用的开源项目：
- SIMSAMU数据集与管道：论文引用了SIMSAMU的论文和数据集页面，并提及管道代码为 medkit/simsamu-diarization。
- Pyannote库：论文中用于说话人日志的模型和工具均基于pyannote框架。
- medkit：论文中提及的音频指标工具（medkit_audio_metrics）。
- PyTorch AO (torchao)：论文中用于实现量化操作的框架。
- 评估工具：论文中使用的DER计算基于 pyannote_metrics 库。

语音/音乐/音频论文速递 2026-06-15#

⚡ 今日概览#

🏷️ 热门方向#

📊 论文评分排行榜（26 篇，按分数降序）#

📋 论文列表#

🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models#

🥈 MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation#

🥉 HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training#

4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM#

5. Moonlight in Latent Space: Chirality and Structural Correspondence Between Beethoven's Op. 27 No. 2 and Machine Learning Mechanisms#

6. Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark#

7. Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR#

8. The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models#

9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains#

10. Orchestra-o1: Omnimodal Agent Orchestration#

11. Unsupervised Approaches for Global Prosodic Embedding Extraction#

12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fundamental Waveform Enhancement#

13. A Deep Zero-Inflated Model of North Atlantic Right Whale Presence To Support Blue Economy Management in the U.S. East Coast#

14. FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding#

15. From Self-Supervised Speech Models to Mixture-of-Experts for Robust Anti-Spoofing#

16. The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions#

17. A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators#

18. AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models#

19. Beyond task performance: Decoding bioacoustic embeddings with speech features#

20. Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors#

21. FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision#

22. Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources#

23. Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech#

24. MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition#

25. Multimodal Speaker Identification in Classroom Environments#

26. Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization#

📎 相关论文

语音/音乐/音频论文速递 2026-06-15

⚡ 今日概览

🏷️ 热门方向

📊 论文评分排行榜（26 篇，按分数降序）

📋 论文列表

🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models

🥈 MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

🥉 HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training

4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

5. Moonlight in Latent Space: Chirality and Structural Correspondence Between Beethoven's Op. 27 No. 2 and Machine Learning Mechanisms

6. Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark

7. Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

8. The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

10. Orchestra-o1: Omnimodal Agent Orchestration

11. Unsupervised Approaches for Global Prosodic Embedding Extraction

12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fundamental Waveform Enhancement

13. A Deep Zero-Inflated Model of North Atlantic Right Whale Presence To Support Blue Economy Management in the U.S. East Coast

14. FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding

15. From Self-Supervised Speech Models to Mixture-of-Experts for Robust Anti-Spoofing

16. The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions

17. A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators

18. AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

19. Beyond task performance: Decoding bioacoustic embeddings with speech features

20. Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors

21. FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision

22. Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

23. Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech

24. MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

25. Multimodal Speaker Identification in Classroom Environments

26. Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization