Icassp-2026

Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems

📄 Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems #语音合成 #模型评估 #数据集 #语音情感识别 #人类感知评估 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #数据集 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yi-Cheng Lin（National Taiwan University）通讯作者：未说明作者列表：Yi-Cheng Lin（National Taiwan University）、Huang-Cheng Chou（University of Southern California）、Tzu-Chieh Wei（University of Michigan）、Kuan-Yu Chen（National Taiwan University）、Hung-yi Lee（National Taiwan University） 💡 毒舌点评亮点在于精准定义了指令引导TTS领域一个被忽视的关键问题——“指令-感知鸿沟”，并首次系统性地引入了程度副词和情感强度形容词这两个细粒度维度进行量化评估，为未来研究提供了明确的改进靶点和高质量的基准数据集（E-VOC）。短板是，虽然评估框架设计精巧，但论文在分析环节更侧重于现象描述（如“模型倾向于生成成人声音”），对于导致这些现象的模型架构差异、训练数据偏差等深层原因挖掘不足，使得结论的启发性略打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及（论文评估的是已有模型，未提出新模型）。数据集：论文明确表示将公开发布的“Expressive VOice Control (E-VOC) corpus”，包含60,000+人类评分，但未提供当前获取链接。 Demo：未提及。复现材料：论文描述了E-VOC的构建过程（文本生成、提示词设计、标注流程、质量控制协议），并提供了评估指标（表2，表3，表4）和结果图表（图1，图2），为复现其评估实验提供了必要信息。论文中引用的开源项目：引用了Parler-TTS（开源）、PromptTTS++（开源）、UniAudio（开源）的模型或代码库。评估中的其他依赖如CREPE（音高估计模型）、NRC Emotion Intensity Lexicon（情感词典）也是公开资源。论文中未提及开源计划：关于分析流水线（Analysis Pipeline）的具体代码，论文提到将公开，但未给出链接。 📌 核心摘要要解决什么问题：当前指令引导的文本转语音（ITTS）系统虽允许用户通过自然语言控制语音风格，但用户指令与听众感知之间的实际对齐程度，尤其是对细粒度属性（如不同强度的情感、不同年龄的声音）的控制能力，尚未被系统性量化研究，存在一个“指令-感知鸿沟”。方法核心：本文提出了一个全新的评估框架，首次引入“程度副词”（如 slightly, extremely）和“情感强度形容词”（如 Content, Happy, Ecstatic）作为控制维度，结合传统的说话人年龄和词汇重音控制任务，对ITTS系统进行综合评估。为此，他们构建了一个名为E-VOC（Expressive VOice Control）的大规模人类评估数据集，包含超过60,000个人类评分。与已有方法相比新在哪里：不同于以往研究仅使用粗粒度的情感或风格标签（如“快乐”），或依赖自动分类器进行客观评估，本工作首次在人类感知评估中纳入了连续、分级的表达属性（程度和情感强度），并通过大规模众包获得了可靠的人类感知基准，更直接地反映了用户意图与最终感知的差异。主要实验结果如何：评估了5个代表性ITTS系统。结果显示：(1) gpt-4o-mini-tts是唯一能在响度、音高、语速和情感强度上可靠遵循程度指令并产生可感知梯度变化的模型。(2) 所有模型在控制说话人年龄方面表现均不佳（最佳准确率仅29.4%），且普遍倾向于生成“成人”声音，即使指令要求“儿童”或“老人”声音。(3) 词汇重音控制极具挑战性，最佳模型（gpt-4o）的准确率也仅为26.5%。具体关键数据见下表。任务模型关键指标（数值）说话人年龄 (Age) 总体准确率 (最高) 0.294 (Parler-large) 总体准确率 (gpt-4o) 0.289 F1-score (Child, 最高) 0.113 (Parler-large) F1-score (Elderly, 最高) 0.339 (UniAudio) 词汇重音 (Emphasis) 总体准确率 (最高) 0.265 (gpt-4o) 总体准确率 (随机基线) ≈0.143 实际意义是什么：本工作为ITTS系统的评估和开发建立了新的、更贴近真实用户需求的基准。E-VOC数据集的公开将极大推动该领域在细粒度控制、人类感知对齐等方面的研究，并为开发更可靠的自动评估工具提供了训练数据。主要局限性是：研究仅评估了5个模型，结论的普适性需验证；论文未对导致“指令-感知鸿沟”的具体模型架构或训练因素进行深入分析；评估仅限英语，未涉及多语言场景。 🏗️ 模型架构论文中未提供具体的模型架构图或详细描述。本文的核心贡献是评估框架、数据集和分析方法，而非提出一个新的TTS模型。文中所评估的ITTS系统（如Parler-TTS, PromptTTS++, gpt-4o-mini-tts）均为已有系统，论文重点在于评估它们在新维度上的表现，而非剖析其内部架构。 ...

Does the Pre-Training of an Embedding Influence its Encoding of Age?

📄 Does the Pre-Training of an Embedding Influence its Encoding of Age? #语音生物标志物 #说话人识别 #预训练 #模型比较 ✅ 7.0/10 | 前50% | #语音生物标志物 | #预训练 | #说话人识别 #模型比较学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Carole Millot（Inria Paris）通讯作者：未说明作者列表：Carole Millot（Inria Paris）、Clara Ponchard（Inria Paris）、Jean-François Bonastre（AMIAD，邮箱域名(polytechnique.edu)提示可能与巴黎综合理工学院相关，但论文中机构仅写为AMIAD）、Cédric Gendrot（LPP, Sorbonne Nouvelle, CNRS） 💡 毒舌点评亮点在于将心理物理学中的感知实验范式引入语音年龄检测模型的评估，为人机对齐提供了新颖的视角。短板是下游年龄检测模型过于简单（一个三层MLP），且对不同嵌入的分析更多停留在性能比较层面，缺乏对其内部年龄信息编码机制的更深层探究。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及提供训练好的年龄检测模型或使用的嵌入提取器的特定权重。所使用的嵌入提取器（WeSpeaker, MMS LID, wavLM, BA-LR）本身是已发表的开源项目。数据集：使用的是VoxCeleb2语料库，这是一个公开数据集。论文中提及了带有年龄标注的增强版本，但未说明如何获取该特定版本。 Demo：未提及。复现材料：论文给出了下游MLP的详细超参数（学习率、批大小、优化器）和训练流程，但未提供配置文件或检查点。论文中引用的开源项目：WeSpeaker toolkit, PraatSauce, PsyToolKit, lmerTest package (R语言)。 📌 核心摘要这篇论文研究了语音自监督学习（SSL）嵌入提取器的预训练策略如何影响其对说话人年龄信息的编码。为解决两个问题：1. 如何用人类感知验证自动年龄检测系统的性能；2. 不同预训练目标的嵌入是否在年龄检测上表现不同，作者进行了两项工作。首先，他们建立了一个基于WeSpeaker嵌入和简单MLP的年龄检测系统，并在VoxCeleb2-age数据集上实现了6.8年的平均绝对误差（MAE）。然后，他们设计了一个感知实验，让人类听者判断语音对中说话人的年龄差异。实验发现，人类准确度与系统MAE显著相关，即系统判断困难的语音对，人类也更难判断。其次，他们比较了四个不同嵌入提取器（WeSpeaker、MMS LID、wavLM base+、BA-LR）在相同年龄检测任务上的性能。结果显示，为说话人识别设计的WeSpeaker表现最佳（MAE 6.8），而为语言识别优化的MMS LID表现最差（MAE 9.1）。这支持了他们的假设：预训练目标（如追求说话人独立性的语言识别）会削弱嵌入中的年龄相关信息。主要局限性包括：仅在一个数据集和下游任务上验证，且未深入探究嵌入内部的年龄编码机制。 ...

DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling

📄 DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling #语音对话系统 #意图识别 #槽填充 #扩散模型 #鲁棒性 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #意图识别 #槽填充学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siqi Yang（电子科技大学）通讯作者：Fan Zhou（电子科技大学；智能数字媒体技术四川省重点实验室；喀什电子与信息产业研究院）作者列表：Siqi Yang（电子科技大学），Yue Lei（电子科技大学），Wenxin Tai（电子科技大学），Jin Wu（电子科技大学），Jia Chen（电子科技大学），Ting Zhong（电子科技大学），Fan Zhou*（电子科技大学；智能数字媒体技术四川省重点实验室；喀什电子与信息产业研究院） 💡 毒舌点评这篇论文巧妙地将扩散语言模型（DLM）的并行生成能力用于纠正ASR转录错误，并通过一个轻量级的自适应先验模块来解决DLM可能“改对为错”的痛点，想法很实用。不过，整个框架的性能瓶颈和复杂度高度依赖于所使用的DLM（如LLaDA），自适应先验模块本身也可能引入新的错误（例如错误地掩码了本应保留的token），论文对此的边界讨论不足。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/ICDM-UESTC/DOMA。模型权重：论文未提及DOMA中的自适应先验（AP）模块权重是否开源。所使用的DLM（LLaDA-8B-Instruct）为第三方开源模型。数据集：论文使用的是公开的基准数据集（SLURP, ATIS, SNIPS），未提及对数据集的修改或私有部分。 Demo：论文中未提及在线演示。复现材料：论文提供了关键的超参数设置（假设数N=5，门控阈值p=0.5，生成长度64，扩散步数32）、优化器学习率（1e-5）、训练轮数（10 epochs）以及骨干模型（RoBERTa-base），但未提供更详细的训练配置（如batch size）、检查点、完整训练日志或附录中的额外设置。论文中引用的开源项目：论文明确提到使用了开源的LLaDA模型（[14] Nie et al., ICLR 2025 Workshop），以及作为下游骨干的RoBERTa [20]。ASR使用了Whisper Large-v3。 📌 核心摘要本文针对自动语音识别（ASR）错误会传播并损害下游口语理解（SLU）任务（如意图分类和槽填充）性能的问题，提出了一个模型无关的框架DOMA。DOMA的核心是使用扩散语言模型（DLM）对ASR转录文本进行细化，并引入了一个自适应先验（AP）机制来引导DLM的生成过程。具体来说，DOMA首先使用DLM生成多个候选细化假设，然后利用一个轻量级的、可训练的AP模块（包含自注意力和门控机制）来识别并保留原始ASR转录中可能正确的token，从而构建一个部分掩码的初始序列，而非从完全掩码开始生成。这有助于减少DLM的过度纠正，同时减少所需的扩散步数，提升推理效率。在SLURP、ATIS和SNIPS三个基准数据集上的实验表明，DOMA在多种基线模型（如RoBERTa, SpokenCSE）上一致提升了ICSF性能，相对提升最高达3.2%（例如，DOMA+SpokenCSE在SLURP上的IC准确率从85.51%提升至88.26%）。同时，与自回归LLM细化方法相比，DOMA将推理延迟降低了34.8%（RTF从0.66降至0.43）。该框架的意义在于为提升SLU系统对ASR错误的鲁棒性提供了一种高效、通用的后处理方案。主要局限性在于其效果依赖于强大的预训练DLM（如LLaDA-8B），且AP模块的训练需要额外数据和计算资源。 ...

Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation

📄 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation #音频分离 #参数高效微调 #领域适应 #预训练 ✅ 7.5/10 | 前50% | #音频分离 | #参数高效微调 | #领域适应 #预训练学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yinkai Zhang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）通讯作者：Kai Wang, Hao Huang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）作者列表：Yinkai Zhang（新疆大学计算机科学与技术学院等），Dingbang Zhang（新疆大学计算机科学与技术学院等），Tao Wang（新疆大学计算机科学与技术学院等），Diana Rakhimova（哈萨克斯坦阿勒法拉比国立大学信息系统系），Kai Wang（新疆大学计算机科学与技术学院等），Hao Huang（新疆大学计算机科学与技术学院等）。 💡 毒舌点评亮点：论文巧妙地将LLM领域的“领域划分+PEFT微调”范式迁移到音频分离任务，思路清晰且实验效果扎实，在多个数据集上稳定超越强基线AudioSep。短板：创新更多是框架层面的组合，作为核心组件的ReConv-Adapter是在Conv-Adapter基础上“加宽”而非原创性设计，其参数效率与性能增益的权衡有待更深入探讨。 🔗 开源详情代码：提供开源代码仓库链接：https://github.com/butterflykite/DP-LASS。模型权重：论文中未明确提及是否公开预训练模型或微调后的模型权重。数据集：基于公开数据集AudioSet进行训练，未提供独立的自建数据集。评估使用公开的AudioCaps, Clotho等基准测试集。 Demo：论文中未提及在线演示（Demo）。复现材料：论文提供了较为充分的复现信息，包括：训练数据构建方式（单类音频，混合采样）、关键超参数（学习率、batch size、训练步数）、硬件配置（RTX 3090 GPU）以及消融实验设置。引用的开源项目：论文依赖并引用了AudioSep的官方实现和预训练模型（https://github.com/Audio-AGI/AudioSep），以及HuggingFace PEFT库（用于DoRA/LoRA的实现）。 📌 核心摘要问题：语言查询音频源分离（LASS）任务面临一个关键挑战：不同声音类别之间特征分布差异巨大，使得单一模型难以有效建模所有类别。方法核心：提出一种结合领域划分（Domain Partitioning）与参数高效微调（PEFT）的新方法。首先，使用K-Means对各类音频的CLAP嵌入进行聚类，将训练数据划分为多个子领域；然后，为每个子领域在预训练AudioSep模型上微调一个独立的PEFT模块（ReConv-Adapter）；推理时，由子领域分类器将输入路由到对应的模块。创新点：这是首次将“预训练+领域划分微调”的LLM范式应用于LASS任务，并设计了新的PEFT模块ReConv-Adapter（在卷积层添加并行分支并采用零初始化）。实验结果：在六个基准数据集上，本文方法平均SDRi达到9.76 dB，SI-SDR达到9.06 dB，分别比基线AudioSep提升1.01 dB和1.29 dB。关键实验结果如下：方法 AudioCaps (SDRi/SI-SDR) VGGSound (SDRi/SI-SDR) AudioSet (SDRi/SI-SDR) Music (SDRi/SI-SDR) ESC-50 (SDRi/SI-SDR) Clotho v2 (SDRi/SI-SDR) 平均 (SDRi/SI-SDR) LASS-Net 3.36 / -0.78 1.26 / -4.43 1.32 / -3.66 0.38 / -12.24 3.41 / -2.35 2.21 / -3.38 1.99 / -4.47 AudioSep 8.22 / 7.19 9.14 / 9.04 7.74 / 6.90 10.51 / 9.43 10.04 / 8.81 6.85 / 5.24 8.75 / 7.77 CLAPSep 9.66 / 8.76 5.04 / 4.27 6.17 / 4.64 7.65 / 5.62 11.49 / 10.23 5.26 / 2.84 7.55 / 6.06 Ours (classifier) 8.92 / 8.02 10.04 / 10.06 9.06 / 8.46 11.46 / 10.56 11.13 / 10.50 7.92 / 6.75 9.76 / 9.06 Ours (oracle) 9.20 / 8.47 10.31 / 10.36 9.31 / 8.70 11.71 / 11.18 11.74 / 11.21 8.05 / 7.10 10.05 / 9.50 消融研究表明，ReConv-Adapter在参数量（19M）与性能上取得了最佳平衡。子领域划分的有效性通过t-SNE可视化得到验证。 ...

Domain-Aware Scheduling for ASR Fine-Tuning

📄 Domain-Aware Scheduling for ASR Fine-Tuning #语音识别 #领域适应 #低资源 #数据选择 ✅ 6.5/10 | 前50% | #语音识别 | #领域适应 | #低资源 #数据选择学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Nikolaos Lagos（Naver Labs Europe, France）通讯作者：未说明作者列表：Nikolaos Lagos（Naver Labs Europe, France）， Ioan Calapodescu（Naver Labs Europe, France） 💡 毒舌点评该论文提出了一个在低资源场景下微调ASR系统的实用策略（按域相似度排序数据并分阶段训练），实验结果一致且增益明确，对实际部署者有吸引力。但其核心贡献是对现有数据选择方法（Lagos et al., 2024）的一个后处理步骤，而非根本性架构或算法创新，且方法效果高度依赖于数据选择步骤的质量。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的微调后模型权重。数据集：使用了公开的ESB基准数据集，并说明了如何从验证集中抽取种子。数据选择过程依赖于FAISS库进行索引。 Demo：未提供在线演示。复现材料：论文提供了详细的训练超参数（表3）、数据选择参数（KNN搜索，4分组）、评估协议和模型架构描述，复现信息较为充分。论文中引用的开源项目：Wav2vec 2.0 [1]、Sentence-BERT [10]、FAISS [11]、SpeechBrain [13]。 📌 核心摘要要解决的问题：在真实场景中，用于微调ASR系统的目标域数据往往稀缺。常用的解决方案是从大型开源数据集中选择与目标域相似的域外数据。传统方法在使用这些选中的数据时采用随机顺序，导致训练效果不佳。方法核心：提出“域感知调度”（DAS）。该方法首先利用一个仅1分钟的目标域种子数据，通过KNN搜索对选定的域外数据按与目标域的距离进行排序（从最远到最近）。然后，将训练过程分为多个阶段，按顺序使用距离递增的数据组进行训练，每个阶段都从上一阶段的最优检查点继续。与已有方法相比新在哪里：与传统课程学习按“难度”排序不同，DAS按“域距离”排序。与之前直接使用排序数据的“仅选择”基线相比，DAS引入了基于距离的顺序调度机制。论文声称这是首个在ASR微调中明确利用域相似度进行调度的方法。主要实验结果：在ESB基准的7个英语数据集上，使用100小时训练预算，DAS方法相对于随机选择和“仅选择”基线，平均WER分别降低了4.14个点（17.29%相对降低）和2.52个点（11.32%相对降低）。在不同训练预算（10/50/100小时）下，DAS均表现出稳定改进。具体结果见下表。数据集 Random WER(↓) SO WER(↓) DAS WER(↓) DAS vs SO WERR(%) (↑) DAS vs Random WERR(%) (↑) LibriSpeech-clean 6.75±0.35 6.59±0.45 4.63±0.10 29.71 31.44 LibriSpeech-other 14.44±0.58 14.31±0.41 10.74±0.05 24.92 25.62 CommonVoice 37.31±0.43 35.55±1.47 32.77±0.44 7.81 12.17 Tedlium 14.49±2.07 11.74±0.62 9.34±0.9 20.44 35.53 Voxpopuli 19.32±0.23 17.37±0.86 15.62±0.24 10.08 19.18 AMI 39.33±0.96 34.60±1.73 32.14±0.6 7.1 18.28 Earnings22 38.84±0.72 36.76±1.91 32.65±1.3 11.2 15.95 Gigaspeech 21.13±0.22 21.81±0.67 20.59±0.74 5.58 2.82 平均值 23.95±0.77 22.34±1.10 19.81±0.55 11.32 17.29 实际意义：该方法为无法依赖大量领域内数据的从业者（如低资源或隐私受限场景）提供了一种提升ASR微调性能的实用方案，可以作为现有数据选择技术的补充。主要局限性：方法的有效性高度依赖于数据选择步骤（KNN搜索）的质量，这在Gigaspeech数据集上表现明显（该数据集本身多样性高）。论文未探索其他调度顺序（如从近到远）或组内多样性的控制，属于初步研究。 🏗️ 模型架构论文中并未提出一个全新的端到端神经网络模型，而是提出了一种 “训练调度”（Scheduling）策略，应用于现有ASR模型的微调过程中。其核心流程是一个两阶段框架： ...

Domain-Invariant Representation Learning of Bird Sounds

📄 Domain-Invariant Representation Learning of Bird Sounds #生物声学 #对比学习 #自监督学习 #领域适应 #少样本学习 ✅ 6.5/10 | 前50% | #生物声学 | #对比学习 | #自监督学习 #领域适应学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ilyass Moummad（INRIA, LIRMM, Université de Montpellier, France）通讯作者：未说明作者列表：Ilyass Moummad（INRIA, LIRMM, Université de Montpellier, France）、Romain Serizel（Université de Lorraine, Loria, Nancy, France）、Emmanouil Benetos（C4DM, Queen Mary University of London, UK）、Nicolas Farrugia（IMT Atlantique, Lab-STICC, Brest, France） 💡 毒舌点评亮点：ProtoCLR通过将对比学习的复杂度从O(N²)降至O(N×C)，提供了一个在计算上更优雅、对生物声学这类大规模数据更实用的监督对比学习方案，并在特定评估基准上验证了其有效性。短板：改进幅度有限，平均准确率提升不足3个百分点，且面对更强的领域特定基线（如Perch）时优势并不明显，应用场景受限于鸟类声音这一细分领域。 ...

DPO-Regularized Regression for Age Prediction

📄 DPO-Regularized Regression for Age Prediction #说话人识别 #回归模型 #偏好学习 #DPO #多任务学习 ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30 🏗️ 模型架构本文提出的模型架构旨在同时进行连续值回归和离散类别分类（用于DPO监督），并在推理时丢弃分类头。整体流程如下： ...

DPT-Net: Dual-Path Transformer Network with Hierarchical Fusion for EEG-based Envelope Reconstruction

📄 DPT-Net: Dual-Path Transformer Network with Hierarchical Fusion for EEG-based Envelope Reconstruction #语音生物标志物 #对比学习 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #语音生物标志物 | #对比学习 | #多模态模型 #跨模态学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Ximin Chen（南方科技大学电子与电气工程系）通讯作者：Fei Chen（南方科技大学电子与电气工程系）作者列表：Ximin Chen（南方科技大学电子与电气工程系）、Xuefei Wang（南方科技大学电子与电气工程系）、Yuting Ding（南方科技大学电子与电气工程系）、Fei Chen（南方科技大学电子与电气工程系） 💡 毒舌点评亮点在于双路径设计巧妙地平衡了EEG的时序特异性（路径一）与跨模态通用性（路径二），并通过分层融合模块有效整合二者，在公开数据集上取得了显著的性能提升。然而，论文最大的短板是复现性信息严重缺失，既未开源代码也未提供模型权重，甚至连训练所用的GPU型号和耗时都未提及，使得其优异结果的可验证性和可推广性大打折扣。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及公开模型权重。数据集：实验使用公开数据集SparrKULee [19]，但未在论文中提供获取方式（通常可从原数据集论文[19]获取）。 Demo：未提供在线演示。复现材料：论文给出了一些关键训练细节（优化器、学习率、调度器、batch size、epoch数、损失函数权重），但缺少模型参数量、具体层配置、随机种子、GPU型号与数量、训练总时长等关键复现信息。论文中引用的开源项目：论文中引用了多个基线模型（VLAAI, HappyQuokka, CL-Transformer, SSM2Mel），但未明确说明是否依赖或集成了这些项目的代码。文中提及DPT-Net的时序动态路径遵循作者先前工作[15]，对齐路径采用了[13]的设计。论文中未提及开源计划。 📌 核心摘要问题：从非侵入式EEG信号中解码语音包络，因EEG信噪比低、个体间差异大而极具挑战性，现有方法或仅关注单模态内部时序建模，或仅进行跨模态潜在空间对齐，未能充分利用两者的优势。方法核心：提出了DPT-Net，一个双路径Transformer网络。路径一（时序动态路径）处理原始EEG以捕获丰富的时序上下文；路径二（EEG-语音对齐路径）通过CLIP损失学习EEG与语音表征间的判别性对齐特征。两条路径的输出经自适应门控融合后，送入一个分层重建模块（含U-Net和多尺度瓶颈）进行包络预测。创新点：首次将单模态内时序学习与跨模态对齐学习并行整合到一个统一的框架中；设计了新颖的自适应门控融合机制和分层多尺度重建模块，以有效聚合互补特征。主要实验结果：在SparrKULee数据集上，DPT-Net在测试集1（已见受试者）和测试集2（未见受试者）上的平均皮尔逊相关系数分别为0.1923和0.1112。增强版DPT-Net (E) 通过微调和集成学习，分别达到0.2200和0.1213，相比VLAAI基线提升41.30%和27.42%，在所有指标上超越了先前SOTA模型SSM2Mel。消融实验证实了双路径结构、密集跳跃连接、多尺度瓶颈和自适应门控融合的有效性。主要对比结果表（来自表1）模型测试集1 (平均r) 测试集2 (平均r) 最终分数平均分数 VLAAI [3] 0.1557 0.0952 0.1355 0.1456 HappyQuokka [7] 0.1896 0.0928 0.1573 0.1735 CL-Transformer [13] 0.1872 0.1153 0.1632 0.1752 SSM2Mel*[8] 0.208 0.116 0.1773 0.1928 DPT-Net 0.1923 0.1112 0.1653 0.1788 DPT-Net (E) 0.2200 0.1213 0.1871 0.2036 实际意义：该研究提升了从EEG重建语音包络的准确性和泛化性，为发展更鲁棒的无创脑语音接口、理解听觉神经机制以及潜在的听力诊断提供了有力工具。主要局限性：模型计算复杂度可能较高（双路径Transformer + U-Net）；跨模态对齐路径依赖预训练或同步的语音特征，限制了其在完全无监督或仅使用EEG场景下的应用；论文未公开代码、模型和硬件细节，影响可复现性和公平比较。 🏗️ 模型架构 DPT-Net的整体架构如图1所示，主要包含两个并行的特征提取路径和一个分层重建模块。 ...

DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

📄 DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models #音频问答 #多任务学习 #音频大模型 #空间音频 #音频场景理解 🔥 8.0/10 | 前25% | #音频问答 | #多任务学习 | #音频大模型 #空间音频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kevin Wilkinghoff（奥尔堡大学电子系统系， Pioneer Centre for AI）通讯作者：论文中未明确标注通讯作者（基于作者列表，通常可认为两位作者共同负责）作者列表：Kevin Wilkinghoff（奥尔堡大学电子系统系， Pioneer Centre for AI）， Zheng-Hua Tan（奥尔堡大学电子系统系， Pioneer Centre for AI） 💡 毒舌点评亮点：用0.2%的额外参数实现了多任务性能的大幅提升，证明了解耦表示在空间音频任务中的巨大潜力。短板：训练和评估高度依赖SoundSpaces 2.0合成的仿真数据，其与真实世界声学环境的差距可能限制了结论的普适性。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/wilkinghoff/DSpAST/。模型权重：在提供的论文文本片段中，未明确提及是否公开发布训练好的模型权重文件。数据集：训练和评估使用的双耳音频数据集基于AudioSet和SoundSpaces 2.0合成，但论文未明确说明是否单独公开该合成数据集。SpatialSoundQA为公开数据集，但获取方式需参考原文。 Demo：论文中未提及提供在线演示。复现材料：提供了详细的训练课程（三阶段）、关键超参数（学习率、批次大小、损失权重）、模型参数量对比，以及特征注意力模块的具体公式，复现细节较为充分。论文中引用的开源项目：依赖了AudioMAE（用于初始化）、BAT系统（作为下游推理模型）、AudioSet数据集、SoundSpaces 2.0仿真平台。 📌 核心摘要问题：使用单一音频编码器（如SpatialAST）处理空间音频推理任务（声音事件检测SED、距离预测DP、方向估计DoAE）时，由于各任务所需信息（事件类型、距离、方向）大多相互独立，导致表征纠缠，单一任务的优化可能损害其他任务的性能。方法核心：提出DSpAST，一种基于SpatialAST的解耦空间音频编码器。主要创新包括：(a) 引入特征注意力模块，允许模型为每个任务动态选择最相关的音频特征（log-mel, IPD, ILD, GCC-PHAT）；(b) 设计任务特定分支，将信息流分离到SED、DP和DoAE三个独立分支中，每个分支包含自己的特征注意力模块、骨干网络和投影头。新意：在单一模型架构内实现了任务表征的解耦，而非使用多个独立编码器。通过共享骨干网络参数，以极低的参数开销（0.2%）解决了多任务表征冲突问题，并提供了可解释的注意力权重。主要实验结果：表1 (消融研究)：DSpAST（stage 3）在模拟双耳音频数据集上显著优于基线SpatialAST。具体数值如下：音频编码器 mAP (↑) ER20○(↓) MAE (↓) DER (↓) SpatialAST (官方检查点) 49.90 24.43 17.87 32.50 DSpAST (stage 3) 54.53 20.28 14.44 28.03 表2 (SpatialSoundQA任务)：使用DSpAST作为BAT系统的编码器，在SpatialSoundQA的所有问题类型上均优于使用SpatialAST。例如，在需要联合SED、DoAE和DP的类型D问题上，DSpAST（单阶段）的距离预测DER为47.89%，而SpatialAST（单阶段）为53.40%；在需要空间推理的类型E问题上，DSpAST（单阶段）的二元准确率为77.71%，高于SpatialAST（单阶段）的74.04%。实际意义：为构建更强大的空间音频推理系统提供了一个高效且性能更优的音频编码器前端，其解耦设计有助于理解和分析不同空间特征对各任务的重要性。主要局限性：性能仍不完美，依赖合成数据进行训练和评估，未来需在更多真实场景和更复杂声学条件下验证和改进。 🏗️ 模型架构 DSpAST的架构图（如图1所示）展示了从双耳音频输入到最终表示的完整流程。该架构是SpatialAST的扩展，主要增加了特征注意力模块和任务特定分支。 ...

DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for Shallow Water Acoustic Source Range Estimation

📄 DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for Shallow Water Acoustic Source Range Estimation #声源定位 #自回归模型 #端到端 #鲁棒性 #模型评估 🔥 8.0/10 | 前10% | #声源定位 | #端到端 | #自回归模型 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Bin Zhang（中国海洋大学计算机科学与技术系）通讯作者：Peishun Liu（中国海洋大学计算机科学与技术系）作者列表：Bin Zhang† (中国海洋大学计算机科学与技术系), Jiawen He† (中国海洋大学计算机科学与技术系), Liang Wang‡ (中国海洋大学海洋技术系), Wenxu Wang† (中国海洋大学计算机科学与技术系), Ruichun Tang† (中国海洋大学计算机科学与技术系), Peishun Liu†⋆ (中国海洋大学计算机科学与技术系) 💡 毒舌点评论文亮点在于巧妙地将复杂的复值协方差矩阵分解为双通道实值图像进行处理，避免了复杂的复数运算，同时用深度可分离卷积和RMSNorm大幅降低了原始TransUNet的计算量，实现了“轻量化”与“高性能”的结合。然而，论文标题和摘要中强调的“去中心化”和“非移位”这两个关键特性，在正文的方法描述和实验中几乎找不到具体的实现细节或与传统集中式、移位机制的对比实验，使得这部分贡献显得有些悬空。 🔗 开源详情代码：提供了GitHub仓库链接（https://github.com/binzhangbin/DSRMS-TranUNet）。模型权重：论文中未提及是否公开预训练模型权重。数据集：模拟数据由作者生成，真实数据来自公开的SWellEx-96海试项目（https://swellex96.ucsd.edu）。论文未说明如何获取或预处理其版本。 Demo：未提及。复现材料：论文给出了模型架构、主要模块（DSC, RViT）的原理和参数，但未提供详细的训练超参数（学习率、batch size等）、硬件配置、训练脚本或配置文件。论文中引用的开源项目：未明确引用外部开源项目，但提到了参考TransUNet架构，并引用了MobileNet、Xception等使用DSC的模型作为基础。 📌 核心摘要要解决什么问题？水下声学被动定位中，声源测距任务受介质吸收、多径效应和噪声影响严重，传统匹配场处理方法对信噪比敏感且依赖精确的环境参数，性能不稳定。方法核心是什么？提出DSRMS-TransUNet模型。核心在于：a) 将接收信号的复协方差矩阵分解为实部和虚部两个独立通道输入，保留了完整的空间结构；b) 在编码器-解码器框架中用深度可分离卷积替代标准卷积以减少参数；c) 引入基于RMSNorm的轻量化视觉Transformer（RViT）以增强全局特征捕获能力并简化计算。与已有方法相比新在哪里？首次提出将复协方差矩阵分解为双通道实值特征图输入深度学习模型。创新性地结合了DSC的轻量化和ViT的长程依赖建模能力，并对ViT进行了针对水声特征的RMSNorm优化。采用端到端的网格分类方式进行测距。主要实验结果如何？在模拟数据上，模型在噪声条件下相比基线（TransUNet）准确率提升超过19%。在真实数据集SWellEx-96的两个阵列（HLAH, HLAS）上，分别取得了91%和94%的准确率，均方根误差（RMSE）低至0.0426和0.1011，在准确率和误差指标上均优于MFP、Transformer、Conformer等传统及深度学习方法。关键实验数据见下表。模型参数量仿真-无噪声准确率 HLAH准确率 HLAS准确率 HLAH RMSE HLAS RMSE Baseline (TransUNet) 74,905,776 74.75% 78% 78% 0.1426 0.3597 DS-TransUnet 54,834,050 82.75% 84% 87% 0.0991 0.3249 DSRMS-TransUnet 54,817,666 100.00% 91% 94% 0.0426 0.1011 MFP (传统方法) - - - - 0.2679 0.4897 实际意义是什么？为浅海环境下的水下被动声源测距提供了一种高精度、高鲁棒性的深度学习解决方案，其轻量化的设计有利于在资源受限的水下设备上部署。主要局限性是什么？ a) 论文标题中的“去中心化”和“非移位”特性在方法描述中未详细阐述，具体实现机制不明确；b) 对于水下声学这一高度依赖物理模型的领域，纯数据驱动模型的泛化性和在极端未知环境下的鲁棒性有待更多验证；c) 训练策略、超参数等复现关键信息缺失。 🏗️ 模型架构 DSRMS-TransUNet是一个端到端的深度学习模型，整体分为特征提取、特征学习、特征评估三个阶段。 ...