论文速递 | 语音/音乐/音频论文速递

Probing Low Frame Rate Degradation in Neural Audio Codecs

📄 Probing Low Frame Rate Degradation in Neural Audio Codecs #语音生成 #模型压缩 8.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.6/10 | 前25% | #语音生成 | #模型压缩 | arxiv 👥 作者与机构作者：Alex Gichamba, Moise Busogi 机构：Carnegie Mellon University Africa, Rwanda 联系邮箱：angicham@andrew.cmu.edu, mbusogi@andrew.cmu.edu 💡 毒舌点评优点：论文选题重要，直指神经音频编解码器在实际部署中的关键瓶颈。实验设计非常扎实，通过严谨的控制变量消融，成功揭示了问题根源是训练配置而非理论极限，结论令人信服且实用。文章写作清晰，逻辑链条完整。不足：研究范围相对狭窄，结论主要基于DAC框架的消融，对其他架构（如BigCodec）在低帧率下的表现探讨不足。实验部分虽然详尽，但消融设计（固定K=19）本身可能引入新的偏差（例如，更长的T_clip是否带来了训练效率或泛化能力的变化？）。此外，缺乏主观听感评估（MOS），仅依赖客观指标和UTMOS，对于“可懂度”的判断可能不够全面。最终结论“低帧率更易获得”在实际部署（需要重新训练）中可能需要更审慎的表述。 📌 核心摘要本文系统研究了神经音频编解码器在低帧率（<12.5 Hz）下性能急剧下降的原因。通过在DAC框架上进行从1.6 Hz到100 Hz的帧率消融实验，作者复现了先前报告的6.25 Hz质量悬崖。通过设计对照实验，作者证明了该现象并非由理论上的音素碰撞或码本饱和导致。根本原因是标准训练流程中固定音频片段时长（T_clip）的设定：在低帧率下，这导致每个训练样本的令牌序列过短（如6.25 Hz时仅2个令牌），解码器无法学习令牌间的连贯性。当改为固定训练序列长度（K=19）后，6.25 Hz模型的性能（WER从107.4%降至15.37%）得到大幅恢复。进一步实验表明，该修正可使模型在3.125 Hz和1.6 Hz（比特率低至192 bps）下仍保持可懂的语音重建，证明了低帧率编解码器的推理效率潜力比以往认为的更易实现。 ...

Rhythm of the Deep: A Computational-Linguistic Test of Duality of Patterning in Sperm Whale Codas

📄 Rhythm of the Deep: A Computational-Linguistic Test of Duality of Patterning in Sperm Whale Codas #自监督学习 #低资源 8.5/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #低资源 | arxiv 👥 作者与机构作者：Mudit Sinha, Sanika Chavan 机构：Independent Researchers（独立研究者） 💡 毒舌点评这篇论文的野心不小，试图用计算语言学的“手术刀”去解剖抹香鲸的叫声结构，但手术过程和结论需要更严格的审视。优点在于其方法论的自觉性，试图建立一套从音频中发现组合结构的规范流程，这本身是有价值的。然而，几个关键环节存在疑问：1) “组合”的定义可能过于宽泛：论文声称的“节奏作为组合基质”是一个强发现，但“组合”在语言学中通常意味着符号的任意性组合，而这里的“节奏”是连续的、物理的，将其直接类比为“二重模式”的底层单位是否合适？2) 核心统计证据的脆弱性：支撑上层序列依赖性的NSB转移熵结果（lift 0.132 bits）是在一个非常稀疏的、小样本（43个bouts）上得出的，且仅NSB一种估计器稳健，其他五种中两种为负。这更像是一个值得谨慎探索的线索，而非确凿的结论。3) “声学空值门控”的叙事可能过于完美：论文将5/10统计量通过、5/10被标记为“被解释”描述为一个框架的成功，但这更像是一个自定义的、标准尚不明确的门控规则。一个真正稳健的门控应该给出清晰的、可证伪的生存/死亡标准，而非事后解释。4) 影响力被高估：尽管方法声称可迁移，但核心发现高度特异于抹香鲸。其对语音/音乐/音频领域的直接启发可能有限，更多是对动物行为计算分析的贡献。总的来说，这是一篇方法论严谨、探索精神可嘉的论文，但核心结论的强度被其精巧的方法叙述所部分掩盖，审稿人需要穿透方法迷雾，直面证据的本质强度。 ...

Robust Spoofed Speech Detection via Temporal Pyramid Modeling

📄 Robust Spoofed Speech Detection via Temporal Pyramid Modeling #音频深度伪造检测 #自监督学习 #低资源 #数据增强 6.7/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构作者：Mahtab Masoudi Nezhad, Nima Karimian 机构：西弗吉尼亚大学，南佛罗里达大学 💡 毒舌点评这篇论文像一个精心调制的“技术沙拉”——把XLS-R预训练模型、Sinc/Mel等经典前端、以及一个“金字塔”结构搅拌在一起，然后宣称它能更好地捕捉“从局部毛刺到全局语调不自然”的伪造痕迹。其核心创新，即那个“Temporal Pyramid Adapter”，本质上是一个并行的多尺度一维卷积模块，技术上并无颠覆性。实验部分，论文在PartialSpoof上报告的EER和AUC确实亮眼，但通读全文会发现，这种优势在域迁移场景下会迅速缩水甚至消失（表4, 5, 6），论文自己也承认了这个尴尬事实。更值得玩味的是，在DiffSSD数据集上，他们的Pyramid模型F1-score（0.4985）甚至远低于Base模型（0.7770），这暴露出其阈值敏感性问题，而论文对此的讨论轻描淡写。多语言实验部分则像是一个未完成的结论——高AUC与低准确率之间的鸿沟暗示“决策边界校准”是个大问题，但论文只提了一句需要更好的策略，却没有提供任何实质性的解决方案。总体来说，这是一篇扎实的、但缺乏惊喜的增量式工作，其价值更多在于系统性的实验对比，而非方法论的突破。 📌 核心摘要本文旨在提升语音欺诈检测的跨数据集与跨语言泛化能力。作者提出一个模块化框架，以自监督XLS-R模型为骨干，前端集成可选的适配器模块。其中，核心提出的是“时间金字塔适配器”，它采用并行的时间卷积分支，通过不同大小的卷积核（即不同感受野）来捕捉多尺度的伪造线索（从局部的频谱不连续性到全局的韵律异常）。论文在ASVspoof 2017/2021、PartialSpoof、DiffSSD和多语言HQ-MPSD等数据集上进行了广泛评估。结果表明，该方法在PartialSpoof数据集的域内评估中取得了具有竞争力的性能（EER 3.87%， AUC 99.24%）。然而，跨数据集和多语言迁移实验揭示，虽然AUC等排序指标表现尚可，但EER、F1等阈值相关指标的性能会显著下降，表明模型的决策边界对分布偏移和语言特性敏感，需要更好的校准与适应策略。 ...

ROMPAR: Morphological Completion and Demographic Unlearning for Romanian-Accented Speech Recognition

📄 ROMPAR: Morphological Completion and Demographic Unlearning for Romanian-Accented Speech Recognition #语音识别 #数据集 #对抗训练 #低资源 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #对抗训练 | #数据集 #低资源 | arxiv 👥 作者与机构作者：Avram Antonie Badea, Florea Zaharoiu, Andrei-Marius, Aureliu-Valentin, Ştefan-Bogdan, Andrei, Robert-Nicolae, Dumitru-Clementin 机构：National University of Science and Technology POLITEHNICA Bucharest, Romania ...

Scaling Human and G2P Supervision for Robust Phonetic Transcription

📄 Scaling Human and G2P Supervision for Robust Phonetic Transcription #语音识别 #数据增强 #低资源 #课程学习 #预训练 7.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.7/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.6/10 | 前25% | #语音识别 | #课程学习 | #数据增强 #低资源 | arxiv 👥 作者与机构作者：Alexander Metzger, Aruna Srivastava, Ruslan Mukhamedvaleev 机构：Koel Labs LLC, USA 💡 毒舌点评这篇论文干了一件聪明且务实的事：与其去发明一个新模型，不如老老实实地做一份扎实的“菜谱”实验。它精准地戳中了当前G2P数据增强“堆量”路线的一个关键软肋——当人工标注数据达到某个“质量阈值”（20-30小时）后，廉价的G2P数据就成了食之无味弃之可惜的鸡肋，甚至可能因为引入偏差而坏事。论文最大的价值在于其扎实的实证研究设计和对“度”的把握，而不是某个花哨的算法。不过，其宣称的“鲁棒性”提升，目前看来更像是“在更匹配的测试集上表现更好”，其泛化能力仍受限于英语和特定的方言集合。 📌 核心摘要本文系统研究了在英语自动音素转写任务中，人工标注数据与Grapheme-to-Phoneme (G2P) 模型生成标签的质量和数量如何交互影响模型性能。通过构建一个包含8种数据集、涵盖母语方言、非母语及病理语音的80小时标准化基准，作者发现了一个明确的监督质量阈值：当可用的人工标注数据超过20-30小时后，额外增加G2P数据不再带来统计上显著的性能提升，甚至可能降低模型在跨方言场景下的鲁棒性。相反，在此阈值之后，采用ASR预训练策略能持续有效地提升跨领域泛化能力。基于此发现，论文提出的“最优课程”训练方案在加权音素特征错误率（WPFER）上达到了先前最优系统的2.3倍改进，尤其在非母语和失语症语音数据上表现突出。 ...

SciText2Eq: Assessing LLMs for Explainable Equation Generation for Scientific Creativity

📄 SciText2Eq: Assessing LLMs for Explainable Equation Generation for Scientific Creativity #大语言模型 7.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.3/10 | 前50% | #大语言模型 | #大语言模型 | arxiv 👥 作者与机构作者：Yifan Mo, Xiao Fu, Yue Su, Qingyu Meng, Koen Hindriks, Qingzhi Liu, Jiahuan Pei。机构：Vrije Universiteit Amsterdam， Wageningen University & Research。 💡 毒舌点评论文选题有一定意义，将LLM应用于从科学文本生成方程，但“科学创造力”的声称略显宽泛，实际任务更偏向于结构化信息提取与转换。贡献点清晰：一个工作流、一个数据集、一个多层评估框架。但创新深度有限，更多是现有技术的整合与在新任务上的应用。实验评估全面是亮点，但人类评估仅100样本、5位评估者，统计显著性可能不足。LLM评估与人类评估的“有限对齐”结论，暗示其提出的自动评估框架本身可靠性存疑。论文标题中的“Assessing”一词更准确地反映了核心贡献在于评估而非生成方法的突破。数据集构建过程描述详实，但仅限AI领域论文，泛化能力未经验证，作者自己也在局限中提及。 📌 核心摘要本文研究了大语言模型从科学文本生成数学方程及其可解释性描述的能力。针对现有研究在上下文建模、多方程依赖和人类对齐评估方面的不足，作者构建了一个新的基准数据集，包含170篇AI论文中的1043个方程-上下文-描述三元组。提出了一种可解释的方程生成工作流，并设计了一个结合自动指标（如TexBLEU、TED）、基于规范的LLM评估和人类判断的多层评估框架，在多个开源和闭源LLM上进行了实证分析。结果表明，LLM在词汇和句法相似度上表现尚可，但在语义准确性上存在挑战；同时，LLM评估与人类判断的对齐程度有限。 ...

Semi-Supervised Speech Confidence Detection using Pseudo-Labelling and Whisper Embeddings

📄 Semi-Supervised Speech Confidence Detection using Pseudo-Labelling and Whisper Embeddings 6.8/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | arxiv 👥 作者与机构 Adam Wynn, Durham University, adam.t.wynn@durham.ac.uk Jingyun Wang, Durham University, jingyun.wang@durham.ac.uk Xiangyu Tan, Shanghai Open University, tanxy@shisu.edu.cn 💡 毒舌点评一篇想法不错的“学生习作”。作者们想解决一个真实问题（语音置信度检测），也尝试用半监督学习去应对数据不足的老大难问题。将传统声学特征与Whisper这种强大的预训练模型结合，思路本身是合理的，甚至算得上紧跟潮流。论文的“卖点”——结合人工特征和Whisper嵌入，并用伪标签扩充数据——听起来像那么回事。然而，一旦深入细节，论文的软肋就暴露无遗。最致命的是实验部分：训练和评估几乎在一个自说自话的闭环里完成。用了自己标注的、未公开的、规模很小的测试集，还引以为豪地报告了“75%的准确率”，但这数字在缺乏公开基准和强基线对比的情况下，说服力约等于零。协同注意力机制作为关键融合部件，描述得就像一句带过的情节，让读者去脑补其具体工作原理。伪标签生成流程也显得颇为“草率”：用在444个样本上训练出的MLP，去给2640个样本打标签？这质量能保证吗？论文完全没有讨论。SHAP分析成了亮点，但也救不了整体实验的薄弱。这感觉就像用精密的仪器去测量了一个未校准的尺子，然后兴奋地报告结果。总体而言，框架的构想有其价值，但粗糙的实验执行和缺失的关键细节，使其停留在了“概念验证”阶段，离一篇扎实的顶会论文相去甚远。 📌 核心摘要本文针对教育场景中语音置信度检测所面临的标注数据稀缺问题，提出了一种半监督学习框架。该框架的核心思想是融合两类信息：一是由人工设计的9维声学特征向量（包含音高变化、振幅变化、语速、压力以及五种言语不流畅性特征），二是由预训练Whisper-base编码器提取的音频嵌入表示。为了利用无标注数据，论文采用了一个两阶段的伪标签生成策略：首先在极小的人工标注集上训练一个特征MLP模型，该模型随后为大量无标注音频生成伪标签；然后将这些伪标签数据与原始标注数据合并，用于训练最终的协同注意力融合模型。该融合模型通过一个协同注意力机制，将特征向量经MLP映射后的嵌入与Whisper嵌入进行加权融合，最终实现对低、中、高三种置信度水平的三分类。在作者自建的444条人工标注测试集上，模型达到了75%的总体准确率，其中对低置信度和高置信度的识别效果优于中等置信度。SHAP可解释性分析表明，音高变化、振幅变化和声音重复是模型判断的最重要特征。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文中未提及模型权重（如HuggingFace/ModelScope）链接。数据集：作者自建数据集：论文描述了手动标注的444个音频片段的数据集，但未提供该数据集的公开下载链接。使用的公开数据集：论文中提及了TEDLIUM、SEP-28K、FluencyBank、RAVDESS、SAVEE、TESS等数据集，但未提供用于本研究的特定子集的下载链接或详细说明。仅提供了文献引用。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及具体的训练配置文件、检查点或附录等可供直接下载的复现材料。论文中引用的开源项目： SPICE：音高追踪算法。引用[5]。 MyProsody：语速特征提取库。引用[28]。 DisfluencyNet：基于Wav2Vec 2.0的不流畅分类模型。引用[21]。 Whisper：OpenAI的语音识别模型。引用[26]，官方仓库：https://github.com/openai/whisper。 Wav2Vec 2.0：Meta AI的语音表示模型。引用[14][3][21][24]，官方仓库：https://github.com/facebookresearch/wav2vec2。 HuBERT：Meta AI的语音表示模型。引用[6]，官方仓库：https://github.com/facebookresearch/hubert。 SHAP：可解释性库。官方仓库：https://github.com/slundberg/shap。 🏗️ 方法概述和架构本文提出的半监督语音置信度检测框架主要包含三个核心阶段：数据准备与特征工程、基于特征的伪标签生成以及混合模型的训练与推理。整个流程如论文图1所示。 ...

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

📄 Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models #自监督学习 #模型评估 7.4/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.4/10 | 前50% | #自监督学习 | #自监督学习 | #模型评估 | arxiv 👥 作者与机构 Yuxuan Chen， Haoyuan Yu， Peize He 1 香港中文大学（深圳），2 吉林大学，3 湖南大学，4 电子科技大学 💡 毒舌点评这篇论文的动机清晰，直接戳中了当前空间音频模型评估的一个盲点——看似高性能的定位任务得分背后，模型是否真的“听懂”了相位？实验设计堪称教科书级别，比特精确的噪声控制和多层次的基线-对照-消融体系，逻辑链条非常完整，这是方法论上的显著优点。核心发现——通用模型靠的是“声谱时间纹理”这种捷径，而非真正的相位计算——对社区有重要的警示价值。然而，论文在机制解释的深度上显得有些“浅尝辄止”。对于“干扰纹理”到底是什么、在模型内部如何表征，分析不够深入，停留在了现象描述和合理假设层面。专用模型与理论上限的差距巨大，但论文对此的剖析就像一个黑箱，只指出了差距，却没给出像样的诊断。生态评估部分，虽然观察到了现象，但论证的逻辑闭环还不够严密，说服力打了折扣。总的来说，这是一篇扎实的、方法设计上很用心的工作，但在解释深度和某些结论的严格性上，还有提升空间，尚未达到顶级会议那种“无可挑剔”的程度。 📌 核心摘要本研究针对空间音频基础模型是否编码了真实的微秒级耳间相位信息这一关键问题，提出了一套基于双耳掩蔽级差的计算心理声学评估基准。通过设计等效-抵消基线、GCC-PHAT信号处理对照以及严格的单耳模型负对照，并结合渐进式物理消融实验，系统评估了九个冻结模型。结果发现，通用双耳自监督模型（如WavJEPA， GRAM-T）的检测能力源于对声谱时间干扰纹理（如包络起伏）的利用，而非真正的跨通道相位计算；而专用双耳空间模型（如Spatial-AST）则实现了真实的相位敏感性，但其表现仍显著低于理论上限。这揭示了当前模型评估可能高估了其真实空间听觉能力，并指出了未来预训练需引入显式相位约束的方向。 🔗 开源详情代码：未提及公开。模型权重：未提及公开。被评估模型引用了原始文献。数据集：未提及具体获取链接。文中提及评测数据包括：合成纯音数据：由作者根据方法生成。 LibriSpeech：引用文献。 AIR数据库：引用文献。 Demo：未提及。复现材料：未提及。论文中引用的开源项目（仅引用，未提供链接）：WavJEPA， GRAM-T， Spatial-AST， DSpAST， HuBERT-Large， WavLM-Large， Wav2Vec2-Large， EnCodec， DAC。 🏗️ 方法概述和架构本论文的核心方法论是构建一个可计算的、基于模型内部表征的双耳掩蔽级差评估基准，其架构与流程如下： ...

SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling

📄 SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling #低资源 7.6/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.6/10 | 前25% | #语音翻译 | #低资源 | arxiv 👥 作者与机构 Weiqiao Shan, Ruixiang Mao, Yuang Li, Yuhao Zhang, Yingfeng Luo, Tong Zheng, Chen Xu, Yucheng Qiao, Chunxiang Jin, Yi Yuan, Jingdong Chen, Tong Xiao, Jingbo Zhu. 机构：东北大学 (中国), 华为TSC (中国), 香港中文大学（深圳）(中国), 马里兰大学 (美国), 哈尔滨工程大学 (中国), 蚂蚁集团 (中国), NiuTrans Research (中国) ...

Stabilizing Short Duration Speaker Verification through Neural Re-scoring with Hybrid Enrollment

📄 Stabilizing Short Duration Speaker Verification through Neural Re-scoring with Hybrid Enrollment #说话人验证 #说话人识别 #模型融合 7.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #说话人验证 | #模型融合 | #说话人识别 | arxiv 👥 作者与机构第一作者：Ai, Zhiqi；通讯作者：Zhou, Yongjin 和 Xu, Shugong。机构包括：1. 上海大学，2. 西交利物浦大学，3. 同花顺AI研究院。已有分析中未提及作者与机构，此处补充。 💡 毒舌点评这篇论文的工作量是扎实的，VoxPhrase数据集的构建确实为社区贡献了一个有价值的评测基准。然而，核心的“混合注册+神经重打分”方法，在技术深度上乏善可陈。那个“并行交叉注意力”模块，本质上就是标准的Transformer交叉注意力的双向拼接，创新性约等于把单行道改成了双向车道，虽然有用，但离“新架构”还差得远。更致命的是，论文几乎没有对模型内部进行任何剖析——注意力权重可视化？特征互补性分析？这些统统没有，使得整个方法像个黑箱，我们只知道它有效，但不知道为什么有效。实验对比也过于“友好”，只跟余弦相似度这种最基础的后端比，不敢和更复杂的自适应后端（如PLDA、端到端模型）过招，这大大削弱了结论的说服力。总的来说，这是一篇合格的、解决具体工程问题的应用论文，但距离一篇能启发新思路的顶级理论或方法论文还有明显差距。 📌 核心摘要本文针对用户定义关键词检测场景下短时长说话人验证性能下降的问题，进行了系统研究。论文首先从VoxCeleb构建了大规模短时长说话人验证语料库VoxPhrase，分析发现文本相关注册受限于时长导致表示不稳定，而文本无关注册虽然引入内容失配，但随注册时长增加表示更稳定。基于此，提出了一种混合注册神经重打分框架。该框架利用冻结的说话人模型提取句级和帧级特征，通过计算两种注册方式与查询语音的全局余弦相似度，并使用并行交叉注意力模块对帧级特征进行细粒度交互建模，最后将全局与局部证据融合以输出最终验证分数。在VoxPhrase和Deepmine数据集上的实验表明，该方法在多种说话人模型主干和不同评估条件下均能带来一致且显著的性能提升，验证了混合注册与神经重打分在短时长场景下的有效性与鲁棒性。 🔗 开源详情代码：论文中未提及代码开源。模型权重： ECAPA-TDNN: https://modelscope.cn/models/iic/speech_ecapa-tdnn_sv_en_voxceleb_16k CAM++: https://modelscope.cn/models/iic/speech_campplus_sv_en_voxceleb_16k ERes2Net-L: https://modelscope.cn/models/iic/speech_eres2net_large_sv_en_voxceleb_16k 数据集： VoxPhrase：论文中描述为从VoxCeleb数据集自动分割构建，但未提供独立的下载链接。获取需基于论文所述方法自行从原始VoxCeleb构建。原始VoxCeleb获取方式：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ Demo：论文中未提及。复现材料：训练配置：使用单个RTX 4090 GPU，batch size为256，训练25k步。验证器包含一个线性投影层和一个对称的交叉注意力模块（8个头，隐藏维度128）。训练使用二元交叉熵损失。数据划分：训练集来自Vox2-dev（5,994名说话人），评估集分为Eval-1（Vox1）、Eval-2（Vox2-test）、Eval-3和Eval-4（来自Deepmine数据集）。具体统计信息见论文表1。检查点：论文中未提供预训练的验证器检查点下载链接。论文中引用的开源项目： 3D-Speaker：论文中提及，作为开源工具包，但未给出具体链接。其GitHub仓库地址为：https://github.com/alibaba-damo-academy/3D-Speaker wav2vec 2.0 (用于强制对齐)：论文中引用为 [baevski2020wav2vec]，对应原始论文和模型，可从HuggingFace获取，如：https://huggingface.co/facebook/wav2vec2-base-960h fast-reformer (用于ASR)：论文中引用为 [rekesh2023fast]，对应原始论文和模型。具体实现和模型可参考其论文和相关开源实现。 🏗️ 方法概述和架构本文提出的框架（如论文图2所示）旨在通过融合文本依赖和文本独立注册信息，并进行神经重打分，来稳定短时长说话人验证的性能。其核心流程分为三个阶段：特征提取、相似度建模（神经验证器）和融合决策。 ...