说话人识别

AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification

📄 AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification #说话人识别 #多模态模型 #自监督学习 #数据增强 #语音识别 #计算机视觉 7.8/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.8/10 | 前25% | #说话人识别 | #自监督学习 | #多模态模型 #数据增强 | arxiv 👥 作者与机构论文作者为 Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, 和 Fei Huang。所有作者均隶属于 Honor Device Co., Ltd.，单位地点包括南京和上海。 ...

DG^VoiC: Speaker Clustering for Fraud Investigation under Real Call-Centre Conditions

📄 DG^VoiC: Speaker Clustering for Fraud Investigation under Real Call-Centre Conditions #说话人识别 5.7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 📝 5.7/10 | 前50% | #说话人识别 | #说话人识别 | arxiv 👥 作者与机构 Muhammad Shakeel Akram, Amal Htait, Abdul Hamid Sadka, Emma Meisingseth, Karishma Jaitly. (注：论文未明确提供作者隶属机构信息) 💡 毒舌点评这篇论文试图解决一个有趣的行业应用问题，但其在顶会舞台上的学术价值严重受限。最大的硬伤是评估基础极其脆弱——仅凭一个56条录音、22个说话人类别的数据集，就敢宣称近乎完美的聚类性能（100% homogeneity），这更像是在自家后院测试，而非面对真实世界复杂性的检验。方法本质上是标准技术的流水线组装（ECAPA-TDNN + 余弦相似度），创新性存疑。尽管作者诚实地指出这是个应用导向的工作，但即便是技术报告，其分析的深度和实验的严谨性（如小数据集上的阈值选择、缺乏严格交叉验证）也难以令人信服。总体而言，它更像是一个初步的可行性演示，距离一篇扎实的研究论文还有明显差距。 📌 核心摘要本文针对保险欺诈调查中利用真实呼叫中心音频进行跨客户说话人聚类的需求，提出了DGVoiC框架。该框架包含音频匿名化、静音去除、重叠滑动窗口切片、ECAPA-TDNN说话人嵌入提取、嵌入池化聚合以及基于余弦相似度的聚类与链接。研究在一个由专家审核的极小规模真实数据集（56条录音）上进行了评估，报告了极高的聚类一致性指标。论文旨在提供一个支持分析师的工具，而非自动化决策系统，并报告了可接受的处理延迟。 ...

Dialogue to Detection: A Multimodal Hybrid NLP Pipeline for Insurance Fraud Detection

📄 Dialogue to Detection: A Multimodal Hybrid NLP Pipeline for Insurance Fraud Detection #说话人识别 6/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6/10 | 后50% | #说话人识别 | #说话人识别 | arxiv 👥 作者与机构 Muhammad Shakeel Akram, Amal Htait, Abdul Hamid Sadka, Emma Meisingseth, Karishma Jaitly. 机构：Aston University, Birmingham, UK; Domestic & General, Wimbledon, UK. ...

VieSpeaker: A Large-Scale Vietnamese Speaker Recognition Dataset Beyond Visual Dependency

📄 VieSpeaker: A Large-Scale Vietnamese Speaker Recognition Dataset Beyond Visual Dependency #说话人识别 #大语言模型 #预训练 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #说话人识别 | #预训练 | #大语言模型 | arxiv 👥 作者与机构作者：Viet Hoang Pham, Tran Trung Nguyen, Bao Thu Ho, Phuong Tuan Dat, Thi Thu Trang Nguyen 机构：Hanoi University of Science and Technology, Hanoi, Vietnam ...

ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era

📄 ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era #语音识别 #语音合成 #语音增强 #说话人识别 #语音翻译 #语音分离 #语音编码 #自监督学习 #数据增强 #参数高效微调 #迁移学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #语音合成 #语音增强 | arxiv 👥 作者与机构 Masao Someki (Carnegie Mellon University, Pittsburgh, USA) Alexander Polok (Brno University of Technology, Brno, Czechia) Carlos Carvalho (Instituto Superior Técnico, Lisbon, Portugal) Chyi-Jiunn Lin (Hanyang University, Seoul, South Korea) Da-Hee Yang (Hitachi Astemo, Tokyo, Japan) Jiatong Shi (Shanghai Jiao Tong University, Shanghai, China) Jinchuan Tian (Carnegie Mellon University, Pittsburgh, USA) Nelson Enrique Yalta Soplin (Carnegie Mellon University, Pittsburgh, USA) Samuele Cornell (Carnegie Mellon University, Pittsburgh, USA) Siddhant Arora (Carnegie Mellon University, Pittsburgh, USA) Francisco Teixeira (Instituto Superior Técnico, Lisbon, Portugal) Wei Wang (Shanghai Jiao Tong University, Shanghai, China) William Chen (Carnegie Mellon University, Pittsburgh, USA) Alberto Abad (Instituto Superior Técnico, Lisbon, Portugal) Chenda Li (Carnegie Mellon University, Pittsburgh, USA) Shinji Watanabe (Carnegie Mellon University, Pittsburgh, USA) Wangyou Zhang (Shanghai Jiao Tong University, Shanghai, China) ...

LISE : Listenable Interpretable Speaker Embeddings

📄 LISE : Listenable Interpretable Speaker Embeddings #说话人验证 #说话人识别 #语音合成 6.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.3/1.5 ✅ 6.8/10 | 前50% | #说话人验证 | #说话人识别 | #语音合成 | arxiv 👥 作者与机构 Xiaoliang Wu：University of Southampton, United Kingdom; The Hong Kong Polytechnic University, Hong Kong SAR, China Chongxin Gan：The Hong Kong Polytechnic University, Hong Kong SAR, China Ke Liu：University of Edinburgh, United Kingdom Peter Bell：University of Edinburgh, United Kingdom Jennifer Williams：University of Southampton, United Kingdom 💡 毒舌点评这篇论文试图解决一个真实且重要的问题：让黑盒的说话人嵌入变得“可听”（Listenable），即人类可以通过听觉验证其组件的含义。这个想法很有价值，尤其是设计了严谨的感知实验来验证，这比多数只做自动指标的可解释性工作要扎实。然而，方法的创新性稍显不足，核心是现有非负矩阵分解（NMF）技术在特定约束下的应用。作者很诚实地讨论了局限，但部分讨论（如语言混淆）可能比实际影响更值得强调。总的来说，这是一篇工整、动机明确、实验设计用心的入门级可解释性论文，离顶级会议（如NeurIPS）对方法创新或理论深度的要求还有距离，但是一篇质量不错的领域会议（如Interspeech）论文。 ...

Stabilizing Short Duration Speaker Verification through Neural Re-scoring with Hybrid Enrollment

📄 Stabilizing Short Duration Speaker Verification through Neural Re-scoring with Hybrid Enrollment #说话人验证 #说话人识别 #模型融合 7.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #说话人验证 | #模型融合 | #说话人识别 | arxiv 👥 作者与机构第一作者：Ai, Zhiqi；通讯作者：Zhou, Yongjin 和 Xu, Shugong。机构包括：1. 上海大学，2. 西交利物浦大学，3. 同花顺AI研究院。已有分析中未提及作者与机构，此处补充。 💡 毒舌点评这篇论文的工作量是扎实的，VoxPhrase数据集的构建确实为社区贡献了一个有价值的评测基准。然而，核心的“混合注册+神经重打分”方法，在技术深度上乏善可陈。那个“并行交叉注意力”模块，本质上就是标准的Transformer交叉注意力的双向拼接，创新性约等于把单行道改成了双向车道，虽然有用，但离“新架构”还差得远。更致命的是，论文几乎没有对模型内部进行任何剖析——注意力权重可视化？特征互补性分析？这些统统没有，使得整个方法像个黑箱，我们只知道它有效，但不知道为什么有效。实验对比也过于“友好”，只跟余弦相似度这种最基础的后端比，不敢和更复杂的自适应后端（如PLDA、端到端模型）过招，这大大削弱了结论的说服力。总的来说，这是一篇合格的、解决具体工程问题的应用论文，但距离一篇能启发新思路的顶级理论或方法论文还有明显差距。 📌 核心摘要本文针对用户定义关键词检测场景下短时长说话人验证性能下降的问题，进行了系统研究。论文首先从VoxCeleb构建了大规模短时长说话人验证语料库VoxPhrase，分析发现文本相关注册受限于时长导致表示不稳定，而文本无关注册虽然引入内容失配，但随注册时长增加表示更稳定。基于此，提出了一种混合注册神经重打分框架。该框架利用冻结的说话人模型提取句级和帧级特征，通过计算两种注册方式与查询语音的全局余弦相似度，并使用并行交叉注意力模块对帧级特征进行细粒度交互建模，最后将全局与局部证据融合以输出最终验证分数。在VoxPhrase和Deepmine数据集上的实验表明，该方法在多种说话人模型主干和不同评估条件下均能带来一致且显著的性能提升，验证了混合注册与神经重打分在短时长场景下的有效性与鲁棒性。 🔗 开源详情代码：论文中未提及代码开源。模型权重： ECAPA-TDNN: https://modelscope.cn/models/iic/speech_ecapa-tdnn_sv_en_voxceleb_16k CAM++: https://modelscope.cn/models/iic/speech_campplus_sv_en_voxceleb_16k ERes2Net-L: https://modelscope.cn/models/iic/speech_eres2net_large_sv_en_voxceleb_16k 数据集： VoxPhrase：论文中描述为从VoxCeleb数据集自动分割构建，但未提供独立的下载链接。获取需基于论文所述方法自行从原始VoxCeleb构建。原始VoxCeleb获取方式：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ Demo：论文中未提及。复现材料：训练配置：使用单个RTX 4090 GPU，batch size为256，训练25k步。验证器包含一个线性投影层和一个对称的交叉注意力模块（8个头，隐藏维度128）。训练使用二元交叉熵损失。数据划分：训练集来自Vox2-dev（5,994名说话人），评估集分为Eval-1（Vox1）、Eval-2（Vox2-test）、Eval-3和Eval-4（来自Deepmine数据集）。具体统计信息见论文表1。检查点：论文中未提供预训练的验证器检查点下载链接。论文中引用的开源项目： 3D-Speaker：论文中提及，作为开源工具包，但未给出具体链接。其GitHub仓库地址为：https://github.com/alibaba-damo-academy/3D-Speaker wav2vec 2.0 (用于强制对齐)：论文中引用为 [baevski2020wav2vec]，对应原始论文和模型，可从HuggingFace获取，如：https://huggingface.co/facebook/wav2vec2-base-960h fast-reformer (用于ASR)：论文中引用为 [rekesh2023fast]，对应原始论文和模型。具体实现和模型可参考其论文和相关开源实现。 🏗️ 方法概述和架构本文提出的框架（如论文图2所示）旨在通过融合文本依赖和文本独立注册信息，并进行神经重打分，来稳定短时长说话人验证的性能。其核心流程分为三个阶段：特征提取、相似度建模（神经验证器）和融合决策。 ...

MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

📄 MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation #说话人识别 #图神经网络 #多任务学习 9.2/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.2/10 | 前25% | #说话人识别 | #多任务学习 | #图神经网络 | arxiv 👥 作者与机构 Ayoub Elkhouzari, Youssef Iraqi, Loubna Mekouar College of Computing, University Mohammed VI Polytechnic, Ben Guerir, Morocco ...

Multimodal Speaker Identification in Classroom Environments

📄 Multimodal Speaker Identification in Classroom Environments #说话人识别 #多模态模型 6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #说话人识别 | #多模态模型 | arxiv 👥 作者与机构 Michael Leon Chrzan1, Meghavarshini Krishnaswamy1, Robert Gibboni2, Katie Wetstone2, Wei Ai3, Jing Liu1 未明确具体机构名称（论文中未说明）未明确具体机构名称（论文中未说明）未明确具体机构名称（论文中未说明）（论文作者列表及机构信息未在提供的原文片段中明确列出） 💡 毒舌点评这篇论文就像给课堂分析系统装上了一个“顺风耳”加“读心术”的混合引擎。它试图解决一个真实痛点：教室里小朋友们叽叽喳喳，老师声音被淹没，纯靠声音识别谁在说话简直是噩梦。作者的想法很直接：把声音特征和说话内容结合起来猜。用现成的ECAPA-TDNN模型提取声音指纹，再让GPT-5-mini这个“大语文课代表”从转录文本里猜猜是谁在说话，最后把这些特征塞给XGBoost这个“分类老手”。想法朴实，但实现上确实有点“缝合怪”——ECAPA-TDNN是别人的，XGBoost是别人的，LLM的提示词也简单得像是课堂练习题。最让人哭笑不得的是，花了这么大劲，对于最难也最有价值的学生识别，整体准确率才勉强过半（50.3%），还不如抛硬币（考虑多个学生）稍微强点。不过，论文也坦诚得可爱，老老实实分析了为什么对短语句没辙，为什么老师识别比学生识别准得多——毕竟老师话多，声音特征更稳定，LLM也更容易从“同学们”之类的词猜出是老师。总的来说，这是一篇工程意义大于科学创新的“集成创新”论文，在教育技术这个特定领域提供了一个可行的baseline，但要离真正的“课堂AI助教”还有十万八千里。 📌 核心摘要本文针对K-12教室环境中背景噪声大、儿童语音可变性强导致纯声学说话人识别（SID）效果差的问题，提出了一种多模态说话人识别框架。该框架将ECAPA-TDNN提取的声学嵌入与基于GPT-5-mini从转录文本推断的语义上下文（称为“语义锚点”）相结合，并通过XGBoost分类器进行最终预测。在EDSI数据集的8个数学课堂（2801个标注语句）上进行的留一课堂交叉验证表明，该多模态方法在教师-学生角色区分上达到99.3%的准确率，远超纯声学基线（88.0%）；在具体学生身份识别上，总体Top-1准确率为50.3%，较基线（39.0%）提升11.3个百分点，对于超过5秒的语句准确率可达76.9%。研究证实，在声学信号不足的短语句中识别个体学生仍是主要挑战，而结合语义上下文能显著提升对长时、有意义发言的识别能力，为构建可扩展的课堂个体参与分析系统提供了基础。 🔗 开源详情代码：论文中未提及任何代码仓库或链接。模型权重：论文中未提供其使用的具体模型权重链接。论文所用的ECAPA-TDNN基础模型（spkrec-ecapa-voxceleb）是SpeechBrain项目的开源组件，其官方权重托管于 HuggingFace Hub: https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb。数据集：论文使用了 EDSI (Educational Data Science and Innovation) Dataset 的一个子集。论文未提供该数据集的公开获取链接或明确的开源协议，通常需要向相关机构申请。 Demo：论文中未提及。复现材料：论文详细描述了实验设置（特征、超参数、交叉验证），但未提供任何训练脚本、配置文件、预处理代码或模型检查点。论文中引用的开源项目： SpeechBrain: ECAPA-TDNN模型的来源。官方项目：https://github.com/speechbrain/speechbrain。 XGBoost: 核心分类模型。官方项目：https://github.com/dmlc/xgboost。 Optuna: 用于超参数优化的框架。官方项目：https://github.com/optuna/optuna。 TranscribeMe: 论文中提及用于生成转录文本的商业服务，非开源项目。 🏗️ 方法概述和架构本文提出的方法是一个融合声学与文本语义的多模态说话人识别系统，旨在将每个语句归类到具体的说话人（教师或学生）。其核心流程包含声学嵌入提取、多维度特征工程、以及基于梯度提升树的分类预测。 ...

Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark

📄 Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark #说话人识别 #基准测试 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.6/10 | 前50% | #说话人识别 | #基准测试 | arxiv 👥 作者与机构作者：Minjae Lee, Hee-Soo Heo, Youngki Kwon, Han-Gyu Kim, You Jin Kim, Bong-Jin Lee 机构：NAVER Cloud Corporation, NAVER Corporation 💡 毒舌点评这篇论文像一个设计精良的“应用题”：它精准地指出了实际场景中说话人识别技术落地的痛点（需要同时解决“谁在何时说话”和“说话的是谁”），并为此量身定做了一套考试（TST任务）和考卷（TST-Bench）。优点在于问题定义清晰、考卷设计周全（规模大、可控、有全局标签），并通过实验证明了“做题技巧”（专用系统设计）比“直接套公式”（模块堆叠）更有效。然而，其“答题方法”（系统本身）更多是现有技术的合理组装与调优，原创性略显不足。合成数据虽然解决了隐私和可控性问题，但其与真实会话的鸿沟（朗读vs对话、缺乏自然打断和重叠等）是一个需要反复强调的“房间里的大象”，论文对此讨论尚可但解决方案有限。总体而言，它是一项扎实的工程贡献，为社区提供了一个急需的标准化评测平台，但其方法论的深度和广度距离“顶会突破”尚有一步之遥。 ...