Enhancing Dialogue-Related Speech Tasks with Generated Spoken Dialogues

📄 Enhancing Dialogue-Related Speech Tasks with Generated Spoken Dialogues #语音对话系统 #数据增强 #语音大模型 #说话人分离 #语音活动检测 ✅ 6.5/10 | 前25% | #语音对话系统 | #数据增强 | #语音大模型 #说话人分离 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Haitian Lu(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学) 通讯作者:Gaofeng Cheng(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学) 作者列表:Haitian Lu(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学)、Zhihao Bai(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学)、Yukun Liu(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学)、Xuyang Wang(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学)、Gaofeng Cheng(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学)、Yonghong Yan(中国科学院声学研究所语音声学与内容理解重点实验室;中国科学院大学) 💡 毒舌点评 这篇论文的亮点在于思路清晰,将“生成可控对话数据”这一上游能力与多个下游具体任务紧密结合,并系统验证了其作为数据增强工具的实用价值,尤其是在改善VAD的对话级错误率(CDER)上效果显著。短板在于,其“增强”的根基——生成模型SLIDE是前作,本文的增量贡献更多是应用层面的实验验证;同时,生成数据的说话人多样性不足(仅120人)导致EEND的说话人错误率居高不下���暴露了当前生成对话数据用于复杂说话人场景时的核心瓶颈。 🔗 开源详情 代码:论文中未提及任何代码仓库链接。 模型权重:未提及任何已公开的模型权重(包括生成模型SLIDE或下游任务模型)。 数据集:论文中使用的Fisher和CALLHOME是标准公开数据集。但本文生成的对话数据集未公开,也未说明获取方式。 Demo:未提供在线演示。 复现材料:论文描述了下游任务的模型架构(如CRDNN, ResNet-LSTM)和使用的工具包(SpeechBrain, EEND官方工具),但未提供训练超参数配置、检查点或详细的复现说明。对于核心的生成对话部分,未提供任何复现材料。 论文中引用的开源项目:SpeechBrain, wav2vec2, EEND官方工具包, pyannote.audio, Silero VAD, CDER_Metric toolkit。 开源计划:论文中未提及任何开源计划。 📌 核心摘要 解决的问题:大语言模型(LLM)和语音语言模型(SLM)能生成自然的对话语音,但生成的语音在文本-语音一致性、精确的时间戳获取以及保持自然对话动态(如韵律、重叠)方面存在挑战,限制了其作为高质量数据增强资源在下游任务中的应用。 方法核心:基于SLIDE框架,扩展生成带有精确转录和话语时间戳的双通道语音对话。通过从模型预测的音素时长中解析出连续的语音片段边界,获得精确的监督信号。随后,将这些生成的对话数据以多种策略(单独使用、与真实数据混合、预训练后微调)应用于四个下游任务:自动语音识别(ASR)、端到端神经说话人分离(EEND)、语音活动检测(VAD)和重叠语音检测(OSD)。 创新点:相比于直接使用真实数据或传统仿真数据,本文提出的方法生成的对话兼具自然对话动态和准确的标注(文本与时间戳)。它不是提出一个新的生成模型,而是系统地探索和验证了可控生成对话数据作为通用数据增强方案的潜力和具体应用方法。 主要实验结果:在Fisher和CALLHOME数据集上的实验表明: ASR:使用100小时真实数据+1600小时生成数据进行预训练-微调后,WER为14.31%,优于仅使用1600小时真实数据的15.20%。 VAD:仅用400小时生成数据训练的模型,CDER(对话级错误率)为34.4%,相比仅用真实数据的最佳结果48.1%有28.5%的相对改进。 OSD:结合1600小时真实数据与1600小时生成数据,F1分数达到65.4%,优于仅用1600小时真实数据的62.0%。 EEND:生成数据在MS+FA(漏检与误检)指标上表现良好,但由于生成对话仅包含120位说话人,导致说话人错误率较高,整体DER提升有限。 具体实验结果表格如下: 表1:ASR性能(Fisher数据集) ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 291 words

From Diet to Free Lunch: Estimating Auxiliary Signal Properties Using Dynamic Pruning Masks in Speech Enhancement Networks

📄 From Diet to Free Lunch: Estimating Auxiliary Signal Properties Using Dynamic Pruning Masks in Speech Enhancement Networks #语音增强 #语音活动检测 #多任务学习 #动态网络 #边缘AI ✅ 7.5/10 | 前25% | #语音增强 | #多任务学习 | #语音活动检测 #动态网络 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Riccardo Miccini (GN Hearing) 通讯作者:未说明 作者列表:Riccardo Miccini (GN Hearing), Clément Laroche (GN Hearing), Tobias Piechowiak (GN Hearing), Xenofon Fafoutis (Technical University of Denmark), Luca Pezzarossa (Technical University of Denmark) 💡 毒舌点评 这篇论文巧妙地将动态剪枝机制从“计算节食”的工具,升华为一个能同时“感知”语音活动、噪声类型、音高乃至说话人身份的“免费午餐”特征提取器,思路令人耳目一新。然而,其依赖线性模型和时序平滑的固有局限,使得它在处理瞬息万变的语音信号(如快速变化的SNR或F0)时显得力不从心,最终在SV任务上的平庸表现也暗示了其特征表示的瓶颈。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 403 words

ICASSP 2026 - 语音活动检测 论文列表

ICASSP 2026 - 语音活动检测 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Lingometer: On-Device Personal Speech Word Counting System 8.0分 前25% 🥈 EEND-SAA: Enrollment-Less Main Speaker Voice Activity Detect 7.5分 前25% 🥉 Dual Data Scaling for Robust Two-Stage User-Defined Keyword 7.5分 前25% 4. EdgeSpot: Efficient and High-Performance Few-Shot Model for 7.5分 前25% 5. TVP-UNet: Threshold Variance Penalty U-Net for Voice Activit 7.0分 前25% 📋 论文详情 🥇 Lingometer: On-Device Personal Speech Word Counting System 🔥 8.0/10 | 前25% | #语音活动检测 | #端到端 | #低资源 #数据增强 ...

2026-04-29 · 更新于 2026-07-03 · 5 min · 863 words

Lingometer: On-Device Personal Speech Word Counting System

📄 Lingometer: On-Device Personal Speech Word Counting System #语音活动检测 #端到端 #低资源 #数据增强 #模型评估 🔥 8.0/10 | 前25% | #语音活动检测 | #端到端 | #低资源 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhwan Kim(Korea Advanced Institute of Science and Technology, South Korea) 通讯作者:Hyun W. Ka(Korea Advanced Institute of Science and Technology, South Korea) 作者列表:Yuhwan Kim(Korea Advanced Institute of Science and Technology, South Korea)、Junghun Lee(Korea Advanced Institute of Science and Technology, South Korea)、Baekho Kim(Korea Advanced Institute of Science and Technology, South Korea)、Hyun W. Ka(Korea Advanced Institute of Science and Technology, South Korea) 注:论文注明前两位作者贡献均等。 💡 毒舌点评 亮点:系统设计巧妙,通过“PVAD筛选 + WCE计数”的管道式架构,优雅地解决了设备端语音分析中的隐私与功耗矛盾,为数字生物标志物研究提供了合规的实用工具。 短板:WCE模型严重依赖词边界(音节起始点)的帧级标注,这在多语言或资源匮乏语言中可能成为瓶颈;实验部分缺少与更强基线(如大型端到端语音识别模型在相同轻量化约束下)的直接对比。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 348 words

Spatially Aware Self-Supervised Models for Multi-Channel Neural Speaker Diarization

📄 Spatially Aware Self-Supervised Models for Multi-Channel Neural Speaker Diarization #说话人分离 #自监督学习 #麦克风阵列 #多通道 #语音活动检测 🔥 8.0/10 | 前25% | #说话人分离 | #自监督学习 #麦克风阵列 | #自监督学习 #麦克风阵列 学术质量 8.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文按顺序列出作者,但未明确标注第一作者) 通讯作者:未说明 作者列表:Jiangyu Han(布尔诺理工大学),Ruoyu Wang(中国科学技术大学),Yoshiki Masuyama(三菱电机研究所),Marc Delcroix(NTT公司),Johan Rohdin(布尔诺理工大学),Jun Du(中国科学技术大学),Lukáš Burget(布尔诺理工大学) 💡 毒舌点评 这篇论文巧妙地利用WavLM的早期层注入空间信息,避免了从头训练多通道模型的高成本,方法设计轻量且通用。不过,其核心创新更多是工程上的“缝合”而非理论突破,且第二阶段的融合策略依赖于第一阶段的通道注意力权重,限制了端到端优化的可能。 🔗 开源详情 代码:是。提供了GitHub仓库链接:https://github.com/BUTSpeechFIT/DiariZen。 模型权重:未提及。 数据集:未提及新数据集。使用五个公开数据集:AMI, AISHELL-4, AliMeeting, NOTSOFAR-1, CHiME-6。 Demo:未提及。 复现材料:论文详细说明了模型配置、训练和评估细节。代码开源是主要复现材料。 论文中引用的开源项目: DiariZen [5] WavLM [3] pyannote.audio [28] VBx聚类 [35] WPE [33] BeamformIt [34] 论文中未提及开源计划以外的其他内容。 📌 核心摘要 问题:当前基于自监督学习(如WavLM)的说话人分离系统通常在单通道数据上预训练,无法有效利用多通道录音中的空间信息。传统的后融合方法(如DOVER-Lap)计算成本高且空间信息利用不充分。 核心方法:在现有DiariZen管线(结合WavLM的EEND与向量聚类)基础上,提出一种轻量级方法:在预训练单通道WavLM的早期层中插入可学习的“通道通信模块”,使其能感知空间信息。该模块对麦克风数量和阵列拓扑结构通用。在聚类阶段,提出利用通道注意力权重来融合多通道说话人嵌入。 创新点:a) 在特征提取器内部注入空间感知能力,而非依赖后期融合;b) 使用结构化剪枝后的WavLM,在保持性能的同时大幅降低计算量;c) 提出基于注意力权重的说话人嵌入融合策略,无需额外训练。 主要实验结果:在五个公开数据集(AMI, AISHELL-4, AliMeeting, NOTSOFAR-1, CHiME-6)上进行评估。 表1(Oracle聚类下):所提的ChannelAttention(ChAtt)多通道模型在所有数据集上均优于单通道基线,且使用剪枝WavLM(18.8M参数)的性能接近未剪枝版本(94.4M参数)。 System WavLM Pruned DER (%) AMI Single-channel - - 13.5 Single-channel - ✓ 13.3 ChAtt - - 13.1 ChAtt - ✓ 12.9 TAC - ✓ 12.8 表2(VBx聚类下):所提方法的“attentive weighted fusion”变体在CHiME-6数据集上将DER降至27.5%,接近当时SOTA系统(27.5% vs ~25%),且计算效率优于DOVER-Lap基线。 System DER (%) AMI Single-channel 15.3 DOVER-Lap 14.7 Average probs & embs 14.9 ChAtt, DOVER-Lap 14.8 ChAtt, average embed. 14.9 ChAtt, att. argmax 14.9 ChAtt, att. weighted fusion 14.8 图2(推理时间):显示“attentive argmax”方法的推理时间显著低于DOVER-Lap,因为其仅从注意力最高的通道提取嵌入。 图3(注意力权重):分析了CHiME-6上的通道注意力权重,显示不同层对通道的关注度不同,且模式随输入变化,表明模型在利用空间线索。 图4(麦克风依赖性):分析了不同数据集上各单通道性能的方差,解释了为何在AliMeeting和CHiME-6上多通道增益更大(其录音配置导致通道间性能差异显著)。 实际意义:提供了一种高效、通用且易于实施的框架,将强大的单通道自监督预训练模型扩展到多通道说话人分离场景,性能超越传统后期融合方法,且计算成本更低,更适合实际部署。 主要局限性:a) 第二阶段的说话人嵌入提取仍基于单通道,未利用多通道信息(论文指出这是未来工作);b) 所提方法在录音条件均匀的数据集(如AMI)上提升有限,其优势主要体现在空间线索明显的复杂场景。 🏗️ 模型架构 本文的工作建立在DiariZen系统(一个EEND-VC管线)之上,并对其进行了多通道扩展。整体架构分为两个阶段: ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 288 words

SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

📄 SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding #语音合成 #数据集 #数据增强 #语音活动检测 ✅ 7.5/10 | 前25% | #语音合成 | #数据增强 | #数据集 #语音活动检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Bingsong Bai(北京邮电大学人工智能学院), Qihang Lu(北京邮电大学人工智能学院), Wenbing Yang(北京邮电大学人工智能学院)(论文标注为并列第一作者) 通讯作者:Ya Li(北京邮电大学人工智能学院), Jun Gao(Hello Group Inc.) 作者列表: Bingsong Bai(北京邮电大学人工智能学院) Qihang Lu(北京邮电大学人工智能学院) Wenbing Yang(北京邮电大学人工智能学院) Zihan Sun(Hello Group Inc.) Yueran Hou(Hello Group Inc.) Peilei Jia(Hello Group Inc.) Songbai Pu(Hello Group Inc.) Ruibo Fu(中国科学院自动化研究所) Yingming Gao(北京邮电大学人工智能学院) Ya Li(北京邮电大学人工智能学院) Jun Gao(Hello Group Inc.) 💡 毒舌点评 这篇论文的亮点在于构建了一条颇为精巧的“副语言数据自动化工厂”流水线,把ASR投票、LLM“加标点”、语音转换“换音色”等技术模块组装得很有条理,并通过扎实的实验证明了用这套流水线生产出的数据集确实好用。其短板在于,这条流水线本身是“站在巨人肩膀上”的工程集成,核心的算法创新性相对有限;而且,用合成数据训练的模型,其生成的“副语言”是否真正捕捉到了人类情感的细微之处,可能还需在更复杂的交互场景中打个问号。 ...

2026-04-29 · 更新于 2026-07-03 · 3 min · 456 words

The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations

📄 The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations #语音对话系统 #自监督学习 #语音活动检测 #语音表示学习 ✅ 7.5/10 | 前25% | #语音对话系统 | #自监督学习 | #语音活动检测 #语音表示学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sam O’Connor Russell(都柏林三一学院工程学院) 通讯作者:未说明 作者列表:Sam O’Connor Russell(都柏林三一学院工程学院)、Delphine Charuau(都柏林三一学院工程学院)、Naomi Harte(都柏林三一学院工程学院) 💡 毒舌点评 本文巧妙地将神经科学中的“声音相关噪声”范式移植到语音轮次预测的可解释性分析中,像做手术一样干净地分离了韵律和词汇线索,方法论上值得称赞。然而,结论“仅韵律就够了”可能过于乐观,毕竟实验中的“韵律匹配噪声”在真实世界的噪声环境下难以复现,且模型在复杂对话场景中是否仍能如此可靠地依赖单一线索存疑。 🔗 开源详情 代码:论文中提供了代码仓库链接:github.com/russelsa/noise_generation_ICASSP-。 模型权重:未提及是否公开预训练好的VAP模型或S3R权重。 数据集:使用CANDOR语料库,论文未提及是否提供处理后的数据版本或获取方式。 Demo:未提及。 复现材料:论文详细说明了训练超参数(学习率、batch size、epoch数)、vocoder参数、评估指标和划分方法,提供了充分的复现细节。 引用的开源项目:主要依赖WORLD vocoder、Whisper(用于计算WER)、CPC和wav2vec 2.0预训练模型。 📌 核心摘要 要解决的问题:基于自监督语音表示(S3R)的轮次预测模型性能优异,但其决策依赖于语音中的哪些线索(韵律 vs. 词汇)尚不清楚,这限制了模型的可解释性、隐私保护和轻量化潜力。 方法核心:引入一种基于WORLD vocoder的控制方法,能够干净地生成仅保留韵律(去除词汇可懂度)或仅保留词汇(平滑韵律)的语音,用于系统性地探究S3R模型(主要是VAP模型)的线索依赖关系。 与已有方法相比新在哪里:不同于以往通过简单滤波或添加背景噪声(会同时破坏多种线索)的研究,该方法能独立、可控地操纵语音的韵律和词汇成分,提供了更干净的实验条件。研究范围从单一S3R(CPC)扩展到了wav2vec2.0,增强了结论的普适性。 主要实验结果: 在纯净语音上训练的VAP模型,在测试时面对仅保留韵律的噪声语音(WER>100%),仍能保持较高的轮次预测准确率(S/H-Pred平衡准确率≈70%,见表2),接近纯净语音性能的91%(图4)。 相反,去除韵律(平滑音高和强度)后,性能虽下降但仍显著高于随机水平(表2)。 当一种线索被破坏时,模型无需重新训练即可利用另一种线索,证明两种线索在S3R编码中相互独立(图2)。这一结论在wav2vec2.0前端上同样成立。 实际意义:该发现为设计轻量化、仅依赖韵律的轮次预测模型提供了理论支持,此类模型具有计算高效和保护语音隐私(去除可识别词汇内容)的双重优势。 主要局限性:研究仅在英语对话语料库(CANDOR)上进行,跨语言泛化性未验证。所使用的“韵律匹配噪声”是一种受控实验条件,与真实世界的噪声干扰存在差异。 🏗️ 模型架构 论文主要分析的对象是语音活动投影(Voice Activity Projection, VAP)模型,一个基于S3R的轮次预测模型。其架构如下: ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 255 words

TVP-UNet: Threshold Variance Penalty U-Net for Voice Activity Detection in Dysarthric Speech

📄 TVP-UNet: Threshold Variance Penalty U-Net for Voice Activity Detection in Dysarthric Speech #语音活动检测 #U-Net #阈值方差惩罚 #构音障碍 #半监督学习 ✅ 7.0/10 | 前25% | #语音活动检测 | #U-Net | #阈值方差惩罚 #构音障碍 学术质量 5.5/7 | 选题价值 1.2/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Aditya Pandey (School of Computer Science and Engineering, Vellore Institute of Technology, Chennai, India) 通讯作者:未明确说明(从贡献描述和作者排序推测,核心研究者为来自IISc的Prasanta Kumar Ghosh) 作者列表:Aditya Pandey(VIT Chennai),Tanuka Bhattacharjee, Prasanta Kumar Ghosh(Indian Institute of Science, Bengaluru),Madassu Keerthipriya, Darshan Chikktimmegowda, Dipti Baskar, Yamini BK, Seena Vengalil, Atchayaram Nalini, Ravi Yadav(National Institute of Mental Health and Neurosciences, Bengaluru)。 💡 毒舌点评 亮点:这是首个专门针对构音障碍语音的VAD研究,问题定义精准且临床意义明确;提出的TVP损失通过“阈值方差惩罚”巧妙地稳定了弱分类器在模糊边界上的决策,是一个可解释性强的正则化技巧。 短板:实验基线过于陈旧(2022年的方法),未能与当前先进的自监督、基于变换器的VAD模型对比,削弱了方法在通用场景下竞争力的说服力;且未提供任何代码或模型,在开源盛行的今天,严重阻碍了其影响力扩散。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 263 words

Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines

📄 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines #语音识别 #语音活动检测 #数据集 #模型评估 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #模型评估 | #语音活动检测 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hawau Olamide Toyin(MBZUAI, UAE) 通讯作者:Hanan Aldarmaki(MBZUAI, UAE) 作者列表: Hawau Olamide Toyin(MBZUAI, UAE) Mutiah Apampa(SpeechCare, Portugal & UAE) Toluwani Aremu(SpeechCare, Portugal & UAE) Humaid Alblooshi(SpeechCare, Portugal & UAE) Ana Rita Valente(SLAI & CUHK (SZ), China) Gonçalo Leal(SLAI & CUHK (SZ), China) Zhengjun Yue(SLAI & CUHK (SZ), China) Zeerak Talat(University of Edinburgh, UK) Hanan Aldarmaki(MBZUAI, UAE) 💡 毒舌点评 亮点在于它系统性地揭示了口吃语音处理领域“研究自嗨”与“用户真实需求”之间的鸿沟,并提出了一个清晰的任务分类法来弥合术语混乱。短板是作为一篇“指南”类论文,它主要诊断问题,解决方案相对宏观,缺乏具体的技术路线图或可立即实施的算法改进方案。 ...

2026-04-23 · 更新于 2026-07-03 · 1 min · 165 words