SEP-ST: Incorporating Speech Entity Prompt Into Large Language Models for Speech Translation

📄 SEP-ST: Incorporating Speech Entity Prompt Into Large Language Models for Speech Translation #语音翻译 #大语言模型 #多任务学习 #命名实体识别 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #多任务学习 | #大语言模型 #命名实体识别 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Fei OuYang (昆明理工大学, 云南人工智能重点实验室) 通讯作者:Zhengtao Yu (昆明理工大学, 云南人工智能重点实验室) 作者列表:Fei OuYang (昆明理工大学, 云南人工智能重点实验室)、Linqin Wang (昆明理工大学, 云南人工智能重点实验室)、Zhengtao Yu (昆明理工大学, 云南人工智能重点实验室) 💡 毒舌点评 亮点在于直击端到端语音翻译中“命名实体”这个老大难问题,提出了一种无需外部知识库、通过联合训练从语音中直接提取实体特征提示LLM的优雅方案,在CoVoST-2和MuST-C上的实体翻译准确率(TSR)提升非常亮眼。短板是方法高度依赖于预训练的NER模型生成训练标签,且消融实验显示一种核心变体(Transformer-based)效果不佳,这使得其“端到端”的纯粹性打了折扣,更像是一个“半端到端”的增强方案。 🔗 开源详情 代码:论文中提供代码仓库链接:https://github.com/Crabbit-F/SEP。 模型权重:未提及是否公开预训练或训练好的模型权重。 数据集:使用公开数据集CoVoST-2和MuST-C,但未提及是否提供自建的SEP提取数据集。 Demo:未提及。 复现材料:提供了基本的训练细节(优化器、学习率、warmup步数、调度策略)和模型架构描述。关键超参数(λ值)、硬件信息、完整的训练配置文件未说明。 引用的开源项目:依赖预训练模型:Whisper-large-V3(语音编码器)、Qwen2.5(LLM)、Q-Former(适配器)、roberta-large-ner-english(NER工具)。 📌 核心摘要 问题:当前端到端语音翻译模型在翻译命名实体(如人名、地名、机构名)时准确率不足,而依赖级联或外部知识库的方法存在误差传播和泛化性差的问题。 方法核心:提出SEP-ST,一个端到端框架。其核心是新增一个“语音实体提示(SEP)提取模块”,直接从语音表征中学习并提取实体相关的嵌入特征。然后将该特征与原始语音特征和文本指令拼接,共同输入大语言模型(LLM)进行翻译,从而引导模型关注并准确翻译实体。 创新点:与已有方法相比,该工作是首个提出直接在语音表征层面进行端到端实体特征提取并作为提示整合进LLM的统一框架,摆脱了对外部实体词典或检索模块的依赖。 主要实验结果:在CoVoST-2数据集上,平均BLEU从39.1提升至40.6,实体翻译成功率(TSR)从36.4%提升至70.5%。在MuST-C零样本评估中,平均BLEU从16.9提升至20.6。具体对比数据见下表。 方法 CoVoST-2 (En2X) Avg BLEU CoVoST-2 (En2X) Avg TSR MuST-C (zero-shot) Avg BLEU MuST-C (zero-shot) Avg TSR LLM-SRT-7B (基线) 39.1 36.4 16.9 43.2 SEP-ST (CTC-based) 40.6 70.5 20.6 55.0 实际意义:提升了语音翻译在真实场景(常包含大量实体)中的可用性和保真度,简化了现有实体翻译增强方案的流程。 主要局限性:SEP提取模块的训练依赖于预训练NER模型标注的伪标签;其Transformer变体效果不佳,表明该特征学习方式有待探索;实验仅限于英译德/日/中三种语言方向。 🏗️ 模型架构 整体架构(如图2(a)所示)由四个核心组件顺序连接,输入为语音,输出为翻译文本。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 325 words

Session-Level Spoken Language Assessment with A Multimodal Foundation Model Via Multi-Target Learning

📄 Session-Level Spoken Language Assessment with A Multimodal Foundation Model Via Multi-Target Learning #语音评估 #语音大模型 #多任务学习 #多模态模型 #端到端 ✅ 7.5/10 | 前25% | #语音评估 | #多任务学习 | #语音大模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hong-Yun Lin 通讯作者:未说明 作者列表:Hong-Yun Lin, Jhen-Ke Lin, Chung-Chun Wang, Hao-Chien Lu, Berlin Chen(均来自Department of Computer Science and Information Engineering, National Taiwan Normal University) 💡 毒舌点评 亮点:该论文最漂亮的一手是将“评估人类评估过程”这个理念贯彻到底——不是去分数个片段再拼接,而是设计一个能“一口气”看完考生整个作答会话的模型,这从架构层面就对齐了人类考官的认知习惯。短板:虽然方法在特定基准上效果拔群,但这种高度定制化的会话级评估模型,在面对更开放、更多样化的口语任务或语言时,其泛化能力和实际部署的灵活性尚未得到证明,更像一个“专用冠军”而非“通用强者”。 🔗 开源详情 代码:论文中未提及代码链接,但声明“实验设置和源代码将在相机版本中公开”。 模型权重:论文中提到将基于Phi-4-Multimodal和Whisper-large-v3进行适配,但未提及是否公开自己微调后的权重。承诺公开代码可能包含训练脚本。 数据集:使用了公开的Speak & Improve 2025基准数据集,但论文本身未提供数据集下载链接或额外处理说明。 Demo:论文中未提及在线演示。 复现材料:论文详细描述了模型架构、训练策略(优化器、学习率、批大小、轮次等)、关键超参数(模型维度、MLP结构)以及评估指标,为复现提供了充分的信息框架。 论文中引用的开源项目:主要依赖Phi-4-Multimodal [14]和Whisper [17]作为基础模型,并使用了LoRA [16]进行高效微调。 📌 核心摘要 问题:现有的自动口语语言评估(SLA)系统要么采用易产生误差传播的级联管道,要么使用只能处理短时音频的端到端模型,无法像人类考官那样整合整个测试会话的语篇级证据进行综合评分。 方法核心:提出一种基于多模态基础模型(Phi-4-Multimodal)的会话级评估框架。该模型将整个测试会话(包含多个音频响应)格式化为对话序列一次性输入,通过多任务学习(MTL)直接联合预测四个部分的分数和一个总体分数。同时,引入了一个并行的、基于冻结Whisper模型的“声学能力先验”(APP),将其作为前缀令牌注入模型,以显式增强对流利度、停顿等副语言特征的感知。 与已有方法相比新在哪里:新在建模范式上:1)实现了真正的会话级、端到端、单次前向传播的评估,避免了分段评估和后期融合带来的误差。2)提出了声学先验注入机制,将外部声学模型的知识作为可学习的先验融入多模态大模型,无需手工特征工程。 主要实验结果:在Speak & Improve 2025基准测试中,所提出的Phi-4-MTL-APP模型取得了最优性能,总体RMSE为0.360,皮尔逊相关系数(PCC)为0.827。它超越了当时最强的集成系统(Perezoso, RMSE 0.364)和自己的基线系统(Phi-4-CTG, RMSE 0.412)。消融实验表明,MTL比CTG(RMSE 0.412)误差降低超过12%,而添加APP模块在长语音部分(P3/P4)带来了进一步的稳定提升。 实际意义:该研究为计算机辅助语言学习(CALL)提供了一个更准确、更接近人类评估过程、且模型更紧凑(单模型)的自动口语评分方案,有助于降低对人工评分的依赖。 主要局限性:1)模型的性能验证局限于特定的Speak & Improve基准测试,其跨任务、跨语言的泛化能力有待进一步研究。2)虽然承诺开源,但论文发表时未提供代码,依赖于特定的商业基础模型(Phi-4)和数据集。 🏗️ 模型架构 该模型采用“单会话输入,多分数输出”的统一架构(如图1b “Unified” 所示),主要由三个组件构成: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 296 words

Shared Representation Learning for Reference-Guided Targeted Sound Detection

📄 Shared Representation Learning for Reference-Guided Targeted Sound Detection #音频事件检测 #多任务学习 #预训练 #音频检索 🔥 8.5/10 | 前25% | #音频事件检测 | #多任务学习 | #预训练 #音频检索 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Shubham Gupta(印度理工学院海得拉巴分校,语音信息与处理实验室) 通讯作者:K. S. Rama Murty(ksrm@ee.iith.ac.in,印度理工学院海得拉巴分校) 作者列表:Shubham Gupta(印度理工学院海得拉巴分校,语音信息与处理实验室),Adarsh Arigala(印度理工学院海得拉巴分校,语音信息与处理实验室),B. R. Dilleswari(RGUKT R.K. Valley),K. S. Rama Murty(印度理工学院海得拉巴分校,语音信息与处理实验室)。*号表示贡献均等。 💡 毒舌点评 亮点:提出将双分支参考/混合编码器统一为单一ConvNeXt编码器的思路清晰有效,不仅简化了架构,还在URBAN-SED上取得了显著的性能提升(~7%相对增益),证明了共享表示学习对特征对齐的有效性。 短板:论文的核心验证基于一个合成且规模不大的数据集(URBAN-SED),尽管有跨域评估,但现实世界复杂声学场景下的泛化能力仍待更强有力的证明。此外,任务本身(给定参考检测特定声音)的通用性和影响力相比语音分离、生成等任务略显狭窄。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/ArigalaAdarsh/Reference-Guided-Targeted-Sound-Detection。 模型权重:论文中提到了“pretrained models are available”,但未在正文提供具体下载链接。需访问上述GitHub仓库获取详情。 数据集:论文中描述了基于URBAN-SED和UrbanSound8K构建数据集的协议,并提供了统计表,但数据集本身需根据协议自行生成,论文中未提供直接下载链接。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的训练配置(优化器、学习率、调度器、数据增强)、模型架构描述和关键超参数,有利于复现。 论文中引用的开源项目: ConvNeXt:作为骨干网络。 AudioSet:用于预训练和评估。 sed_eval:用于计算评估指标。 URBAN-SED, UrbanSound8K:用于构建实验数据集。 📌 核心摘要 问题:传统声事件检测(SED)需对所有预定义类别进行标签,而目标声检测(TSD)旨在根据一个参考音频片段,在更长且可能嘈杂的混合音频中检测并定位特定目标声音,这更符合人类选择性听觉注意的特性,也更利于处理未见类别和减少标注依赖。 方法核心:提出一个统一的编码器框架。使用单一的预训练ConvNeXt网络,同时处理参考音频和混合音频,将它们映射到一个共享的表示空间。随后通过融合模块(如逐元素乘法、FiLM、交叉注意力)结合两者的特征,并接入BiGRU进行时序建模。 创新点:与之前需要两个独立编码器分支(一个处理参考,一个处理混合)的方法相比,该统一设计降低了模型复杂度,增强了参考与混合音频特征的对齐,并提升了对未见类别的泛化能力。同时,系统性地评估了多种特征融合策略。 主要结果:在URBAN-SED数据集上,该方法达到了83.15%的片段级F1分数和95.17%的准确率,显著超越了TSDNet(76.3% F1)等基线,建立了新的SOTA。消融实验表明统一编码器优于双分支设计。在AudioSet-Strong的跨域评估中,模型仍取得了76.62%的F1分数。 实际意义:该模型可用于智能助手、多媒体检索、安防监控等需要根据用户指定声音进行检索的场景,具有实际应用潜力。 主要局限性:评估主要依赖于合成的、类别有限的URBAN-SED数据集。虽然引入了负面样本(Strong+)评估,但任务难度增加后性能下降(F1降至78.94%),表明在更现实的查询场景下模型仍有挑战。对极短或高度噪声的参考音频的鲁棒性未深入探讨。 实验结果关键数据表: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 380 words

Stress Prediction from Temporal Emotion Trajectories in Clinical Patient-Physician Conversations

📄 Stress Prediction from Temporal Emotion Trajectories in Clinical Patient-Physician Conversations #语音情感识别 #多任务学习 #迁移学习 #少样本 ✅ 7.0/10 | 前25% | #语音情感识别 | #多任务学习 | #迁移学习 #少样本 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Tobias Pertlwieser(Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab) 通讯作者:Tobias Pertlwieser†(同第一作者) 作者列表: Tobias Pertlwieser†, Hiuching Hung (Friedrich-Alexander-Universität Erlangen-Nürnberg) Tomás Arias-Vergara (Friedrich-Alexander-Universität Erlangen-Nürnberg) Paula Andrea Pérez-Toro (Friedrich-Alexander-Universität Erlangen-Nürnberg) Carolin Müller, Meike Schmitt, Hanna Huebner, Philipp Kreis, Irem Karaman, Miriam Saatze, Annika Krückel, Chloé Goossens, Katharina Seitz, Jonathan Singer (Department of Gynecology and Obstetrics, University Hospital Erlangen; Comprehensive Cancer Center Erlangen–EMN) Armine Garibyan, Peter Uhrig (Department of English and American Studies, Friedrich-Alexander-Universität Erlangen-Nürnberg) Peter A. Fasching, Manuel Hörner (Department of Gynecology and Obstetrics, University Hospital Erlangen; Comprehensive Cancer Center Erlangen–EMN; Pattern Recognition Lab) Andreas Maier (Pattern Recognition Lab, Friedrich-Alexander-Universität Erlangen-Nürnberg) 💡 毒舌点评 亮点:提出将“情绪轨迹”作为压力预测的中间表征,比直接使用原始声学特征或简单的统计量更具物理可解释性,并通过注意力机制巧妙定位了对话中的“压力时刻”。短板:核心数据集只有30名患者,这个样本量在深度学习时代显得过于脆弱,其结论的可靠性和模型的泛化能力亟需更大规模数据的验证,目前更像是一个针对特定小群体的可行性展示。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 430 words

Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning

📄 Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning #音频事件检测 #对抗学习 #多任务学习 #隐私保护 #端到端 ✅ 7.5/10 | 前25% | #音频事件检测 | #对抗学习 | #多任务学习 #隐私保护 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Nao Sato (NTT, Inc., Japan) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Nao Sato (NTT, Inc., Japan), Masahiro Yasuda (NTT, Inc., Japan), Shoichiro Saito (NTT, Inc., Japan) 💡 毒舌点评 亮点是提出了一个灵活且可扩展的“任务导向”框架,将隐私保护从固定的信号处理流程转变为可通过改变训练任务(隐私目标)来定制的学习过程,思路巧妙。短板在于所有实验均基于自建的、场景相对可控的合成数据集,这虽然能验证方法原理,但离真实世界中复杂、非结构化的声学环境和攻击场景还有距离,说服力略打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:未提及公开其构建的合成数据集。论文中引用了VoxCeleb1, FSD50K, DCASE2025 Task 4等公开数据集作为其合成数据的来源。 Demo:未提供在线演示。 复现材料:论文正文和附录(未提供,但正文中描述详细)给出了非常详尽的训练细节、超参数设置和模型规格,具备良好的可复现文本指南。 论文中引用的开源项目: 演唱声分离U-Net [23]:Jansson et al., 2017. 说话人识别CNN [24]:Nagrani et al., 2017. 梯度反转层(GRL)[22]:Ganin & Lempitsky, 2015. CRNN用于SED [25]:Cakir et al., 2017. SI-SDR度量 [26]:Erdogan et al., 2019. 整体开源计划:论文中未提及开源计划。 📌 核心摘要 问题:声音事件检测(SED)在智能家居等场景的应用需要持续录音,这会导致说话人身份、键盘敲击声等隐私信息泄露。现有方法多集中于分离并处理语音,不够灵活,无法保护非语音的隐私信息,且混淆机制依赖手动设计。 方法核心:提出端到端对抗多任务学习(EAML)。其核心是一个混淆网络(OBFNet),通过对抗训练(梯度反转层GRL)学习一个时频掩膜,在混淆指定隐私信息(如说话人ID、键盘声)的同时,保留完成目标任务(如SED)所需的声音信息。 与已有方法相比新在哪里:与传统两阶段(先分离再信号处理)方法相比,EAML是端到端可学习的。最关键的是,它实现了“任务导向”的混淆:隐私保护的目标不再是固定的(仅限语音),而是可以作为训练任务之一,通过改变训练配置(如表1的T1-T3)灵活定义需要混淆的信息类型和需要保留的目标信息。 主要实验结果:实验在包含7类声音事件的合成数据集上进行。如表2所示,在T1配置下,EAML在混淆说话人身份(ASI)上达到了最接近随机猜测的性能(Top-1准确率0.11%),同时SED性能(F-score)仅比未混淆的基线(87.40%)下降约4.5个百分点(82.88%),显著优于传统方法(D和E)。如表3所示,EAML在T2配置中通过引入SI-SDR损失,将音频质量(SI-SDR)从-20.35 dB提升至-16.78 dB,同时不影响其他任务。在T3配置中,成功将键盘打字检测(TAD)的AUC从0.99降至0.72。 实际意义:为隐私敏感的音频应用(如家庭监控、办公环境感知)提供了一种新的、灵活的技术范式。用户可根据具体场景定义“何为隐私”和“何为有用信息”,系统通过学习来平衡二者。 主要局限性:研究基于精心构建的合成数据,可能无法完全代表真实场景的复杂性;对“隐私”的定义和攻击模型相对简单,仅评估了预定义分类器的识别性能,未考虑更强大的攻击者或更广泛的隐私属性;混淆导致目标任务性能有一定程度的下降。 🏗️ 模型架构 EAML的整体架构围绕一个核心的混淆网络(OBFNet)和多个任务网络展开,通过对抗学习和多任务损失联合训练。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 387 words

Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment

📄 Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment #空间音频 #音频生成 #预训练 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #多任务学习 | #音频生成 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yunyi Liu(悉尼大学 University of Sydney) 通讯作者:未说明 作者列表:Yunyi Liu(悉尼大学)、Shaofan Yang(杜比实验室 Dolby Laboratories)、Kai Li(杜比实验室)、Xu Li(杜比实验室) 💡 毒舌点评 论文的亮点在于其巧妙的“分解”思想,将复杂的移动声音生成问题拆解为可控的轨迹预测、单声道音频生成与基于对象的音频空间化,框架清晰且具有很好的模块化扩展性。但短板在于,为了评估轨迹预测模块,构建了一个基于线性匀速运动的简化合成数据集,这可能无法充分代表真实世界中声音轨迹的复杂性和音频的多样性,使得方法在泛化到真实场景时的有效性存疑。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:论文中明确说明构建了合成数据集(76,850个样本),但未提供公开下载或获取方式。 Demo:提供了在线演示网站链接:https://reinliu.github.io/text2move/。 复现材料:论文给出了部分训练细节(优化器、学习率、轮数、批次大小等),但未提供完整的配置、检查点或附录说明。 论文中引用的开源项目:使用了DistilBERT文本编码器[14]、Make-An-Audio 2扩散模型[16]、AudioTime数据集[17]和HRTF库[18]。 📌 核心摘要 问题:现有文本驱动的空间音频生成主要聚焦于静态声源,无法有效生成具有动态空间运动的声音,限制了沉浸式体验。 方法核心:提出一种混合框架,将生成过程分解为:a) 从文本预测声源的三维时空轨迹;b) 微调一个预训练的文本到音频模型以生成与该轨迹时间对齐的单声道音频;c) 基于预测的轨迹对单声道音频进行基于对象的空间化模拟。 新意:首次在统一框架中显式地连接了文本、轨迹和音频,利用了“轨迹”作为中间表示来提供精确的空间和时间控制,区别于端到端生成FOA或双耳音频的方法。 主要结果: 文本到轨迹模型在合成测试集上表现出合理的预测能力(例如,方位角MAE为18.53°,范围感知MAE为15.52°)。 轨迹预测器和时间调整器均能实现高精度的时间对齐(起止点MAE均低于0.01秒,重叠率OLR分别为0.86和0.94)。 与仅预测端点的基线模型相比,全轨迹预测模型的绝对精度较低,但预测结果仍落在预定义的空间范围内。 实际意义:为可控的移动声音生成提供了新思路,可集成到现有的文本到音频工作流中,应用于VR/AR、游戏、电影音效等需要动态空间音频的领域。 主要局限性:完全依赖于构建的合成数据集进行训练和评估,数据集中的运动轨迹为简单的线性匀速运动,音频与空间属性是解耦合成的,可能无法完全反映真实世界数据的复杂性;未与现有的端到端空间音频生成方法在生成质量(如听感自然度、空间准确性)上进行直接对比。 🏗️ 模型架构 本文提出的Text2Move框架由两个主要部分构成,其整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 243 words

Tokenchain: A Discrete Speech Chain via Semantic Token Modeling

📄 Tokenchain: A Discrete Speech Chain via Semantic Token Modeling #语音识别 #自回归模型 #端到端 #多任务学习 ✅ 7.0/10 | 前25% | #语音识别 | #自回归模型 | #端到端 #多任务学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mingxuan Wang(香港中文大学(深圳)数据科学学院) 通讯作者:Satoshi Nakamura(香港中文大学(深圳)数据科学学院及人工智能学院) 作者列表:Mingxuan Wang(香港中文大学(深圳)数据科学学院)、Satoshi Nakamura(香港中文大学(深圳)数据科学学院及人工智能学院) 💡 毒舌点评 论文成功地将经典“语音链”范式移植到当前主流的离散语义token框架中,并设计了有效的端到端反馈机制,这是一个扎实且符合趋势的工程创新。不过,其核心创新点——离散接口和动态损失平衡——在原理上并非首创,论文的说服力主要建立在详尽的实验和有效的调优上,而非概念性突破。 🔗 开源详情 代码:论文中未提及代码仓库链接。论文使用了开源框架ESPnet和Amphion,但未提供本工作的定制代码。 模型权重:未提及公开模型权重。 数据集:使用了公开数据集LibriSpeech、TED-LIUM v2和Emilia。论文未提供新数据集。 Demo:未提及在线演示。 复现材料:论文提供了详细的模型架构、训练策略(包括优化器、学习率、调度器、DWA超参数)、数据划分以及关键超参数设置。这些信息写在论文的方法和实验部分,构成了较好的复现指南。 论文中引用的开源项目:引用了ESPnet(语音处理工具包)、Amphion(音频生成工具包)、SpeechTokenizer(语音分词器)、HuBERT(自监督模型)、Whisper(ASR模型)、WavLM(自监督模型)等开源工作或工具。 总体:论文中未提及开源计划(如代码发布、权重分享)。 📌 核心摘要 要解决什么问题:传统机器语音链(ASR与TTS闭环训练)依赖连续声学表示(如mel谱),而当前语音建模正转向离散token化。论文旨在将语音链范式适配到全离散语义token设置中,利用其与语言模型的天然亲和力,并探索其在提升ASR/TTS性能及跨域适应上的潜力。 方法核心是什么:提出TokenChain框架,核心是耦合一个离散语义token ASR与一个两阶段TTS。ASR与一个自回归的文本-语义模型共训练,形成闭环反馈;反馈信号通过直通估计(ST-argmax或Gumbel-Softmax)从T2S反向传播至ASR。最终损失由ASR监督损失和T2S重建损失通过动态权重平均(DWA)动态平衡。 与已有方法相比新在哪里:新在(1)全离散接口:整个闭环在语义token层面完成,替代了传统的连续表示;(2)可微反馈机制:使用ST-Gumbel-Softmax实现了跨离散接口的端到端梯度传播;(3)动态损失平衡:采用DWA策略自动调整ASR与T2S重建目标之间的权重。 主要实验结果如何:在LibriSpeech上,TokenChain变体(如ST-Gumbel Anneal)相比仅训练ASR的基线,在相同epoch预算下CER/WER降低5%-13%,并提前2-6个epoch达到基线最终精度。在TED-LIUM跨域适应中,最佳设置(ST-Gumbel τ=0.75)将ASR WER相对降低了56%,T2S的Whisper-WER相对降低了31%,且源域性能退化极小。 关键数据表格(表1:LibriSpeech ASR性能): 模型 dev-clean CER/WER dev-other CER/WER test-clean CER/WER test-other CER/WER 预链 4.0 / 10.4 10.5 / 23.1 4.0 / 10.6 10.9 / 23.9 基线 1.6 / 4.8 5.6 / 13.0 1.7 / 5.0 6.0 / 13.8 ST-Gumbel Anneal 1.4 / 4.2 5.3 / 12.1 1.4 / 4.4 5.5 / 12.8 关键数据表格(表3:TED-LIUM ASR性能): 模型 dev CER/WER test CER/WER 预链 13.6 / 29.0 13.7 / 29.0 基线 6.5 / 13.8 6.5 / 13.5 ST-Gumbel 0.75 6.0 / 12.7 6.2 / 12.6 关键图表:图2展示了学习曲线,证明TokenChain(红色)在收敛速度和最终性能上均优于基线(蓝色)。图3展示了跨域适应的“增益-遗忘”不对称性,在TED-LIUM上获得大幅正确率提升的同时,在LibriSpeech上仅有微小退化。 实际意义是什么:证明了语音链原则在离散token时代依然有效,为构建更高效、更强大的半监督或自监督语音处理系统提供了新思路。其快速的收敛和优异的跨域适应能力,在实际应用中可能减少标注数据需求和提升模型泛化性。 主要局限性是什么:(1)论文未提及S2A(语义到声学)模块参与联合训练,其能力被固定,限制了语音生成质量的同步提升潜力;(2)主要实验局限于LibriSpeech和TED-LIUM,未在更大规模或多语言数据上验证;(3)缺乏对更复杂噪声、口音等场景的鲁棒性分析;(4)未提供主观人工评估结果,合成语音质量仅依赖自动指标。 🏗️ 模型架构 TokenChain的整体架构如图1所示,是一个由离散token接口连接的闭环系统,包含三个核心组件: ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 529 words

Towards Building Speech Large Language Models for Multitask Understanding in Low-Resource Languages

📄 Towards Building Speech Large Language Models for Multitask Understanding in Low-Resource Languages #语音大模型 #低资源 #语音识别 #自监督学习 #多任务学习 ✅ 6.5/10 | 前25% | #语音识别 | #自监督学习 | #语音大模型 #低资源 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao(西北工业大学计算机学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Zhonghua Fu(西北工业大学计算机学院,音频、语音与语言处理组 (ASLP@NPU)),Lei Xie(西北工业大学计算机学院,音频、语音与语言处理组 (ASLP@NPU)) 作者列表:Mingchen Shao(西北工业大学计算机学院),Bingshen Mu(西北工业大学计算机学院),Chengyou Wang(西北工业大学计算机学院),Hai Li(爱奇艺公司),Ying Yan(爱奇艺公司),Zhonghua Fu(西北工业大学计算机学院),Lei Xie(西北工业大学计算机学院) 💡 毒舌点评 本文最大的亮点在于系统性思维,为“低资源语言SLLM”这个老大难问题提供了从编码器、对齐方法到数据生成的全套“工具箱”,并开源了关键组件,具有很强的工程示范价值。但最大的短板在于其核心数据生成管线(Thai-SUP)严重依赖DeepSeek和Gemini等闭源商业大模型,这不仅削弱了研究的独立性和完全可复现性,也使得“资源高效”的主张打了折扣——毕竟不是每个研究者都能随意调用这些API来复现你的数据集。 🔗 开源详情 代码:论文中提供了指向数据集的Hugging Face链接(https://huggingface.co/datasets/mcshao/Thai-understanding)。未明确提供模型训练和推理的完整代码仓库链接。 模型权重:论文明确指出开源了 XLSR-Thai 语音编码器权重,并在文中提及“open-source XLSR-Thai”。具体下载地址应包含在上述Hugging Face仓库或单独链接中。 数据集:论文明确指出开源了 Thai-SUP 生成的泰语语音理解数据集(超过1000小时),并通过上述Hugging Face链接提供。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了模型架构(图1)、核心算法(DTW损失公式1)、实验设置(数据集、基线、指标)等信息,但未提供详细的超参数设置、训练日志、配置文件或检查点,完整的训练复现细节不足。 引用的开源项目: XLS-R:作为XLSR-Thai的预训练基础模型。 Typhoon2-LLaMa2-3B:作为SLLM中的LLM解码器。 LLaSa:用于Thai-SUP数据生成中的泰语文本转语音合成。 DeepSeek-v3, Gemini-2.5-flash:用于Thai-SUP中的数据增强、筛选和翻译(商业模型)。 📌 核心摘要 要解决的问题:现有语音大语言模型(SLLMs)在英语等高资源语言上表现优异,但在泰语等低资源语言上性能严重下降。原因包括:现有语音编码器(如Whisper)在低资源语言上表现不佳且任务支持有限;基于ASR的对齐方法计算成本高且泛化性受限;低资源语言缺乏多任务语音理解数据。 方法核心:提出一个综合解决方案,包含三个组件:(1)XLSR-Thai:首个泰语自监督语音编码器,通过在36,000小时泰语无标签数据上持续预训练XLSR模型得到。(2)U-Align:一种新的语音-文本对齐方法,通过动态时间规整(DTW)损失直接对齐适配后的语音表示与文本转录的嵌入,不经过大语言模型,计算更高效且支持多任务。(3)Thai-SUP:一个数据生成管线,利用大语言模型对高资源英语文本理解数据进行增强、翻译,再经文本转语音合成,生成了首个超过1000小时的泰语语音理解数据集(涵盖IC、NER、SR任务)。 与已有方法相比新在哪里: 编码器:针对特定低资源语言定制SSL编码器,比通用编码器(如Whisper)更具任务通用性和表示能力。 对齐:U-Align直接对齐语音和文本表示,避免了传统ASR-based Alignment对整个SLLM进行微调带来的高计算成本和ASR任务特异性。 数据:Thai-SUP提供了一种从高资源文本数据生成低资源语音理解数据的可迁移管线,解决了多任务标注数据稀缺问题。 主要实验结果: XLSR-Thai有效性:在ASR任务上,XLSR-Thai相比原始XLSR模型CER显著降低(例如,在CommonVoice测试集上,XLSR-Thai-CTC的CER为3.97%,原始XLSR-CTC为5.06%)。在多任务理解中,使用XLSR-Thai的模型在所有任务上均优于使用Whisper编码器的模型。 U-Align有效性:在相同设置下,U-Align (DTW)在多任务理解上全面优于传统的ASR-based Alignment。例如,使用XLSR-Thai编码器时,U-Align (DTW)在IC任务上达到89.68%准确率,而ASR-based Alignment为81.71%;在ASR任务上,U-Align在达到相同CER时计算成本更低(见图4)。 多任务理解最佳结果:最佳模型配置 XLSR-Thai + U-Align (DTW) 在多项任务上取得最优结果:IC准确率89.68%,NER-ALL准确率53.77%,SR评分3.02,ASR CER 13.32%(具体数值见表2)。 实际意义:为构建其他低资源语言的多任务语音大模型提供了一套可迁移的、包含模型、方法和数据生成流程的开源解决方案,降低了相关研究的门槛。 主要局限性:方案在泰语上得到验证,但在其他低资源语言上的泛化能力有待证明;数据生成管线(Thai-SUP)依赖多个闭源商业大模型(DeepSeek, Gemini)的API,可能影响复现性和独立性;未报告完整的训练成本(如GPU小时数)。 🏗️ 模型架构 论文提出的系统整体架构如 图1 所示,包含一个核心的语音大语言模型(SLLM)和两个关键的构建阶段。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 384 words

Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models

📄 Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models #音频分类 #生物声学 #迁移学习 #多任务学习 #低资源 ✅ 7.0/10 | 前25% | #音频分类 | #迁移学习 | #生物声学 #多任务学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Chaoyue Niu(谢菲尔德大学计算机学院) 通讯作者:未明确说明(论文第一作者邮箱为 c.niu@sheffield.ac.uk,最后一位作者 Ning Ma 邮箱为 n.ma@sheffield.ac.uk,可能是导师或通讯作者) 作者列表:Chaoyue Niu(谢菲尔德大学计算机学院)、Veronica Rowe(谢菲尔德大学计算机学院)、Guy J. Brown(谢菲尔德大学计算机学院)、Heather Elphick(谢菲尔德儿童NHS基金会信托)、Heather Kenyon(谢菲尔德儿童NHS基金会信托)、Lowri Thomas(谢菲尔德儿童NHS基金会信托)、Sam Johnson(Passion for Life Healthcare)、Ning Ma(谢菲尔德大学计算机学院) 💡 毒舌点评 亮点:论文在方法设计上表现出临床问题驱动的巧思,例如将氧气去饱和的时间延迟作为物理先验知识融入多任务学习框架,使模型更符合呼吸生理学过程,这比简单地使用SpO2标签更具说服力。 短板:然而,论文最大的硬伤在于验证的“小作坊”模式——用15个孩子的数据做全部开发和评估,且缺乏外部验证集,这使得所有声称的“改进”都笼罩在严重的过拟合和选择偏倚风险之下,大大削弱了其临床应用的前景。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:儿童数据集因涉及患者隐私,未公开,也未提供获取方式。成人数据集引用自[15],但未说明其是否公开。 Demo:未提及。 复现材料:论文提供了一些训练超参数(如学习率、批量大小、epoch数),但未提供模型具体架构、完整代码或配置文件。 论文中引用的开源项目:未提及依赖的开源工具或模型。 📌 核心摘要 问题:儿童阻塞性睡眠呼吸暂停(OSA)诊断困难,依赖儿童耐受性差的多导睡眠图,而基于声学的非侵入性筛查方法因儿童数据稀缺难以开发。 方法核心:提出一个迁移学习框架,将在大规模成人睡眠声学数据上预训练的CNN模型适配到儿童OSA检测任务中。关键创新是整合了氧饱和度(SpO2)信息,并建模了从呼吸事件发生到血氧下降的生理性时间延迟。 新意:系统比较了单任务与多任务学习、编码器冻结与全微调等策略。最核心的创新是将生理延迟(成人中位数为26秒)作为先验知识,通过全局延迟和针对每个儿童的个体化延迟两种方式集成到多任务学习中。 主要结果:在15晚儿童数据上的5折交叉验证显示,采用“多任务学习 + 全微调 + 个体化延迟”的最佳模型,其预测AHI与临床金标准AHI的平均绝对误差(MAE)为2.81,均方根误差(RMSE)为3.86。这显著优于不进行迁移学习的成人基线模型(MAE:4.45,RMSE:6.81)。关键对比数据如下表所示: 模型配置(缩写说明) MAE RMSE 成人单任务无微调 (S-NF) 4.45 6.81 成人多任务无微调 (M-NF) 3.64 6.30 最佳:多任务全微调个体化延迟 (M-UF-SD) 2.81 3.86 实际意义:证明了利用成人数据进行迁移学习,并整合生理学知识,可以有效缓解儿童数据稀缺问题,为开发低成本、居家友好的儿童OSA智能手机筛查工具提供了可行路径。 主要局限性:研究的核心局限在于验证数据集规模极小(仅15名儿童),缺乏外部验证,模型泛化能力存疑。此外,数据收集于单一中心,可能无法代表更广泛的儿童人群。 🏗️ 模型架构 模型整体是一个基于CNN的声学特征提取与预测框架,旨在从呼吸声音的梅尔频谱图中预测OSA事件和相关的生理信号(SpO2去饱和度)。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 285 words

Triad: Tri-Head with Auxiliary Duplicating Permutation Invariant Training for Multi-Task Sound Event Localization and Detection

📄 Triad: Tri-Head with Auxiliary Duplicating Permutation Invariant Training for Multi-Task Sound Event Localization and Detection #音频事件检测 #声源定位 #多任务学习 #立体声 #模型评估 ✅ 7.5/10 | 前25% | #音频事件检测 | #多任务学习 | #声源定位 #立体声 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bingnan Duan(爱丁堡大学工程学院) 通讯作者:未说明 作者列表:Bingnan Duan(爱丁堡大学工程学院)、Yinhuan Dong(爱丁堡大学工程学院)、Tughrul Arslan(爱丁堡大学工程学院)、John Thompson(爱丁堡大学工程学院) 💡 毒舌点评 这篇论文精准地指出了现有SELD输出表示“要么任务耦合,要么无法处理同类重叠”的痛点,并用一个设计简洁的三头架构有效解决了前者,ADPIT的引入也巧妙地处理了后者。短板在于实验视野略窄,所有结论都建立在单一的DCASE2025立体声数据集上,缺乏在主流多通道(如FOA)数据集上的验证,其优越性的普适性有待商榷。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开模型权重。 数据集:使用了公开的DCASE2025 Task 3 Stereo SELD Dataset(引用了Zenodo链接)。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型架构、损失函数、训练设置(优化器、学习率、调度、批次大小)、评估指标和关键超参数(如轨道数N,温度τ,γ值),提供了较好的复现基础。 引用的开源项目:论文未提及依赖的特定开源工具或模型库。 📌 核心摘要 要解决的问题:现有声音事件定位与检测(SELD)方法中,单分支输出表示(如multi-ACCDOA)将事件检测与定位任务过度耦合,导致优化相互干扰;而传统多分支方法无法表示同一音频类别的多个重叠事件(如两个不同位置的说话人)。 方法核心:提出TriAD三头输出架构。SED头独立预测事件活动概率,DOA和DIST头采用轨道式(track-wise)设计,每个音频类别分配多个并行轨道以表示重叠事件。训练时采用辅助复制置换不变训练(ADPIT),通过最优置换匹配预测轨道与真实事件,解决轨道赋值歧义。 与已有方法相比新在哪里:这是首个结合轨道式局部化与ADPIT的三头设计。它解耦了检测与定位任务,允许各自分支独立优化,同时利用ADPIT支持同类重叠事件检测,兼具了单分支表示的任务解耦优势和多分支表示的重叠事件处理能力。 主要实验结果:在DCASE2025立体声数据集上: 与多ACCDOA相比,F1分数提升2.03%(至30.05%),DOA误差降低3.77°,相对距离误差降低0.17m。 与传统多分支方法相比,F1分数提升3.44%,定位精度也有优势。 系统评估了多任务优化策略,发现投影冲突梯度(PCGrad)策略在TriAD基础上进一步将F1分数提升至33.62%(+11.9%),成为最佳策略。 实际意义:为SELD系统提供了更强大、更灵活的输出表示,并证明了针对SELD任务特性的多任务优化策略(如梯度冲突处理)能显著提升性能,推动了该领域向处理更复杂声学场景(如同类重叠声源)发展。 主要局限性:实验仅在立体声数据集上进行,未在更主流的四通道一阶 Ambisonics(FOA)数据集或真实场景数据上验证其泛化能力;未提供代码,可复现性依赖于读者自行实现。 🏗️ 模型架构 图1:TriAD架构概览 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 238 words