Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #多模态模型 #流匹配 #数据增强 #生物声学 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州), avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei ZHANG (香港科技大学(广州)), Tianxin Xie (香港科技大学(广州)), Minghao Yang (香港科技大学(广州)), Li Liu* (香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统,用LLM(Thinker-A2CA)动态决定“合成什么”来弥补诊断器的短板,把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习,这个系统设计思想很有启发性。 短板:不过,整个系统有点像个精心组装的乐高,依赖多个重型组件(LLM, BEATs, Longformer, 流匹配模型),对于呼吸音这个相对垂直的应用场景,其工程复杂度和算力需求是否与性能增益完全匹配,值得商榷。另外,生成的“合成临床音频”虽然用于训练有效,但缺乏真实生理细节的验证,其临床保真度仍需医生在严格双盲测试中评判。 📌 核心摘要 要解决的问题:深度学习在呼吸音分析中面临两大挑战:一是将音频信号转为频谱图会导致瞬态事件(如啰音)的信息损失;二是缺乏大规模、高质量的多模态(音频+临床文本)标注数据,且存在严重的类别不平衡。 方法核心:提出Resp-Agent,一个由中央控制器(Thinker-A2CA)编排的多智能体闭环系统。该系统能主动分析诊断器的弱点,并调度生成器进行针对性合成,从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合,并用稀疏音频锚点捕捉瞬态事件;生成器采用两阶段设计,先用LLM在文本诊断和参考音频风格条件下生成离散音频单元,再用流匹配解码器重建波形。 新在何处:1) 系统范式:首次将呼吸音的分析(诊断)和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构:提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制,实现高效且精细的文本-音频跨模态对齐。3) 生成器设计:将文本LLM改造为可控的多模态音频单元生成器,并采用流匹配进行波形重建。4) 基准数据:构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k(22.9万条记录)。 主要实验结果:在ICBHI基准上,Resp-Agent的诊断性能(ICBHI Score 72.7%)超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上,使用Thinker指导合成的平衡数据后,多模态诊断器的宏观F1从0.212大幅提升至0.598,证实了闭环生成策略的有效性。生成器在可控性(风格/内容解耦)和保真度(FAD 1.13)上也优于强基线(如微调的StableAudio Open)。关键实验结果见下表: 模型/方法 数据集 指标 原始(不平衡) 平衡后 诊断器对比 Conformer (音频基线) Resp-229k Test-CD Macro-F1 0.1935 0.5360 Resp-Agent Diagnoser (Ours) Resp-229k Test-CD Macro-F1 0.2118 0.5980 生成器策略对比 No-Synth (基线) Resp-229k Test-CD Macro-F1 0.212 - Class-Prior Rebalancing Resp-229k Test-CD Macro-F1 - 0.512 Thinker-A2CA (Ours) Resp-229k Test-CD Macro-F1 - 0.598 生成器音频保真度对比 StableAudio Open (微调) 个体化重建 FAD ↓ 1.54 - Resp-Agent Generator (Ours) 个体化重建 FAD ↓ 1.13 - 实际意义:为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式,即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。 主要局限性:1) 系统复杂度高,涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效,但其真实性和临床细节(如相位、微结构)仍需更严格的评估。3) 评估主要集中在诊断性能,对生成音频的直接临床效用(如用于教学或模拟)验证不足。 🏗️ 模型架构 Resp-Agent是一个由中央控制器协调的多智能体系统,包含三个核心模块:Thinker(规划者)、Generator(生成器) 和 Diagnoser(诊断器),形成一个“诊断->发现问题->指导合成->改进诊断”的闭环。 ...

2026-05-04 · 更新于 2026-06-15 · 3 min · 545 words

Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation

📄 Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation #声源定位 #数据增强 #生成模型 #空间音频 🔥 8.5/10 | 前25% | #声源定位 | #数据增强 | #生成模型 #空间音频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Anton Ratnarajah(论文中未提及机构) 通讯作者:未说明 作者列表:Anton Ratnarajah(未说明)、Mehmet Ergezer(未说明)、Arun Nair(未说明)、Mrudula Athi(未说明) 💡 毒舌点评 亮点在于将生成式RIR合成与严格的质量过滤流程工程化,成功地将距离估计的MAE降低了一个数量级(约60%),证明了在有限真实数据下,高质量的合成数据可以极大提升下游任务性能。短板在于其核心的距离估计模型本身是现成的(论文[2]),创新边界止于如何更有效地“喂”数据给现有模型,且对小于1米的近场估计能力明显不足,显示了生成模型在极端条件下的局限性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及数据集的具体获取链接或开源协议。文中提及了GWA、Treble、C4DM和VCTK等数据集名称。 Demo:论文中未提及。 复现材料:论文中未提及具体的训练配置、检查点或附录材料链接。 论文中引用的开源项目: FastRIR(快速漫射房间脉冲响应生成器):论文中提及为开源项目,但未提供具体链接。其常见代码仓库地址为:https://github.com/RoyChao19477/Fast-RIR。 MESH2IR:论文中提及并引用了相关文献[4, 3],但未提供具体链接。其常见代码仓库地址为:https://github.com/sp-uhh/mesh2ir。 注:以上两个开源项目的链接基于其广泛认知的代码仓库,论文原文仅在引用部分提及名称与参考文献编号。 补充信息 [核心摘要/论文自我声明的局限性] 补充:论文在误差分析部分明确指出,模型在距离大于1米时保持一致的性能,误差通常在0.5米左右。这是一个重要的性能基线,已有分析未具体提及。 [模型架构/创新点] 补充:在修改FastRIR架构时,论文明确采用了MESH2IR [4, 3] 中提出的RIR表示方案,其目的是确保在不同源-接收距离下RIR的能量分布保持一致。这是实现“位置专用条件生成”的关键技术细节之一,已有分析仅提及名称但未强调其目的。 [论文自我声明的局限性] 补充:论文对近距离(<1米)误差增大的原因进行了更具体的归因分析:1)生成模型在该近距离范围内的训练示例有限;2)非常近距离的声学现象具有独特性,若无专门训练数据则难以建模。这比已有分析中仅指出“样本不足”更为具体。 📌 核心摘要 解决的问题:在房间声学和说话人距离估计(SDE)任务中,真实测量的房间脉冲响应(RIR)数据稀疏且昂贵,限制了SDE模型的性能,尤其是在中远距离。 方法核心:采用一个修改的生成式RIR模型(基于FastRIR),该模型仅以说话人和听者的位置为条件进行训练,以生成大量合成RIR数据。随后,设计了一个严格的质量过滤流程(基于T60、DRR等声学指标),筛选出与真实数据分布一致的高质量合成RIR,用于微调现有的SDE模型。 创新之处:与简单使用现成RIR生成器相比,本文创新在于:a) 专注于位置条件的生成模型改造;b) 建立了明确的、基于声学物理指标的质量过滤标准;c) 针对GWA和Treble两种不同模拟特性的数据集分别进行微调,以提升领域适应性。 主要实验结果:使用约26万条过滤后的合成RIR进行微调后,SDE模型的平均绝对误差(MAE)显著降低。对于GWA测试房间,MAE从基线的1.66m降至0.6m;对于Treble测试房间,从2.18m降至0.69m。消融实验表明,针对特定数据集微调的专用模型能进一步获得5%-10%的MAE提升。具体结果见下表及图2。 数据集 基线模型 MAE (m) 本文模型 MAE (m) GWA Rooms (11-20) 1.66 0.6 Treble Rooms (1-10) 2.18 0.69 图2展示了模型在所有测试房间(顶行)、Treble房间(中行)和GWA房间(底行)上的性能。左列是真实距离分布,中列是预测距离分布,右列是预测与真实距离的散点图。结果显示预测值与真实值高度相关,尤其在GWA房间上表现更佳(MAE 0.6m, 相关系数更高)。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 226 words

Data-Centric Lessons To Improve Speech-Language Pretraining

📄 Data-Centric Lessons To Improve Speech-Language Pretraining #语音问答 #语音大模型 #预训练 #数据增强 #多模态模型 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者:未说明 作者列表:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen)、Zhiyun Lu (Apple)、Xuankai Chang (Apple)、Yongqiang Wang (Apple)、Albin Madappally Jose (Apple)、Fartash Faghri (Apple)、Joshua P Gardner (Apple)、Chung-Cheng Chiu (Apple) 💡 毒舌点评 论文最大的亮点在于用极其扎实、系统化的消融实验,为语音-语言预训练中“数据如何处理”这个黑箱问题提供了首个清晰、可操作的答案,实验设计堪称标杆。短板在于,虽然模型SpeLangy表现出色,但其核心架构(Conformer编码器+离散量化+预训练LLM)并无新意,论文的真正价值在于“怎么用数据”,而非“怎么建模型”,对于追求架构创新的读者可能吸引力有限。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 265 words

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院;实习于亚马逊) 通讯作者:未明确说明(论文提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表: Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校;亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评 本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾,并为此开出了“过程奖励”这剂对症良药,将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而,其方法的计算开销(需要多次采样)和奖励函数设计的复杂性,使其对资源有限的团队并不友好,且最终性能天花板仍受制于基础音频感知器的短板,这提醒我们“会思考”之前,得先“听清楚”。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 289 words

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学、鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学、鹏城实验室) (论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室), Youcheng Pan(鹏城实验室), Zekun Wang(哈尔滨工业大学), Zheng Chu(哈尔滨工业大学), Yichong Huang(哈尔滨工业大学), Kaiyuan Liu(哈尔滨工业大学,鹏城实验室), Bo Yang(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室), Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 本文巧妙地将语音合成(TTS)和多模态大语言模型(MLLM)结合,提出了“语音引导机器翻译(SMT)”框架,并创新性地引入自监督进化机制来缓解数据稀缺问题,最终在多个基准上取得显著成绩。不过,其自监督进化机制中用于筛选“正负样本”的核心标准(COMET分数差异)略显简单粗暴,且迭代过程可能陷入局部最优,对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 599 words

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #流匹配 #数据增强 #多模态模型 🔥 8.8/10 | 前10% | #视频生成 | #数据增强 | #流匹配 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wuyang Li(EPFL VITA实验室) 通讯作者:Alexandre Alahi(EPFL VITA实验室) 作者列表:Wuyang Li(EPFL VITA实验室)、Wentao Pan(EPFL VITA实验室)、Po-Chien Luan(EPFL VITA实验室)、Yang Gao(EPFL VITA实验室)、Alexandre Alahi(EPFL VITA实验室) 💡 毒舌点评 亮点:论文将长视频生成的“误差累积”问题从现象层面(如何缓解)深刻剖析到根源层面(训练与推理的假设鸿沟),并巧妙地将模型的“弱点”(自身错误)转化为训练的“资源”(监督信号),这种“以毒攻毒”的闭环反馈思想极具启发性和理论美感。短板:论文的方法高度依赖于自回归的片段式生成范式,尽管声称“无限”,但其生成质量的长期稳定性(如分钟级甚至小时级)仍需更严苛的验证;此外,误差银行的记忆管理策略(如仅用L2距离替换)可能过于简单,或难以捕捉复杂多样的错误模式。 🔗 开源详情 代码:论文中未提及代码链接,但承���将公开“full codebase”。 模型权重:论文中提到将公开模型,但未提供具体链接或平台。 数据集:论文构建了新的基准数据集(一致、创造性、条件生成),并承诺将开源所有“benchmark datasets”。 Demo:未提及在线演示。 复现材料:提供了非常详细的训练超参数(Tab. 12)、数据集描述、架构修改说明和消融实验设置,复现指南较为充分。 论文中引用的开源项目:依赖的基础模型为Wan 2.1,以及Kong et al. (2025)的音频交叉注意力、Wang et al. (2025b)的骨架注入方法。 📌 核心摘要 问题:现有长视频生成方法受限于误差累积(漂移),生成长度通常在10秒到1分钟左右。根本原因在于训练时假设历史轨迹无误差(误差自由假设),但自回归推理时却依赖自身含有误差的输出,造成训练-测试的假设鸿沟。 核心方法:提出Stable Video Infinity (SVI),其核心是误差回收微调(ERFT)。该方法打破误差自由假设,主动将模型自身生成的错误(误差)注入到干净输入中,训练模型预测一个指向干净目标的“误差回收速度”,从而让模型学会识别和纠正自身错误。 创新与差异:不同于以往通过修改噪声调度器、锚定参考帧或改进采样策略来缓解误差,SVI通过误差回收机制主动纠正误差本身。具体包括:(i) 在流匹配的起始、中间、终点注入三类误差来模拟累积退化;(ii) 通过单步双向积分高效计算误差;(iii) 设计误差重放缓存池,根据时间步动态存取和采样误差。 主要结果:在三个基准(一致性、创造性、条件生成)上均达到SOTA。在250秒超长一致性视频生成中,SVI-Shot的主体一致性达到97.89%,仅比短设置下降0.63%,而基线方法下降显著(如FramePack降13.71%)。在创造性视频生成中,SVI-Film能根据文本流生成平滑的场景切换,而基线方法失败。具体实验结果见下表: 模型 场景 主体一致性 背景一致性 美学质量 图像质量 一致视频生成 (50秒) Wan 2.1 单一 92.45% 56.40% 65.70% 12.68% FramePack 单一 94.72% 63.57% 66.72% 7.75% SVI-Shot (Ours) 单一 98.19% 63.84% 71.88% 17.61% 超长一致视频生成 (250秒) Wan 2.1 单一 87.27% 56.19% 65.37% 14.29% FramePack 单一 86.64% 55.66% 57.61% 0.00% SVI-Shot (Ours) 单一 97.89% 65.75% 71.54% 21.43% 实际意义:首次实现了从“秒”到“无限”的非循环超长视频生成,突破了现有长度限制,为端到端长片创作、互动叙事和世界模型模拟开辟了新可能。 主要局限:当测试时图像风格与训练分布不符时,模型可能误将风格差异当作“错误”进行“纠正”,导致相邻片段颜色偏移;目前模型基于并行生成,尚未实现实时流式输出;在复杂多镜头创意生成中,长期身份一致性仍有挑战。 🏗️ 模型架构 SVI的核心架构是基于视频扩散Transformer (DiT),并通过误差回收微调(ERFT)进行增强,其主要流程如下: ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 382 words

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #大语言模型 #数据增强 #多语言 #强化学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #数据增强 | #大语言模型 #多语言 学术质量 7.0/7 | 选题价值 0.3/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Yancheng Wang(Arizona State University, Meta Superintelligence Labs) 通讯作者:未说明 作者列表:Yancheng Wang(Arizona State University, Meta Superintelligence Labs), Osama Hanna(Meta Superintelligence Labs), Ruiming Xie(Meta Superintelligence Labs), Xianfeng Rui(Meta Superintelligence Labs), Maohao Shen(Massachusetts Institute of Technology, Meta Superintelligence Labs), Xuedong Zhang(Meta Superintelligence Labs), Christian Fuegen(Meta Superintelligence Labs), Jilong Wu(Meta Superintelligence Labs), Debjyoti Paul(Meta Superintelligence Labs), Arthur Guo(Meta Superintelligence Labs), Zhihong Lei(Meta Superintelligence Labs), Ozlem Kalinli(Meta Superintelligence Labs), Qing He(Meta Superintelligence Labs), Yingzhen Yang(Arizona State University) 💡 毒舌点评 亮点是提出了一个新颖且可解释的语音情感识别框架,将语言学知识(元音是韵律的主要载体)与大语言模型的推理能力相结合,实验全面覆盖零样本、微调、跨域和多语言场景。短板是系统依赖外部强制对齐工具(如MFA)的准确性和可用性,这增加了实际部署的复杂度,且论文未讨论在噪声或说话人识别失败时的鲁棒性。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 457 words

A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)

📄 A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS) #语音分离 #知识蒸馏 #数据增强 #音频场景理解 ✅ 7.0/10 | 前50% | #语音分离 | #知识蒸馏 | #数据增强 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Chun-wei Ho (Georgia Institute of Technology, USA) 通讯作者:未说明 (论文未明确指定通讯作者,但通常第一作者承担主要联系责任) 作者列表:Chun-wei Ho (Georgia Institute of Technology, USA), Sabato Marco Siniscalchi (University of Palermo, Italy), Kai Li (Dolby Laboratory, China), Chin-Hui Lee (Dolby Laboratory, China) 💡 毒舌点评 亮点:论文开创性地将语言学中的“发音方式”(Manner of Articulation)知识作为辅助信号引入到电影音频语音分离任务中,为解决背景音效干扰下的短语音提取提供了新颖且可解释的思路。短板:尽管思路巧妙,但实验说服力略显不足,提升幅度有限(约1dB),且所有实验仅在一个为该挑战赛定制的数据集上完成,未能证明该方法在更复杂、更多样的真实电影场景中的普适性和鲁棒性。 ...

2026-05-01 · 更新于 2026-06-15 · 2 min · 336 words

Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis

📄 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis #发音错误检测 #自监督学习 #知识蒸馏 #数据增强 #零样本 🔥 8.5/10 | 前25% | #发音错误检测 | #自监督学习 #知识蒸馏 | #自监督学习 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Haopeng Geng (The University of Tokyo, Graduate School of Engineering) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Haopeng Geng (The University of Tokyo, Graduate School of Engineering), Longfei Yang (The University of Tokyo, Graduate School of Engineering), Xi Chen (The University of Tokyo, Graduate School of Engineering), Haitong Sun (The University of Tokyo, Graduate School of Engineering), Daisuke Saito (The University of Tokyo, Graduate School of Engineering), Nobuaki Minematsu (The University of Tokyo, Graduate School of Engineering) 💡 毒舌点评 论文精准地将当前MDD方法的不足归纳为“声学陷阱”和“语言学陷阱”,并给出了一个逻辑自洽且有效的解决方案CROTTC-IF,最终在多个数据集上取得了SOTA或极具竞争力的性能,展现了扎实的工程能力和清晰的学术思考。然而,论文对“声学权重λ”在真实场景中的最佳取值(如非实验环境、自发语音)缺乏讨论,且最终框架对λ的敏感性也暗示了“解耦”的理想与“融合”的现实之间仍存在张力。 ...

2026-05-01 · 更新于 2026-06-15 · 3 min · 593 words

Few-Shot Accent Synthesis for ASR with LLM-Guided Phoneme Editing

📄 Few-Shot Accent Synthesis for ASR with LLM-Guided Phoneme Editing #语音识别 #语音合成 #数据增强 #少样本 #大语言模型 ✅ 7.5/10 | 前25% | #语音识别 | #数据增强 | #语音合成 #少样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校) 通讯作者:未说明 作者列表:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校)、Nimet Beyza Bozdag(未说明)、Mark Hasegawa-Johnson(未说明)、Dilek Hakkani-Tür(未说明)、Volodymyr Kindratenko(美国国家超级计算应用中心) 💡 毒舌点评 该论文将TTS适应、LLM发音编辑和ASR微调打包成一个流程,思路清晰且实验严谨,特别是随机音素基线的引入颇具巧思,有效剖析了方法生效的机制。然而,其核心贡献更像是“现有技术的巧妙组合与调优”,在解决口音问题的本质(如建模口音特异性韵律或音素变体规则)上并未取得突破,更多是绕过了这个难题。 🔗 开源详情 代码:论文中未提及代码链接(如 GitHub 仓库)。 模型权重:论文中未提及提供具体模型权重下载链接(如 HuggingFace/ModelScope)。 数据集:论文中使用了以下数据集,但未提供统一的获取链接: LJSpeech:开源英语语音数据集(标准美式英语)。 ESD (Emotional Speech Dataset):开源多语言情感语音数据集,此处使用其英语子集。 L2-ARCTIC:开源口音语音数据集,包含印度英语和韩语英语说话人,带有发音转录标注。 CMU Arctic:开源英语语音数据集,此处使用其 CLB 说话人作为标准美式英语源。 Demo:项目主页与演示链接:https://claussss.github.io/few_shot_accent_synthesis_demo/ 复现材料:论文中未提及提供完整的训练配置、检查点或附录等复现材料。但论文正文详述了主要实现细节(如声学特征、训练参数等)。 论文中引用的开源项目: Montreal Forced Aligner (MFA):强制对齐工具。链接:https://montreal-forced-aligner.readthedocs.io/ REAPER:基频(F0)提取算法。链接:https://github.com/kaldi-asr/kaldi/tree/master/egs/sre08/v1/local/reaper OpenAI Whisper:ASR 模型(用于评估)。链接:https://github.com/openai/whisper UTMOS:语音自然度预测模型。链接:https://github.com/sarulab-speech/UTMOS22 SpeechBrain:音频/语音处理工具包(此处用于口音分类器)。链接:https://github.com/speechbrain/speechbrain HiFi-GAN:神经声码器。链接:https://github.com/jik876/hifi-gan daft_exprt:论文所构建的声学 TTS 骨干网络(论文引用为 [daft_exprt],但未提供独立仓库链接,可能是内部代码或基于此项目的修改)。 📌 核心摘要 问题:自动语音识别(ASR)系统在口音语音上性能下降,而获取大��目标口音标注数据成本高昂,现有的增强方法通常需要分钟到小时级别的语音,不适用于真正稀缺的口音场景。 方法核心:提出一个少样本流水线。首先,用少于10条目标口音语音,对一个基于音素条件的文本到语音(TTS)解码器进行说话人和风格适应。然后,利用大语言模型(LLM)在音素层面进行口音感知的编辑,生成口音条件化的发音。最后,用合成的语音数据微调一个自监督ASR模型。 创新点:与已有工作相比,新在:a) 将LLM作为发音编辑器引入少样本口音合成流程,通过上下文学习进行可解释的音素修改;b) 设计了匹配编辑率的随机音素基线,以区分语言结构增益和简单的随机扰动增益;c) 在极少数据(3-5条参考语音)下实现了有效的TTS适应。 实验结果:实验在印度英语和韩国英语上进行。合成数据在跨说话人评估中显著降低了真实口音语音的词错误率(WER)。例如,在印度英语(说话人RRBI)上,WER从25.3%降至14.6%。在少样本设置下(N=3),用合成数据混合少量真实数据训练(Real+Synth)比仅用真实数据更稳定且WER更低。随机基线显示音素扰动本身是强增强信号,但LLM编辑提供了额外的、更忠实于口音的增益。 实际意义:为解决口音ASR的冷启动问题提供了一种实用方法,尤其适用于目标口音数据极度稀缺的场景(如区域性方言或少数民族口音),有望提升ASR系统的包容性和公平性。 主要局限:a) 当前系统从源语音继承韵律,并未显式建模口音特异性的韵律变化;b) 适应仅针对单个参考说话人,未解耦口音和说话人身份,限制了多说话人泛化;c) ASR增益部分源于通用的音素扰动,LLM带来的结构化编辑收益在数据量增大时可能减弱。 🏗️ 模型架构 该系统是一个包含多个阶段的流水线,如图1所示。其核心组件及数据流如下: ...

2026-05-01 · 更新于 2026-06-15 · 2 min · 311 words