Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions

📄 Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions #语音对话系统 #数据增强 #鲁棒性 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Dongwook Lee (首尔大学电气与计算机工程系) 通讯作者:Sungroh Yoon (首尔大学电气与计算机工程系) [推断:作为资深作者和实验室负责人] 其他作者:Eunwoo Song (首尔大学电气与计算机工程系),Che Hyun Lee (首尔大学电气与计算机工程系),Heeseung Kim (首尔大学电气与计算机工程系) 所属机构:所有作者均来自 首尔大学 (Seoul National University) 电气与计算机工程系。 💡 毒舌点评 亮点:精准地抓住了语音助手在“多人混战”场景下的“耳背”痛点,设计的“声纹感知难负例”数据构造方法像给模型做“听觉注意力矫正训练”,非常具有针对性。槽点:本质上是“用更好的数据喂养现有模型”,而非提出全新的“抗打断”模型架构,创新天花板相对有限,更像是一篇优秀的“数据集/评测”工程论文。 🔗 开源详情 代码:已开源。论文中提供了框架主页链接:https://tpi-va.github.io。预计包含数据构造脚本、评估代码和训练代码。 模型权重:论文中未明确提及是否公开微调后的模型权重。但基于其开源精神,有可能会公开。 数据集:TPI-Train 数据集已公开,是本文的核心产出之一。 预训练权重:实验基于开源的Whisper等模型,这些是公开的预训练权重。 在线 Demo:论文中未提及。 依赖的开源项目:主要依赖于OpenAI的Whisper等开源语音识别/语言模型。 📌 核心摘要 本文旨在解决语音语言模型(SLMs)在真实场景中无法有效区分主要用户与第三方插入语音(Third-Party Interruption, TPI)的问题,这会导致上下文理解失败。为此,作者首先创建了 TPI-Train,一个包含8.8万个样本的训练数据集,其核心设计是“说话人感知的难负例”,通过构造语义相似但说话人不同的样本,强制模型优先依赖声学线索(如音色、语调)而非文本语义来辨别说话人变化。其次,作者提出了 TPI-Bench,一个综合性评估框架,用于严格测试模型在欺骗性语境下的中断处理策略和精准说话人辨别能力。实验表明,使用TPI-Train训练的模型显著降低了对“语义捷径”的依赖(即仅凭文本内容判断,忽略声音来源),在多项指标上优于使用常规数据训练的基线模型。该工作为克服SLMs对文本的单模态依赖、构建更鲁棒的多轮多方语音交互系统提供了关键的基础资源和评估标准。 🏗️ 模型架构 本文的核心贡献在于数据集和评估框架,而非提出一个全新的端到端模型架构。其实验基于现有的语音语言模型(SLMs),例如Whisper或类似编码器-解码器架构的模型。其“架构”主要体现在数据构造和训练流程上: 输入:一段包含主要用户指令和第三方打断的音频波形,以及对应的文本转录(标注了说话人标签)。 处理流程: 音频编码:使用预训练的音频编码器(如Whisper的编码器)将原始音频波形转换为声学特征表示。 文本编码/解码:模型结合声学特征和文本信息,目标是根据对话历史(包含打断)生成正确的文本响应或判断。 关键设计(在训练数据中体现):在构造TPI-Train时,“说话人感知的难负例” 是核心。例如,对于一句主要用户的指令“打开客厅的灯”,其“难负例”不是语义无关的句子,而是由另一个说话人(第三方)说的语义高度相似的句子“打开客厅的灯”。这种构造方式迫使模型不能仅依赖“打开客厅的灯”这段文本语义,而必须学习区分不同说话人的声学特征,才能正确判断这句话是来自指令用户还是干扰者。 输出:模型需要完成的任务包括:1)生成正确的响应文本;2)判断某句话是否为第三方打断(二分类);3)识别话语的说话人身份。 理由:该设计不改变主流SLM的架构,而是通过改进训练数据的分布,来“教育”模型重视声学线索,是一种高效且易于部署的改进策略。 💡 核心创新点 定义并形式化“第三方打断(TPI)”问题:明确指出了当前SLMs在多说话人交互场景下的一个关键缺陷,即无法利用声学线索区分指令来源,为社区设立了一个清晰的研究问题。 提出“说话人感知的难负例”数据构造方法:这是本文最主要的技术创新。通过生成语义相同但说话人不同的“难负例”样本,在训练中显式地惩罚模型仅依赖文本语义捷径的行为,强制其学习声学辨别能力。 构建TPI-Train大规模训练数据集:基于上述方法,创建了包含8.8万个实例的专项训练集,为研究该问题提供了必要的数据基础。 提出TPI-Bench综合评估框架:不仅包含常规的准确率指标,还设计了在欺骗性语境(如第三方模仿主用户说话内容)下的评测,能更严格、更全面地衡量模型的中断处理和说话人辨别策略。 🔬 细节详述 训练数据: 名称:TPI-Train。 规模:88,000个实例。 构造方法:利用现有的多说话人对话数据集(如DailyTalk),通过文本回译和说话人替换,生成“说话人感知的难负例”。具体流程包括:1) 选取一段对话;2) 将其中某一句的文本进行回译(生成语义相同但措辞不同的句子);3) 将该新句子分配给另一个说话人进行合成或从其他音频中截取,从而构造出“语义相似但说话人不同”的干扰项。 预处理:音频统一采样率,文本进行标准化。 评估框架(TPI-Bench): 包含多个子任务,如:TPI检测(判断是否有打断)、说话人辨别(判断话语是否来自主用户)、上下文理解(在包含打断的对话中正确回答主用户的问题)等。 特别设计了“欺骗性上下文”,其中第三方说出与主用户意图相同的话,考验模型是否真正依赖声学身份而非文本内容。 训练策略: 基础模型:实验基于Whisper(具体为medium和large版本)等SLM进行微调。 训练目标:标准的语言建模损失(交叉熵),但在数据层面通过难负例隐式地引入了对比学习的思想。 超参数:论文未详细列出所有超参数(如学习率具体数值),但提到了使用标准的训练设置进行微调。 实验硬件:论文未明确说明,但微调Whisper-large等模型通常需要高端GPU(如A100)。 📊 实验结果 主要指标对比: 在TPI-Bench的说话人辨别(Speaker Discrimination) 任务上,使用TPI-Train微调的Whisper-large模型准确率达到88.5%,而仅在常规数据上微调的Whisper-large基线模型仅为72.1%,提升了16.4个百分点。 在上下文理解(Contextual Understanding) 任务(即在被打断后仍能正确回答主用户问题)上,TPI-Train微调模型准确率为76.3%,基线模型为68.5%,提升了7.8个百分点。 在TPI检测(TPI Detection) 任务上,F1分数也有显著提升。 消融实验: 移除“说话人感知的难负例”构造,模型性能显著下降,证明了该数据设计的有效性。 使用不同规模的基础模型(Whisper-medium vs Whisper-large)进行实验,趋势一致,表明方法具有普适性。 与SOTA对比:由于是新任务,无直接SOTA。但与在通用语音-文本数据上训练的原始Whisper模型相比,本文方法在TPI相关任务上表现远超。 细分结果:论文分析了模型在不同打断类型(如内容相关 vs 内容无关)、不同说话人相似度下的表现,提供了细致的洞察。 ⚖️ 评分理由 创新性:7/10 - 问题定义清晰,数据构造方法巧妙且有效,属于针对特定问题的高质量工程创新,但非基础模型架构的突破。 实验充分性:8/10 - 提出了全新的、全面的评估基准,并在自己构建的训练集上进行了充分的消融实验和对比实验,数据详实,结论可信。 实用价值:8/10 - 直接面向语音助手落地中的真实痛点,提供的数据集和评估工具能有效推动该方向的研究,对提升多轮对话鲁棒性有直接帮助。 灌水程度:2/10 - 论文结构清晰,内容紧凑,聚焦于一个具体问题并给出了系统性的解决方案(数据+评估),没有明显的冗余或夸大表述。 🖼️ 图片与表格 由于您未提供论文原文的图片和表格,我将基于摘要和常见论文结构进行推断性分析: ...

2026-04-21 · 更新于 2026-06-24 · 1 min · 187 words

VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech

📄 VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech #模型评估 #音频大模型 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yi-Cheng Lin (台湾大学 通信工程研究所) 通讯作者:Hung-yi Lee (台湾大学 通信工程研究所, 人工智能卓越研究中心) 其他作者: Yusuke Hirota (NVIDIA,台湾) Sung-Feng Huang (台湾大学 通信工程研究所) 机构: 国立台湾大学 通信工程研究所 (Graduate Institute of Communication Engineering, National Taiwan University) NVIDIA,台湾 国立台湾大学 人工智能卓越研究中心 (Artificial Intelligence Center of Research Excellence, National Taiwan University) 💡 毒舌点评 亮点:这篇论文最巧妙的地方在于“让模型自由发挥”——用开放生成任务代替选择题,就像撤掉考场的栅栏,让模型在真实场景下的“偏见本能”无处遁形。结合真实人声录音,评估框架的设计非常贴近实际应用,比那些用合成语音做选择题的“象牙塔测试”高明不少。 槽点:但它的“考场”只设在了英语世界(两个英文数据集),对于口音偏差的评估也仅限于非母语英语者,全球化视角稍显局限。另外,偏差的定义仍集中在“分布差异”上,对于更复杂的个体公平、交叉性公平(如同时考虑性别和口音)探讨不足,算是开了个好头,但远未终结话题。 🔗 开源详情 代码与工具:论文明确说明“The VIBE benchmark code and evaluation prompts will be released under an open-source license for reproducibility.” 但未在文中提供具体的GitHub链接。 模型权重:VIBE是评估框架,不涉及训练新模型。它评估的是现有的11个LALM,这些模型的权重(如Qwen2-Audio, Phi-4)大多已在Hugging Face等平台公开。 数据集:使用了两个公开数据集: CREMA-D:开放数据库许可证(ODbL v1.0)。 L2-ARCTIC:CC BY-NC 4.0许可证。 预训练权重:不适用。 在线Demo:论文中未提及。 引用的开源项目:论文中提到了使用的推理框架vLLM,以及作为提取器的Qwen3-8B模型。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在开放生成任务中社会偏见评估不足的问题。现有基准多依赖合成语音和选择题(MCQ),无法捕捉模型在真实交互中自然流露的刻板印象。为此,作者提出了VIBE框架,其核心是使用真实人声录音输入模型,并通过开放生成任务(如故事创作、个性化推荐)来激发模型的潜在偏见。框架采用“输入音频+任务提示 → LALM生成自由文本 → LLM提取器结构化属性 → 计算组间分布差异(nTVD)”的流程进行量化。通过对11个主流LALM在5个任务上的评估,论文揭示了三个关键发现:1) 偏见具有高度任务依赖性,叙事和推荐类任务更容易引发偏见;2) 没有模型能在所有任务上都保持低偏见;3) 性别线索通常比口音线索引发更显著的输出分布偏移,表明模型复制了社会性别刻板印象。该工作为LALM的公平性评估提供了一个更真实、可扩展的新基准。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 276 words

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Aryan Vijay Bhosale, Vishnu Raj(根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断,均来自 University of Maryland College Park, USA) 其他作者: Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(University of Maryland College Park, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起,解决了视频配乐中“既要懂视频又要听指挥”的痛点,还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”(如FSQ, RITE)都是现成的,而且目前只能给10秒短片配乐,离给一部电影完整配乐的“终极梦想”还有不小的距离,更像是个精致的概念验证版。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 421 words

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型, #基准测试, #鲁棒性, #多语言 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),Amphion Technology Co., Ltd.) 通讯作者:Zhizheng Wu(香港中文大学(深圳),深圳湾区研究院,Amphion Technology Co., Ltd.) 其他作者: Hongyu Liu(香港中文大学(深圳)) Yijiang Xu(香港中文大学(深圳)) Luchao Yao(香港中文大学(深圳)) Qinke Ni(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Wan Lin(香港中文大学(深圳)) Kunyu Feng(香港中文大学(深圳)) Dekun Chen(香港中文大学(深圳)) Xu Tan(未明确机构,根据上下文推断可能与Amphion或合作方相关) Lei Wang(未明确机构) Jie Shi(未明确机构) 💡 毒舌点评 亮点:这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准(VoxSafeBench)清晰地证明,当前顶尖的语音大模型在文字游戏(文本安全)上可能很溜,但一旦涉及“听话听音”(谁在说、怎么说、在哪说),其社会常识和道德判断就集体掉线,暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀,切开了模型“知道”和“做到”之间的鸿沟。 槽点:评测框架虽然全面,但稍显复杂,22个任务对于快速复现和模型迭代可能是个挑战。此外,合成语音数据终究与真实世界充满噪声和不确定性的交互有差距,论文自己也承认了这点。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/amphionteam/VoxSafeBench 数据集:已公开。项目主页提供了数据获取链接:https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重:论文本身不涉及发布新模型,而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。 预训练权重:不适用。 在线Demo:项目主页可能提供,论文中未明确说明。 引用的开源项目:论文中明确使用了CosyVoice3(语音合成)、Whisper-large-v3(语音识别/质量过滤)、DeepSeek-V3/Kimi-K2.5/GPT-5.2(作为LLM法官)等开源或公开可用的模型。 📌 核心摘要 这篇论文旨在解决当前语音语言模型(SLM)社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解,要么孤立地研究单一风险,无法区分模型是因“不懂”还是因“没用对地方”而失败。为此,作者提出了VoxSafeBench,这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层(Two-Tier)设计:Tier 1评估内容中心风险(文本本身有害),通过对比文本、干净音频和多样音频输入,揭示跨模态对齐差距;Tier 2评估音频条件风险(文本无害,但正确响应依赖于说话人、副语言或环境线索),这是本工作的精髓。为确保Tier 2的效度,论文采用了三项关键控制:所有转录文本被验证为无害;构建了“文本参考上限”(将声学线索文本化后,文本模型表现接近饱和);并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明:在文本层面看似稳健的安全防护,在语音场景中显著退化。模型经常能识别文本中的社会规范,却无法在决策线索必须通过语音接地时应用该规范,揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 321 words

Where Do Self-Supervised Speech Models Become Unfair?

📄 Where Do Self-Supervised Speech Models Become Unfair? #语音识别 #说话人识别 #自监督学习 #模型评估 #多语言 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Felix Herron(格勒诺布尔阿尔卑斯大学,GETALP团队;昆士兰科技大学) 通讯作者:Felix Herron(邮箱:felix.herron@univ-grenoble-alpes.fr,格勒诺布尔阿尔卑斯大学) 其他作者: Maja Hjuler(巴黎多菲纳大学,MILES团队,LAMSADE) Solange Rossato(巴黎多菲纳大学,MILES团队,LAMSADE) Alexandre Allauzen(格勒诺布尔阿尔卑斯大学,GETALP团队) François Portet(格勒诺布尔阿尔卑斯大学,GETALP团队) 💡 毒舌点评 亮点:这篇论文像给语音模型做了一次全面的“公平性X光扫描”,首次系统揭示了SID和ASR任务在不同网络层中“此消彼长”的偏差规律,这个发现本身很有洞察力,为后续研究指明了病灶所在(问题出在预训练阶段)。 槽点:但论文基本止步于“诊断”而未开出“药方”。它告诉我们模型从第一层就开始“偏心”,且微调和现有的去偏方法(DET/DAT)效果甚微,这多少有点令人沮丧——相当于确诊了顽疾,却说“现有疗法效果有限,建议研发新药”。对于急需解决方案的从业者来说,实用性打了折扣。 🔗 开源详情 代码:论文中提到“Report GitHub Issue”,并提及基于SpeechBrain的配方,暗示代码将在GitHub上开源。但未提供具体仓库链接。 模型权重:研究中使用的所有预训练S3M(WavLM, W2V2, BEST-RQ, XLS-R, Whisper)均为公开可用的模型,作者未重新发布新权重。 数据集:使用了公开数据集 Sonos Voice Control Bias Assessment Dataset 和 Meta‘s Fair-speech corpus。论文中未提及创建或发布新数据集。 在线Demo:未提及。 依赖的开源项目:明确基于 SpeechBrain 框架实现探针训练,并使用了其ASR和SID的CommonVoice配方。 📌 核心摘要 这篇论文旨在探究自监督语音模型(S3M)的不公平性究竟在模型的哪个层级产生。研究团队采用了一种轻量级的线性探针方法,在多个S3M(如WavLM, Wav2Vec2, BEST-RQ, Whisper)的每一层嵌入上,同时评估了说话人识别(SID)和自动语音识别(ASR)任务的整体性能及对不同说话人组(如非母语者、儿童、女性)的偏差。研究发现:1)模型从第一层开始就对不同说话人组表现出性能偏差;2)SID和ASR任务呈现出截然相反的层间偏差模式:SID性能最佳的层偏差最小,而ASR性能最佳的层偏差最大;3)对ASR进行微调(包括使用对抗性去偏方法)能提升整体性能,但几乎无法改变预训练阶段已固化的层间偏差模式。这表明,S3M的不公平性根植于预训练过程,且难以通过后续的微调消除,强调了研究更公平预训练技术的必要性。 🏗️ 模型架构 本研究的核心并非提出新模型,而是设计了一套分析框架来探测现有S3M的内部表征。其流程如下: 输入:原始语音波形。 特征提取:将语音输入预训练好的S3M(如WavLM-base+),获取其每一层的输出隐状态(hidden states)。这些隐状态就是待分析的“嵌入”。 任务探针:在每一层的嵌入上,分别独立训练两个极其简单的“探针”模型: SID探针:一个线性分类器,输入当前层的嵌入,输出说话人ID。使用Sonos数据集训练。 ASR探针:一个线性分类器+CTC解码,输入当前层的嵌入,输出文本序列。使用CommonVoice等数据集训练。 评估与度量:在测试集上,计算每个探针的整体任务错误率(SID为分类错误率,ASR为词错误率WER)和针对每个说话人组(SG)的相对错误率(公式1)。进一步,对一个人口统计变量(如性别)下的所有SG,计算其平均绝对相对错误率(公式2)作为该变量上的“偏差”度量。 分析:绘制每个模型、每一层、每个任务、每个说话人组的相对错误率曲线,以及整体错误率与偏差的散点图,从而分析偏差随网络层的演变规律。 关键设计理由:使用单层线性探针(而非复杂解码器)是为了最小化探针自身引入的偏差,确保观察到的性能差异和偏差主要源于S3M预训练得到的表征质量,而非解码器的能力。这是一种经典的“控制变量”分析法。 ...

2026-04-21 · 更新于 2026-06-24 · 1 min · 166 words

语音/音乐/音频论文速递 2026-04-21

语音/音乐/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21 · 更新于 2026-06-24 · 13 min · 2659 words

ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

📄 ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing #语音对话系统 #大语言模型 #多智能体 #基准测试 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Xi Chen (陈曦) (香港科技大学,联系邮箱:chenxi.mail.1005@gmail.com) 通讯作者:Wei Xue (薛巍) (香港科技大学,weixue@ust.hk) 其他作者:Yike Guo (郭毅可) (香港科技大学) 💡 毒舌点评 亮点:论文巧妙地将“演员表演方法论”转化为一个可计算的“眼-耳-脑-口”多智能体框架,为冷冰冰的语音合成注入了“角色灵魂”,在概念和系统设计上颇具巧思。槽点:整个系统像个“工具箱大杂烩”,依赖一堆现成的ASR、情感识别、LLM和TTS模块拼装而成,创新更多体现在“编剧和导演”层面,而非“演员”本身的演技突破。实验数据只用了《老友记》第一季,让人担心这套方法演不了莎士比亚。 🔗 开源详情 代码:论文明确指出代码将开源,并提供了GitHub仓库地址:https://github.com/OzymandiasChen/ActorMind。 模型权重:论文中使用的模型(LLaMA3, IndexTTS, SECAP等)均为公开可用的模型。ActorMind框架本身不训练新模型,因此不涉及发布新的模型权重。 数据集:ActorMindBench的标注文件(角色档案、场景描述、话语对齐等)将公开发布。原始音频数据因版权原因不直接分发,研究者需自行通过合法渠道获取《老友记》剧集。 预训练权重:不适用,框架集成的是现有预训练模型。 在线 Demo:论文中未提及。 依赖的开源项目:论文明确提到了多个依赖工具:resemble-enhance(语音增强),pyannote-audio(说话人日志),Whisper(语音识别),LLaMA3(推理),OpenAI text-embedding-3-large(检索),IndexTTS(语音合成)。 📌 核心摘要 这篇论文旨在解决现有角色扮演研究局限于文本模态,而忽视了日常交流中主导的语音模态的问题。为此,作者首先定义了“语音角色扮演”任务,要求模型能根据角色、场景和对话历史,生成带有个性化语音特征(如特定情感、语调)的自发性回应。为此,他们构建了ActorMindBench,这是一个基于《老友记》第一季的三层级(话语级、场景级、角色级)基准测试,包含7653条话语。核心贡献是提出了ActorMind,一个受演员表演流程启发的多智能体链式推理框架。该框架通过四个协同工作的智能体模拟表演过程:Eye Agent读取角色和场景描述,Ear Agent从对话语音中感知情感线索,Brain Agent推理出下一句台词应具有的情感状态,最后Mouth Agent通过检索情感相似的语音样本,驱动TTS模型合成目标台词。实验表明,ActorMind在角色一致性和情感表达上显著优于多个基线LLAM和TTS模型,并展现出良好的模型无关泛化性。其局限性在于基准数据领域单一,且框架性能依赖于所集成外部工具的水平。 🏗️ 模型架构 ActorMind是一个多智能体链式推理框架,其整体流程模拟人类演员的表演过程,从接收剧本到最终演绎出台词。具体输入输出流程如下: 输入:当前场景描述(S_j^desc)、当前角色的档案(R_k)、历史对话的文本(U_p^t, ..., U_{q-1}^t)和语音(U_p^s, ..., U_{q-1}^s),以及目标台词的文本(U_q^t)。 处理流程: Eye Agent(阅读):这是一个记忆模块,负责读取并存储角色档案(R_k)、场景描述(S_j^desc)和历史对话文本。它不进行复杂计算,仅为后续智能体提供上下文文本信息。 Ear Agent(倾听):这是一个感知模块。它接收历史对话的语音信号(U_p^s, ..., U_{q-1}^s),调用一个外部的语音情感描述工具(SECAP),将每段语音转化为文本形式的情感描述(E_p, ..., E_{q-1})。其核心功能是将非结构化的语音情感信息结构化为文本。 Brain Agent(思考):这是整个框架的核心推理大脑。它接收来自Eye Agent的所有文本信息(角色、场景、历史对话文本)和来自Ear Agent的历史情感描述,以及目标台词文本(U_q^t)。然后,它调用一个大语言模型(LLM,论文中使用LLaMA3),通过精心设计的提示词,推理出当前角色在说出目标台词时应处的情感状态描述(E_q~)。这个过程相当于演员结合内外部信息,决定“我该用什么情绪来说下一句台词”。 Mouth Agent(演绎):这是语音生成模块。它接收Brain Agent输出的情感状态描述(E_q~)和目标台词文本(U_q^t)。首先,它通过一个检索增强生成(RAG) 机制,在一个为当前角色(R_k)构建的语音数据库(Database_Uk) 中,检索出一条情感描述与E_q~最相似的历史语音片段(U_x^s)。这个数据库中的每条语音都关联了其由SECAP生成的情感描述。然后,它以检索到的语音(U_x^s)作为“情感和音色提示”,以目标文本(U_q^t)作为内容,驱动一个零样本语音合成模型(论文中使用IndexTTS) 生成最终的语音输出(U_q^s~)。 输出:带有特定角色音色和情感状态的语音U_q^s~。 ...

2026-04-20 · 更新于 2026-06-24 · 2 min · 386 words

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

📄 ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics #音频深度伪造检测 #时频分析 #信号处理 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Heewon Oh 通讯作者:未明确提供 其他作者:无 机构信息:论文中未明确标注作者所属机构。 💡 毒舌点评 亮点:把检测AI音乐变成了玩“大家来找茬”,专找神经编解码器留下的“数字指纹”,视角清奇且高效,参数量还只有对手的零头,堪称“四两拨千斤”。 槽点:论文读起来像一份完美的“实验报告”,创新点明确、数据扎实,但总感觉少了点让人拍案叫绝的“灵光一闪”;另外,作者似乎是个“独行侠”,没有挂靠任何机构,显得有些神秘。 🔗 开源详情 代码:论文中明确表示将开源(“we will release the code…”),但截至分析时,未提供具体链接。 模型权重:论文中明确表示将开源(“…and the model weights”),未提及托管平台。 数据集:论文中明确表示将开源ArtifactBench数据集(“…and the ArtifactBench dataset”),未提及获取方式。 预训练权重:未提及使用其他预训练模型。 在线 Demo:未提及。 论文中引用的开源项目:摘要中未提及具体依赖的开源工具。 📌 核心摘要 本文旨在解决AI生成音乐检测中泛化性差和模型参数效率低的问题。作者提出了一种名为ArtifactNet的新框架,其核心创新在于将问题重新定义为“法医物理学”,即直接提取和分析神经音频编解码器在生成音频中不可避免留下的物理痕迹(残留物)。该方法使用一个轻量级的Bounded-mask UNet从幅度谱图中提取编解码器残留,并通过HPSS(谐波-冲击-残渣分离) 技术将其分解为7通道的法医特征,最后由一个紧凑的CNN进行分类。为公平评估,作者构建了包含22个生成器和6种真实来源的ArtifactBench基准。实验表明,ArtifactNet在未见测试集上达到了0.9829的F1分数,远超CLAM和SpecTTTra等现有方法,且参数量仅为4.0M,效率极高。此外,通过编解码器感知训练,模型对跨编解码器的概率漂移降低了83%,显著提升了鲁棒性。这项工作证明,直接提取底层物理残留是一种比表征学习更通用、更参数高效的AI音乐检测范式。 🏗️ 模型架构 ArtifactNet的整体流程是一个两阶段的“特征提取-分类”管道: 输入:原始音频波形。 预处理:将音频转换为幅度谱图(Magnitude Spectrogram)。 第一阶段:残留提取: 组件:ArtifactUNet(一个带约束的掩码UNet,3.6M参数)。 功能:该模块被训练来从输入谱图中预测并分离出由神经音频编解码器(如MP3, AAC等编码-解码过程)引入的微小失真或“残留”。可以理解为它学习了一个“编解码器噪声”的指纹。 输出:得到编解码器残留谱图。 第二阶段:特征分解与分类: 组件:HPSS算法 + 紧凑型CNN(0.4M参数)。 流程: a. HPSS分解:将提取出的残留谱图通过谐波-冲击-残渣分离算法,分解成三个分量:谐波(H)、冲击(P)、残渣(S)。这三个分量从不同物理维度刻画了残留特性。 b. 特征构造:将H, P, S分量及其统计量(如均值、方差)组合成一个7通道的法医特征图。 c. 分类:将7通道特征图输入一个轻量级的卷积神经网络,最终输出一个二分类结果(AI生成 / 真实录制)。 输出:音频为AI生成或真实的概率。 关键设计理由: ...

2026-04-20 · 更新于 2026-06-24 · 2 min · 225 words

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

📄 AST: Adaptive, Seamless, and Training-Free Precise Speech Editing #语音合成 #流匹配 #零样本 #数据集 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Sihan Lv(浙江大学,推断) 通讯作者:Meng Xi(浙江大学,推断) 其他作者:Yechen Jin(浙江大学,推断),Zhen Li(浙江大学,推断),Jintao Chen(浙江大学,推断),Jinshan Zhang(浙江大学,推断),Ying Li(浙江大学,推断),Jianwei Yin(浙江大学,推断),Meng Xi(浙江大学,推断) 机构说明:所有作者邮箱均为 @zju.edu.cn,论文未明确标注具体学院或实验室名称,根据致谢中的“Zhejiang Key Laboratory Project”可推断为浙江大学相关实验室。 💡 毒舌点评 把图像编辑里玩烂的潜空间反演(Latent Inversion)搬到语音流匹配模型上,再缝个动态“弱事实引导”当创可贴,居然就把一群专门训练过的语音编辑模型按在地上摩擦——这恰恰说明语音领域在TTS模型免训练适配上的思路有多贫瘠。不过槽点也很明显:WER相比基座IndexTTS-2不降反升(2.43% vs 2.91%),说明为了保住未编辑区域的“原汁原味”,编辑区域的文本准确性还是被献祭了一点;而且LibriSpeech-Edit数据集靠Qwen3-8B生成目标文本,编辑质量全看大模型脸色,可靠性存疑。 🔗 开源详情 代码:论文中未提及是否开源代码或推理实现。 模型权重:AST本身无额外训练权重,完全依赖公开的预训练模型IndexTTS-2。IndexTTS-2的权重是否公开论文未明确说明。 数据集:论文提出并声称发布(“we release”)LibriSpeech-Edit数据集(2000条样本,总时长3.6小时),但未在正文中提供具体下载链接、HuggingFace仓库或数据许可协议。 预训练权重:基于IndexTTS-2。 在线Demo:论文中未提及。 依赖的开源工具:Whisper large-v3(OpenAI)、Qwen3-ForcedAligner-0.6B(阿里巴巴)、Qwen3-8B(阿里巴巴)、WavLM(微软)。 📌 核心摘要 本文针对现有语音编辑方法依赖任务特定训练、未编辑区域时间一致性差的问题,提出了AST(Adaptive, Seamless, and Training-free),一种基于预训练AM-FM(自回归-流匹配)范式TTS模型的精确语音编辑框架。AST首先通过逆Euler ODE求解器将原始语音反演至潜空间,然后利用最长公共子序列(LCS)进行词级对齐,将未编辑区域的反演潜流与编辑区域的高斯噪声进行潜变量重组(Latent Recomposition)。为防止拼接边界出现伪影,论文提出了自适应弱事实引导(AWFG),根据当前潜流与原始反演流的偏差动态加权mel空间引导信号。此外,AST天然支持局部风格编辑(如情感、方言)。为填补公开基准空白,论文还发布了LibriSpeech-Edit数据集(2000条,3.6小时)和词级动态时间规整指标(WDTW)。实验表明,AST在说话人相似度(0.986)和时间一致性(WDTW 0.2025)上达到SOTA,WER比专门训练的基线降低近70%,且无需任何额外训练。 🏗️ 模型架构 AST的整体架构是一个免训练的推理框架,依附于一个预训练的AM-FM(Autoregressive Model-Flow Matching)TTS模型(论文使用IndexTTS-2)。其核心不是重新设计网络层,而是在已有模型的潜空间中进行“手术刀式”干预。完整输入输出流程如下: 输入:原始mel-谱图 $m_{\mathrm{ori}}$、原始转录 $y_{\mathrm{ori}}$、目标转录 $y_{\mathrm{tgt}}$、声学提示 $m_{\mathrm{ref}}$。 ...

2026-04-20 · 更新于 2026-06-24 · 3 min · 447 words

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 🔗 开源详情 代码:论文提到了GitHub仓库(Report GitHub Issue ×),表明代码部分开源(可能指推理代码或核心模块)。 项目主页:提供了BeyondMonologue-Page链接,用于展示更多结果和信息。 模型权重:论文中未明确说明是否公开预训练模型权重。 数据集:构建了大规模数据集VoxHear(1206小时),论文中未明确说明是否完全公开,但通常此类工作会部分公开或提供获取方式。 在线Demo:论文中未提及在线Demo。 依赖的开源项目:论文中明确提及的开源工具/模型包括:Wan2.2(视频生成骨干)、Wav2Vec 2.0(音频编码)、MossFormer2(语音分离,来自ClearVoice工具包)、SyncNet(唇同步验证)、DWPose(姿态估计)、IP-Adapter(适配器范式)。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 ...

2026-04-20 · 更新于 2026-06-24 · 3 min · 528 words