ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis

📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Aoduo Li (广东工业大学,邮件地址:3123009124@mail2.gdut.edu.cn) 通讯作者:Hongjian Xu (广东工业大学,邮件地址:123457890wasd@gmail.com) 其他作者: Haoran Lv (广东工业大学) Shengmin Li (华南理工大学) Sihao Qin (华南理工大学) 💡 毒舌点评 亮点:巧妙地将14B参数LLM的“角色思考过程”(Chain-of-Thought)蒸馏成一个仅11.8M参数的轻量级“韵律翻译器”,实现了从语义理解到声学控制的跨模态桥接,这个想法非常优雅且实用。槽点:实验严重依赖一个特定的动漫角色数据集,虽然证明了方法在该领域的有效性,但其在通用语音、其他语言或更严肃风格上的泛化能力有待商榷,有点像“在二次元世界里当王者”。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/(论文中提供了链接占位符,实际应指向具体仓库)。 模型权重:已公开。在HuggingFace或其他平台发布了P2P Adapter、参考音频库等组件的预训练模型。 数据集:已公开发布了AnimeTTS-Bench(包含初始3角色版和扩展50角色版),包含音频、标注和角色配置。 在线Demo:论文中提供了在线体验地址的链接占位符。 依赖的开源项目:论文中明确依赖或基于以下开源项目:GPT-SoVITS v4(TTS骨干)、Qwen 2.5 14B(教师LLM)、Sentence-BERT、ECAPA-TDNN、emotion2vec、HiFi-GAN等。 📌 核心摘要 本文针对现有语音合成系统在生成角色驱动、情感丰富的语音时难以同时保持角色身份一致性和情感表达准确性的问题,提出了ATRIE框架。其核心是Persona-Prosody Dual-Track (P2-DT) 架构,将语音生成解耦为静态的音色轨道(通过标量量化保持身份锚点)和动态的韵律轨道(通过分层流匹配生成情感韵律)。关键创新在于一个离线知识蒸馏过程,利用一个大型语言模型(Qwen 2.5 14B)作为教师,通过思维链推理生成包含情感理由和数值化韵律目标(VAD分数等)的监督信号,来训练一个轻量级的P2P适配器。该适配器在推理时无需LLM参与,可高效地将文本和角色描述映射为韵律控制参数,引导GPT-SoVITS v4骨干网络合成语音。实验在自建的AnimeTTS-Bench(50个角色)上进行,ATRIE在角色一致性分数(CCS: 0.86)、情感表达准确率(EEA: 0.84)和跨模态检索平均精度(mAP: 0.75)上均达到SOTA,同时保持了实时推理能力(RTF: 0.18)。局限性包括对参考音频库的依赖、长句情感强度维持的挑战,以及当前评估集中于动漫风格。 🏗️ 模型架构 ATRIE系统是一个两阶段框架(离线蒸馏,在线推理),其核心是P2-DT架构,整体流程如下: 输入:文本T,角色配置P(包含性格描述、说话模式等)。 语义理解与韵律目标生成(离线/教师阶段): 教师Persona-LLM (Qwen 2.5 14B):接收T和P,输出两部分:(a) 思维链理由R:一段解释为何角色会以某种情感说话的文本;(b) 数值化韵律目标p_tgt:一个包含{V, A, D, F0_rel, E_rel}(效价、唤醒度、时长、相对基频、相对能量)的JSON。 CoT到目标的映射:理由R通过冻结的Sentence-BERT编码为768维语义嵌入h_R。 轻量级适配器训练(学生阶段): 学生P2P Adapter (11.8M参数):一个4层Transformer,通过交叉注意力对齐文本语义标记和音素级声学帧。包含4个并行预测头,分别预测韵律标量(F0, E, D, P)。 训练损失:结合了MSE损失(对齐预测韵律p_hat与教师目标p_tgt)和语义对齐损失(对齐适配器中间表示h_adapter与h_R)。此外,引入了对比损失,确保生成的韵律嵌入z_i与目标角色锚点z_p接近,而与其他角色z_j远离,从而学习一个角色判别的韵律空间。 在线推理阶段: 输入:文本T,角色配置P,参考音频库ℛ。 步骤1:P2P Adapter根据T和P预测韵律控制参数C和角色语义嵌入。 步骤2:参考音频选择:根据预测的VAD目标,从库中检索最匹配的参考音频r*。 步骤3:TTS骨干 (GPT-SoVITS v4):以T、r*和韵律参数C为条件,生成语义令牌,再通过声学解码器和HiFi-GAN声码器输出最终波形y。 双轨融合: 音色轨道:从参考音频r*中提取全局音色嵌入z_timbre,并通过标量量化(SQ)稳定化,作为身份锚点。 韵律轨道:P2P Adapter预测的动态韵律流,通过8步流匹配生成。 融合:静态音色和动态韵律在GPT-SoVITS的方差适配器层融合,共同指导声学生成。 关键设计理由: ...

2026-04-22 · 更新于 2026-06-24 · 3 min · 465 words

Audio Spoof Detection with GaborNet

📄 Audio Spoof Detection with GaborNet #音频伪造检测 #信号处理 #数据增强 #时频分析 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Waldemar Maciejko (根据论文标题及内容,未明确标注所属机构,推断为某大学或研究机构研究人员) 通讯作者:未明确标注 其他作者:无 机构信息:论文全文未提供作者所属机构信息。根据arXiv页面及论文内容推断,作者可能来自波兰某大学(如姓名暗示)或研究机构,但无法确认具体实验室/课题组。 💡 毒舌点评 亮点:论文系统性地评估了Gabor滤波器和LEAF前端在音频伪造检测任务中的应用,并提供了详尽的消融实验和数据增强对比,工作扎实。 槽点:创新性更像是“技术报告”而非“科研突破”,把Gabor滤波器塞进现成架构就完事了;结论有时过于绝对(如“LEAF在RawGAT-ST上效率低下”),缺乏更深层的机理分析;数据增强部分,SpecAugment无效就不展示了,选择性报告结果有点“报喜不报忧”。 🔗 开源详情 代码:已开源。论文页面提供了指向GitHub仓库的链接(标题下方的“GitHub Issue”以及页面中的“GitHub”按钮)。 模型权重:论文中未明确提及是否公开发布训练好的模型权重。 数据集:实验使用公开的ASVspoof 2019 LA数据集,以及用于增强的RIR和MUSAN数据集,这些均可公开获取。 预训练权重:未提及。 在线Demo:未提及。 引用的开源项目:论文依赖PyTorch、Torchaudio等框架,并提及使用了Torchaudio Sox和Ffmpeg后端进行编解码增强。 📌 核心摘要 本论文旨在解决传统SincNet前端在音频伪造检测中因有限长度sinc函数截断导致的频率泄漏问题。作者提出使用可学习的Gabor滤波器组(GaborNet)替代SincNet,并将其集成到两种先进的端到端检测架构RawNet2和RawGAT-ST中。同时,论文探索了将LEAF(Learnable Frontend for Audio Classification)的完整组件(包括高斯低通池化和可学习PCEN归一化)作为前端。实验在ASVspoof 2019逻辑访问数据集上进行,系统评估了不同前端、架构及数据增强方法(包括编解码转换、房间脉冲响应和噪声添加)的效果。主要发现包括:GaborNet前端对RawNet2架构有轻微提升(EER从4.131%降至4.025%),但对更复杂的RawGAT-ST架构反而有害;完整的LEAF前端在RawNet2上效果最佳(EER 3.807%),但在RawGAT-ST上性能下降;在数据增强方法中,仅编解码转换被证明有效。论文的贡献在于为音频伪造检测提供了新的可学习前端选择,并通过详实的实验揭示了不同组件组合的有效性,但其方法的创新性和普适性有待进一步验证。 🏗️ 模型架构 论文主要研究和修改了两种端到端音频伪造检测架构:RawNet2 和 RawGAT-ST。核心改动在于将它们的输入前端从SincNet替换为基于Gabor滤波器的GaborNet或更完整的LEAF前端。 1. Gabor RawNet2 架构流程: 输入:原始音频波形,固定长度为64,600个样本(约4秒@16kHz)。 前端 (GaborNet/LEAF): Gabor卷积层:使用N个可学习的复数值Gabor滤波器(中心频率η_n,带宽σ_n)对输入波形进行一维卷积。论文中RawNet2使用1024个滤波器,长度20;RawGAT-ST使用128个滤波器,长度70。 取模平方:将复数卷积结果取模平方,转化为实数序列,得到子带希尔伯特包络。 高斯低通池化:进行步长为3的下采样,使用参数化的高斯脉冲响应作为低通滤波器。 可学习PCEN归一化:应用可学习的感知归一化(Per-Channel Energy Normalization),参数包括平滑系数s、压缩指数r等,所有参数联合学习。 最大池化:进一步下采样。 批归一化+SeLU激活。 特征提取主体 (RawNet2): 残差块组1:包含3个残差块,每个块内有两层一维卷积(核大小3,通道数128)、批归一化、LeakyReLU激活,以及最大池化。每个残差块输出后应用特征图缩放(FMS) 机制,通过一个小型子网络生成缩放因子r_f,对特征图c_f进行c'_f = (c_f * r_f) + r_f的变换,以强调重要特征。 残差块组2:包含3个类似的残差块,但卷积通道数增加到128。 聚合与分类: 自适应平均池化:将时序特征聚合为固定长度。 全连接层1:将特征映射到1024维。 门控循环单元(GRU):128维隐藏层,用于聚合帧级特征为话语级嵌入。 全连接层2:映射到2维输出。 LogSoftmax:输出“真实”或“伪造”的对数概率。 2. Gabor RawGAT-ST 架构流程: ...

2026-04-22 · 更新于 2026-06-24 · 4 min · 689 words

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #数据集 #音频生成 🔥 评分:8.5/10 | arxiv 👥 作者与机构 根据论文标题页信息,作者为: 第一作者:Lekai Qian 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注) 其他作者:Haoyu Gu, Jingwei Zhao 论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。 💡 毒舌点评 亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接 (https://anonymous.4open.science/w/BEAT-349F/),表明代码将开源。 模型权重:论文提及了在线Demo页面,暗示预训练模型权重可能随代码一同发布。 数据集:使用了公开的Lakh MIDI Dataset和MuseScore Collection,但经过了特定的过滤和处理。论文未提及发布新的数据集。 在线 Demo:提供了匿名Demo页面 (https://anonymous.4open.science/w/BEAT-349F/) 供体验。 依赖的开源项目:论文中提及了MusPy(用于评估)、LLaMA(作为模型架构参考)等开源工具。 📌 核心摘要 本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。 🏗️ 模型架构 BEAT的核心并非一个全新的模型架构,而是一种新的音乐表示(tokenization)方案,该方案可无缝接入标准的自回归Transformer语言模型。 完整输入输出流程: 输入:多轨符号音乐(如MIDI),被表示为三维张量 (轨道数 P, 时间步数 T) 的钢琴卷帘矩阵,每个元素取值 {0(静音), 1(起音), 2(持续)},并附带力度信息。 编码阶段(BEAT Encoding): 步骤1(拍内编码):以固定时间步长 τ(默认为4个十六分音符,即一拍)将钢琴卷帘分割为 N 个“拍段” B(i)。对于每个拍段内的每个音高 p,将其 τ 个时间步的状态向量通过三进制转整数编码为一个“模式令牌” PAT_x。同时,计算该音高在此拍内的平均力度,编码为“力度令牌” VEL_x。 步骤2(拍级组装):识别当前拍段内的活跃音高集合,按音高降序排列。第一个音高使用绝对音高索引作为“音高令牌” PIT_d,后续音高使用与前一音高的相对音程差作为音高令牌。这样,一个拍的内容被表示为一组 (PIT_d, PAT_s, VEL_v) 三元组的序列。若该拍全休止,则用一个特殊的 REST 令牌表示。 步骤3(序列构建):在每个拍的序列前插入 BEAT 令牌作为分隔符。在每小节开始处插入 BAR 令牌。对于多轨音乐,在每个拍的轨道内容前插入乐器令牌 INS_x。最终,所有拍的序列按时间顺序拼接,形成完整的令牌序列。 建模阶段:将上述令牌序列输入标准的16层Transformer解码器(150M参数,遵循LLaMA架构),使用自回归方式建模令牌的联合概率分布,训练时最小化交叉熵损失。 输出与解码:模型自回归生成令牌序列。解码器通过识别绝对/相对音高令牌来重建拍段和钢琴卷帘,最终还原为可播放的符号音乐。 关键设计选择理由: ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 335 words

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频安全 #数据增强 #音频大模型 #多模态模型 #对抗样本 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Jaechul Roh(推断,因名字在前) 通讯作者:Amir Houmansadr(推断,因名字在后且通常为资深作者) 全部作者:Jaechul Roh, Amir Houmansadr 所属机构:University of Massachusetts Amherst, Department of Computer Science 💡 毒舌点评 亮点:论文像一把精准的手术刀,首次剖开了音频大模型“良性微调”外表下的安全脆弱性,揭示了其与文本/视觉模态截然不同的、由编码器架构决定的“阿喀琉斯之踵”,研究问题抓得准,分析框架设计得妙。槽点:提出的防御方法(远距离过滤和系统提示)虽然有效但略显“直球”,缺乏对模型内部拒绝机制更深入的干预探索,算是给后续研究者留了口饭吃。 🔗 开源详情 代码:论文明确提及在GitHub上发布了代码(“Report GitHub Issue”),用于复现邻近度过滤和实验。 数据集:论文提及发布了用于实验的良性音频数据集和有害音频提示集(经过TTS转换)。 模型权重:论文研究的是三个已公开的SOTA模型(AF3, Kimi-Audio, Qwen2.5-Omni),未发布其微调后的权重,以防止滥用。 在线Demo:未提及。 依赖的开源工具:使用了多个开源模型和工具,包括:Whisper系列编码器、Sentence-BERT、WavLM、LoRA微调框架、Edge-TTS、Google TTS (gTTS)等。 📌 核心摘要 这篇论文首次系统研究了良性(无害)音频数据微调对音频大模型安全对齐的破坏作用。要解决的问题是:用户出于提升模型性能目的进行的常规微调,是否会无意中破坏模型的安全防护?方法上,作者提出了一个基于嵌入空间邻近度的过滤框架,从语义、声学及混合维度,选择性地用与有害内容在表示空间上相近的良性音频进行微调。主要发现是,即使微调数据完全良性,也能使越狱成功率(JSR)从个位数飙升至87.12%,且主导的脆弱性维度(语义或声学)取决于模型编码器的架构。实际意义在于揭示了Audio LLMs一个非对抗性、易被忽视的重大安全风险,并提出了两种无需修改架构的实用防御策略(训练时远距离过滤和推理时安全系统提示)。局限性在于研究限于英语单轮对话,未探索非语音音频任务或多语言场景。 🏗️ 模型架构 论文本身并非提出新模型,而是分析三个现有的SOTA音频大模型在微调下的安全行为。因此,模型架构部分描述的是被分析的三个目标模型: Audio Flamingo 3 (AF3):架构为 Whisper音频编码器 -> 2层MLP投影器 -> Qwen2.5-7B LLM骨干(28层)。其关键特点是MLP投影器会压缩音频特征,形成一个与文本对齐空间不同的表示区域。 Kimi-Audio 7B:采用双编码器设计,包含WhisperVQ编码器(通过矢量量化瓶颈,会丢弃部分声学细节)和Whisper-Large-V3编码器。音频信息通过这两个编码器处理后输入LLM。 Qwen2.5-Omni 7B:架构为Whisper-Large-V3编码器 -> 直通(pass-through)-> Qwen2.5-7B Thinker模块。其编码器输出几乎不加修改地传递给LLM,保留了更多的音频-文本对齐信息。 数据流动与关键设计:在所有三个模型中,音频编码器在微调期间是冻结的,只有LLM骨干网络通过LoRA进行参数更新。这是与文本LLM微调的关键区别:在音频LLM中,安全对齐所依赖的表示(来自编码器)并未被微调直接修改,但下游LLM的决策边界却发生了偏移。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 277 words

Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

📄 Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features #语音生物标志物 #模型评��� #多通道 #跨模态 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 共同第一作者:Chenqian Le (未明确机构,推断为纽约大学) 共同第一作者:Ruisi Li (未明确机构,推断为纽约大学) 其他作者:Beatrice Fumagalli (未明确机构,推断为纽约大学), Xupeng Chen (未明确机构,推断为纽约大学), Amirhossein Khalilian-Gourtani (未明确机构,推断为纽约大学), Tianyu He (未明确机构,推断为纽约大学), Adeen Flinker (未明确机构,推断为纽约大学), Yao Wang (未明确机构,推断为纽约大学) 通讯作者/机构:论文未明确标注。根据研究内容和作者列表,Adeen Flinker 和 Yao Wang 可能是项目负责人或通讯作者。所有作者均来自纽约大学(New York University),具体实验室/系所未在提供的文本中明确说明。 💡 毒舌点评 亮点:论文把神经科学领域的mTRF和方差分解工具“拿来主义”用在肌肉信号上,思路清晰,实验设计严谨(24个受试者,句子级交叉验证),把“为什么发音特征比音素特征更好”这件事说得明明白白,还画出了漂亮的解剖对应图。 槽点:说到底是在验证一个相当直觉化的猜想(发音动作当然比音素标签更贴近肌肉活动),创新性更多体现在“首次系统验证”而非“提出新方法”。而且,只做了“编码”分析,没做“解码”验证,就像精心证明了菜谱(特征)更好,但没真的做道菜(解码系统)给大家尝尝。 🔗 开源详情 代码:论文中未提及作者是否开源本研究使用的代码(如数据处理、mTRF模型训练、方差分解脚本)。 模型权重:论文中使用了开源的SPARC模型(来自Cho et al., 2024),但作者自身工作的模型(训练好的mTRF权重)未提及公开。 数据集:研究使用了自采的sEMG数据集(24人),论文中未提及该数据集是否公开。TIMIT语料库是公开数据集。 预训练权重:不适用。 在线Demo:无。 引用的开源项目:明确提到了ADMM_mTRF(Python实现)和Montreal Forced Aligner (MFA)。 📌 核心摘要 这篇论文旨在为无声言语接口(SSI)选择更优的中间表示目标。研究系统比较了发音特征(SPARC)和传统的音素独热编码,在预测表面肌电(sEMG)信号包络上的表现。核心发现是:1)在出声、默语和次发声三种模式下,SPARC特征的编码准确性均显著优于音素特征;2)出声和默语模式的编码性能相当,次发声模式虽弱但仍显著高于随机水平,证实了无声发音仍可诱发可检测的肌肉活动;3)方差分解显示,SPARC对sEMG方差有显著的独特贡献,而音素特征的独特贡献极小;4)编码权重图揭示了电极位置与特定发音器官(唇、颌、舌)运动之间稳定、可解释的解剖学关联。该研究为构建基于生理对齐表示的、更鲁棒的sEMG-SSI系统提供了重要的实证依据和设计指导。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 221 words

Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean

📄 Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean #语音情感识别 #对比学习 #数据集 #端到端 #语音领域 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Hyunjung Joo(罗格斯大学语言学系,汉阳大学语言语音与认知科学研究所 (HIPCS)) 通讯作者:GyeongTaek Lee(嘉泉大学智能工厂系) 其他作者:无 💡 毒舌点评 亮点:论文最大的贡献是“造轮子”和“用好轮子”——亲手标注了一个超万个样本的首尔韩语音高数据集,并聪明地用全局对比学习替换了容易“只见树木不见森林”的局部预测模型,让AI学会看音高的“整体轮廓”而非“逐点猜谜”。 槽点:虽然准确率刷到了新高,但F1分数才刚过50%,暴露了数据集中某些音调模式样本极少导致的严重类别不平衡问题;另外,模型只盯着F0(音高)看,完全忽略了时长、强度等对韵律同样重要的线索,像个只用单眼看世界的学者。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/hyunjungjoo/Accentual-Phrases-in-Seoul-Korean。 模型权重:论文中未明确提及是否公开预训练权重。 数据集:已开源。即上述GitHub仓库中提供的首尔韩语音调短语数据集,包含10,093个样本及其标注。 预训练权重:未提及。 在线Demo:未提及。 依赖的开源工具/模型:论文中提到了使用pYIN算法提取F0,以及PyTorch、scikit-learn、LightGBM等框架和库。 📌 核心摘要 这篇论文旨在解决将连续变化的基频(F0)曲线映射到首尔韩语中离散、不变的音高重音类别(如LHLH, HHLH)这一难题。传统方法易受F0测量噪声和说话人差异的影响。为此,作者提出了Dual-Glob,一个深度监督对比学习框架。其核心是通过一个双分支(干净视图和增强视图)编码器,在共享的潜在空间中强制要求同一音高类别样本的全局F0轮廓形状相似,而不同类别则相异,从而学习到对扰动鲁棒的、具有判别性的音高轮廓表征。作者还构建了首个大规模手动标注的基准数据集,包含10,093个音调短语(AP),涵盖16种音调模式。实验表明,Dual-Glob在准确率(77.75%)和F1分数(51.54%)上显著超越了BiLSTM、InceptionTime等强基线。研究支持了音系学理论中的离散音调范畴,并证明深度对比学习能有效捕捉连续F0轮廓的整体结构特征。局限性包括F0追踪误差、数据类别不平衡以及未整合时长等其他韵律线索。 🏗️ 模型架构 模型整体是一个双分支编码器+投影头的对比学习框架,后接一个冻结的编码器和独立的分类器用于下游任务。 完整输入输出流程: 输入:经过预处理和归一化(说话人级别Min-Max归一化到[0,1])的F0轮廓序列,固定长度为200帧。 数据增强:对原始输入(干净视图 x_c)应用随机组合的数据增强(如抖动、缩放、掩码等),生成增强视图 x_a。 编码与投影:x_c 和 x_a 分别通过共享权重的编码器 E(·) 和投影头 P(·),得到潜在空间中的投影向量 z_c 和 z_a。 对比损失计算:基于 z_c 和 z_a 计算联合损失 ℒ_Total = λ1 * ℒ_Clean + λ2 * ℒ_Aug。 ℒ_Clean:确保同一类别干净样本的投影在潜在空间中彼此靠近。 ℒ_Aug:确保增强样本的投影靠近其对应类别的干净样本投影,实现去噪和鲁棒性学习。 下游分类:训练完成后,冻结编码器 E(·),移除投影头。使用编码器从原始干净输入中提取的特征(而非投影),输入到独立的分类器(如逻辑回归LR、随机森林RF、LightGBM)中进行16分类。 主要组件: ...

2026-04-22 · 更新于 2026-06-24 · 3 min · 465 words

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

📄 Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps #语音识别 #语音翻译 #大语言模型 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jonas Waldendorf (University of Edinburgh) *论文标注“Work completed during an internship at Amazon AGI” 通讯作者:Evgenii Tsymbalov (Amazon AGI) *根据邮箱 etsymba@amazon.de 推断 其他作者:Bashar Awwad Shiekh Hasan (Amazon AGI) 💡 毒舌点评 亮点:论文巧妙地将文本LLM幻觉检测的注意力分析思路“翻译”到了语音领域,设计了四个抓住语音模态特性的指标,像给模型装了个“注意力心电图”来诊断“幻觉心律不齐”,在干净数据上效果拔群。 槽点:但这个“诊断仪”有点“偏科”,在ASR和S2TT两个任务间几乎无法通用,得重新训练,而且严重依赖一个高精度但低召回的自动标注器来打标签,相当于用一套有漏检的评分标准来训练医生,让人对其泛化能力打个问号。 🔗 开源详情 代码:论文提到代码在GitHub上开源(“GitHub Issue”),但未提供具体URL。推断为部分开源。 模型权重:未提及开源训练好的逻辑回归检测器权重。 数据集:使用公开数据集(VoxPopuli, CALLHOME, Fleurs),但自动标注的幻觉标签数据集未提及单独发布。 在线Demo:未提及。 依赖的开源工具:使用了scikit-learn训练逻辑回归,XCOMET-XL和多种多语言模型(xlm-roberta-base, paraphrase-multilingual-MiniLM, mDeBERTa-v3-xnli)进行评估和标签生成。 📌 核心摘要 本文旨在解决语音大模型(SpeechLLMs)在推理时产生的“幻觉”问题,即生成与输入音频不符的流畅文本。现有方法依赖昂贵的黄金标准输出,而文本LLM的方法无法捕捉音频特有信号。为此,作者提出了四个基于注意力图的轻量级指标(AudioRatio, AudioConsistency, AudioEntropy, TextEntropy),用于捕捉与幻觉相关的病态注意力模式(如注意力回退到音频开头、对角线结构退化)。在Qwen-2-Audio和Voxtral-3B模型上,使用这些指标训练逻辑回归分类器。实验表明,在域内ASR数据(VoxPopuli)上,该方法显著优于不确定性估计和先前注意力基线(PR-AUC提升高达+0.23)。研究发现,仅需约100个注意力头即可获得强性能,且能改善跨域泛化。然而,方法效果依赖于模型和任务,在嘈杂数据(CALLHOME)上泛化能力下降,且在ASR上训练的模型无法直接用于语音翻译(S2TT),突显了幻觉模式的任务特异性。 🏗️ 模型架构 本文并未提出一个新的端到端SpeechLLM架构,而是设计了一个基于注意力特征的轻量级幻觉检测器,该检测器作为插件,在现有的SpeechLLM(如Qwen-2-Audio, Voxtral-3B)推理时并行工作。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 290 words

Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification

📄 Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification #自监督学习 #解缠表示学习 #音频事件检测 #工业应用 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Xudong Jian (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 通讯作者:Eleni Chatzi (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) - 根据论文中标注“\corrauth”推断 其他作者: Charikleia Stoura (米兰理工大学 Politecnico di Milano,机械工程系) Simon Scandella (苏黎世联邦理工学院 ETH Zürich,土木、环境与地质工程系) 💡 毒舌点评 亮点:这篇论文巧妙地将计算机视觉领域流行的自监督方法(VICReg)与结构动力学的物理先验(频域PSD)结合,像给模型戴上了一副“损伤透视镜”,让它在嘈杂的操作变异中死死盯住结构本身的微小损伤信号,思路非常清晰实用。 槽点:方法在“轻微损伤”场景下有点“视力不佳”(桥梁数据集TPR仅0.324),而且损伤量化能力更像是个“半成品”,离精确评估损伤程度还有距离。说白了,能告诉你“病了”,但说不准“病多重”。 🔗 开源详情 代码:完全开源。GitHub仓库地址:https://github.com/JxdEngineer/SSRL。使用PyTorch框架实现。 模型权重:论文中未明确提及是否公开预训练模型权重,但提供了完整的代码和配置,用户可自行复现训练。 数据集: openLAB桥梁数据集:因与商业合作伙伴Kistler的协议限制无法公开。但论文引用了另一个可公开获取的openLAB数据集版本(使用��同传感系统)作为替代。 MCC5齿轮箱数据集:完全公开,论文提供了获取链接(Chen et al., 2024)。 预训练权重:未提供。模型从头开始训练。 在线Demo:未提供。 依赖的开源工具:PyTorch, scipy (用于Welch方法估计PSD), UMAP (用于可视化)。 📌 核心摘要 本文针对结构健康监测中损伤信号易被环境与操作变异掩盖的核心挑战,提出了一种无标签、自监督的解缠表示学习框架。该框架采用双流自编码器架构,通过时间序列重构损失确保信息完整性,并利用VICReg自监督损失(基于假设损伤状态不变的基线期数据)强制损伤敏感表征(z_dmg)对操作变异保持不变性。同时,引入频域PSD重构损失作为物理约束,确保z_dmg保留关键的损伤相关频谱特征。该框架在无需任何损伤、激励或环境标签的情况下,实现了损伤信息与干扰信息的有效分离。在真实桥梁实验数据集和高保真齿轮箱数据集上的评估表明,所提方法能有效进行损伤检测(在齿轮箱上平衡准确率达0.816)并揭示损伤演化进程,其性能显著优于仅使用时间序列重构或手工特征的基线方法。研究证实了结合数据驱动自监督与领域物理知识对于提升SHM鲁棒性的价值,为实际无标签监测场景提供了可行的解决方案。 ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 419 words

Environmental Sound Deepfake Detection Using Deep-Learning Framework

📄 Environmental Sound Deepfake Detection Using Deep-Learning Framework #音频深度伪造检测 #预训练 #音频分类 #数据增强 #音频安全 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Lam Pham (奥地利理工学院 AIT,数字安全与安全中心) 通讯作者:Son Le (Ton Duc Thang University, Vietnam) 其他作者: Khoi Vu, Dat Tran (FPT University, Vietnam) Phat Lam (HCM University of Technology, Vietnam) David Fischinger, Alexander Schindler, Martin Boyer (奥地利理工学院 AIT,数字安全与安全中心) 💡 毒舌点评 亮点:论文像一本详尽的“菜谱”,把频谱图、网络架构、预训练模型这些“食材”挨个试了个遍,还精心设计了“三阶段烹饪法”(训练策略),最终端出了一盘在特定数据集上色香味俱全的“菜”(高准确率)。槽点:创新性主要体现在“系统性尝试”和“策略调优”上,缺乏让人眼前一亮的“新菜式”(核心方法创新)。而且,这盘“菜”主要用的还是别人家的“高级食材”(预训练BEATs模型)。 🔗 开源详情 代码:论文在arXiv页面明确提供了GitHub链接,表明代码已开源。 模型权重:论文中未明确说明是否公开预训练或微调后的模型权重。通常此类研究会随代码一起发布。 数据集:使用了公开的基准数据集EnvSDD和ESDD-Challenge-TestSet,论文中提供了数据集的详细构成和获取参考文献。 预训练权重:使用了公开的预训练BEATs模型。 在线Demo:论文中未提及。 引用的开源项目:Pytorch框架、Adam优化器、BEATs模型、EnvSDD数据集。 📌 核心摘要 本文针对环境声音(如声音事件、声音场景)的深度伪造检测这一新兴任务,提出了一个系统的深度学习框架。核心贡献在于通过大量实验,系统评估了不同频谱图(MEL, CQT, Gammatone)、多种CNN架构(ResNet, Inception等)以及预训练模型(BEATs)在该任务上的表现,并验证了声音事件与声音场景的伪造检测应作为独立任务处理。关键方法包括:1)提出以Gammatone频谱图作为有效输入特征;2)设计了一个包含多损失函数训练、Mixup微调和骨干网络冻结的三阶段训练策略;3)发现并验证了微调预训练的BEATs模型远优于从头训练。主要效果是在EnvSDD测试集上取得了0.98的准确率和0.99的AUC,并在跨数据集测试(ESDD-Challenge-TestSet)中展现了泛化能力。局限性在于方法创新性有限,主要依赖现有技术的组合与优化,且跨数据集性能有显著下降,表明领域泛化仍是挑战。 🏗️ 模型架构 论文提出了一个统一的深度学习框架用于环境声音深度伪造检测(ESDD),其整体流程如下: ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 276 words

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models #基准测试 #模型评估 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者: Feiyu Zhao(天津大学,智能与计算学院) 通讯作者: Jianguo Wei(天津大学,智能与计算学院) 其他作者: Yiming Chen(华硕智能云服务,新加坡;与第一作者贡献相等),Wenhuan Lu(天津大学,智能与计算学院),Daipeng Zhang(天津大学,智能与计算学院),Xianghu Yue(天津大学,智能与计算学院) 💡 毒舌点评 亮点: 这篇论文堪称“音频大模型照妖镜”,首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”,设计了各种刁钻的“听力测试题”(对抗性提示、混合音频),揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症,为领域提供了急需的诊断工具。 槽点: 主要是个“体检报告”而非“治疗方案”,它精确诊断了问题但并未提出新的缓解方法。另外,部分任务(如单词顺序判断)可能过于依赖模板,模型或许能通过“猜”而非真正“听”来应付。 🔗 开源详情 代码: 已开源。GitHub地址:https://github.com/Feiyuzhao25/halluaudio 数据集: HalluAudio基准测试数据集已随代码开源,包含所有QA对和音频引用。 模型权重: 本文不涉及新模型的训练,因此不提供模型权重。评估的是已有的公开或闭源模型。 在线Demo: 论文中未提及在线Demo。 依赖的开源工具/模型: 评估中使用了多个开源LALM,如Qwen-Audio, Qwen2-Audio, Llama-Omni, MiMo-Audio等(详见附录D)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)中普遍存在的“幻觉”问题(即生成与音频证据不符的内容)缺乏系统性评估工具的难题。为此,作者构建并发布了HalluAudio,这是首个大规模、多领域(语音、环境声、音乐)、多任务(二分类、多选、属性验证、开放生成)的人工验证音频幻觉检测基准,包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉,并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估,论文发现:1)幻觉是普遍且领域依赖的系统性问题;2)即使在标准基准上表现优异的模型,在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败;3)模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。 🏗️ 模型架构 注意: 本文的核心贡献是提出一个评估基准(Benchmark),而非一个新的模型架构。因此,本节将详细描述该基准测试的整体架构和评估流程。 整体架构(评估管线): 如图1所示,HalluAudio的评估是一个模块化、端到端��流程,旨在系统性地引发、测量和分析LALM中的幻觉。 输入层: 从语音(Common Voice)、环境声(FSD50K)、音乐(GTZAN, Mridangam)数据集中选择音频片段。 任务构建层: 对每个音频,使用参数化提示模板生成问题。模板包含可替换的槽位(如单词、标签),通过填充有效或无效的属性来生成“可回答”或“故意不可回答”的查询,以诱发不同类型的幻觉。 模型推理层: 将构建好的“音频-问题”对输入到待评估的LALMs中,采用零样本协议,模型输出为文本。 输出标准化层: 由于模型输出形式多样(如“是的”、“Yes.”、“确实如此”),需要通过文本处理(小写化、去标点、关键词匹配)将其标准化为结构化标签(如Yes, No, 数字, Refusal)。 有效性检查与行为分析层: 将标准化后的输出与标准答案进行比对,计算各项指标(准确率、是/否偏差、错误拒绝率等),并进行细粒度的错误类型分析(如幻觉性肯定回答、错误的任务 grounding 答案、错误拒绝)。 关键设计选择理由: 参数化模板: 确保生成大规模、可控且与音频内容精确对齐的QA对。 对比性/对抗性构造: 通过最小化修改(如改变单词顺序、引入噪声)创建正负对比样本,以孤立出引发幻觉的具体触发器。 多领域覆盖: 确保评估的全面性,因为模型在不同音频域(语言 vs. 非语言)可能表现出不同的幻觉模式。 多维度指标: 超越简单的准确率,诊断模型的行为偏差(如盲目肯定)和保守性偏差(如过度拒绝)。 💡 核心创新点 首个大规模、多领域音频幻觉基准: 提出了HalluAudio,这是第一个专门针对音频(涵盖语音、环境声、音乐)的、大规模(>5K QA对)、经过人工验证的幻觉检测基准,填补了该领域的关键空白。 系统性的幻觉诱导方法: 创新性地设计了对比性任务(如单词顺序、声音共存)和对抗性/无效查询(如询问不存在的说话者性别、随机声音标签),以主动、可控地触发模型的各类幻觉行为(虚构、证据矛盾、无根据肯定)。 多维度诊断评估框架: 提出了一套超越准确率的评估指标,包括是/否偏差测试(Yes-p Ratio, Unrelated Ratio, Conditional Accuracy)和错误拒绝率,能够细粒度地区分模型的不同失败模式(如感知错误、推理错误、过度保守)。 深入的跨模型与跨领域实证分析: 对12个具有代表性的开源和闭源LALM进行了首次大规模、跨领域的对比评估,揭示了幻觉行为的领域特异性(如语音中的结构幻觉、环境声中的感知幻觉)和模型特异性,为未来模型改进提供了明确方向。 🔬 细节详述 数据集构建: 来源: 语音(Common Voice)、环境声(FSD50K)、音乐(GTZAN, Mridangam Strokes, Mridangam Tonics)。 规模: 总计5720个QA对。其中,语音域任务最丰富(包括重叠检测、词序、计数、无效查询等),环境声音侧重存在性与共现性,音乐侧重乐器/流派识别与比较。 流程: 五步管线:1) 音频选择;2) 模板生成;3) 对比/对抗构造;4) 人工验证(三轮,Cohen‘s κ=0.91);5) 打包与平衡。 关键设计: 包含2662个对比性任务和621个明确的对抗性/无效查询,57.4%的数据旨在通过控制扰动或证据缺失来探测幻觉。 评估指标: 准确性: 标准任务准确率。 是/否偏差测试: Yes-p Ratio: 在二元问题中回答“Yes”的比例。 Unrelated Ratio: 在回答错误的样本中,模型给出与问题无关答案的比例。 Conditional Accuracy: 基于预测类别(Yes/No)划分的条件准确率。 错误拒绝率: 模型拒绝回答可回答问题的比例。 评估模型: 共12个模型,包括2个闭源(GPT-4o-Audio, Gemini-2.5-Flash)和10个开源模型(如Qwen系列、Llama-Omni系列、MiMo-Audio、Step-Audio-2等)。 关键发现(实验数据): 语音域: MiMo-Audio和Step-Audio-2在时序任务上表现优异(如重叠检测准确率>96%),而Qwen-Audio、Pengi等在某些子任务上低于50%。Phi-4在噪声和性别扰动下性能下降。 环境声域: MiMo-Audio和Qwen2.5-Omni在时序比较任务上领先。Audio Flamingo3和Pengi在多标签识别上表现不佳。模型在“随机错误”提示下行为分化:一些自信地幻觉,另一些则过度拒绝。 音乐域: GPT-4o-Audio和MiMo-Audio相对稳健,而Pengi和Qwen2-Audio在流派/乐器识别上接近随机水平。在计数和排序任务上,模型普遍表现不佳(如Gemini-2.5-Flash低于15%)。 是/否偏差: Qwen系列模型在跨域任务中表现出强烈的肯定回答倾向。在环境声任务中,这种偏差最明显。 错误拒绝: Gemini-2.5-Flash和Qwen2-Audio表现出最严重的过度拒绝倾向,尤其在结构复杂的任务(计数、速度比较)和感知不确定的任务(声音共存)中。 📊 实验结果 主要指标对比(表格数据复述): ...

2026-04-22 · 更新于 2026-06-24 · 2 min · 305 words