MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #音频大模型 #大语言模型 #流式处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Chung-Ming Chien (Kyutai, 推断) 通讯作者:论文未明确标注,根据机构和工作内容推断为 Alexandre Défossez 或 Chung-Ming Chien (Kyutai) 其他作者: Manu Orsini (Kyutai, 推断) Eugene Kharitonov (Meta FAIR, 推断) Neil Zeghidour (Google DeepMind, 推断) Karen Livescu (纽约大学, 推断) Alexandre Défossez (Kyutai, 推断) 注:论文正文未直接列出作者机构,但根据作者邮箱后缀(@kyutai.org, @meta.com, @google.com, @nyu.edu)及致谢内容推断。 💡 毒舌点评 亮点:巧妙地将RAG“塞进”了全双工语音对话的严格时间缝隙里,实现了“边说边查”的真人感,技术路线设计得很优雅。槽点:整个系统依赖大量合成数据训练和复杂的多模块协作(ASR+LLM检索+语音模型),像一台精密但脆弱的瑞士钟表,实际部署和维护成本恐怕不低。 🔗 开源详情 代码:论文提到推理代码已在GitHub开源:https://github.com/kyutai-labs/moshi-rag。 模型权重:论文未明确说明MoshiRAG的模型权重是否公开。原始Moshi模型权重是公开的。 数据集:论文中描述的合成训练数据集未提及是否公开发布。 在线Demo:论文提供了在线演示地址:https://moshi-rag.kyutai.org。 依赖的开源项目:论文中明确引用的开源项目包括:Moshi(基础模型)、Gemma 3(用于数据生成和检索)、ARC-Encoder(参考编码)、Tavily(搜索API)、HaluEval、Natural Questions等数据集。 📌 核心摘要 本文提出了MoshiRAG,这是首个集成检索增强生成功能的全双工语音语言模型。要解决的问题是全双工语音模型在保持实时交互性的同时,事实准确性不足的挑战。核心方法是基于Moshi模型,设计了一个异步检索框架:前端全双工模型在遇到知识密集型查询时预测一个特殊的检索触发词<ret>,随后在继续与用户对话的同时,后台异步调用基于文本的检索系统(如LLM或搜索引擎)获取参考资料;利用语音响应中“关键词延迟”的自然时间差(即从开始说话到说出关键信息的时间),在关键内容生成前将检索到的信息注入模型。主要发现显示,MoshiRAG在多项问答基准测试上显著提升了事实准确性(如在TriviaQA上从22.8%提升至73.7%),性能可媲美甚至超越多数非全双工语音模型,同时保持了全双工系统低延迟、高交互性的优势。此外,系统展现出良好的泛化能力,在未见过的数学推理任务上也取得不错效果。实际意义在于为构建更可靠、知识更丰富的实时语音AI助手提供了一条可行路径。局限性在于目前依赖合成数据进行训练,且系统复杂度较高。 ...

2026-04-19

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

📄 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Changhao Cheng (上海交通大学,人工智能学院) 通讯作者:Yanmin Qian (上海交通大学,人工智能学院;听觉认知与计算声学实验室,教育部人工智能重点实验室) (推断,基于其资深作者身份及实验室负责人角色) 其他作者: Wei Wang (上海交通大学,人工智能学院) Wangyou Zhang (上海交通大学,计算机科学学院,听觉认知与计算声学实验室,教育部人工智能重点实验室) Dongya Jia (上海交通大学,人工智能学院) Jian Wu (字节跳动 Seed) Zhuo Chen (上海交通大学,人工智能学院) 💡 毒舌点评 亮点在于它像一个严谨的“调音师”,系统性地探索了语音VAE蒸馏损失的“调音旋钮”(时间轴、维度轴、联合边际),并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方(JMAS-VAE)。槽点则是这“新配方”的调制过程有点复杂,引入的自适应权重和边际参数增加了训���和调参的“玄学”成分,且实验结论高度依赖于所选的教师模型(WavLM),换一个“老师”可能结论又得重写。 🔗 开源详情 代码:论文明确提及代码已开源,GitHub地址为:https://github.com/changhao-cheng/JMAS-VAE。使用框架为 stable-audio-tools。 模型权重:论文中未明确说明是否公开模型权重,但根据开源代码的惯例,很可能会在GitHub或HuggingFace上提供。论文提到“release models and code”。 数据集:训练和评估所用数据集(Libriheavy, LibriSpeech, LibriTTS)均为公开学术数据集。 预训练权重:使用了公开的预训练模型:WavLM Large (用于提取教师特征)、DAC编码器和BigVGAN解码器 (作为VAE骨干)。 在线Demo:论文中未提及在线演示。 依赖的开源项目: stable-audio-tools (Stability AI) WavLM (Microsoft) F5-TTS (用于生成任务评估) Vocos (用于重建任务评估的声码器) Libriheavy, LibriSpeech, LibriTTS 数据集。 📌 核心摘要 本文针对现有语音变分自编码器(VAE)在统一语音重建、理解和生成任务上表现不平衡的问题(尤其是理解能力差),系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习(SSL)模型知识蒸馏到VAE潜在空间的方式:时间轴对齐(TAS)、维度轴对齐(DAS)和联合边际对齐(JMAS)。关键创新在于提出了JMAS损失,它不仅进行逐帧对齐,还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外,论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明,采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡,显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性,为设计统一的语音表示提供了重要见解。 ...

2026-04-19

ProSDD: Learning Prosodic Representations for Speech Deepfake Detection against Expressive and Emotional Attacks

📄 ProSDD: Learning Prosodic Representations for Speech Deepfake Detection against Expressive and Emotional Attacks #语音伪造检测 #对比学习 #预训练 #自监督学习 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Aurosweta Mahapatra(约翰霍普金斯大学,语言与语音处理中心 (CLSP)) 通讯作者:Berrak Sisman(约翰霍普金斯大学,语言与语音处理中心 (CLSP)),Nicholas Andrews(约翰霍普金斯大学,语言与语音处理中心 (CLSP))(根据联系邮箱和致谢推断) 其他作者: Ismail Rasim Ulgen(约翰霍普金斯大学,语言与语音处理中心 (CLSP)) Kong Aik Lee(香港理工大学) 💡 毒舌点评 亮点:这篇论文的“脑回路”很清奇,不教模型去死记硬背伪造品的长相,而是先让它闭关修炼,通过“听”大量真实语音来内化人类说话时抑扬顿挫的“气韵”(韵律)。这种“先学正道,再辨邪魔”的思路,确实比单纯刷题(拟合伪造数据)高明不少,在面对情感丰富的“影帝级”伪造语音时,表现出了惊人的韧性。 槽点:不过,这套“两阶段修炼法”听起来就挺费算力的,训练步骤繁琐,而且为了“气韵”修炼,还得额外准备一个韵律编码器和说话人嵌入模型,系统复杂度直线上升。最让人嘀咕的是,论文里对“韵律不一致”的具体定义和建模方式,感觉还有点“玄学”,可解释性有待加强。 🔗 开源详情 代码:论文中明确提到将公开代码,并提供了一个项目网站链接:https://prosdd.github.io/ProSDD_website/。预计代码将托管在GitHub上。论文中未提供具体的GitHub仓库地址和stars数量。 模型权重:论文中未明确说明是否会公开预训练或最终的模型权重。 数据集:实验中使用的所有数据集(LibriSpeech, ASVspoof系列, EmoFake, EmoSpoof-TTS)均为公开学术数据集,可通过官方渠道获取。 预训练权重:模型基于公开的预训练XLS-R骨干。 在线Demo:论文中未提及。 依赖的开源项目:论文中明确引用的开源模型/工具包括:XLS-R (SSL backbone), ECAPA-TDNN (说话人嵌入), RawBoost (数据增强), 以及作为基线的RawNet2, AASIST, XLSR-SLS。 📌 核心摘要 这篇论文旨在解决当前语音深度伪造检测(SDD)系统在面对富有表现力和情感的合成语音攻击时泛化能力不足的核心问题。现有方法过度依赖伪造数据,容易学习数据集特定的伪影,而非自然语音的可迁移特征。为此,作者提出了ProSDD,一个创新的两阶段框架。第一阶段,模型仅使用真实语音,通过一个受监督的掩码预测任务,学习以说话人身份为条件的韵律变化(基于音高、语音活动和能量),从而内化自然语音的韵律多样性。第二阶段,模型在欺骗分类任务中,将上述韵律预测任务作为辅助监督目标进行联合优化,以保持对韵律结构的敏感性。实验表明,ProSDD在ASVspoof 2019和2024基准上均优于基线模型,尤其在表达性数据集(如EmoFake和EmoSpoof-TTS)上实现了显著的性能提升(例如,将ASVspoof 2024的EER从25.43%降至16.14%)。该研究证明了显式建模自然语音韵律变异性对于提升SDD系统泛化能力的关键作用。其局限性可能在于对韵律特征的依赖,以及两阶段训练带来的额外计算开销。 🏗️ 模型架构 ProSDD的整体架构基于一个预训练的XLS-R(wav2vec 2.0的多语言版本)自监督学习(SSL)骨干网络,并对其进行两阶段微调。 ...

2026-04-19

Room compensation for loudspeaker reproduction using a supporting source

📄 Room compensation for loudspeaker reproduction using a supporting source #音频分类 #声学场景分析 #信号处理 #空间音频 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:James Brooks-Park(奥尔登堡大学声学组 & “Hearing4all”卓越集群) 通讯作者:Steven van de Par(奥尔登堡大学声学组 & “Hearing4all”卓越集群)- 推断,基于其在作者列表中的最后位置及领域惯例 其他作者: Søren Bech(Bang & Olufsen A/S 研究部,奥尔堡大学电子系统系) Jan Østergaard(奥尔堡大学电子系统系) 💡 毒舌点评 亮点:巧妙利用“哈斯效应”(优先效应)和辅助声源,实现了对直达声与混响声比例的独立控制,这是传统房间均衡技术无法做到的,为高保真音响系统的房间补偿开辟了新思路。槽点:主观听音测试的样本量(8人)偏小,且均为声学专家,结论的普适性有待商榷;提出的滤波器设计在低频区域因相位相互作用仍存在性能瓶颈,离“完美补偿”还有距离。 🔗 开源详情 论文中未提及任何代码、模型权重或数据集的开源计划。GitHub Issue链接指向的是arXiv论文HTML版本的错误报告页面,并非项目代码库。 📌 核心摘要 本文针对传统房间补偿技术仅能修正频谱(音色)而无法控制空间感知(如距离感)的局限,提出了一种创新的补偿方法。该方法通过引入一个延迟的、经过频谱滤波的辅助扬声器,选择性地向房间的混响声场中添加能量,从而在修正主扬声器频谱不规则性的同时,能够主动调节直达声与混响声比。关键创新在于利用听觉的“优先效应”将辅助声源隐藏在感知的混响场中,使其不被听为独立的声源。主观听音实验表明,该方法的性能与成熟的商业补偿算法相当,且优于未经补偿的播放和简单的反向滤波。技术分析证实了该方法能有效改变DRR,但客观频谱偏差指标略逊于传统反向滤波,凸显了主观感知与客观测量之间的差异。 🏗️ 模型架构 本论文提出的并非一个基于深度学习的“模型”,而是一种基于声学信号处理的“方法”或“系统”。其核心架构是一个双扬声器系统(主扬声器+辅助扬声器)及相应的信号处理链。 输入:原始音频信号。 输出:经过处理的、驱动主扬声器和辅助扬声器的两路信号,最终在听音位置合成目标声场。 处理流程: 信号分配:原始音频信号同时送入主扬声器路径和辅助扬声器路径。 辅助路径处理: 延迟:辅助信号被延迟Δ(t)(论文中设定为10毫秒),以激活“优先效应”,确保听觉上声像定位于主扬声器。 滤波:辅助信号通过一个精心设计的频率响应滤波器 w(ω)。该滤波器的设计目标是:当辅助扬声器的输出(经房间传输后)与主扬声器的输出在听音点叠加时,整体的功率谱响应接近一个预设的、平滑的目标响应 |d(ω)|。 去相关:为了确保两个扬声器的能量是“相加”而非“相干干涉”,辅助信号还会通过一个“天鹅绒噪声”序列进行去相关处理,改变其相位特性而不影响幅度响应。 主路径处理:主扬声器通常不进行额外处理(或仅进行基础放大),其直达声保持原样。 声学叠加:主扬声器的直达声与混响声,以及经延迟、滤波、去相关后的辅助扬声器信号(在感知上被归类为混响声)在房间中物理叠加,形成最终的听觉事件。 关键设计选择与理由: 为何用辅助声源:传统方法通过滤波器同时修改直达声和混响声,无法独立控制DRR。辅助声源提供了额外的自由度,允许仅向混响声场“注入”能量。 为何延迟10ms:这是激活优先效应的典型范围(2-50ms),10ms被选为在有效隐藏辅助声源和避免产生可察觉回声之间的折衷点。 为何滤波器设计目标是功率谱相加:由于辅助信号被延迟和去相关,它与主信号在时域上非相干,因此在能量上相加。设计目标 |d(ω)| = sqrt(|h_p(ω)|^2 + |w(ω)h_s(ω)|^2) 正是基于此能量叠加模型。 目标函数约束:为了避免辅助声源能量过大破坏优先效应,以及避免其试图抵消主扬声器能量(这可能导致不稳定或不自然听感),目标函数 d(ω) 被施加了两个约束:1) 必须不小于主扬声器响应 h_p(ω);2) 不能超过 h_p(ω) 加上一个与频率相关的阈值 T(ω)(如70-500Hz为10dB,500Hz-20kHz为6dB)。 💡 核心创新点 概念创新:通过辅助声源控制DRR:首次提出利用一个延迟的辅助扬声器,选择性地向混响声场添加能量,从而实现对直达声与混响声比的频率选择性控制。这是对传统“频谱均衡”范式的根本性扩展,将“空间补偿”纳入房间补偿范畴。 方法创新:利用优先效应隐藏辅助声源:巧妙地应用听觉心理声学原理(优先效应),通过精确的延迟和去相关处理,使辅助扬声器在物理上存在,但在感知上被整合到主扬声器的混响尾迹中,不被识别为独立声源。这解决了引入额外声源可能破坏声像定位的核心难题。 滤波器设计创新:基于能量叠加的约束优化:提出了一个基于能量叠加模型的滤波器设计公式,并创新性地引入了两大约束(避免能量抵消、避免破坏优先效应)来修正目标函数,确保了方法的物理可行性和感知稳定性。 系统优势:规避传统逆滤波的缺陷:由于修改仅作用于感知上的混响声场,该方法天然避免了传统房间逆滤波中常见的预振铃、相位失真和空间鲁棒性差等问题,因为这些伪影在直接声中会被明显感知,但在随机的混响场中则不那么显著。 🔬 细节详述 训练数据:不适用。本方法非数据驱动,无需训练集。滤波器设计基于实测的扬声器-房间脉冲响应。 损失函数:不适用。滤波器设计是基于目标频谱匹配的解析计算,而非损失函数优化。 关键超参数与实现细节: 延迟时间 Δ(t):10毫秒(在听音点测量)。 滤波器长度:2^13个采样点(在44.1kHz采样率下约0.186秒)。 频率补偿范围:70 Hz 至 20 kHz。 优先效应能量阈值 T(ω):70-500 Hz为10 dB;500 Hz-20 kHz为6 dB。 目标函数:模拟一个在恒定混响时间房间内、具有典型指向性特性的扬声器响应,表现为从20Hz到20kHz下降3dB的平滑曲线。 脉冲响应调理:为提升空间鲁棒性,采用两个相距17cm(模拟双耳间距)的麦克风位置平均功率响应,并对幅度响应进行1/3倍频程平滑。 去相关方法:使用“天鹅绒噪声”序列。 训练/推理策略:不适用。系统运行时是实时信号处理:输入音频被分路,一路直接驱动主扬声器,另一路经过延迟、滤波、去相关后驱动辅助扬声器。 📊 实验结果 主观偏好评价(图8): 对比条件:未补偿立体声、简单反向滤波、商业补偿算法、本文提出方法。 结果(偏好评分,0-100): 未补偿立体声:~60 反向滤波:~20 (显著低于其他所有条件,p<0.001) 商业算法:~70 提出方法:~75 显著性:提出方法显著优于未补偿立体声(p<0.05, Cohen‘s d=0.69)和反向滤波。提出方法与商业算法之间无显著差异(p=0.303)。 后测问卷:8名被试中无人报告感知到辅助扬声器作为独立声源存在。 技术评估(频谱偏差,表3): 指标:1/3倍频程平滑后的频谱偏差(SD),越低越好。 结果: 传统反向滤波:左右声道均为 1.1 dB 提出方法:左声道 4.5 dB,右声道 4.7 dB 结论:在纯粹的频谱匹配精度上,传统方法显著优于提出方法(平均差异约3.5 dB)。 DRR分析(图10): 模拟环境:使用RAZR软件模拟与主观实验相同的房间。 结果: 未补偿:DRR随频率升高而显著增加(符合指向性规律)。 传统补偿:DRR曲线与未补偿几乎重合,证实其无法独立控制DRR。 提出方法:DRR曲线更平坦且整体数值更低,证明其能有效向混响场添加能量并改变DRR的频率特性。 🖼️ 图片与表格 图1:展示了扬声器-房间脉冲响应中直达声、早期反射和晚期混响的分离。 | 保留: 是 - 理解论文核心概念(直达声与混响声分离)的基础。 图4:展示了延迟后的辅助声源如何仅影响脉冲响应的混响部分,而不改变直达声峰值。 | 保留: 是 - 直观说明方法物理原理的关键示意图。 图5:展示了目标函数在两种约束(避免抵消、避免破坏优先效应)下的修正过程。 | 保留: 是 - 解释滤波器设计核心思想的关键图表。 图7:主观实验的房间尺寸和扬声器布局图。 | 保留: 是 - 对于评估实验有效性和可重复性很重要。 图8:主观偏好评分结果图,包含均值、置信区间和显著性标记。 | 保留: 是 - 呈现核心主观实验结果。 图9:提出方法与传统方法补偿后的频率响应对比图(左右声道)。 | 保留: 是 - 呈现核心技术评估结果,直观显示两种方法在频谱修正上的差异。 图10:未补偿、传统补偿和提出方法下的DRR随频率变化曲线。 | 保留: 是 - 验证论文核心理论主张(控制DRR)的关键证据图。 其他图片:论文中还有一些未标注的黑色或简单线条图,可能是转换错误或占位符。 | 保留: 否 - 无信息价值。 表格数据复述: 表3(频谱偏差): 算法:传统反向滤波 | 左声道SD: 1.1 dB | 右声道SD: 1.1 dB 算法:提出方法 | 左声道SD: 4.5 dB | 右声道SD: 4.7 dB 表1(音频刺激):列出了三段测试音乐的信息(曲名、艺术家、流派、时间段)。 表2(后测问卷结果):8名被试均为自认听力正常者,其中6人定期参与听音训练,无人感知到额外声源。 📸 论文图片 ...

2026-04-19

Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System

📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System #音频事件检测 #声源定位 #麦克风阵列 #自监督学习 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Yi Hong(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 通讯作者:从论文中无法明确判断通讯作者。作者列表按顺序排列,Kevin Hung可能为资深作者。 其他作者: Mingyang Wang(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Yalin Liu(香港科技大学,电子与计算机工程系) Yaru Fu(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Kevin Hung(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 💡 毒舌点评 亮点:论文提出的“两阶段”处理思路(哨兵+响应者)很务实,直击了无人机载系统能耗与性能的核心矛盾,用轻量级MAE做“警卫”,只在必要时唤醒“专家”进行精确定位,逻辑闭环设计得不错。 槽点:实验部分略显“理想国”,在高度受控的仿真环境下验证,缺乏真实复杂环境(如多风、多干扰源)下的鲁棒性测试,且对比的“SOTA方法”基本是自己系统的消融,说服力打了折扣。 🔗 开源详情 代码:论文提到“GitHub Issue”,并给出了一个不完整的链接(https://arxiv.org/abs/2604.12455v1 中的 “GitHub Issue ×” 可能是模板残留),但未提供明确的开源代码仓库地址。无法确认代码是否已开源。 模型权重:论文中提到“多个MAE模型”被预训练和微调,但未说明是否公开这些模型权重,也未提及在Hugging Face等平台发布。 数据集:论文详细描述了所构建的“噪声数据集”和“受害者声音数据集”的来源和规模,但未明确说明是否会公开这些数据集。数据集部分依赖于其他公开数据集(如无人机噪音、环境音、ASVP数据集)。 预训练权重:未提及提供基于其他模型的预训练权重。 在线Demo:未提及。 论文中引用的开源项目:论文引用了多个数据集(如 [dataset_drone], [audio_desert1], [audio_forest], [landry2020asvp]),但未具体列出所依赖的软件框架或工具库(除了提到PyTorch)。 总结:论文对开源计划的披露非常有限,主要依赖文字描述和引用,未提供直接的可访问资源链接。 📌 核心摘要 本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题,提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架:在“哨兵阶段”,系统利用单通道音频和掩码自编码器(MAE)对梅尔频谱图进行重构,通过计算重构误差来检测异常声音(如呼救),此阶段功耗低,用于持续监听;一旦检测到异常,即触发“响应者阶段”,利用所有麦克风通道进行基于到达时间差(TDoA)的精确方向估计。为进一步提高定位精度,系统还设计了连续定位机制,通过优化无人机沿轨迹多次观测得到的方向向量,交叉计算出受害者的位置。实验表明,在模拟的沙漠和森林场景中,该系统能有效检测受害者声音,并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习(MAE)与经典阵列信号处理相结合,实现了一种在计算和能耗约束下可靠的声学感知方案。 🏗️ 模型架构 “Sky-Ear”系统是一个端到端的处理流程,其整体架构可分为三个核心模块:哨兵阶段、响应者阶段和连续定位模块。 输入:M通道的连续音频流,由无人机搭载的环形麦克风阵列(中心1个,周围均匀分布M-1个)采集。 哨兵阶段(Sentinel Stage): 功能:低功耗、持续性的异常声音检测。 输入:仅使用中心麦克风(通道0)的单通道音频片段 a0[Δt]。 核心模型:掩码自编码器(MAE)。 流程: a. 梅尔谱图转换:将音频片段转换为二维梅尔频谱图 X ∈ R^(F×T)。 b. 分块与掩码:将频谱图分割为 N 个大小为 P×P 的图像块。随机掩码掉其中比例为 ρ 的块(用零向量替代),得到掩码后的块序列 Ẍ。 c. 编码器:一个标准的Transformer编码器。输入是未被掩码的块序列,每个块被展平并通过线性投影和位置编码后,送入Transformer。输出是编码后的特征序列 Z_enc。 d. 解码器:一个轻量级的Transformer解码器。输入是编码特征 Z_enc(对应未掩码块)和可学习的掩码标记 t_mask(对应被掩码块)的拼接序列。解码器输出每个块(包括掩码块)的预测特征。 e. 重构与异常判断:解码器的输出经线性层映射回原始像素空间,重构出完整的梅尔频谱图 X̃。计算原始频谱图 X 与重构图 X̃ 之间重建误差最大的前K%块(Top-K策略)的均方误差,作为异常分数 D_re。若 D_re 超过预设阈值 D_th,则判定检测到异常,触发响应者阶段。 响应者阶段(Responder Stage): 功能:被哨兵阶段触发后,进行高精度的单次方向估计。 输入:从环形缓冲区中提取的、包含异常声音的M通道音频序列 A_b[t_trig]。 核心方法:基于广义互相关-相位变换(GCC-PHAT)的TDoA估计与最小二乘法求解。 流程: a. TDoA估计:对于每个外围麦克风 m,计算其与中心麦克风 0 之间的TDoA。通过计算两者音频的互相关谱,在时延域寻找峰值对应的 TDoA_m。 b. DoA求解:根据已知的麦克风几何坐标 r_m 和估计的TDoA值(转换为距离差 V_m = TDoA_m * v_s),构建一个超定线性方程组 G * DoA = V。通过最小二乘法求解得到最优的到达方向单位向量 DoA*。 连续定位模块(Continuous Localization): 功能:整合多次观测结果,优化受害者位置估计。 输入:K次观测中每次观测时无人机的已知3D坐标 p_k 和由响应者阶段计算出的方向向量 DoA_k*。 核心方法:加权最小二乘交叉点优化。 流程:将每次观测视为一条从无人机位置 p_k 出发、方向为 DoA_k* 的射线。理论上,所有射线应相交于受害者位置 s。通过构建一个优化问题,最小化所有射线到估计点 s* 的加权距离平方和,从而解出最优的受害者3D坐标 s*。权重 w_k 由该次观测的TDoA互相关峰值强度决定,信号质量越高的观测权重越大。 输出:受害者的声音事件警报及其3D空间坐标。 💡 核心创新点 两阶段(哨兵-响应者)音频处理框架: ...

2026-04-19

SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion

📄 SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion #说话人识别 #少样本 #数据增强 #迁移学习 🔥 评分:8.3/10 | arxiv 👥 作者与机构 论文作者:Zhiyong Chen, Shuhang Wu, Yingjie Duan, Xinkang Xu, Xinhui Hu 机构信息:论文全文未明确标注作者所属机构。根据作者姓名、研究内容及开源仓库(GitHub)信息推断,作者可能来自**小米(Xiaomi)**或相关研究机构。论文中提及的“Xiaomi LLM Core Team”可能为相关团队,但未在作者单位中直接列出。 第一作者/通讯作者:无法从提供的文本中明确判断第一作者和通讯作者。论文中注明“Zhiyong Chen and Shuhang Wu contributed equally.”(贡献均等)。 💡 毒舌点评 亮点:这篇论文将“对数归一化”(LogitNorm)和“对抗性互惠点学习”(SpeakerRPL)这两个强大的开集学习技术进行了“联姻”,并巧妙地加入了“自适应锚点”来动态建模未知说话人,理论上有板有眼。更实在的是,它承认了少样本微调的不稳定性,并用一套基于特征分布均匀性的模型选择与融合策略来“稳住局面”,最终在Vox1-O*测试集上将EER暴降93%,效果惊人。 槽点:方法听起来像是在已有技术上做“排列组合”加“工程优化”(模型融合与选择),原创性的理论突破有限。此外,模型选择策略依赖于特征相似矩阵的特征值方差,这个指标的普适性和调参敏感性在论文中论证得不够充分,更像是一个为特定实验“量身定做”的后处理技巧。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/zhiyongchenGREAT/Few-shot-Robust-Speaker-TTS/tree/v2.1。基于PyTorch框架。 模型权重:论文中未明确说明是否公开发布微调后的适配器权重或完整的SpeakerRPL V2模型。预训练基础模型ELec2NetV2应是公开可用的。 数据集:实验所用数据集(VoxCeleb2, 3D-Speaker, ESD, LibriTTS, AiShell)均为公开学术数据集。新构建的Vox1-O*测试集划分可能随代码开源。 预训练权重:使用ELec2NetV2预训练说话人基础模型作为底座。 在线Demo:论文中未提及在线演示。 依赖的开源项目:GPT-SoVITSv2(用于语音合成)。 📌 核心摘要 本文旨在解决开放集说话人识别中的鲁棒性问题,即系统在仅有少量目标说话人注册样本的情况下,需同时准确识别已知说话人并可靠拒识未知说话人。作者在先前SpeakerRPL V1框架基础上提出了三项关键改进:1)设计了一个增强的损失函数,将互惠点学习(RPL)与对数归一化(LogitNorm)相结合,并引入自适应锚点学习,以约束目标说话人表征并提升对未知分布的建模能力;2)提出了一种模型融合策略,通过聚合多个随机初始化训练得到的适配器模型的分数,来稳定少样本微调过程,减少结果随机性;3)设计了一个基于特征分布均匀性(通过中心点和互惠点相似矩阵的特征值方差衡量)的自动模型选择策略,以筛选出最适合融合的候选模型。在VoxCeleb、3D-Speaker和ESD等多个数据集上的实验表明,该方法在各项开集识别指标上均优于基线。特别是在新构建的Vox1-O*测试集上,等错误率(EER)从1.28%降至0.09%,相对降低约93%,验证了方法的有效性和鲁棒性。其局限性在于模型选择策略增加了流程复杂性,且对中文等方言场景的验证尚可进一步扩展。 🏗️ 模型架构 模型整体基于“预训练基础模型 + 轻量级适配器微调”的范式。 ...

2026-04-19

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者: Xiao Zhou(上海人工智能实验室,上海交通大学) Zeqian Li(上海人工智能实验室,上海交通大学) Ya Zhang(上海人工智能实验室,上海交通大学) Yanfeng Wang(上海人工智能实验室,上海交通大学) 💡 毒舌点评 亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 🔗 开源详情 代码:已开源。GitHub地址:https://loiesun.github.io/spotsound/ (指向项目主页,代码应托管于此)。 模型权重:已公开。在HuggingFace上发布,包括基于Qwen2-Audio和Audio Flamingo 3的两个变体(SpotSound-Q和SpotSound-A)。 数据集: SpotSound-Bench:已公开,包含300个音频-query-timestamp三元组,可通过项目主页获取。 训练数据:论文中提到的合成数据管道和混合数据集的具体发布情况未明确说明,但强调“Code, models and benchmark are released”。 在线Demo:论文中未提及在线Demo地址。 引用的开源项目:依赖于Qwen2-Audio、Audio Flamingo 3、Whisper、DeepSeek-v3、Qwen2等开源模型。 📌 核心摘要 本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型,其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取: 原始输入:一段音频 𝒜 和一个自然语言查询 ℚ。 音频编码:音频被重采样至16kHz,转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器(如Whisper-large-v3),该编码器包含一个步长为2的池化层,将时间分辨率压缩,每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新:时间戳交错序列构建 (Timestamp-Interleaved Sequence) ...

2026-04-19

StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #音频安全 #音频取证 #半监督学习 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:Zhentao Liu(根据arXiv页面及GitHub仓库L1uZhentao推断,可能为苏黎世联邦理工学院(ETH Zurich)或相关机构,论文中未明确标注) 通讯作者:Milos Cernak(根据arXiv页面推断,可能为苏黎世联邦理工学院(ETH Zurich)或相关机构,论文中未明确标注) 其他作者:无 机构说明:论文全文未提供明确的作者单位信息。根据arXiv提交者信息及开源仓库L1uZhentao推断,作者可能来自苏黎世联邦理工学院(ETH Zurich) 的计算机科学系或相关实验室。通讯作者Milos Cernak在音频处理领域较为活跃。此处信息为推断,论文中未明确说明。 💡 毒舌点评 亮点是把图像取证里的“半脆弱水印”思想成功移植到音频深度伪造检测,实现了“对良性处理免疫,对恶意篡改过敏”的智能封条,思路清晰且实验验证扎实。槽点在于模拟“恶意变换”仅用了音高偏移,与真实世界中复杂的TTS/VC攻击存在差距,且16比特的水印容量在实际部署中可能略显单薄,更像个概念验证而非工业级方案。 🔗 开源详情 代码:论文中明确提供了GitHub链接:https://github.com/L1uZhentao/deepfake_benchmark。该仓库应包含StreamMark的实现及文中提到的深度伪造基准测试数据集。 模型权重:论文中未明确提及是否公开预训练模型权重。通常此类开源项目会附带权重,但需查阅其GitHub仓库确认。 数据集:论文开源了其构建的深度伪造基准测试集,包含多种恶意(TTS, VC, 编辑)和良性(风格转移)AI转换的音频对。 在线Demo:论文中未提及。 依赖开源工具:论文中未详细列出,但实现必然依赖如PyTorch、Torchaudio等常见深度学习和音频处理库。 📌 核心摘要 本文针对生成式AI带来的音频深度伪造威胁,提出了一种名为StreamMark的主动防御框架。该框架是一种基于深度学习的半脆弱音频水印系统,其核心创新在于重新定义了水印的目标:不是追求对所有变换的绝对鲁棒,而是被设计为对保持语义的良性变换(如压缩、噪声)保持鲁棒,而对改变语义的恶意篡改(如语音转换、编辑)变得脆弱。方法上,它采用独特的编码器-失真层-解码器架构,将水印嵌入STFT的复数域(实部与虚部),并通过一个包含良性与恶意变换集的失真层进行对抗性训练,使模型学会区分变换的语义属性。实验表明,StreamMark在保持高不可感知性(PESQ 4.20)和对Opus编码等良性变换高鲁棒性(>99.89%)的同时,能有效对抗多种深度伪造攻击:面对TTS、语音转换和编辑攻击时,水印恢复准确率降至随机猜测水平(~50%),而面对良性AI风格转移时,准确率保持在98%以上。该研究为音频真实性认证提供了从被动检测到主动标记的范式转变。 🏗️ 模型架构 StreamMark采用端到端的编码器-失真层-解码器三阶段架构,其完整流程与核心组件如下: 编码器层: 输入:原始音频波形 + 16比特水印信息。 流程: a. 复数STFT:将音频转换为短时傅里叶变换的复数谱,分离为实部和虚部。 b. 水印编码:16比特信息通过一个Watermark Encoder(512维全连接层+LeakyReLU)进行编码。 c. 双路特征提取与嵌入:实部和虚部分别通过独立的Real Encoder和Imaginary Encoder(均为6层卷积网络,基本单元为Skip-Gated Block)提取特征。编码后的水印信息被分别注入到实部和虚部的特征中,通过Real Embedder和Imaginary Embedder(结构同编码器)进行融合。 d. 逆STFT:将修改后的实部和虚部谱图通过逆短时傅里叶变换合成为含水印的音频波形。 设计理由:复数域嵌入利用了人耳对相位失真相对不敏感的特性,相比仅修改幅度谱的方法(如Timbre Watermarking),能在保证不可感知性的前提下,实现更有效的水印嵌入。 失真层: ...

2026-04-19

TokenSE: a Mamba-based discrete token speech enhancement framework for cochlear implants

📄 TokenSE: a Mamba-based discrete token speech enhancement framework for cochlear implants #语音增强 #模型类 #Mamba #人工耳蜗 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Hsin-Tien Chiang(根据论文格式推断为第一作者,机构信息需从全文获取,摘要中未明确) 通讯作者:John H. L. Hansen(根据论文格式推断为通讯作者,机构信息需从全文获取,摘要中未明确) 其他作者:无(根据摘要仅列出两位作者) 机构信息:论文摘要中未提供作者所属机构。根据arXiv论文的常见信息,作者可能来自某大学或研究机构的语音与信号处理实验室,但无法从摘要中确认。 💡 毒舌点评 亮点是把最近大火的Mamba模型引入到语音增强领域,并且非常务实地瞄准了人工耳蜗用户这一真实且迫切的场景,还做了主观听音测试,这比单纯刷榜更有意义。槽点是,摘要里对模型细节和实验数据的描述过于“简练”,让人怀疑是不是把详细内容都藏在正文里了,而且“离散令牌”这个概念在摘要里没有展开,有点让人摸不着头脑。 🔗 开源详情 论文摘要中未提及任何关于代码、模型权重、数据集或在线Demo的开源计划。相关信息需要查阅论文全文或作者主页。 📌 核心摘要 本文针对人工耳蜗用户在噪声和混响环境下语音理解困难的问题,提出了一种名为TokenSE的语音增强框架。该框架的核心创新在于将语音增强任务从传统的时频域或波形域转换到神经音频编解码器的离散令牌空间中进行。具体而言,它使用一个基于Mamba(一种具有线性计算复杂度的状态空间模型)的模型,直接从退化语音对应的受损令牌序列中,预测出最可能的干净语音令牌序列。实验表明,该方法在域内和域外数据集上的客观指标均优于基线方法。更重要的是,针对人工耳蜗用户的主观听力测试证实,在恶劣的噪声和混响环境下,该方法能显著提升语音可懂度。其主要贡献在于将高效的Mamba架构与离散令牌表示相结合,为资源受限且对延迟敏感的人工耳蜗等助听设备提供了一种有前景的实时增强方案。 🏗️ 模型架构 根据摘要描述,TokenSE的整体架构流程如下: 输入:一段退化(含噪声、混响)的语音波形。 编码(离散化):首先,使用一个预训练的神经音频编解码器(如SoundStream、EnCodec等)的编码器,将连续的语音波形转换为离散的令牌(token)序列。这一步将原始音频压缩并映射到一个紧凑的离散表示空间。 核心增强模型(Mamba):将上一步得到的受损令牌序列输入到一个基于Mamba的模型中。该模型的核心是一个选择性状态空间模型(S6),其关键机制是输入依赖的选择:模型会根据当前输入的令牌动态调整其内部状态的更新规则(例如,决定“记忆”哪些信息、“忘记”哪些信息)。这种机制使得Mamba能够以线性计算复杂度处理长序列,避免了Transformer自注意力机制的二次方复杂度瓶颈。模型的目标是学习从受损令牌序列到干净令牌序列的映射。 输出(解码):将Mamba模型预测出的干净令牌序列,送入同一个预训练神经音频编解码器的解码器中,重建出增强后的语音波形。 关键设计选择理由: 离散令牌空间:相比直接在波形或频谱上操作,在离散令牌空间进行增强有几个潜在优势:(1) 与下游语音编解码、传输任务更易结合;(2) 可能简化增强任务,因为离散表示已剥离了部分无关的声学细节;(3) 便于利用在大规模音频数据上预训练的编解码器所学到的通用表示。 Mamba替代Transformer:对于语音这类长序列数据,Mamba的线性复杂度在训练和推理效率上具有理论优势,尤其适合对实时性和计算功耗有严格要求的人工耳蜗或助听器应用场景。 💡 核心创新点 在离散音频令牌空间进行语音增强:这是最核心的范式创新。它将语音增强任务重新定义为“受损离散序列到干净离散序列”的翻译或校正问题,而非传统的信号重建问题。 引入Mamba架构处理语音增强任务:首次将Mamba(选择性状态空间模型)应用于语音增强领域,利用其线性复杂度和强大的序列建模能力,作为Transformer的高效替代方案。 针对人工耳蜗应用的端到端优化与验证:框架设计考虑了人工耳蜗处理链路的特点(使用离散表示),并且通过主观听力实验直接在CI用户群体上验证了其提升语音可懂度的实际效果,这比单纯的客观指标更具说服力。 (潜在创新)跨模态/跨表示学习:如果编解码器和Mamba增强模型是分开训练或联合优化的,那么整个框架可能涉及到在连续波形、离散令牌以及增强目标之间的跨表示学习,这是一个有趣的学习范式。 🔬 细节详述 注意:以下大部分技术细节在提供的摘要中并未给出,需从论文正文中获取。此处基于常见实践和摘要暗示进行合理推测,并明确标注“缺失”。 训练数据:摘要中提及在“in-domain”和“out-of-domain”数据集上进行评估。具体数据集名称、规模、噪声类型、混响条件等信息缺失。推测可能使用如DNS Challenge、WHAM!、或自建的人工耳蜗模拟数据集。 损失函数:缺失。可能包括:1)交叉熵损失:用于衡量预测的令牌索引与干净语音真实令牌索引之间的差异;2)重建损失(如L1/L2 Loss):在波形或特征层面约束增强后语音与干净语音的相似性;3)可能结合了感知损失或对抗损失以提升语音质量。 训练策略:缺失。关键超参数如学习率、batch size、优化器(如AdamW)、训练步数、Mamba模型的具体层数、隐藏状态维度、以及编解码器与增强模型是联合训练还是分阶段训练等,均未提供。 关键超参数:缺失。Mamba模型的状态维度(D)、扩展状态空间维度(N)、以及卷积核大小等。 训练硬件:缺失。 推理细节:缺失。由于是离散令牌预测,可能采用贪婪搜索或束搜索来生成令牌序列。 数据增强/正则化:缺失。可能使用了语音增强中常见的数据增强方法,如随机添加噪声、混响、速度扰动等。 📊 实验结果 注意:以下所有具体数值均未在摘要中提供,需从论文正文的表格和图表中获取。此处仅描述框架。 ...

2026-04-19

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 🔗 开源详情 代码:论文中提到“Please view the build logs for errors. Generated by L A T E xml.” 并指向一个GitHub issue页面,暗示代码可能计划开源或部分开源,但未提供明确的GitHub仓库地址。论文中未明确提供开源代码链接。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文构建了PAV数据集(46万片段),但未提及是否公开该数据集。 预训练权重:模型从预训练的Ovi检查点初始化。 在线Demo:论文中未提及在线演示地址。 引用的开源项目:论文引用了多个开源工具和模型,包括:Qwen3-VL、SAM2、CoTracker3、Ovi、CLIP、CLAP、AudioBox-Aesthetics、MANIQA、MUSIQ、CAV-MAE Sync等。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 ...

2026-04-19