A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction

📄 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction #音乐信息检索 #歌唱旋律提取 #对比学习 #状态空间模型 #半监督学习 ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:康杰东(Kangjie Dong, 东华大学计算机科学与技术学院) 通讯作者:于帅(Shuai Yu, 大连理工大学信息与通信工程学院), 李威(Wei Li, 复旦大学计算机科学与技术学院) 作者列表:康杰东(东华大学计算机科学与技术学院), Shicheng Ding(美国塔博学院), 于帅(大连理工大学信息与通信工程学院, 通讯作者), 李威(复旦大学计算机科学与技术学院, 通讯作者) 💡 毒舌点评 这篇论文最大的亮点是其极致的“小而美”:仅用0.53M参数就在三个标准数据集上全面超越了从1M到147M不等的强基线,证明了其设计的混合架构与音调八度对比学习在特征表示上的高效性。然而,其分层半监督策略设计略显繁琐,且歌唱旋律提取作为相对垂直的音乐信息检索任务,其普适影响力相较于语音识别等通用任务有所局限。 📌 核心摘要 问题:现有的歌唱旋律提取(SME)方法在建模频谱图时,难以同时高效捕捉局部模式与长程时频依赖,并且缺乏对音高层次(音调、八度)这一音乐先验的显式建模。此外,大多数半监督方法将所有无标签数据同等对待,导致伪标签质量不高。 方法核心:提出了一个统一框架,包含三个关键组件:1)HybridNet:结合双轴Mamba和卷积神经网络来联合建模时频依赖,并设计了一种“结构池化”方案,将频率轴显式编码为“八度×音调”的网格结构,嵌入了音调层次先验。2)音调八度对比学习损失(TOCL):通过设计两个投影器分别将特征映射到音调和八度子空间,拉近相同音调或八度的嵌入,推远不匹配的对,并引入了基于时间邻近度的加权以强调有信息量的正负样本对。3)分层半监督学习策略(S-SSL):根据预测置信度和原型相似度,将无标签帧划分为“容易”、“模糊”、��困难”三组,并分别为每组设计不同的训练目标,从而更有效地利用无标签数据。 与已有方法相比新在哪里:相比CNN方法(如MF-TFA)能更好地建模长程依赖,相比Transformer方法(如TONet)复杂度更低,相比现有Mamba方法(如SpectMamba)引入了更强的结构先验(音调八度层次)和更精细的对比学习与半监督策略。该方法是首个将结构化音调先验、对比学习与分层半监督三者统一应用于SME的框架。 主要实验结果:在ADC2004, MIREX05和MedleyDB三个数据集上,所提HybridNet模型在主要指标OA上均取得了最佳性能。例如,在ADC2004上OA达到87.76%,比最强基线MF-TFA(85.39%)高2.37%。消融实验证实了结构池化(OP, -3.33% OA)、对比学习(TOCL, -1.38% OA)和分层半监督(S-SSL, -1.32% OA)三个组件的贡献。可视化结果(如图3)显示其生成的特征热图更干净,能捕捉到八度相关的谐波结构,在颤音等复杂片段上预测更准。 实际意义:提升了从复杂音乐信号中提取主唱旋律的准确度和模型效率(模型仅0.53M参数),有助于下游应用如哼唱检索、音乐推荐、翻唱识别等。其设计思路(结构先验嵌入、置信度分层利用无标签数据)对其他序列建模任务有借鉴意义。 主要局限性:任务(歌唱旋律提取)本身属于音乐信息检索中的一个垂直领域,应用广度相对有限。分层半监督策略引入了多个超参数(如τc, τa, λe, λa, λh),调优和部署可能稍显复杂。 🏗️ 模型架构 所提HybridNet整体采用类似U-Net的编码器-解码器架构,核心是混合块(Hybrid Block, HB)和结构池化。以下是详细流程: ...

2026-04-29

A Unsupervised Domain Adaptation Framework For Semi-Supervised Melody Extraction Using Confidence Matrix Replace and Nearest Neighbour Supervision

📄 A Unsupervised Domain Adaptation Framework For Semi-Supervised Melody Extraction Using Confidence Matrix Replace and Nearest Neighbour Supervision #音乐信息检索 #领域适应 #对比学习 #半监督学习 #数据增强 🔥 8.0/10 | 前25% | #音乐信息检索 | #领域适应 | #对比学习 #半监督学习 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Shengqi Wang(东华大学计算机科学与技术学院) 通讯作者:Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院) 作者列表:Shengqi Wang(东华大学计算机科学与技术学院)、Shuai Yu(大连理工大学信息与通信工程学院)、Wei Li(复旦大学计算机科学与技术学院) 💡 毒舌点评 本文将“被动适应”重新定义为“主动修复”并设计了相应的CMR和NNS模块,技术故事讲得通顺且实验验证充分,在跨域旋律提取上取得了稳健提升,是个不错的应用导向型工作。但CMR模块中使用KL散度进行“最兼容”补丁选择的设计动机和计算开销分析稍显薄弱,部分核心机制(如patch-wise操作的具体实现)在文中描述不够细致,图表(图2)的可视化对比冲击力也有提升空间。 📌 核心摘要 问题:旋律提取任务面临标注数据稀缺和跨域偏移(如不同音乐风格)两大挑战。现有半监督域适应方法多采用“被动适应”范式,易受伪标签噪声和域差异限制。 方法核心:提出一种“主动修复”范式的无监督域适应框架,包含两个核心模块:置信度矩阵替换(CMR)和最近邻监督(NNS)。CMR通过分析模型预测的置信度,主动用高置信度区域(来自增强版本)替换低置信度区域,生成更强的训练样本。NNS利用最近邻对比学习,在语义特征空间对齐源域和目标域。 创新点:首次将“主动修复”思想引入该领域;CMR实现了像素级(patch-wise)的语义修复;NNS实现了样本级的特征空间对齐;两者结合共同提升了模型对无标签目标域数据的利用率。 实验结果:在六个跨流行(P)、古典(C)、爵士(J)风格的旋律提取任务上,所提方法(CMR-NNS)在整体准确率(OA)上均优于基线模型(MSNet, FTANet, LcMLP, MCSSME)。关键数据见下表。 表3:与基线方法的总体准确率(OA)对比 方法 P→C C→P J→C C→J J→P P→J MSNet 42.34 62.69 35.06 61.31 58.40 44.21 FTANet 42.78 63.84 37.37 62.81 53.63 44.64 LcMLP 40.38 63.15 32.41 62.64 47.07 44.01 MCSSME 43.51 65.28 37.96 63.26 59.72 45.21 Ours 44.75 69.13 43.40 67.86 63.99 48.50 实际意义:为音乐信息检索中跨风格的旋律提取提供了新的有效框架,有助于降低对目标域标注数据的依赖。 主要局限性:实验仅在特定三种音乐风格的交叉任务上验证,任务规模相对有限;未讨论计算复杂度;CMR的补丁大小、置信度计算等关键超参数的选择依据未充分阐述。 🏗️ 模型架构 本文提出的CMR-NNS框架是一个面向半监督域适应的端到端深度学习模型,旨在利用带标签的源域数据和无标签的目标域数据训练旋律提取模型。 ...

2026-04-29

Advancing Semi-Supervised Child Speech Recognition with Omni-Temporal Classification under Label Noise

📄 Advancing Semi-Supervised Child Speech Recognition with Omni-Temporal Classification under Label Noise #语音识别 #自监督学习 #半监督学习 #数据增强 #领域适应 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 #半监督学习 | #自监督学习 #半监督学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiamin Xie (University of Texas at Dallas, Center for Robust Speech Systems) 通讯作者:John H.L. Hansen (University of Texas at Dallas, Center for Robust Speech Systems) 作者列表:Jiamin Xie (University of Texas at Dallas, Center for Robust Speech Systems)、John H.L. Hansen (University of Texas at Dallas, Center for Robust Speech Systems) 💡 毒舌点评 亮点:论文精准击中儿童语音ASR“脏数据”的核心痛点,将OTC损失与半监督自训练框架��合,并通过详实的案例分析直观展示了模型如何“绕过”标注错误,方法实用且解释性强。 短板:实验局限于单一数据集(MyST)和中等规模模型,未与Whisper等SOTA大模型或更复杂的半监督方法进行对比,说服力略有不足;且开源承诺停留在“网页”层面,缺乏具体指引,复现门槛较高。 ...

2026-04-29

LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data

📄 LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data #语音识别 #语音翻译 #半监督学习 #大语言模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 #语音翻译 | #半监督学习 #大语言模型 | #语音识别 #语音翻译 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Wen Ding(NVIDIA Corporation) 通讯作者:未说明 作者列表:Wen Ding(NVIDIA Corporation),Fan Qian(NVIDIA Corporation) 💡 毒舌点评 这篇论文巧妙地将一个在NLP领域成熟的工具(LLM)转化为解决语音SSL中“脏数据”问题的利器,思路实用且效果显著,特别是在AST任务上SOTA的结果很有说服力。然而,其验证的“语音大模型”高度集中于Whisper,缺乏对其他架构(如USM, MMS)的验证,让人好奇该框架是否具有更普适的迁移能力。 📌 核心摘要 要解决的问题:当前最先进的语音基础模型(SFMs)在半监督学习中利用从真实世界(in-the-wild)收集的未标注音频数据时,面临一个核心挑战:这些数据声学环境复杂多样,模型生成的伪标签质量较低,导致训练效果不佳。 方法核心:提出了LESS框架。该框架在标准的无教师-学生(Noisy Student Training)SSL流程中,引入一个文本大语言模型(LLM)作为“校正器”,对SFMs(如Whisper)在未标注音频上生成的伪标签(ASR转录或AST翻译文本)进行修正。随后,通过一个基于WER(词错误率)变化的数据过滤策略,筛选出LLM修正后质量更高的伪标签,与原始有标签数据混合,用于迭代微调SFMs。 与已有方法相比新在哪里:传统SSL方法要么专注于训练策略优化,要么使用小型模型和经过筛选的无标签数据。LESS的创新在于:(a) 首次系统性地将LLM集成到面向真实世界、嘈杂数据的语音SSL流程中,作为独立的伪标签优化模块;(b) 提出了“WER Prompting”技巧,让LLM在生成修正文本时同时输出估计的WER,可辅助过滤;(c) 专门设计并验证了该框架在“真实世界”数据场景下的有效性,而不仅仅是使用现有干净数据集忽略其标签。 主要实验结果: 中文ASR:在WenetSpeech测试集上,相比仅使用AISHELL-1训练的监督基线,经过三轮LESS迭代训练后,WER从17.7%绝对下降至13.9%,降幅达3.8%。在领域内测试集AISHELL-1/2上,WER保持稳定(约3.0%/5.2%)。 西语-英语AST:在Callhome和Fisher测试集上,LESS方法达到了34.0和64.7的BLEU分数,显著优于监督基线(33.5, 64.2)和不加LESS的标准NST(33.2, 64.0)。 消融实验:验证了通用LLM(Yi-Large)比代码专精LLM(Qwen2.5-coder)更适合纠错;WER提示词(WER Prompting)和严格的过滤阈值(0.1)能带来性能提升。 实际意义:该框架为利用海量、易获取但质量低劣的网络语音数据训练更强健、适应性更广的语音大模型提供了一种有效的工程化路径,有助于降低对昂贵精标数据的依赖。 主要局限性:研究中使用的语音大模型(SFMs)主要局限于Whisper Large-v3,未验证该方法在其他主流架构(如USM, MMS)上的泛化能力。此外,对于AST任务,仅进行了一轮迭代实验,多轮迭代的潜力和收敛情况有待探索。真实世界数据的噪声和多样性控制标准未深入讨论。 🏗️ 模型架构 论文提出的是一个迭代优化的流水线框架(LESS),而非一个独立的新模型架构。其核心组件和数据流如下: ...

2026-04-29

Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds

📄 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds #多模态学习 #半监督学习 #协同训练 #理论分析 ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Tianyu Bell Pan(佛罗里达大学 ECE系) 通讯作者:未说明 作者列表:Tianyu Bell Pan(佛罗里达大学 ECE系)、Olivia Dizon-Paradis(佛罗里达大学 ECE系)、Damon L. Woodard(佛罗里达大学 ECE系) 💡 毒舌点评 这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱,特别是那个显式的、减去无标签收益项的泛化界,概念很巧妙。然而,其短板也同样明显:整篇论文的实验部分完全依赖于模拟数据的示意图,缺乏任何真实数据集上的基准测试或与SOTA方法的对比,使得漂亮的理论如同空中楼阁,难以令人信服其在实际应用中的威力。 📌 核心摘要 解决问题:针对传统单视图半监督学习(SSL)中存在的“确认偏差”问题,即错误的伪标签会自我强化,本文旨在为多模态(多视图)协同训练方法提供坚实的理论保证。 方法核心:提出一个两视图协同训练框架,其中每个视图的分类器选择高置信度的预测作为伪标签提供给另一个视图进行重训练,并加入跨视图一致性损失。理论分析基于视图充分性和条件独立性假设。 创新之处:(1)证明了在单次迭代中,较弱视图的期望误差会收缩为两个视图误差的凸组合(Lemma 3.1);(2)证明了两个视图的最大误差会以几何速率收敛到一个不可约的下限(Theorem 3.2);(3)推导了一个PAC风格的泛化界,其中包含一个非负的“减法无标签收益项”(Γ),该项随着无标签数据比例、跨视图一致性和视图独立性的增加而增加(Theorem 3.5)。 实验结果:论文未提供在真实数据集上的定量实验结果。所有“实验”均为数值模拟,以示意图形式展示了误差收敛曲面(图1)、泛化界随无标签样本数变化(图2)以及收益项Γ随分歧和独立性变化(图3)。论文中未给出具体数值。 实际意义:该理论框架量化了多模态协同训练的优势来源,解释了无标签数据和视图间一致性如何协同作用以提升泛化性能,为设计和在实践中安全使用此类算法提供了理论指导。 主要局限性:最大局限是缺乏真实实验验证。理论基于较强的假设(如视图条件独立),其在现实世界复杂多模态数据(视图相关)上的适用性未知。未与现有单视图或多视图SSL方法进行性能对比。 🏗️ 模型架构 本文提出的不是传统意义上的神经网络模型,而是一个协同训练算法框架(Algorithm 1)。 完整流程:输入标注集L和无标签集U,初始化两个视图的分类器h(1)和h(2)。迭代进行K轮:(1) 每个分类器在无标签池U_pool中选择置信度高于阈值τ_pseudo的top-k_pseudo个预测,生成伪标签集L(1)_pseudo和L(2)_pseudo;(2) 如果两个伪标签集都为空,则停止;(3) 每个分类器分别在其原有的标注数据L和从对方获得的伪标签集上重新训练,训练目标为监督损失L_sup加权加上跨视图一致性损失L_agree;(4) 从无标签池中移除本轮新增的伪标签样本。 组件交互:两个视图的分类器h(1)和h(2)通过“伪标签交换”进行相互监督。一致性损失L_agree(公式3)直接作用于两个分类器对同一无标签样本的预测分布,鼓励它们保持一致。 关键设计:置信度过滤(τ_pseudo)和伪标签数量限制(k_pseudo)是控制伪标签质量、防止错误传播的关键机制。一致性损失则进一步强化了两个视图的协同。 💡 核心创新点 单步改进机制 (Lemma 3.1):明确了协同训练有效的微观基础——一个视图通过重训练另一个视图更可靠分类器生成的伪标签,其期望误差会严格下降。 几何收敛证明 (Theorem 3.2):将单步改进扩展到多轮迭代,证明了两个视图中较差者的误差会以固定比例收缩,为算法的收敛速度和极限行为提供了定量描述。 带减法项的泛化界 (Theorem 3.5 & Proposition 3.4):这是最核心的理论创新。传统的泛化界通常包含一个复杂度惩罚项。本文的泛化界在监督项之后,显式减去了一个“无标签收益项”Γ,并严格证明了Γ与无标签数据比例正相关、与跨视图分歧负相关、与视图独立性正相关。这将“无标签数据如何帮助学习”从隐式变成了显式的量化关系。 可实现的算法与理论的紧密联系:提出的算法(置信度筛选+一致性正则)是简单且可实现的,而上述理论直接解释了该算法中关键组件(如高置信度筛选导致高一致性,更多无标签数据)的作用机制。 🔬 细节详述 训练数据:论文未说明用于其数值模拟的具体数据生成过程或分布。理论上假设数据来自分布P,包含条件独立的视图。 损失函数: L_sup:标准的监督损失,如交叉熵或合页损失,用于标注数据。 L_agree:公式(3)中定义的跨视图一致性损失,衡量两个视图预测分布p(1)(u)和p(2)(u)的差异,D(·,·)可以是KL散度、JS散度等。 L_total = L_sup + λ_agree * L_agree,其中λ_agree是平衡权重。 训练策略:论文未提供具体的学习率、优化器、batch size、训练轮数等超参数信息。 关键超参数:算法中涉及的关键超参数包括:迭代轮数K、每轮选择的伪标签数量k_pseudo、置信度阈值τ_pseudo、一致性损失权重λ_agree。论文未给出这些超参数的具体值或选择依据。 训练硬件:未提及。 推理细节:不适用,本文重点是训练理论。 正则化技巧:置信度阈值筛选和伪标签数量限制本身是防止错误传播的正则化策略。一致性损失L_agree也是显式的正则化项。 📊 实验结果 论文没有提供在真实数据集上的定量实验结果。所有“实验”均为基于论文理论公式的数值模拟示意图,旨在说明理论关系的趋势。 ...

2026-04-29

Teaching the Teachers: Boosting Unsupervised Domain Adaptation In Speech Recognition By Ensemble Update

📄 Teaching the Teachers: Boosting Unsupervised Domain Adaptation In Speech Recognition By Ensemble Update #语音识别 #领域适应 #知识蒸馏 #半监督学习 #教师-学生模型 ✅ 7.0/10 | 前25% | #语音识别 | #领域适应 | #知识蒸馏 #半监督学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Rehan Ahmad(谢菲尔德大学) 通讯作者:未说明 作者列表: Rehan Ahmad¹² (¹University of Sheffield, UK; ²Emotech Ltd.) Muhammad Umar Farooq² (²Emotech Ltd.) Qihang Feng¹ (¹University of Sheffield, UK) Thomas Hain¹ (¹University of Sheffield, UK) 💡 毒舌点评 亮点:该工作直击多教师-学生训练范式中“教师模型更新滞后”这一痛点,提出了一个轻量(EMA更新)、高效(同时训练)且有效的同步更新机制,在多个基准上取得了显著WER提升,证明了其方法的实用性。 短板:创新本质是对现有“教师-学生”和“集成学习”方法的精巧组合与工程优化,缺乏理论上的深度突破。此外,所有实验均围绕英语语音识别展开,方法在其他语言或更复杂的声学环境下的有效性尚未可知,存在一定的泛化性质疑。 ...

2026-04-29

TVP-UNet: Threshold Variance Penalty U-Net for Voice Activity Detection in Dysarthric Speech

📄 TVP-UNet: Threshold Variance Penalty U-Net for Voice Activity Detection in Dysarthric Speech #语音活动检测 #U-Net #阈值方差惩罚 #构音障碍 #半监督学习 ✅ 7.0/10 | 前25% | #语音活动检测 | #U-Net | #阈值方差惩罚 #构音障碍 学术质量 5.5/7 | 选题价值 1.2/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Aditya Pandey (School of Computer Science and Engineering, Vellore Institute of Technology, Chennai, India) 通讯作者:未明确说明(从贡献描述和作者排序推测,核心研究者为来自IISc的Prasanta Kumar Ghosh) 作者列表:Aditya Pandey(VIT Chennai),Tanuka Bhattacharjee, Prasanta Kumar Ghosh(Indian Institute of Science, Bengaluru),Madassu Keerthipriya, Darshan Chikktimmegowda, Dipti Baskar, Yamini BK, Seena Vengalil, Atchayaram Nalini, Ravi Yadav(National Institute of Mental Health and Neurosciences, Bengaluru)。 💡 毒舌点评 亮点:这是首个专门针对构音障碍语音的VAD研究,问题定义精准且临床意义明确;提出的TVP损失通过“阈值方差惩罚”巧妙地稳定了弱分类器在模糊边界上的决策,是一个可解释性强的正则化技巧。 短板:实验基线过于陈旧(2022年的方法),未能与当前先进的自监督、基于变换器的VAD模型对比,削弱了方法在通用场景下竞争力的说服力;且未提供任何代码或模型,在开源盛行的今天,严重阻碍了其影响力扩散。 ...

2026-04-29

StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #音频安全 #音频取证 #半监督学习 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:Zhentao Liu(根据arXiv页面及GitHub仓库L1uZhentao推断,可能为苏黎世联邦理工学院(ETH Zurich)或相关机构,论文中未明确标注) 通讯作者:Milos Cernak(根据arXiv页面推断,可能为苏黎世联邦理工学院(ETH Zurich)或相关机构,论文中未明确标注) 其他作者:无 机构说明:论文全文未提供明确的作者单位信息。根据arXiv提交者信息及开源仓库L1uZhentao推断,作者可能来自苏黎世联邦理工学院(ETH Zurich) 的计算机科学系或相关实验室。通讯作者Milos Cernak在音频处理领域较为活跃。此处信息为推断,论文中未明确说明。 💡 毒舌点评 亮点是把图像取证里的“半脆弱水印”思想成功移植到音频深度伪造检测,实现了“对良性处理免疫,对恶意篡改过敏”的智能封条,思路清晰且实验验证扎实。槽点在于模拟“恶意变换”仅用了音高偏移,与真实世界中复杂的TTS/VC攻击存在差距,且16比特的水印容量在实际部署中可能略显单薄,更像个概念验证而非工业级方案。 📌 核心摘要 本文针对生成式AI带来的音频深度伪造威胁,提出了一种名为StreamMark的主动防御框架。该框架是一种基于深度学习的半脆弱音频水印系统,其核心创新在于重新定义了水印的目标:不是追求对所有变换的绝对鲁棒,而是被设计为对保持语义的良性变换(如压缩、噪声)保持鲁棒,而对改变语义的恶意篡改(如语音转换、编辑)变得脆弱。方法上,它采用独特的编码器-失真层-解码器架构,将水印嵌入STFT的复数域(实部与虚部),并通过一个包含良性与恶意变换集的失真层进行对抗性训练,使模型学会区分变换的语义属性。实验表明,StreamMark在保持高不可感知性(PESQ 4.20)和对Opus编码等良性变换高鲁棒性(>99.89%)的同时,能有效对抗多种深度伪造攻击:面对TTS、语音转换和编辑攻击时,水印恢复准确率降至随机猜测水平(~50%),而面对良性AI风格转移时,准确率保持在98%以上。该研究为音频真实性认证提供了从被动检测到主动标记的范式转变。 🏗️ 模型架构 StreamMark采用端到端的编码器-失真层-解码器三阶段架构,其完整流程与核心组件如下: 编码器层: 输入:原始音频波形 + 16比特水印信息。 流程: a. 复数STFT:将音频转换为短时傅里叶变换的复数谱,分离为实部和虚部。 b. 水印编码:16比特信息通过一个Watermark Encoder(512维全连接层+LeakyReLU)进行编码。 c. 双路特征提取与嵌入:实部和虚部分别通过独立的Real Encoder和Imaginary Encoder(均为6层卷积网络,基本单元为Skip-Gated Block)提取特征。编码后的水印信息被分别注入到实部和虚部的特征中,通过Real Embedder和Imaginary Embedder(结构同编码器)进行融合。 d. 逆STFT:将修改后的实部和虚部谱图通过逆短时傅里叶变换合成为含水印的音频波形。 设计理由:复数域嵌入利用了人耳对相位失真相对不敏感的特性,相比仅修改幅度谱的方法(如Timbre Watermarking),能在保证不可感知性的前提下,实现更有效的水印嵌入。 失真层: 功能:模拟真实世界中的音频变换,是实现半脆弱性的关键。 结构:包含两个并行的变换集合,在训练时随机应用: 良性变换集:包括裁剪、高斯噪声、重采样、滤波、重量化等标准信号处理操作。 恶意变换集:主要使用音高偏移来模拟深度伪造攻击(如语音转换)对音色特征的改变。 数据流:含水印的音频被分别送入这两个变换路径,生成两组不同的失真音频。 解码器层: ...

2026-04-19

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18