StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #端到端 #鲁棒性 #数据集 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #端到端 | #鲁棒性 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhentao Liu(EPFL, Switzerland) 通讯作者:未说明 作者列表:Zhentao Liu(EPFL, Switzerland)、Milos Cernak(Logitech Europe, Switzerland) 💡 毒舌点评 这篇论文巧妙地将图像领域的“半脆弱水印”概念移植到音频,并精准定义了“良性”与“恶意”操作,为应对深度伪造提供了比传统鲁棒水印更聪明的“主动告警”方案,思路值得称赞。然而,其将所有深度伪造攻击简化为“变调”这一单一操作进行模拟,失真层的设计略显“偷懒”,可能无法完全覆盖未来更复杂的合成攻击(如更自然的音色替换或内容编辑),削弱了结论的绝对说服力。 📌 核心摘要 要解决什么问题:现有的被动深度伪造音频检测方法面临泛化能力差、易被对抗攻击绕过、难以区分良性AI处理(如降噪)与恶意伪造的困境。传统鲁棒水印在伪造后仍能提取,反而无法证明音频已被篡改。 方法核心是什么:提出StreamMark,一种基于深度学习的半脆弱音频水印系统。其核心是设计一个Encoder-Distortion-Decoder架构,其中失真层包含并行的良性变换(如裁剪、加噪)和恶意变换(如变调,模拟音色/内容篡改)。通过复合损失函数训练,使水印在经历良性操作后仍可恢复,但在经历语义篡改的恶意操作后无法恢复(准确率降至随机水平)。 与已有方法相比新在哪里:首先,提出了音频水印的“半脆弱性”范式,改变了以“鲁棒性”为单一目标的传统思路。其次,采用了在STFT复数域(同时修改幅度和相位)嵌入水印的新技术,以提升不可感知性。最后,构建并开源了首个专门针对AI音频转换(包含良性与恶意)的深度伪造评估基准。 主要实验结果如何: 不可感知性与鲁棒性(测试集A):StreamMark达到了较高的PESQ分数(4.20),并保持了对Opus编码等真实世界良性失真的高鲁棒性(ACC > 99.89%)。 深度伪造基准(测试集B):面对VALL-E-X、FreeVC、VoiceCraft等深度伪造攻击时,水印恢复准确率(ACC)下降至约50%(随机猜测水平),体现其“脆弱性”;而在面对DeepAFX等良性风格迁移时,ACC保持在98%以上,体现其“鲁棒性”。 详细数据见下表: 表1:不可感知性与鲁棒性评估(测试集A) 方法 SNR (dB) PESQ SECS 裁剪 (70%) MP3 (8 kbps) Opus (60 ms) Patchwork 33.65 4.34 0.99 0.72 0.61 0.85 AudioSeal 25.41 4.30 0.99 1.00 0.85 0.57 Timbre 24.14 3.70 0.99 0.99 0.79 0.99 StreamMark 24.16 4.20 0.99 0.99 0.87 0.99 表2:深度伪造基准评估(测试集B) ...

2026-04-29

Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers

📄 Symphony Rendering: Midi and Composer-Conditioned Auto Orchestration with Flow-Matching Transformers #音乐生成 #流匹配 #扩散Transformer #数据集 #模型评估 ✅ 7.0/10 | 前50% | #音乐生成 | #流匹配 | #扩散Transformer #数据集 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jiahe Lei(香港中文大学电子工程系) 通讯作者:Qiuqiang Kong(香港中文大学电子工程系) 作者列表:Jiahe Lei(香港中文大学电子工程系)、Qiuqiang Kong(香港中文大学电子工程系) 💡 毒舌点评 亮点:数据集构建思路巧妙,利用现成的音乐转录模型“凭空”创造出训练所需的MIDI-交响乐音频配对数据,堪称“无中生有”,且全部数据、代码、模型开源,诚意十足。短板:风格控制能力(24%的作曲家分类准确率)虽显著高于随机,但与真实录音(93%)差距巨大,模型更像是学会了“交响乐”的通用音色,而非精准复刻12位大师各自细腻的风格指纹。 📌 核心摘要 解决的问题:如何将一段单声部旋律(MIDI)或钢琴缩编谱,自动编曲渲染成完整、高保真且符合特定作曲家风格的交响乐音频,尤其是在缺乏MIDI与真实交响乐录音配对数据的情况下。 方法核心:提出一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的条件生成框架。系统先通过一个自动音乐转录(AMT)模型,将输入的钢琴音频或MIDI转换为时间对齐的钢琴卷帘(Piano Roll)表示。这个表示与作曲家标签一起,作为条件输入到流匹配模型中,该模型在一个预训练音频VAE的潜在空间中,将高斯噪声逐步变换为目标交响乐音频的潜在表示,最后由VAE解码器输出波形。 与已有方法的新颖性:核心创新是利用AMT构建伪配对数据,从而摆脱了对稀缺的MIDI-交响乐配对数据的依赖,使得训练数据只需包含纯交响乐音频即可。这解决了该任务数据获取的瓶颈。方法上将流匹配与DiT架构应用于这种多条件(内容+风格)的符号到音频生成任务。 主要实验结果: MIDI转交响乐渲染:在FAD(音频质量与分布真实性)指标上,本文方法(Transcription + Ours)得分为2.460,显著优于基线“频谱扩散”(8.219)和“FluidSynth”(6.099),表明生成的音频更逼真。在Onset F1(音符准确性)上达到0.409。 作曲家风格控制:使用独立的HuBERT分类器对生成音频进行作曲家分类,本文方法(w/ composer)达到22.7%-24.1% 的准确率,远高于无作曲家条件的版本(8.5%,接近1/12的随机基线),证明模型确实能响应作曲家条件。 表1: MIDI-to-audio rendering 结果对比 ...

2026-04-29

SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton

📄 SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton #音乐生成 #强化学习 #自回归模型 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #自回归模型 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xuzheng He (根据作者列表顺序推断,论文中未明确标注) 通讯作者:未说明 作者列表:Xuzheng He, Nan Nan, Zhilin Wang, Ziyue Kang, Zhuoru Mo, Ao Li, Yu Pan, Xiaobing Li, Feng Yu, Xiaohong Guan (所有作者所属机构在论文中未说明) 💡 毒舌点评 亮点:论文提出的“3D分层架构”与“和声骨架”条件控制相结合,为解决交响乐生成中“复杂性与控制力失衡”这一核心痛点提供了非常工程化且思路清晰的解决方案,其设计逻辑环环相扣。 短板:依赖预定义的规则化“和声骨架”作为条件,虽然降低了控制难度,但也引入了规则系统的僵化性;且论文承认该骨架的生成错误会直接影响下游质量,这本质上是将一个复杂问题拆分成了两个可能都有缺陷的子问题。 📌 核心摘要 要解决的问题:现有符号音乐生成模型在处理多轨、长时程的交响乐编曲时,面临“复杂性-控制不平衡”问题,即模型规模扩大与细粒度、长时程的可控制性之间存在矛盾。模型常生成刺耳的不协和音,且缺乏符合专业制作流程的分层控制。 方法核心:提出SymphonyGen,一个3D分层框架。其核心是引入“和声骨架”作为条件,这是一个基于节拍的、可量化的多声部音乐大纲。模型架构在Bar(小节)、Track(音轨)、Event(事件)三个维度上分别用Transformer编解码器进行处理。此外,使用了基于音频感知的强化学习(GRPO)来对齐生成结果,并在推理时采用“不协和音避免采样”来抑制错误音高。 与已有方法相比新在哪里:与将乐谱展平为1D序列的模型相比,3D架构显著提升了计算效率和可扩展性(见表1)。与简单的和弦条件控制不同,“和声骨架”提供了更精细的节拍级和声与旋律轮廓引导。结合RL和特定采样策略,形成了一个从结构控制到细节优化的完整流水线。 主要实验结果:客观评估显示,RL训练显著提升了CLaMP分数(从0.589到0.726),并大幅降低了不协和音分数(Dhn从0.777降至0.248, Dnn从0.064降至0.014, 采用λ=(1,10)配置时)。主观测试中,在电影配乐生成任务中,SymphonyGen在总体质量、连贯性和偏好度上均优于SymphonyNet和NotaGen基线(见表3)。在编曲任务中,其质量评分也优于METEOR(见表4)。 实际意义:为AI辅助电影配乐等复杂音乐创作提供了新的工具思路。其“和声骨架”条件控制机制允许用户以类似“钢琴缩编谱”的方式介入生成过程,增强了人机协作的可能性。RL对齐方法为弥合MIDI数据与真实音响感知的差距提供了思路。 主要局限性:1)和声骨架的自动生成(基于规则和独立解码器)可能出错,且错误会传播。2)对音乐风格的表达能力受限于训练数据和RL奖励模型的偏好(使用了游戏电影原声作为参考)。3)当前评估主要依赖规则指标和主观听测,在“音乐性”等更抽象维度的评估仍有局限。 🏗️ 模型架构 图1:SymphonyGen系统概览。展示了完整的流程:从输入(和声骨架、元数据)到生成交响乐乐谱,再到可能的RL训练循环。 ...

2026-04-29

SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

📄 SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding #语音合成 #数据集 #数据增强 #语音活动检测 ✅ 7.5/10 | 前25% | #语音合成 | #数据增强 | #数据集 #语音活动检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Bingsong Bai(北京邮电大学人工智能学院), Qihang Lu(北京邮电大学人工智能学院), Wenbing Yang(北京邮电大学人工智能学院)(论文标注为并列第一作者) 通讯作者:Ya Li(北京邮电大学人工智能学院), Jun Gao(Hello Group Inc.) 作者列表: Bingsong Bai(北京邮电大学人工智能学院) Qihang Lu(北京邮电大学人工智能学院) Wenbing Yang(北京邮电大学人工智能学院) Zihan Sun(Hello Group Inc.) Yueran Hou(Hello Group Inc.) Peilei Jia(Hello Group Inc.) Songbai Pu(Hello Group Inc.) Ruibo Fu(中国科学院自动化研究所) Yingming Gao(北京邮电大学人工智能学院) Ya Li(北京邮电大学人工智能学院) Jun Gao(Hello Group Inc.) 💡 毒舌点评 这篇论文的亮点在于构建了一条颇为精巧的“副语言数据自动化工厂”流水线,把ASR投票、LLM“加标点”、语音转换“换音色”等技术模块组装得很有条理,并通过扎实的实验证明了用这套流水线生产出的数据集确实好用。其短板在于,这条流水线本身是“站在巨人肩膀上”的工程集成,核心的算法创新性相对有限;而且,用合成数据训练的模型,其生成的“副语言”是否真正捕捉到了人类情感的细微之处,可能还需在更复杂的交互场景中打个问号。 ...

2026-04-29

TAGARELA - A Portuguese Speech Dataset from Podcasts

📄 TAGARELA - A Portuguese Speech Dataset from Podcasts #语音识别 #语音合成 #数据集 #预训练 #低资源 ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Frederico Santos de Oliveira(Federal University of Mato Grosso (UFMT)) 通讯作者:未说明 作者列表:Frederico Santos de Oliveira (UFMT), Lucas Rafael Stefanel Gris (UFG), Alef Iury Siqueira Ferreira (UFG), Augusto Seben da Rosa (UNESP), Alexandre Costa Ferro Filho (UFG), Edresson Casanova (NVIDIA), Christopher Dane Shulby (Elsa Speak), Rafael Teixeira Sousa (UFMT), Diogo Fernandes Costa Silva (UFG), Anderson da Silva Soares (UFG), Arlindo Rodrigues Galvão Filho (UFG) 💡 毒舌点评 这篇论文在解决“数据饥饿”问题上做得非常扎实,为葡萄牙语社区贡献了一个规模空前(近9000小时)且处理精细的语音数据集,其多阶段处理流水线的工程设计体现了对实际数据挑战的深刻理解。然而,其核心创新更偏向于工程集成与数据处理,而非算法突破;此外,部分关键转录步骤依赖商业闭源服务,这为追求完全开源复现的研究者设置了一定的门槛。 ...

2026-04-29

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics #音频问答 #基准测试 #数据集 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #模型评估 学术质量 0.85/7 | 选题价值 0.75/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yi-Cheng Lin (National Taiwan University) 通讯作者:论文中未明确指定通讯作者 作者列表:Yi-Cheng Lin¹, Yu-Hua Chen², Jia-Kai Dong¹, Yueh-Hsuan Huang¹, Szu-Chi Chen¹, Yu-Chen Chen¹, Chih-Yao Chen¹, Yu-Jung Lin¹, Yu-Ling Chen¹, Zih-Yu Chen¹, I-Ning Tsai¹, Hsiu-Hsuan Wang¹, Ho-Lam Chung¹, Ke-Han Lu¹, Hung-yi Lee¹ (¹National Taiwan University, ²University of Toronto) 💡 毒舌点评 该论文的亮点在于它敏锐地指出了当前音频-语言模型评估体系中一个被忽视的“文化盲区”,并为此提供了一个设计精巧、收集过程透明的高质量本地化基准,为推动更公平的多模态评估铺了路。短板则在于,它本质上是一个评估工具(Benchmark),而非解决该问题的算法或模型,因此其影响力高度依赖于后续研究社区的采纳程度,且论文本身未对“如何提升模型的文化理解能力”给出更深入的方案探索。 ...

2026-04-29

Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment

📄 Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment #空间音频 #音频生成 #预训练 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #多任务学习 | #音频生成 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yunyi Liu(悉尼大学 University of Sydney) 通讯作者:未说明 作者列表:Yunyi Liu(悉尼大学)、Shaofan Yang(杜比实验室 Dolby Laboratories)、Kai Li(杜比实验室)、Xu Li(杜比实验室) 💡 毒舌点评 论文的亮点在于其巧妙的“分解”思想,将复杂的移动声音生成问题拆解为可控的轨迹预测、单声道音频生成与基于对象的音频空间化,框架清晰且具有很好的模块化扩展性。但短板在于,为了评估轨迹预测模块,构建了一个基于线性匀速运动的简化合成数据集,这可能无法充分代表真实世界中声音轨迹的复杂性和音频的多样性,使得方法在泛化到真实场景时的有效性存疑。 📌 核心摘要 问题:现有文本驱动的空间音频生成主要聚焦于静态声源,无法有效生成具有动态空间运动的声音,限制了沉浸式体验。 方法核心:提出一种混合框架,将生成过程分解为:a) 从文本预测声源的三维时空轨迹;b) 微调一个预训练的文本到音频模型以生成与该轨迹时间对齐的单声道音频;c) 基于预测的轨迹对单声道音频进行基于对象的空间化模拟。 新意:首次在统一框架中显式地连接了文本、轨迹和音频,利用了“轨迹”作为中间表示来提供精确的空间和时间控制,区别于端到端生成FOA或双耳音频的方法。 主要结果: 文本到轨迹模型在合成测试集上表现出合理的预测能力(例如,方位角MAE为18.53°,范围感知MAE为15.52°)。 轨迹预测器和时间调整器均能实现高精度的时间对齐(起止点MAE均低于0.01秒,重叠率OLR分别为0.86和0.94)。 与仅预测端点的基线模型相比,全轨迹预测模型的绝对精度较低,但预测结果仍落在预定义的空间范围内。 实际意义:为可控的移动声音生成提供了新思路,可集成到现有的文本到音频工作流中,应用于VR/AR、游戏、电影音效等需要动态空间音频的领域。 主要局限性:完全依赖于构建的合成数据集进行训练和评估,数据集中的运动轨迹为简单的线性匀速运动,音频与空间属性是解耦合成的,可能无法完全反映真实世界数据的复杂性;未与现有的端到端空间音频生成方法在生成质量(如听感自然度、空间准确性)上进行直接对比。 🏗️ 模型架构 本文提出的Text2Move框架由两个主要部分构成,其整体架构如图1所示。 ...

2026-04-29

The 3rd Clarity Prediction Challenge: A Machine Learning Challenge for Hearing aid Speech Intelligibility Prediction

📄 The 3rd Clarity Prediction Challenge: A Machine Learning Challenge for Hearing aid Speech Intelligibility Prediction #语音增强 #预训练 #基准测试 #模型评估 #数据集 ✅ 7.5/10 | 前25% | #语音增强 | #预训练 | #基准测试 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jon Barker (谢菲尔夫大学计算机系) 通讯作者:未说明 作者列表:Jon Barker (谢菲尔夫大学计算机系), Michael A. Akeroyd (诺丁汉大学医学院), Trevor J. Cox (索尔福德大学声学研究中心), John F. Culling (卡迪夫大学心理学系), Jennifer Firth (诺丁汉大学医学院), Simone Graetzer (索尔福德大学声学研究中心), Graham Naylor (诺丁汉大学医学院) 💡 毒舌点评 亮点:该论文最大的贡献是构建并开源了一个目前规模最大、最具生态效度的助听器语音可懂度预测数据集与基准,其精心设计的“三轮渐进式挑战”和“评估集完全未见”模式,为评估模型的真实泛化能力设立了黄金标准。短板:作为一篇挑战赛总结报告,它更侧重于结果汇编与现象分析(如听众变异),而对顶尖系统的具体技术路径、失败案例的深层原因挖掘深度有限,更像是一份详尽的“官方赛事白皮书”,而非一篇聚焦于某个算法突破的学术论文。 ...

2026-04-29

The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion

📄 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion #歌唱语音转换 #基准测试 #数据集 #开源工具 ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Lester Phillip Violeta(Nagoya University, Japan) 通讯作者:未说明 作者列表:Lester Phillip Violeta(Nagoya University, Japan),Xueyao Zhang(The Chinese University of Hong Kong, Shenzhen, China),Jiatong Shi(Carnegie Mellon University, USA),Yusuke Yasuda(National Institute of Informatics, Japan),Wen-Chin Huang(Nagoya University, Japan),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen, China),Tomoki Toda(Nagoya University, Japan) 💡 毒舌点评 这篇论文的核心价值在于清晰地将“歌唱风格转换”确立为一个独立的、系统性的研究基准,并提供了精心设计的任务和评估框架,这对推动领域从单纯的“歌手克隆”向更精细的控制迈进具有导航意义。然而,作为一项挑战赛报告,其主要贡献在于提出问题、组织比赛和总结现有方法的表现,而非提出一个能显著超越现有技术的新模型或算法,论文中也坦承“歌唱风格转换仍然挑战重重”,未能给出引领性的解决方案。 ...

2026-04-29

The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models

📄 The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models #基准测试 #模型评估 #大语言模型 #数据集 #跨模态 ✅ 7.0/10 | 前25% | #基准测试 | #大语言模型 | #模型评估 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Abhinav Kumar Singh(JigsawStack, Inc.) 通讯作者:未说明 作者列表:Abhinav Kumar Singh(JigsawStack, Inc., New Delhi, India),Harsha Vardhan Khurdula(JigsawStack, Inc., San Francisco, CA, USA),Yoeven D Khemlani(JigsawStack, Inc., San Francisco, CA, USA),Vineet Agarwal(JigsawStack, Inc., Durgapur, WB, India) 💡 毒舌点评 这篇论文直击了大模型应用中的一个真实痛点:生成的JSON格式完美但内容胡说八道,并提供了迄今最系统的跨模态评估框架。不过,其“多模态”评估实则是把图像和音频先转成文本再喂给模型,相当于跳过了最关键、最容易出错的视觉和语音理解环节,这使得对多模态大模型的直接评估力度大打折扣。 ...

2026-04-29