DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

📄 DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise #语音增强 #扩散模型 #回声消除 #语音质量评估 #单步扩散 ✅ 6.2/10 | 前30% | #语音增强 | #扩散模型 | #回声消除 #语音质量评估 | arxiv 学术质量 6.2/8 | 影响力 0.9/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者:未提及 作者列表:Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology), Ernst Seidel (Technische Universität Braunschweig, Institute for Communications Technology), Pejman Mowlaee (GN Advanced Science), Ziyue Zhao (GN Advanced Science), Tim Fingscheidt (Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评 这篇论文的核心贡献在于尝试将单步条件扩散模型应用于AEC任务,并给出了一个声称可复现的框架。其在部分语音质量指标上超越了重新训练的DeepVQE基线,且模型更轻量,这展示了生成模型在AEC领域的潜力。然而,论文的创新程度有限,其核心单步扩散框架直接借自EffDiffSE,真正的“新意”在于架构调整和数据适配。致命的缺陷在于缺乏关键的消融实验,无法证明Cond DNN、Score DNN以及单步策略各自必要性,使得结论说服力大打折扣。此外,尽管标题和摘要声称“excel”在“echo and noise control performance”,但实验数据显示其在回声抑制(Echo)指标上并未优于甚至略逊于DeepVQE,结论的表述存在过度推广之嫌。 ...

2026-05-12 · 更新于 2026-05-20 · 3 min · 612 words

Dolphin-CN-Dialect: Where Chinese Dialects Matter

📄 Dolphin-CN-Dialect: Where Chinese Dialects Matter #语音识别 #端到端 #多语言 #低资源 #数据增强 📝 5.5/10 | 前50% | #语音识别 | #端到端 | #多语言 #低资源 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yangyang Meng, Huihang Zhong, Guodong Lin, Guanbo Wang, Hu Du(论文中标注为共同第一作者,*) 通讯作者:Zhiming Shao, Wei-Qiang Zhang(论文中标注为通讯作者,†) 作者列表:Yangyang Meng (Dataocean AI), Huihang Zhong (Dataocean AI), Guodong Lin (Dataocean AI), Guanbo Wang (Dataocean AI), Hu Du (Dataocean AI), Zhiming Shao (Speech and Audio Technology Lab, Dept. EE, Tsinghua University), Yukai Huang (Dataocean AI), Ke Li (Dataocean AI), Wei-Qiang Zhang (Speech and Audio Technology Lab, Dept. EE, Tsinghua University) 💡 毒舌点评 亮点:工程实践导向明确,提出的温度采样策略有效缓解了方言数据长尾问题,且在小参数量模型上取得了有竞争力的结果,对工业部署友好。双路热词偏置框架的评估较为全面,包括了Oracle分析。 短板:核心贡献多为对已有技术的组合与工程调优,缺乏模型架构或训练范式上的根本性创新;关键超参数(如α)的选择和消融实验缺失,影响了方法深度;大量依赖未公开的内部数据集,使得对比实验的公平性和复现性存疑。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 696 words

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

📄 Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs #音乐生成 #生成模型 #音频编码 📝 4.0/10 | 前50% | #音乐生成 | #生成模型 | #音频编码 | arxiv 学术质量 4.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 中 👥 作者与机构 第一作者:Konstantinos Soiledis(University of Ioannina, University of Patras) 通讯作者:未说明 作者列表:Konstantinos Soiledis(University of Ioannina, University of Patras)、Maximos Kaliakatsos-Papakostas(University of Ioannina)、Dimos Makris(University of Ioannina)、Konstantinos Tsamis(University of Ioannina, University of Patras) 💡 毒舌点评 本文系统性地比较了三种神经音频编解码器在鼓网格到音频生成任务中的表现,为后续工作选择目标表示提供了有价值的实证参考,这是其亮点。然而,论文主要贡献是将已有技术(神经编解码器+Transformer)进行组合应用,且核心实验发现(增大模型反而导致性能下降)未能给出深入分析或有效解决方案,显得方法部分的创新深度和工程鲁棒性有所不足。 📌 核心摘要 问题:如何从包含微时值和力度信息的鼓网格(Expressive Drum Grid)生成真实、富有表现力的鼓音频,以捕捉人类演奏的细微感觉(“groove”)。 方法核心:采用“编解码器token预测”范式。系统将鼓网格输入到一个非自回归Transformer编码器中,预测预训练神经音频编解码器(EnCodec, DAC, X-Codec)的离散token序列,然后使用固定的编解码器解码器将token序列转换为波形音频。 创新点:与现有方法相比,本文的主要创新在于: 提出了一个完整的从表达性鼓网格到音频的生成系统(DrumGrid2Audio)。 在一个受控的、统一的建模框架下,首次(原文描述为“one of the first”)对EnCodec、DAC和X-Codec三种主流神经音频编解码器作为中间表示的效能进行了系统比较。 在公开的大规模鼓数据集E-GMD上进行了多方面的客观评估。 主要实验结果: 在Base模型设置下,EnCodec在大多数指标上表现最优:token准确率最高(单套鼓42.7%,全套鼓43.4%),感知距离(FAD)最低(单套鼓0.281,全套鼓0.193)。 DAC在样本级误差(RMSE/MAE)上最低,但token预测难度极大(困惑度高达500+),感知质量最差(FAD最高,全套鼓0.405)。 X-Codec性能介于两者之间。 反常发现:将模型容量从Base增大到Large后,所有编解码器的性能均显著下降,表明训练过程不稳定。 实际意义:为音乐制作和音频生成领域提供了一种新的从符号化鼓谱(MIDI+表情信息)渲染逼真音频的途径,并为如何选择神经音频编解码器作为生成目标提供了实践指导。 主要局限性:论文明确承认缺乏主观听感评估和正式统计检验;Large模型训练不稳定,原因未深究;研究仅限于鼓音频,结论的泛化性未验证。 🔗 开源详情 代码:https://github.com/kostantinos-soiledis/midigroove_poc 模型权重: EnCodec: facebook/encodec_32khz (HuggingFace预训练检查点) DAC: descript/dac_44khz (HuggingFace预训练检查点) X-Codec: hf-audio/xcodec-hubert-general (HuggingFace预训练检查点,配置为2.0 kbps带宽) 数据集:Expanded Groove MIDI Dataset (E-GMD)。论文中未提供该数据集的具体下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 项目页面:https://github.com/kostantinos-soiledis/midigroove_poc(包含生成的音频示例和扩展结果/图表,如所有套件的完整评估细分)。 训练配置:Base模型 (d_model=768, L=6, H=8) 和 Large模型 (d_model=1536, L=10, H=12) 的详细架构参数;优化器为AdamW,学习率 6×10^{-5},全局梯度裁剪1.0,最大200,000步,早停5000步。 训练硬件:所有模型均在单个NVIDIA GeForce RTX 3080 GPU (10 GB VRAM)上训练。 评估协议:具体评估指标(NLL, PPL, Acc, RMSE, MAE, MR-STFT SC, Env RMS corr, TTER MAE, Onset P/R/F1, FAD)的定义和计算方法。 论文中引用的开源项目: EnCodec (神经音频编解码器): https://github.com/facebookresearch/encodec (论文引用 [4]) DAC (神经音频编解码器): https://github.com/descriptinc/descript-audio-codec (论文引用 [6]) X-Codec (神经音频编解码器): https://github.com/zhangzwfcn/xcodec (论文引用 [5]) AudioLM (基于编解码器令牌的语言模型): https://github.com/google-research/audioLM (论文引用 [1]) MusicLM (文本到音乐生成): https://github.com/google-research/musiclm (论文引用 [2]) SoundStream (神经音频编解码器): https://arxiv.org/abs/2107.10759 (论文引用 [11]) GrooVAE (表达性节奏建模): https://github.com/wayne391/beat-dance-datasets (论文引用 [8],数据集链接) CRASH (基于分数的扩散模型): https://github.com/hugoflorentino/CRASH (论文引用 [10]) MIDI-VALLE (符号到音频合成): https://github.com/yangdongchao/MIDI-VALLE (论文引用 [12]) STAGE (伴奏生成): https://github.com/facebookresearch/audiocraft (论文引用 [13]) DARC (鼓生成): https://github.com/DARG/darc (论文引用 [14]) TRIA (基于令牌的鼓合成): https://github.com/ZiyueXu77/TRIA (论文引用 [15]) madmom (用于起点检测): https://github.com/CPJKU/madmom (论文引用 [16],隐含) fadtk (用于计算FAD): https://github.com/AudioLDM/fadtk (论文引用 [17],隐含) 🏗️ 方法概述和架构 本文提出的方法(命名为DrumGrid2Audio)是一个条件生成系统,旨在将输入的表达性鼓网格转换为对应的鼓音频波形。整个系统可以看作一个两阶段流水线:首先是一个由Transformer构成的“网格到token”预测器,然后是一个固定的神经音频编解码器解码器。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 663 words

EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing

📄 EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing #音频事件检测 #多模态模型 #跨模态 #弱监督学习 📝 5.8/10 | 前25% | #音频事件检测 | #多模态模型 | #跨模态 #弱监督学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Huilai Li(北京邮电大学智能工程与自动化学院) 通讯作者:Jianqin Yin(北京邮电大学智能工程与自动化学院) 作者列表: Huilai Li(北京邮电大学智能工程与自动化学院) Xiaomeng Di(国家电网有限公司) Ying Xing(北京邮电大学智能工程与自动化学院) Yonghao Dang(北京邮电大学人工智能学院) Yiming Wang(北京邮电大学智能工程与自动化学院) Jianqin Yin(北京邮电大学智能工程与自动化学院,通讯作者) 💡 毒舌点评 这篇论文精准地切中了现有弱监督音视频视频解析(AVVP)方法的一个痛点:在追求多模态融合时,反而可能损害了对单模态事件本身准确感知的能力。提出的EAR框架从伪标签生成器预训练和最终解析模型两个阶段入手,试图“补课”增强单模态表示,思路清晰且有实效。实验上确实在AVVP基准上取得了当前最佳结果,尤其是伪标签质量的提升令人印象深刻。然而,其核心的“基于相似性的标签迁移”本质上是一种依赖外部预训练模型(CLIP/CLAP)特征质量的启发式增强手段,阈值敏感且易引入噪声(尤其在视觉模态),其“创新”更偏向于针对特定数据集的精巧工程调优,而非对弱监督学习本身方法论的突破。整体看,这是一篇扎实、完整的系统性工作,但理论深度和方法的普适性有提升空间。 📌 核心摘要 要解决的问题:弱监督音视频视频解析(AVVP)任务中,现有方法主要沿着两个方向发展:生成高质量伪标签以提供更细粒度的跨模态监督,或设计更复杂的AVVP模型架构以增强多模态融合。然而,由于音频和视觉信号通常未对齐,准确解析视频根本上依赖于对单模态事件的精确感知。这些多模态聚焦的策略过度强调跨模态融合,而未能充分引导和保留单模态语义,导致生成的伪标签噪声较大,最终视频解析性能次优。 方法核心:提出增强单模态表示(EAR)框架,旨在同时优化伪标签生成器和AVVP模型。(1) 在伪标签生成器预训练阶段,引入基于单模态特征相似性的标签迁移方法,将大规模DAVE数据集上的音视频事件标注转化为伪单模态事件标注,为生成器提供显式的单模态监督;同时采用非对称时序建模架构以更好地聚焦于单模态事件的动态关系。(2) 在AVVP模型训练阶段,采用软约束方式,设计非对称音/视觉驱动融合模块和多事件关系建模模块,在融合过程中保护单模态语义信息。 与已有方法相比新在哪里:明确将“增强单模态表示”作为提升AVVP的核心目标,而非仅仅关注多模态融合或跨模态对齐。具体的实现手段——基于相似性的标签迁移和软约束模型架构——旨在更协调地平衡单模态与多模态事件的关注,这与以往主要关注对称融合或忽略单模态独立建模的方法有本质区别。 主要实验结果: 在AVVP基准LLP数据集上,EAR在伪标签生成和最终解析性能上均达到SOTA。 使用VGGish+ResNet特征时,整体平均性能(Event Level Avg.)比当前SOTA方法UWAV高0.9%,达到63.7%;使用CLIP+CLAP特征时,高1.2%,达到67.4%。 生成的伪标签质量(测试集平均性能)比VALOR和UWAV分别高出3.8%和2.9%。 大量的消融实验验证了标签迁移(LM)、非对称融合(AMDF)、多事件关系建模(ERM)以及各损失函数的有效性。 实际意义:为弱监督时序定位任务(如AVVP、动作定位)提供了一种新的视角,即通过显式增强单模态表示来提升整体性能。其生成的高质量伪标签具有公开共享的价值,可作为未来AVVP研究的强基线。 主要局限性:基于相似性的标签迁移是启发式的,其有效性高度依赖于预训练模型(CLIP/CLAP)的特征质量和相似度阈值的设定。特别是在视觉模态,相似的视觉片段可能包含不同事件,导致迁移的标签引入噪声,这解释了为何论文中视觉模态的性能提升不如音频模态明显。方法性能上限受上游预训练模型特征提取能力制约。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: UnAV-100:用于伪标签生成器预训练的密集音视频事件定位数据集。论文中未提供直接下载链接,但可通过其原始论文[13]中提供的项目页面获取信息。 LLP (Look, Listen, and Parse):用于评估音视频视频解析性能的基准数据集。论文中未提供直接下载链接,但该数据集为AVVP任务的标准评测集,可通过其原始论文[46]获取信息。 Demo:论文中未提及。 复现材料:论文的补充材料(Supplementary Material) 提供了训练配置、损失函数细节、参数消融实验结果等信息,可用于复现。论文中提到生成的细粒度伪标签将公开发布,但未提供发布时的具体链接。 论文中引用的开源项目: CLIP:用于提取视觉和文本特征的预训练模型。论文中给出了其GitHub仓库链接: https://github.com/openai/CLIP CLAP:用于提取音频和文本特征的预训练模型。论文中给出了其论文链接(作为其开源实现的间接指代): https://arxiv.org/abs/2206.04769 ResNet-152:用于提取视觉特征的预训练骨干网络。 3D ResNet:用于提取视觉特征的预训练骨干网络。 VGGish:用于提取音频特征的预训练骨干网络。 🏗️ 方法概述和架构 图2:EAR框架总览。Stage 1利用DAVE数据集进行伪标签生成器的预训练,Stage 2在目标数据集(LLP)上生成伪标签,Stage 3使用生成的伪标签和软约束模型进行AVVP训练。图中清晰展示了数据从原始视频到特征提取、标签迁移、伪标签生成、再到最终解析模型训练的完整流水线。 ...

2026-05-12 · 更新于 2026-05-20 · 3 min · 507 words

Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets

📄 Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets #音频编码 #脉冲神经网络 #信号处理 #高效推理 ✅ 7.0/10 | 前25% | #音频编码 | #脉冲神经网络 | #信号处理 #高效推理 | arxiv 学术质量 7.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jens Egholm Pedersen(丹麦技术大学,电气与光子工程系) 通讯作者:Jens Egholm Pedersen(丹麦技术大学) 作者列表:Jens Egholm Pedersen(丹麦技术大学,电气与光子工程系)、Tony Lindeberg(瑞典KTH皇家理工学院,计算科学与技术系)、Peter Gerstoft(丹麦技术大学,电气与光子工程系) 💡 毒舌点评 这篇论文在理论层面做出了扎实且有价值的贡献,成功地将LIF神经元模型这一工程实践,严谨地嵌入到尺度空间理论和小波帧的数学框架中,填补了神经形态计算与经典信号处理之间的理论鸿沟。这种概念性的创新值得高度肯定。然而,实验部分存在明显短板,未能充分兑现其核心承诺。论文声称其方法“直接映射到神经形态硬件”,却未提供任何在真实神经形态平台上的功耗、延迟或脉冲率测量数据;解码器严重依赖离线的最小二乘法,与“实时、流式”的目标相去甚远;且实验仅局限于信号重建任务,对编码表示在下游任务中的效用未做探索,使得实际影响力大打折扣。 📌 核心摘要 本文旨在为基于脉冲的编码器建立一个严谨的信号处理理论框架。作者提出,可将常用的基于泄漏积分-发放(LIF)神经元的脉冲编码器重新解释为一种时间因果的尺度协变小波帧。核心方法是构造了两种新的脉冲小波家族:截断指数差(DoE) 和时间因果极限核差(DoT)。与现有工作相比,新在:(1)首次为脉冲编码提供了正式的帧定义、重建保证和误差界;(2)将多尺度框架与事件驱动表示统一;(3)提出的波形可直接映射到神经形态硬件。实验结果显示,在MIT-BIH ECG和LibriSpeech音频数据集上,所提出的脉冲小波(尤其是DoT)的归一化均方根误差(nRMSE)与经典的非因果Morlet小波及连续小波变换(CWT)相当(例如,在LibriSpeech上脉冲DoT的nRMSE为0.073,与Morlet的0.064处于可比范围)。本文的实际意义在于为神经形态前端提供了具有可证明重建保证的编码理论基础。主要局限性在于解码过程依赖离线的最小二乘权重求解,且缺乏在神经形态硬件上的实测性能验证。 🔗 开源详情 代码:https://github.com/jegp/swavelet 模型权重:论文中未提及 数据集:论文中提及使用MIT-BIH (Moody and Mark, 2001)和LibriSpeech (Panayotov et al., 2015)数据集,但未提供具体下载链接。 Demo:论文中未提及 复现材料:代码仓库 https://github.com/jegp/swavelet 应包含复现所需的主要材料。论文附录中提供了算法(Algorithm 1)和实验细节(Appendix J)。 论文中引用的开源项目: PyWavelets:用于实现离散小波变换(Haar和Morlet)。链接:https://github.com/PyWavelets/pywt Jax:实验所用的机器学习加速器。链接:https://github.com/google/jax Neuromorphic Intermediate Representation (NIR):文中提及的用于编译到神经形态硬件的表示,但未给出具体链接。 🏗️ 方法概述和架构 本文提出了一个端到端的信号编码与解码框架,旨在将连续时间信号转换为稀疏的脉冲序列,并能够稳定地重建原信号。该框架将传统的模数转换问题重新构建为基于尺度空间理论的小波分解与重构问题。 ...

2026-05-12 · 更新于 2026-05-20 · 2 min · 405 words

Evaluating the Expressive Appropriateness of Speech in Rich Contexts

📄 Evaluating the Expressive Appropriateness of Speech in Rich Contexts #语音质量评估 #语音大模型 #强化学习 #知识蒸馏 #基准测试 ✅ 7.2/10 | 前25% | #语音质量评估 | #强化学习 | #语音大模型 #知识蒸馏 | arxiv 学术质量 7.2/8 | 影响力 1.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tianrui Wang(天津大学,南洋理工大学联合培养) 通讯作者:Longbiao Wang(天津大学)和 Xiaobao Wang(天津大学) 作者列表:Tianrui Wang (天津大学, NTU), Ziyang Ma (上海交大, NTU), Yizhou Peng (NTU), Haoyu Wang (天津大学), Zhikang Niu (上海交大), Zikang Huang (天津大学), Yihao Wu (NTU), Yi-Wen Chao (NTU), Yu Jiang (天津大学), Yuheng Lu (天津大学), Guanrou Yang (上海交大), Xuanchen Li (天津大学), Hexin Liu (NTU), Chunyu Qiang (天津大学, 快手), Cheng Gong (TeleAI, 中国电信), Yifan Yang (上海交大), Tianchi Liu (新加坡国立大学), Junyu Wang (天津大学), Nana Hou (NTU), Meng Ge (天津大学), Fuming You (腾讯), Wei Yang (腾讯), Zhongqian Sun (腾讯), Haifeng Hu (腾讯), Xiaobao Wang (天津大学), Eng Siong Chng (NTU), Xie Chen (上海交大), Longbiao Wang (天津大学), Jianwu Dang (天津大学) 💡 毒舌点评 本文最扎实的贡献在于明确提出了“语境丰富性下的表达适当性”这一被忽视的评估任务,并构建了首个高质量中文有声书数据集。然而,其方法论的核心创新——规划器-判断器解耦、注意力偏置等——更多是对现有技术的精巧组合与工程优化,而非提出全新的基础模型或训练范式。此外,评估仅限于中文,其普适性有待验证。 ...

2026-05-12 · 更新于 2026-05-20 · 3 min · 633 words

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Qijie You(北京科技大学 University of Science and Technology Beijing) 通讯作者:Wentao Zhang(北京大学 Peking University、中关村学院 Zhongguancun Academy) 作者列表:Qijie You(北京科技大学)、Hao Liang(北京大学、中关村学院,同等贡献)、Mingrui Chen(中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences)、Bohan Zeng(北京大学)、Meiyi Qiang(北京大学)、Zhenhao Wong(北京大学)、Wentao Zhang(北京大学、中关村学院,项目负责人,通讯作者) 💡 毒舌点评 这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段,完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图;其提出的“硬双模态约束”过滤机制是一个非常聪明的设计,确保了跨模态查询不是简单的拼接。然而,其短板也明显:整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上,这虽保证了规模,却也引入了模型特有的偏见,且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑,更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 708 words

How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue

📄 How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue #语音对话系统 #流式处理 #语音大模型 #语音打断处理 ✅ 6.0/10 | 前25% | #语音对话系统 | #流式处理 | #语音大模型 #语音打断处理 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Hui Lu(The Chinese University of Hong Kong) 通讯作者:论文作者列表后标注“Corresponding author”,但未明确指名。 作者列表:Hui Lu (The Chinese University of Hong Kong)、Xueyuan Chen (The Chinese University of Hong Kong)、Huimeng Wang (The Chinese University of Hong Kong)、Shuhai Peng (Tsinghua University)、Shiyin Kang (SenseTime Research)、Xixin Wu (The Chinese University of Hong Kong)、Zhiyong Wu (Tsinghua University) 💡 毒舌点评 本文针对全双工语音对话中一个关键但被忽视的架构问题——“用户流路由”——进行了系统性研究,通过一个精心设计的统一框架对通道融合与交叉注意力路由两种策略进行了公平对比。其价值在于首次将该问题明确化、轴心化,并提供了清晰的实证权衡关系(语义整合 vs. 上下文鲁棒性),对系统设计有直接指导意义。短板在于,作为一项对比研究,其结论严重依赖于一个1.7B规模的骨干LLM和固定的训练配方。模型能力是否足够代表当前水平、结论是否可扩展至更大模型,均存疑。此外,对交叉注意力路由性能较差的根源剖析不足,使得“权衡”的成因略显模糊,削弱了洞察的深度。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 839 words

Kinetic-Optimal Scheduling with Moment Correction for Metric-Induced Discrete Flow Matching in Zero-Shot Text-to-Speech

📄 Kinetic-Optimal Scheduling with Moment Correction for Metric-Induced Discrete Flow Matching in Zero-Shot Text-to-Speech 📝 5.5/10 | 前50% | #语音合成 | #离散流匹配, #马尔可夫链蒙特卡洛, #信息几何 | arxiv 学术质量 5.5/8 | 影响力 1.0/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Dong Yang (The University of Tokyo) 通讯作者:未在论文正文中明确指定(第一作者邮箱为ydqmkkx@gmail.com) 作者列表:Dong Yang (The University of Tokyo), Yiyi Cai (Independent Researcher), Haoyu Zhang (The University of Tokyo), Yuki Saito (The University of Tokyo), Hiroshi Saruwatari (The University of Tokyo) 💡 毒舌点评 论文的核心算法贡献(基于Fisher-Rao几何的动能最优调度器与有限步矩校正)推导严谨、动机清晰,且在一个精心设计的控制实验框架下(统一架构、数据、Codec)验证了其有效性,特别是在保持说话人相似度方面表现突出。然而,其模型架构(DiT)本身并非创新点,且与外部SOTA系统的对比存在明显的变量未控问题(Codec、前端、数据规模),使得“最强零样本TTS”的结论并不成立,论文自身也谨慎地限定了结论范围。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 716 words

Latent Secret Spin: Keyed Orthogonal Rotations for Blind Speech Watermarking in Anisotropic Latent Spaces

📄 Latent Secret Spin: Keyed Orthogonal Rotations for Blind Speech Watermarking in Anisotropic Latent Spaces #音频水印 #主成分分析 #潜在空间操作 #神经编解码器 #鲁棒性 📝 5.5/10 | 前50% | #音频水印 | #主成分分析 | #潜在空间操作 #神经编解码器 | arxiv 学术质量 5.5/8 | 影响力 0.5/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Emma Coletta (EURECOM) 通讯作者:未明确说明(论文中未明确指定通讯作者,通常通讯作者为资深作者,但未显式标注) 作者列表:Emma Coletta (EURECOM)、Massimiliano Todisco (EURECOM)、Michele Panariello (EURECOM)、Antonio Faonio (EURECOM)、Nicholas Evans (EURECOM) 💡 毒舌点评 LSS的核心思想——在PCA空间利用各向异性进行微小旋转来诱导协方差变化——确实优雅且具备可解释性,为神经水印提供了一个纯几何的、无需训练的新视角。然而,其“轻量级”光环在很大程度上是以牺牲对更复杂、更贴近实战的攻击(如自适应攻击、裁剪拼接)的严格评估为代价的,使得该方法在安全关键应用中的可靠性存疑。 📌 核心摘要 问题:随着AI生成语音的泛滥,可靠的盲语音水印技术对于内容溯源和真实性验证至关重要。现有学习型水印方法(如WavMark, AudioSeal)虽然有效,但需要端到端训练,且部分方法(如AudioSeal)的负载固定,鲁棒性依赖训练数据覆盖。 方法核心:提出Latent Secret Spin (LSS),一种基于几何操作的盲语音水印框架。其核心是在预训练神经语音编解码器(如EnCodec)的潜在空间中,首先通过PCA获得一组正交基(主成分)。嵌入时,根据密钥生成的伪随机调度,在选定的主成分平面(各向异性平面)内对潜在特征施加微小的正交旋转。这些旋转会在平面的协方差矩阵中引入可预测的离对角项变化。检测时,在相同密钥控制下,重新计算这些特定平面上的归一化协方差,并与已知的负载和芯片序列进行累积,形成一个检测分数,分数超过阈值则判定存在水印。 新颖性:LSS是首个明确利用在主成分空间中通过几何旋转诱导可控协方差模式来进行语音水印和负载嵌入的方法。它完全不需要训练嵌入器或检测器网络,仅依赖于一个预训练编解码器和一组固定的PCA基,实现了水印嵌入/检测与编解码器的解耦,提供了更好的可解释性和跨模型泛化潜力。 实验结果:实验在VoxPopuli和ASVspoof5数据集上进行,内外部域场景下检测AUC均超过99.3%。在非恶意扰动(滤波、压缩、加噪)下,LSS的平均AUC为95.6%,略低于AudioSeal(97.2%),但在低通滤波(1kHz)场景下优于后者。感知质量方面,水印引入的平均PESQ下降小于0.2。 操纵类型 条件 LSS AUC (%) AudioSeal AUC (%) 无操纵 - 99.6 100.0 低通滤波 fc=1kHz 96.5 67.8 低通滤波 fc=1.5kHz 98.1 100.0 高通滤波 fc=1kHz 87.3 100.0 高通滤波 fc=1.5kHz 80.3 100.0 带通滤波 500Hz – 5kHz 97.4 100.0 MP3压缩 32kbps 99.5 100.0 重采样 24->16->24 kHz 99.7 100.0 白噪声 SNR = 5dB 94.8 99.8 白噪声 SNR = 20dB 99.3 100.0 粉噪声 SNR = 5dB 95.6 99.9 粉噪声 SNR = 20dB 99.4 100.0 平均 95.6 97.2 实际意义:LSS为语音水印领域引入了一种可解释、轻量级且灵活(负载可调)的新范式。它不依赖特定模型训练,降低了部署门槛,并可能启发其他在表示学习空间中进行几何操作的安全应用。 局限性:论文评估仅限于良性、非恶意的信号处理扰动,未评估针对水印的自适应对抗攻击(如梯度攻击去除水印)。对时间轴上的篡改(如剪切、拼接)的鲁棒性未充分研究。感知质量仅依赖客观指标PESQ,缺乏主观听力测试验证。 🔗 开源详情 代码:https://github.com/eurecom-asp/lss (论文第5.2节脚注明确指出代码和示例音频在此仓库) 模型权重:论文中未提及 数据集: VoxPopuli:论文中提到使用其英文子集(100小时无标注数据用于PCA估计,10k条用于评估)。获取方式通常通过官方途径(如申请),但论文中未提供具体链接。 ASVspoof 5:论文中提到使用其评估分区中的无压缩真实语音(约35k条,其中10k用于评估,25k用于PCA估计)。获取方式需遵循ASVspoof挑战赛的官方数据发布渠道,论文中未提供具体链接。 Demo:论文中未提及 复现材料:论文在“5.2 Configuration”节提供了详细的复现参数,包括:使用预训练的EnCodec编解码器(24kHz,6.0kbps目标带宽);特征维度n=128;帧率75Hz;分块大小M=32帧;子块大小L=8帧;使用P=24个平面;旋转角度θ=0.18 rad。这些信息已足以复现实验结果。 论文中引用的开源项目: EnCodec:论文使用的预训练神经音频编解码器。脚注中提供了其官方代码链接:https://github.com/facebookresearch/encodec。 WavMark:论文在相关工作部分提及的语音水印方法,但未提供其代码链接。 AudioSeal:论文在相关工作及实验比较部分提及的语音水印方法,但未提供其代码链接。 🏗️ 方法概述和架构 图2:LSS水印嵌入与检测流程概览。在嵌入时,输入信号x被编码为潜在特征F,投影到主成分空间为Z,经水印处理后得到Z*,映射回潜在空间F*,最后解码回水印语音x*。检测时,待测信号同样被编码并投影到相同空间,然后进行水印检测。 ...

2026-05-12 · 更新于 2026-05-20 · 3 min · 446 words