Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

2026-06-04 · 更新于 2026-06-16 · 3 min · 569 words

Neural Radiated-Noise Fields for Unmanned Underwater Vehicle Noise Spectrum Prediction in Three-Dimensional Scenes

📄 Neural Radiated-Noise Fields for Unmanned Underwater Vehicle Noise Spectrum Prediction in Three-Dimensional Scenes 5.1/10 | 创新 1.3/2 | 严谨 0/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 📝 5.1/10 | 前50% | arxiv 👥 作者与机构 作者:Yan Wu, Yang Yang, Jun Fan, Bin Wang 机构:上海交通大学,海洋智能装备与系统教育部重点实验室 💡 毒舌点评 这篇论文将神经辐射场(NeRF)的思想迁移到水下噪声预测上,想法有一定新意。然而,其“新颖性”更多是方法应用上的迁移,而非基础原理的突破。论文最大的短板在于实验对比严重不足:文中完全没有与任何现有的水下噪声预测方法(无论是物理模型还是数据驱动方法)进行对比,这使得其声称的“有效性”和“优越性”缺乏支撑。读者无法知道3.5 dB的误差是优秀还是平庸。此外,实验仅在单一、简单的水库环境中进行,模型的泛化能力声明过于乐观——作者自称“未来将探索多场景”,但当前的结论(如“水平外推最容易”)可能仅在该特定环境下成立。对场景特征网格的解释略显模糊,其学习到的特征具体表征了什么物理意义并未阐明。总体而言,工作是完整且清晰的,但因其缺乏横向对比和更广泛的验证,影响力大打折扣。 📌 核心摘要 本文针对传统物理建模方法对水下航行器(UUV)结构信息和环境边界条件依赖性强、难以实现三维场景连续频谱建模的问题,提出了神经辐射噪声场(NRNF)模型。该模型将UUV辐射噪声功率谱密度(PSD)表示为UUV位置、水听器位置、UUV偏航角及频率的连续函数,支持对任意空间位置的频谱查询。NRNF的核心创新在于引入了一个可学习的三维场景特征网格,并通过交叉注意力机制动态聚合与UUV和水听器位置相关的环境上下文特征,从而显式建模环境结构和声传播效应。实验基于浙江湖州水库的湖试数据,设计了三种渐进式的测试场景(水平外推、深度外推、跨次运行泛化)。结果表明,NRNF在50-5000 Hz频带内的平均预测误差约为3.5 dB,其中水平外推性能最佳,深度外推最具挑战性。消融实验证实了场景特征网格对提升模型泛化能力的关键作用。本研究为水下噪声特征评估提供了一种连续、数据驱动的新范式。 🔗 开源详情 代码:论文未提及代码开源。 模型权重:论文未提及模型权重开源。 数据集:论文说明数据集可向通讯作者申请获取(yang_dl@sjtu.edu.cn),未提供公开下载链接。 Demo:论文未提及。 复现材料:论文未提供训练脚本、配置文件或预训练模型。但第4节“Results and Discussion”详细描述了模型实现的关键参数,包括场景特征网格的计算域(\(x\in[-110,100], y\in[-25,25], z\in[0,10]\))、网格分辨率(\(\Delta x=2, \Delta y=1, \Delta z=1\))、节点特征维度(64维)、优化器(Adam)、初始学习率(\(5\times10^{-4}\))、学习率衰减策略、硬件环境(NVIDIA GeForce RTX 4090 GPU)等。 🏗️ 方法概述和架构 NRNF的模型架构旨在学习一个从输入条件到连续频谱输出的映射,其核心设计包含特征组成和隐式解码两大阶段。如论文图1所示,架构处理流程如下: ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 290 words

Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection

📄 Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection #工业应用 5.8/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #工业应用 | #工业应用 | arxiv 👥 作者与机构 Yongzi Yu (香港科技大学(广州)), Ao Li (香港科技大学), Le Wang (上海财经大学), Ziyue Li (慕尼黑工业大学), Fugee Tsung (香港科技大学), Yuxuan Liang (香港科技大学(广州)), Man Li† (西南财经大学) ...

2026-06-04 · 更新于 2026-06-16 · 3 min · 577 words

Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

📄 Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy #语音识别 #语音合成 #自回归模型 #无监督学习 #鲁棒性 #多任务学习 8.6/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #多任务学习 | #语音合成 #自回归模型 | arxiv 👥 作者与机构 作者:Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Kai Xie, Yu Chen(论文中作者列表顺序与此不同,但姓名与邮箱可对应) 机构:X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, China;MoE Key Lab of Artificial Intelligence, Jiangsu Key Lab of Language Computing, China(合作机构) ...

2026-06-04 · 更新于 2026-06-16 · 1 min · 121 words

Representation Matters in Randomized Smoothing for Audio Classification

📄 Representation Matters in Randomized Smoothing for Audio Classification #数据集 #理论分析 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #音频分类 | #数据集 | #理论分析 | arxiv 👥 作者与机构 Jong-Ik Park, Shreyas Chaudhari, José M. F. Moura, Carlee Joe-Wong 未提及作者机构信息。 💡 毒舌点评 这篇论文像一篇严谨的“用户手册”或“检测报告”,而不是一篇提出新武器的“武器库”论文。它精准地指出了音频领域随机平滑实践中的一个普遍但常被忽视的“歧义性”问题——就像指出不同厂家用不同的尺子量同一件衣服,得出了互相矛盾的“尺寸合格”证书。作者给出的解决方案(报告规范)是正确且必要的,但本质上是社区共识的倡导,而非技术创新。实验是诊断性的,生动地展示了问题的严重性(如有效扰动范数变化230-351倍),但未能进一步证明其报告框架本身能带来性能提升或解决更复杂的场景。对于追求“新SOTA”或“新理论”的读者来说,它可能会显得有些“务虚”;但对于希望进行严谨、可比较的音频鲁棒性研究的同行而言,它又是一篇不可或缺的“卫生标准”指南。分数不高,但价值独特。 📌 核心摘要 本文聚焦于随机平滑(RS)在音频分类中因表示歧义导致的报告不明确问题。作者指出,由于音频处理流水线通常包含归一化、增益控制和特征转换等步骤,RS所认证的输入空间(波形、特征或处理后信号)常常未被清晰定义。为此,论文提出一个表示感知的报告框架,建议明确指定认证对象、扰动位置、增益策略、原始半径、信号相对尺度和任何后处理变换。通过在语音命令(Speech Commands)和环境声(ESC-50)数据集上的诊断性实验,论文量化了不同表示选择(波形平滑、特征平滑、后处理平滑)对认证结果(如认证准确率、有效扰动几何)的具体影响,证明了统一报告规范的必要性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集:Speech Commands(用于关键词检测)和 ESC-50(用于环境声音分类)。论文中未提供具体的获取链接。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的复现配置,包括: 数据集处理:音频为单声道,重采样至 16 kHz,进行 RMS 归一化,并裁剪或填充至固定长度(Speech Commands 为 1 秒,ESC-50 为 5 秒)。 模型架构:一个输入原始波形的 log-mel CNN。具体参数为:64 个梅尔频带,FFT 大小为 1024,窗口长度为 400,跳数长度为 160,包含四个卷积块(通道数分别为 32、64、128、128)。 训练超参数:优化器为 AdamW,学习率为 \(10^{-3}\),权重衰减为 \(10^{-4}\),梯度裁剪为 1.0,使用余弦退火学习率调度。采用 bfloat16 混合精度训练,并在训练时添加标准差为 0.005 的高斯波形增强。Speech Commands 训练 30 个 epoch,ESC-50 训练 200 个 epoch。 认证设置:使用固定预算的蒙特卡洛随机平滑(RS),其中 \(n_0=100\)(用于选择类别),\(n=10,000\)(用于认证),失败水平 \(\alpha=0.001\),\(\sigma\) 取值 \(\{0.0025, 0.005, 0.01, 0.02\}\)。 论文中引用的开源项目: MUSAN:论文中提到用于数据增强(加噪、混响),但未提供链接。 SpecAugment:论文中提到用于数据增强,但未提供链接。 Learnable Audio Frontend (LEAF):论文中提到作为音频前端处理的范例,但未提供链接。 PCEN (Per-Channel Energy Normalization):论文中提到作为归一化前端处理的范例,但未提供链接。 🏗️ 方法概述和架构 本文的核心不是提出一个新的分类器或平滑算法,而是提出一套用于音频随机平滑实验的报告框架和诊断指标。其方法论框架基于对现有RS流程中三个关键失败模式的分析,并据此构建三个报告合同(Contract)来规范化描述。 ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 321 words

SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array

📄 SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array #鲁棒性 #空间音频 6.7/10 | 创新 1.4/2 | 严谨 0.9/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 6.7/10 | 前50% | #音频编码 | #鲁棒性 | #空间音频 | arxiv 👥 作者与机构 论文标题:SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array 会议:Accepted for presentation at AES Europe 2025 Convention (AES 158th Convention), Warsaw, Poland, May 22-24, 2025. 机构/支持:本工作得到国家重点研发计划(No.2024YFB2808902)和北京大学高性能计算平台的支持。(注:论文未明确列出作者个人所属机构,仅列出致谢信息)。 ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 305 words

SURF: Separation via Unsupervised Remixing Flow

📄 SURF: Separation via Unsupervised Remixing Flow #无监督学习 #生成模型 #自监督学习 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前25% | #无监督学习 | #自监督学习 | #生成模型 | arxiv 👥 作者与机构 作者:Henry Li, Robin Scheibler, Efthymios Tzinis, Matt Shannon, Arnaud Doucet, John R. Hershey。 机构:根据作者信息推断,该研究团队可能来自Google Research(基于论文作者常见背景和提供的demo页面域名)。论文本身未在提供的摘要中明确列出机构。 💡 毒舌点评 这篇论文提出了一个看似诱人的无监督音频分离框架,利用“remixing”和流匹配这两个时下热门概念。理论联系Wake-Sleep算法是不错的尝试。然而,审稿人看到的是:1)实验部分严重“偷懒”,没有在更具挑战性或更通用的大规模音频数据集(如MUSDB18, LibriMix)上提供全面的对比和消融研究,使得“state-of-the-art”的宣称显得底气不足。2)“remixing”步骤严重依赖初始教师模型的质量,论文对此潜在缺陷的讨论轻描淡写。3)开源完全缺席,只有一个demo页面,这极大地阻碍了社区验证和方法的实际应用,对于一篇声称有实际应用价值的工作来说是重大扣分项。总体而言,这是一个想法不错但验证不充分、工程实践价值有限的早期工作。 📌 核心摘要 SURF旨在解决无监督单通道源分离问题,即从观测混合信号中恢复源信号,而无需对应的干净源数据。其核心思想是构建一个“教师-学生”自举学习框架。首先,一个教师模型对混合信号进行初步估计,生成伪干净源。接着,通过一个新颖的“remixing”步骤,将这些估计源重新混合,生成新的“伪混合-伪源”对,用于训练学生流模型。学生模型学习从噪声中生成源信号的分布,其训练目标被设计为最大化观测混合信号的似然,并与流匹配框架相结合。论文从理论上分析了该优化过程,并将其与经典的Wake-Sleep算法联系起来,为无监督生成式分离提供了新的视角。在图像(如CelebA)和音频(如WHDWH)基准上的实验显示,SURF优于其他无监督方法。 ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 282 words

Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers

📄 Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers #语音识别 #无监督学习 #Transformer 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #Transformer | #无监督学习 | arxiv 👥 作者与机构 论文作者:Yacouba Kaloga, Shashi Kumar, Shakeel A. Sheikh, Driss Khalil, Petr Motlicek, Ina Kodrasi。 机构:Idiap Research Institute (瑞士), EPFL (瑞士), BUT (捷克共和国), Novartis Institute of Biomedical Research (瑞士)。 核心贡献者:Yacouba Kaloga 和 Shashi Kumar 被标注为同等贡献。 ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 282 words

The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids

📄 The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids #语音增强 #信号处理基础 7.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 👥 作者与机构 Alejandro Ballesta Rosen, Jason Mikiel-Hunter, Julian Maclaren, Jack Collins, Richard F. Lyon, Simon Carlile. 机构:Google Research Australia 和 Macquarie University. ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 313 words

UAT: Unified Audio-Text Diffusion for Audio Generation, Editing, and Captioning

📄 UAT: Unified Audio-Text Diffusion for Audio Generation, Editing, and Captioning #扩散模型 #音频生成 8.5/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.5/10 | 前25% | #音频生成 | #扩散模型 | arxiv 👥 作者与机构 本文由南开大学、腾讯、上海交通大学、香港科技大学和Noiz AI的研究人员共同完成。第一作者是Hui Wang(南开大学和腾讯),通讯作者是Yong Qin(南开大学)。 💡 毒舌点评 这篇工作提出了一个有趣且有价值的问题:如何用一个单一的扩散模型统一音频生成、编辑和理解(字幕)。其“扩散中心”的路线与主流的AR中心或混合架构形成对比,具有新颖性。技术上,通过双流DiT实现音频(连续扩散)和文本(离散掩码扩散)的耦合是合理的创新点。实验也较为充分,验证了统一模型在多个任务上的竞争力。 然而,论文的贡献声明(如“首个”)需要审慎评估。其在字幕生成任务上的性能虽然“有竞争力”,但与顶尖的专用模型(如Audio Flamingo 3)仍有明显差距,这在“统一”的光环下容易被忽略。消融实验揭示了生成与理解之间的权衡,这一点很好,但作者对此的讨论似乎偏乐观。此外,论文未开源代码和完整训练数据,这在一定程度上削弱了其可复现性和影响力。整体而言,这是一篇扎实的工作,为扩散模型在统一多模态建模中的应用提供了新的视角和实证,但尚未达到颠覆性的水平。 📌 核心摘要 本文提出了UAT,据称是首个以扩散为中心的统一框架,支持音频生成、编辑和字幕生成。为解决传统文本到音频扩散模型中音频流更新而文本条件固定的不对称性问题,UAT引入了一个与预训练音频扩散骨干(AudioX)耦合的轻量文本流,形成动态双流扩散Transformer(DiT)。该架构同时处理连续音频潜变量(通过连续扩散)和离散文本词元(通过掩码离散扩散),实现双向音频-文本建模。实验表明,UAT在保持强大的音频生成和编辑能力的同时,达到了有竞争力的音频字幕性能,在声学合成与语义预测之间取得了良好平衡。 🔗 开源详情 代码:论文中未提供UAT官方代码仓库的链接。 模型权重:论文中未提供UAT最终训练模型权重的下载链接。仅提及预训练初始化使用的AudioX权重链接:https://huggingface.co/HKUSTAudio/AudioX。 数据集:论文中未提供UAT最终合并训练数据集的直接下载链接。但明确指出了其由四个公开数据集构建,并提供了其中AudioCaps 2.0的GitHub仓库链接:https://github.com/cdjkim/audiocaps/tree/master/dataset2.0。其他数据集(AudioSetCaps, VGGSound, WavCaps)通过引用提供。 Demo:论文提供了在线演示示例链接:https://UAT-demo.github.io。 复现材料:论文中提及了训练超参数、硬件环境等细节,但未提供训练配置文件、检查点或预处理脚本的下载链接。 论文中引用的开源项目: 评估工具:AAC-metrics (https://github.com/Labbeti/aac-metrics), CLAP (https://github.com/LAION-AI/CLAP)。 基线评估框架:ms-swift (https://github.com/modelscope/ms-swift)。 对比实验的基线模型:Tango 2 (https://huggingface.co/declare-lab/tango2), AudioLDM (https://huggingface.co/cvssp/audioldm), AudioLDM 2 (https://huggingface.co/cvssp/audioldm2), MAGNeT (https://huggingface.co/facebook/audio-magnet-medium), Stable Audio Open (https://huggingface.co/stabilityai/stable-audio-open-1.0), AudioX (https://huggingface.co/HKUSTAudio/AudioX), MiDashengLM (https://huggingface.co/mispeech/midashenglm-7b-0804-fp32), Qwen2-Audio (https://huggingface.co/Qwen/Qwen2-Audio-7B), Qwen3-Omni (https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct), Audio Flamingo 2 (https://huggingface.co/nvidia/audio-flamingo-2), Audio Flamingo 3 (https://huggingface.co/nvidia/audio-flamingo-3/), AP-adapter (https://huggingface.co/cvssp/audioldm2), MusicGen (https://huggingface.co/facebook/musicgen-large)。 🏗️ 方法概述和架构 UAT的核心目标是将文本到音频生成、文本引导音频编辑和音频字幕生成三个任务统一在一个扩散中心的框架内。其方法核心在于设计一个能同时处理连续音频信号和离散文本词元的联合扩散模型,具体架构如图2所示。 ...

2026-06-04 · 更新于 2026-06-16 · 3 min · 613 words