论文速递 | 语音/音乐/音频论文速递

Rehearsed Multi-Agent Live Product Demonstrations with Real-Time Voice Question Answering

📄 Rehearsed Multi-Agent Live Product Demonstrations with Real-Time Voice Question Answering #多模态模型 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 📝 5.3/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Rahul Khedar, Mayank Malhotra, Avinash Karn, Mouli V, Prakhar Mehrotra PayPal AI 💡 毒舌点评这篇论文画了一张很大的饼，承诺了一个能自动化产品演示并支持实时语音问答的完整系统。架构设计看起来很聪明，把UI探索和代码分析结合，还搞了个“预演练”来修复定位问题，听起来像是解决工业界演示痛苦的灵丹妙药。然而，最关键的实验部分却像是匆匆交了一份初稿。作者精心设计了一套包含10个指标、6类应用的基准测试协议，然后……就没然后了。我们只拿到了几个内部应用和一个公开应用（Excalidraw）的案例研究，而且连这个案例研究的数据都支离破碎。更糟糕的是，他们既没有验证“跨模态融合”到底有多大用，也没有测试“预演练循环”是否真的比没有它更好。整个系统的核心价值——生成高质量的演示——根本没有被客观量化。这就像一个厨师精心设计了菜谱和厨房设备，却只端上来几道没熟的试吃品，并坚称正式大餐很快会上。 📌 核心摘要本文提出了Rhetor，一个多智能体系统，用于生成可预演练的实时Web产品演示，并支持实时语音问答。系统以运行的Web应用及其源代码仓库为输入，输出一个经过预演练的演示脚本，包含与浏览器操作同步的旁白，并通过同源反向代理在客户端浏览器中实时运行。其核心贡献是：1) 一个跨模态特征表示，融合UI探索和代码分析结果，为特性分配离散的焦点层级；2) 一个受约束的脚本生成器，确保所有动作仅引用探索时观察到的UI元素，并通过优先级顺序的多策略语义定位器执行；3) 一个“预演练-再呈现”循环，包含显式的收敛判定和优雅降级机制；4) 一个运行时同步不变量，通过服务器-客户端握手，将每个浏览器操作绑定到其对应旁白段的音频结束时刻，从而消除字级偏移。论文定义了一个由10个指标、6类应用组成的基准测试协议，并在一个包含四个部署应用（包括公开应用Excalidraw）的初步案例研究中验证了系统能端到端执行，并展示了预演练修复循环在某些情况下能驱动成功率达到收敛。 ...

Semi-Supervised Sound Event Detection with Conditional Mixup and Embedding-Level Contrastive Loss

📄 Semi-Supervised Sound Event Detection with Conditional Mixup and Embedding-Level Contrastive Loss #对比学习 #数据增强 7.6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.6/10 | 前25% | #对比学习 | #对比学习 | #数据增强 | arxiv 👥 作者与机构 Nian Shao^1,2, Xian Li^2,3, Xiaofei Li^2,3*。 1 浙江大学，杭州，中国。 2 西湖大学工程学院，杭州，中国。 3 西湖大学 & 西湖高等研究院，杭州，中国。通讯作者。Email: lixiaofei@westlake.edu.cn 💡 毒舌点评动机合理性存疑：论文声称“一致性正则化对于基于大规模预训练编码器的SED系统效果较弱”，并以此作为引入对比学习的主要动机。然而，这一论断缺乏直接的对比实验证据（例如，仅展示ATST-SED在一致性正则化下的性能瓶颈），更多是基于推理的假设，削弱了贡献的根基。条件混合的必要性未充分论证：论文提出的条件混合（通过阈值τ切换组合/扰动模式）是核心创新。但消融实验仅证明了两种模式分别有效以及组合后更好，却未提供证据表明“在单一框架中统一两种混合模式”比“为两种损失分别设计独立的数据增强策略”更具优势或更简洁。其“统一性”带来的具体好处（如超参数减少、训练更稳定等）未被量化证明。方法依赖特定预训练模型：方法高度依赖ATST-Frame模型及其预训练的对比目标。这在提升性能上是有效的，但也限制了方法的通用性。论文未探讨该方法在其他主流音频预训练模型（如BEATs, AST）上的泛化能力，使其贡献更偏向于一个特定模型架构的“改进包”，而非一个广泛适用的半监督学习框架。数学推导与公式存在瑕疵：论文中部分公式定义存在跳跃。例如，式（4）和（7）中混合样本 \(\mathbf{x}'\) 的下标 c/p 仅用于区分模式，但与插值系数 \(\lambda_c/\lambda_p\) 的取值范围定义（\(0.5 \leq \lambda_c \leq \tau\), \(\tau < \lambda_p \leq 1\)）在符号使用上略显混乱。式（6）中的 \(\min(\tilde{\mathbf{y}}_i + \tilde{\mathbf{y}}_j, \mathbf{1})\) 操作虽然直观（防止标签值超过1），但其理论依据或与其他标准mixup标签处理方式的对比未被讨论。 SOTA声明的比较局限性：在与SOTA对比时（Table III），仅与两个方法（MAT-SED, PMAM）进行比较，且PMAM的PSDS2未提供。DESED作为标准基准，应包含更多近期（如DCASE 2023/2024 Challenge）的强基线或获胜系统进行对比，才能令人信服地宣称“建立了新的最先进水平”。当前比较的广度不足。分析文本遗漏关键信息：已有分析在“开源详情”中错误地推断“复现材料：论文中未提及单独的复现材料”。实际上，论文明确提供了代码仓库链接，这直接支撑了可复现性。分析中对“方法概述”的描述过于简略，未充分展开条件混合的数学定义、损失函数的具体构成以及对比学习的师生框架细节。评分与定位不符：初始评分8.0偏高。论文提出了一项针对特定基线的有效改进，实验结果扎实，但创新深度（条件混合的动机与验证）、理论贡献及广泛影响力有限。它是一篇扎实的系统改进论文，但距离“顶会级”的突破性贡献仍有差距。总分调整为6.5。 📌 核心摘要本文针对半监督声音事件检测（SED）中无标签数据利用不充分的问题，提出了一种改进的微调框架。核心在于引入了受预训练目标启发的嵌入层对比损失，并设计了一个“条件混合”策略来统一伪标签学习所用的“组合混合”与对比学习所用的“扰动混合”。该方法在ATST-SED基线上，通过联合优化伪标签损失与对比损失进行微调。在DESED验证集上，ATST-SEDv2模型取得了0.645 PSDS1和0.822 PSDS2的性能，优于先前报告的基线方法。 ...

SICAGE: Speaker-Independent Culture-Aware Gesture Generation using TED4C-L Dataset

📄 SICAGE: Speaker-Independent Culture-Aware Gesture Generation using TED4C-L Dataset #扩散模型 8.7/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前25% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构 Ariel Gjaci* (意大利技术研究所，热那亚，意大利; 热那亚大学，热那亚，意大利) Antonio Sgorbissa (意大利技术研究所，热那亚，意大利) Vittorio Murino (意大利技术研究所，热那亚，意大利) 💡 毒舌点评论文试图解决一个有趣且重要的问题——手势生成中的文化偏见，但其“文化”定义极其粗糙（直接用国家/语言分组），这就像试图用“所有穿格子衬衫的程序员”来定义一个文化群体，忽视了巨大的组内变异，使得“文化感知”的声称打了折扣。作者声称ALaDiT是“实时”的（生成4秒动作<14ms），但这只是在单张GPU上的推理延迟，论文并未在实验部分与其他基线方法（如MDM, DSG+）进行直接的实时性对比，这个声称缺乏严格的实验支撑。用户研究部分，N=20的样本量对于跨文化、多维度的主观评估来说偏小，统计功效可能不足，尤其是论文报告了多个文化组和多项评分，容易出现偶然显著性。一个根本性的疑问是：论文将每个说话人视为一个独立的“域”来学习文化表征，但每个说话人本身可能具有高度一致的个人风格，这种方法学到的到底是“文化不变性”还是“高度泛化的个人风格”？消融实验中NoDG（无域正则化）的表现并未与FI（有域正则化）拉开巨大差距，可能暗示了这一点。论文提出TED4C-L数据集，但并未提供公开下载链接，仅指向一个项目主页。这限制了工作的可复现性和社区验证，对于声称“大规模”和“基准”的数据集来说，开源承诺的实现至关重要。 📌 核心摘要本文针对现有共话语手势生成方法忽视文化差异且缺乏在说话人无关条件下评估的问题，提出了一个名为SICAGE的模块化框架。该框架的核心思想是学习说话人不变的文化表征。具体实现上，论文构建了一个大规模、多语言的手势数据集TED4C-L（764位TED演讲者，4个文化组，106小时）。文化表征的学习被建模为一个域泛化问题：将每个说话人视为一个独立的域，使用两种策略——对抗学习和Fishr正则化——来训练一个从音频和文本特征中预测文化标签的前馈网络，同时抑制其对说话人身份的依赖性。学习到的文化嵌入随后被用于条件化一个名为ALaDiT的扩散模型手势生成器。ALaDiT整合了音频（mel谱、起始强度、wav2vec）、文本（LaBSE句子嵌入）、种子动作和文化嵌入等多种模态，并通过交叉注意力和自适应实例归一化（AdaIN）等机制进行融合。实验在严格的说话人分割设置下进行，结果表明，基于Fishr正则化的文化嵌入（ALaDiT/FI）在运动真实性（FGD↓）、文化一致性（CE F1↑）等客观指标以及用户研究中的主观评分上均取得了最佳性能，优于无文化条件、对抗学习条件及其它消融变体，并显著超越了MDM和DSG+等基线模型。 🔗 开源详情代码：论文中声明代码、数据集和项目主页将发布于 https://arielgjaci.com/sicage。截至审稿，未提供独立的代码仓库链接（如 GitHub）。模型权重：论文中未提及预训练模型权重的下载链接。数据集：论文提出了TED4C-L数据集，但未提供独立的下载链接或开源协议。获取方式指向上述项目主页。 Demo：论文中未提及在线演示链接。复现材料：论文主文及补充材料（附录A-E）提供了详细的模型架构（VQVAE、ALaDiT、文化分类器）、训练超参数、损失函数配置和评估流程，为复现提供了充分的文本信息。论文中引用的开源项目： MMPose：用于3D关键点提取。链接：https://github.com/open-mmlab/mmpose Language-Agnostic BERT Sentence Embeddings (LaBSE)：用于文本嵌入。模型可通过 Hugging Face 获取：https://huggingface.co/sentence-transformers/LaBSE wav2vec：用于音频特征提取。预训练模型可通过 Hugging Face 获取：https://huggingface.co/facebook/wav2vec2-large-xlsr-53 Motion Diffusion Model (MDM)：基线模型之一。链接：https://github.com/GuyTevet/motion-diffusion-model DiffuseStyleGesture+ (DSG+)：基线模型之一。链接：https://github.com/youngsik94/DSG+ VQ-VAE：论文在补充材料中描述了自定义架构，参考了相关工作（如 [46]），未提供独立仓库。 🏗️ 方法概述和架构 SICAGE是一个包含三个主要组件的模块化框架：1）一个文化多样的数据集；2）一个学习说话人不变文化表征的模型；3）一个以文化和其他特征为条件的动作生成器。其具体实现如下： ...

SIGMA: Saliency-Guided Sparse Mask Attacks for Speech Emotion Recognition

📄 SIGMA: Saliency-Guided Sparse Mask Attacks for Speech Emotion Recognition #语音情感识别 #自监督学习 7.1/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Qiyang Sun: Imperial College London, GLAM, Department of Computing Yi Chang（通讯作者）: Imperial College London, GLAM, Department of Computing; email: yichang312@gmail.com Zixing Zhang: Hunan University, College of Computer Science and Electronic Engineering; Shenzhen Research Institute, Hunan University Björn W. Schuller: Imperial College London, GLAM, Department of Computing; Technical University of Munich (CHI – Chair of Health Informatics, relAI, MDSI, MCML) ...

SIMAX: A Scalable and Interpretable Framework for Multi-Fidelity and Annotated Clinician-Patient Dialogue Simulation

📄 SIMAX: A Scalable and Interpretable Framework for Multi-Fidelity and Annotated Clinician-Patient Dialogue Simulation #语音合成 #数据增强 6.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.6/10 | 后50% | #语音合成 | #数据增强 | arxiv 👥 作者与机构 Zhuhan Bao1†, Rui Yang2,3†, Bohao Yang4, Zhiyi Liu1, Sicheng Shu1, Ruio Heerschap1,5, Le Li6, Doris Yang7, Elisabeth Bond1, Haoyuan Wang8,9, Nicoleta Economou-Zavlanos1, Joshua M. Biro10, Matthew McDermott11, Nan Liu1,2,3,15,16, Anand Chowdhury17, Kai Sun14, Kathryn Pollak12,13, Ed Hammond18, Chuan Hong1,19* 1 Department of Biostatistics and Bioinformatics, Duke University School of Medicine, Durham, NC, USA 2 Duke-NUS AI + Medical Sciences Initiative, Duke-NUS Medical School, Singapore, Singapore 3 Centre for Biomedical Data Science, Duke-NUS Medical School, Singapore, Singapore 4 Department of Statistical Science, Duke University, Durham, NC, USA 5 Leiden University Medical Centre, Leiden, The Netherlands 6 Department of Mathematics, University of Texas at Austin, Austin, USA 7 Department of Internal Medicine, Yale School of Medicine, New Haven, CT, USA 8 Department of Biostatistics, Epidemiology and Informatics, Perelman School of Medicine, University of Pennsylvania, Philadelphia, PA, USA 9 The Graduate Group in Applied Mathematics and Computational Science, School of Arts and Sciences, University of Pennsylvania, Philadelphia, PA, USA 10 Medstar Health National Center for Human Factors in Healthcare, Washington, DC, USA 11 Department of Biomedical Informatics, Columbia University, New York, NY, USA 12 Cancer Prevention and Control, Duke Cancer Institute, Durham, NC, USA 13 Department of Population Health Sciences, Duke University School of Medicine, Durham, NC, USA 14 Division of Rheumatology and Immunology, Duke University School of Medicine, Durham, NC, USA 15 Pre-hospital and Emergency Research Centre, Health Services Research and Population Health, Duke-NUS Medical School, Singapore, Singapore 16 NUS Artificial Intelligence Institute, National University of Singapore, Singapore, Singapore 17 Division of Pulmonary, Allergy and Critical Care Medicine, Duke University School of Medicine, Durham, NC, USA 18 Duke Center for Health Informatics, Durham, NC, USA 19 Duke Clinical Research Institute, Durham, NC, USA ...

TF-MoE: Time-Frequency Mixture-of-Experts for Efficient Speech Separation

📄 TF-MoE: Time-Frequency Mixture-of-Experts for Efficient Speech Separation #语音分离 8.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 🔥 8.1/10 | 前25% | #语音分离 | #语音分离 | arxiv 👥 作者与机构作者：Hu, Li, Zhang, Liu, Lu, Qian, Wangyou, Shujie, Yan, Yanmin (具体全名见原文标题页) 机构：1. 听觉认知与计算声学实验室，上海交通大学，上海，中国；2. 微软亚洲研究院，中国 💡 毒舌点评这篇论文精准地抓住了当前语音分离领域一个被忽视但至关重要的痛点：大家拼命堆砌Transformer、SSM等时髦架构时，把计算量搞得巨大无比，却美其名曰“模型紧凑”（参数少）。作者没有去卷更复杂的序列建模，而是从“性价比”入手，用成熟的MoE技术给这个“计算黑洞”做了一次“稀疏化手术”。想法非常务实，效果也立竿见影，在低计算预算下确实“打”服了一票基线。消融实验和可视化做得不错，让“专家到底学了啥”变得相对直观。但问题是，这篇论文目前的状态更像一个出色的“工程技巧展示”而非一篇理论突破。对E=24性能下降的解释停留在“可能”，缺乏更深层的机制探讨。所有实验都在“无菌”的Libri2Mix合成数据上进行，面对真实世界带噪、混响的语音，这套稀疏路由机制还能否保持高效和专业，是个巨大的问号。代码不开源，在这个“talk is cheap”的时代，总感觉诚意打了点折扣。总之，是一个扎实有效的工作，但离“顶会让人眼前一亮”的级别，还差那么点理论深度和现实世界验证的“脏活累活”。 📌 核心摘要本文针对语音分离模型参数紧凑但计算成本高昂、不利于边缘部署的矛盾，提出了TF-MoE框架。该框架首先构建了一个基于mel频带分割的高效Conformer骨干网络（TF-Conformer）。在此基础上，核心创新在于将时域和频域模块中的标准前馈网络替换为稀疏门控的混合专家前馈网络（MoE-FFN）。通过动态路由机制，每个时间帧或频率频带仅激活top-J个专家，从而在几乎不增加推理计算成本（仅增加极小的门控开销）的前提下，将模型FFN参数量扩大E倍，有效提升了模型容量。实验表明，在Libri2Mix数据集上，TF-MoE在4.1 GMACs/s的低计算预算下达到了17.7 dB SDR，显著优于计算成本相当的BSRNN基线（+3.8 dB SDR），并优于其骨干网络TF-Conformer（+1.3 dB SDR）。消融研究证实了Conformer优于RNN，以及在时频双维度引入MoE的互补增益。专家路由可视化显示，专家在频率维度和时间维度上形成了对不同频带和说话人模式的显式专业化，验证了该设计的有效性。该工作为在资源受限设备上部署高性能语音分离模型提供了一条可行路径。 ...

TRACE: Temporal Relationship-Aware Conversational Entrainment Detection in Dyadic Speech

📄 TRACE: Temporal Relationship-Aware Conversational Entrainment Detection in Dyadic Speech 5.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 📝 5.9/10 | 前50% | arxiv 👥 作者与机构作者: Sathvik Manikantan Napa Ugandhar, Hao Zhang, Alison Gunzler, Yuzhe Wang, Thomas Thebaud, Georgi Tinchev, Venkatesh Ravichandran, Laureano Moro-Velázquez 机构: 未明确说明（匿名投稿） 💡 毒舌点评这篇论文动机很清晰，做情感卷入检测，强调情境和关系的重要性，方向是对的。但“新颖性”有些打折，本质上是把 Whisper 声学特征 + 对话上下文特征 + 关系特征拼起来过个 Transformer 和 MLP，架构上没什么让人眼前一亮的设计。最大的亮点可能在于构造了 DyadEE 这个数据集，尤其是用合成手段制造“未卷入”样本的思路，虽然作者自己也承认这可能是最大的局限。实验结果 97% 的准确率看起来很漂亮，但考虑到负样本是高度受控的合成数据，这个数字的“水分”不小，说服力要打个问号。论文在相关工作梳理和方法描述上还算清楚，但一些关键细节（如窗口大小、训练超参）缺失，影响复现。总的来说，这是一篇“正确”但缺乏惊喜的工作，更像是一个不错的工程应用案例，而非推动领域认知的突破性研究。 ...

Two kinds of robustness are not the same: disentangling fault tolerance and low-SNR robustness in multi-domain event detection on real data

📄 Two kinds of robustness are not the same: disentangling fault tolerance and low-SNR robustness in multi-domain event detection on real data #鲁棒性 #多任务学习 #迁移学习 #数据增强 8.9/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.9/10 | 前25% | #音频事件检测 | #数据增强 | #鲁棒性 #多任务学习 | arxiv 👥 作者与机构作者：Isao Kurosawa 机构：IVXA, Japan 💡 毒舌点评这篇论文像一个严谨的侦探，成功区分了两种常被混淆的鲁棒性（传感器丢失 vs. 低信噪比），并用控制变量法（固定配方测架构，固定架构测配方）证明了后者主要归功于“传感器丢弃”这一训练策略，而非昂贵的架构冗余。这是一个清晰、实用且实验扎实的发现，对工程实践有直接指导意义——用简单模型加训练技巧就能获得大部分鲁棒性。然而，论文的“章鱼臂”和“三心”命名虽生动但略显花哨，且“低SNR鲁棒性主要归因于传感器丢弃训练策略，而非架构冗余”这一核心结论的普适性可能受限于其特定的检测任务（相对简单）和数据域。此外，论文在理论层面（为何特定训练配方能迁移到另一种未见噪声）的解释深度有限，更多是现象描述和合理推测。 ...

Underwater Source Detection and Classification for Signal-based Surveillance: Audio Dataset Curation and Cross-Domain Evaluation

📄 Underwater Source Detection and Classification for Signal-based Surveillance: Audio Dataset Curation and Cross-Domain Evaluation #数据集 #模型评估 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.8/10 | 前25% | #数据集 | #模型评估 | arxiv 👥 作者与机构未明确说明第一作者及单位。论文致谢部分提及工作由美国海军研究办公室资助 (Grant No. N00014-21-1-2790)。 💡 毒舌点评这篇论文做了一件扎实的“基础设施”工作：收集、清洗并标准化了一个水下音频数据集，然后建立了一个简单但可复现的基线，并针对一个实际痛点（跨域船舶检测失败）提出了组合技（加权损失+margin+特征对齐）来缓解。优点是诚实、实验设计清晰、代码开源，为后续研究铺了路。缺点也很明显：作为顶会论文，其“方法”部分的创新性稍显薄弱，提出的更像是工程技巧的组合而非深刻的理论洞察；而且Tiny-CNN这个基线模型本身过于简单，其提升上限有限，论文中也坦承了这一点。最终分数不高不低，算是完成了社区需要但不够惊艳的贡献。 📌 核心摘要本文针对水下声学机器学习领域公开标注数据集稀缺且模型跨域泛化能力差的问题，做了三方面工作：首先，从公开的海事声音档案中人工筛选并策划了一个包含8类、1099个1秒片段的水下音频数据集USS8。其次，建立了一个基于Tiny-CNN和对数梅尔频谱图的轻量级、可复现的基线模型。最后，重点评估了在ShipsEar数据集上的零样本跨域船舶检测性能，发现基线模型因域偏移和类别不平衡导致检测率极低 (5.91%)。为此，论文提出并组合了类别加权交叉熵损失、一种新的margin-enhanced损失 (CE-PlusPairMargin) 以及推理时的特征统计对齐方法，最终将船舶检测率显著提升至48.51%，验证了这些方法在缓解类间混淆和域偏移上的有效性。论文同时开源了数据集准备流水线代码以支持复现。 🔗 开源详情代码：https://github.com/qtvo93/data-pipeline-avss 。论文明确提供了此GitHub仓库链接，包含用于从公共音频档案重现USS8数据集的数据准备流水线代码。模型权重：论文中未提及任何预训练模型权重的下载地址。数据集：论文明确说明，由于原始海事声音档案的许可限制，其策划并整理好的USS8数据集本身不能重新分发。用户需通过上述代码流水线自行处理生成。 Demo：未提及。复现材料：论文提供了详细的复现所需信息，包括：固定的数据划分（716/164/219）、训练设置（交叉熵损失，早停）、硬件环境（RTX 3090 GPU）、特征提取参数（n_fft=1024, hop_length=256, n_mels=64, 采样率16000Hz）、损失函数公式及超参数说明、以及在ShipsEar上进行零样本评估的具体方法。这些信息与代码仓库结合，允许在生成数据集后复现实验。论文中引用的开源项目：pydub库（用于音频分割）。 🏗️ 方法概述和架构论文的方法流程可分为数据准备、特征提取、基线模型训练与域偏移缓解策略四个核心阶段。 ...

VeRe-Flow: Guiding Flow Matching toward Clean Speech via Velocity Contrastive Regularization and Representation Alignment for Noise-Robust Bandwidth Expansion

📄 VeRe-Flow: Guiding Flow Matching toward Clean Speech via Velocity Contrastive Regularization and Representation Alignment for Noise-Robust Bandwidth Expansion #语音增强 #流匹配 #自监督学习 #正则化微调 #生成模型 #鲁棒性 7.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.7/10 | 前25% | #语音增强 | #自监督学习 | #流匹配 #正则化微调 | arxiv 👥 作者与机构作者：Sujin Koo, Sangyoon Kim, Ji Sub Um, Hoirin Kim。机构：MAGO（韩国）和KAIST（韩国）。 ...