论文速递 | 语音/音乐/音频论文速递

AdaTT: Text-Guided Instrument Timbre Transfer with Target-Adaptive Structural Control

📄 AdaTT: Text-Guided Instrument Timbre Transfer with Target-Adaptive Structural Control #音频生成 #迁移学习 #扩散模型 8.7/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #音频生成 | #迁移学习 | #扩散模型 | arxiv 👥 作者与机构论文作者为 Dabin Kim, Junwon Lee, Juhan Nam，来自韩国科学技术院（KAIST）的文化技术研究生院和人工智能研究生院。 💡 毒舌点评这篇工作问题定义清晰，动机明确——在ControlNet框架下进行音色迁移时，不同乐器固有的、不兼容的“表现力细节”（如小提琴的音高颤音 vs 长笛的响度颤音）会导致音色模糊。作者提出的文本引导自适应缩放机制（TG-CSPs）和半自动数据构建流程是解决此问题的合理且有效的技术路线。然而，其核心贡献——通过两个轻量级模块对异构控制信号进行缩放——在技术深度上略显单薄，更多是工程上的巧妙集成而非理论上的突破。论文最大的短板在于开源和可复现性：只提供了一个无法交互的demo页面，未开源任何代码、模型权重或训练好的数据集，这极大地限制了工作的可验证性和社区影响力，使其像一个精心包装的“演示”而非一个可供研究社区复现的坚实工作。实验部分虽然全面，但主观评估样本量较小（22人，每人20项），说服力有限。此外，将所有对比基线（包括推理时编辑方法）都放在自己精心构造的数据集上测试，可能存在潜在的评价偏差。总体而言，这是一个扎实的、解决具体问题的系统工作，但因其封闭性，在顶级会议上难以获得最高评价。 📌 核心摘要论文针对基于ControlNet的文本到音乐生成模型在乐器音色迁移任务中，因粗暴保留源乐器表现力细节而导致的音色模糊问题，提出了AdaTT系统。其核心创新在于：1）设计了文本引导控制尺度预测器（TG-CSPs），能根据目标乐器文本提示，独立地、帧级地动态缩放从源音频提取的音高（f0）和响度（RMS）这两种异构控制信号的影响力，从而自适应地转换不兼容的表现力细节。2）提出了一套半自动化的数据构建流程，通过参数搜索、自动指标筛选和人工验证，生成高质量的源-目标乐器音色迁移对，用于微调模型。实验表明，AdaTT在保持与ControlNet基线相当的乐谱内容保真度的同时，在音色保真度（CLAP分数0.490，主观TIM 3.582）和自然度（主观NAT 3.484）上达到了最佳水平，且整体音频质量（KAD 0.495，主观QUL 3.307）显著优于基线。 ...

An Asymmetric Formula for Interval Consonance and its Relation to Harmonic Coincidence

📄 An Asymmetric Formula for Interval Consonance and its Relation to Harmonic Coincidence #音乐信息检索 8.0/10 🔥 8.0/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构 David De Roure, Department of Engineering Science, University of Oxford, Oxford, UK; Centre for Practice & Research in Science & Music (PRiSM), Royal Northern College of Music, Manchester, UK 💡 毒舌点评这篇“工作笔记”本质上是一篇披着数论外衣的音乐理论随笔，优雅、简洁，充满了数学的美感，但其对“感知”的宣称更像是一种事后解释而非预测模型。它成功地将Euler的公式从一个美学评判工具，重新包装成了一个（在离散假设下）有物理（声学巧合）和认知（两阶段假设）解释的模型。最大的优点是它将几个世纪以来关于音程和谐性的直觉（伽利略、拉莫、欧拉）用现代的算术语言漂亮地统一起来，并且开源了全部代码。最大的问题是，它声称的“与人类感知的卓越相关性”完全建立在一个包含13个数据点、且未经统计检验的小数据集上——这在顶会审稿人眼中几乎等同于玩具实验。那个“两阶段感知假设”写得引人入胜，但本质上是无法证伪的哲学遐想，缺乏任何直接的心理声学实验验证。最后，将13个区间排序的相关性作为核心评估指标，其统计效力低得可怜，但论文对此却缺乏必要的审慎。这是一篇出色的理论探索，但若声称其对“感知”或“声学”有实质性洞察，则显得证据不足。 📌 核心摘要本文提出一个简单非对称算术公式 \(f(p/q) = p + \Omega^(q)\) 来量化音乐音程的不和谐度，其中 \(p, q\) 为互质整数，\(p>q\)，\(\Omega^(n)\) 为 Euler 的质数加权函数。该公式在13个标准西方音程的人类不和谐度排序数据上，达到了与 \(\max(p,q)\) 相同的最优 Spearman 秩相关系数（\(\rho=0.989\)），并解决了 Euler Gradus 公式（\(G(p/q)=1+\Omega^(p)+\Omega^(q)\)）中无法区分的某些音程对（如大三度/大六度）。论文的核心贡献在于理论层面：1) 证明了在离散调和模型（谐波为整数索引、计数均匀）下，Gradus 等价于一个以 \(\Omega^(n)\) 为权重的加权谐波巧合计数，从而将 Euler 的算术模型与 Galileo 的物理脉冲巧合模型在数学上联系起来；2) 提出了一个推测性的两阶段感知解释（低音确立谐波上下文，高音作为序列中的部分被识别），为非对称性提供心理学动机；3) 建立了一个定性的部分拍音容忍度模型，推导出容忍度半宽 \(\Delta_{\mathrm{tol}} \approx \frac{1730\tau}{p \cdot f_0}\)（单位：音分），将公式中的项 \(p\) 与对失谐的声学敏感度联系起来，并为等程调律（12-TET）的可接受性提供了算术解释；4) 由公式自然生成一个互质整数三角形 \(T(n,k)=n+\Omega^(k)\)，并提议将其作为 OEIS 序列。 ...

An auscultation location specific study on the relationship between expiratory-to-inspiratory acoustic patterns and spirometric airflow limitation across age and gender in asthmatic patients

📄 An auscultation location specific study on the relationship between expiratory-to-inspiratory acoustic patterns and spirometric airflow limitation across age and gender in asthmatic patients 5.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 📝 5.8/10 | 前50% | arxiv 👥 作者与机构印度科学研究院（Indian Institute of Science, Bangalore, India）与圣约翰国家健康科学院（St. John’s National Academy of Health Sciences, Bangalore-560034, India）的研究人员。 ...

An Empirical Study on Learning Latent Representations for Emotional Speech Synthesis

📄 An Empirical Study on Learning Latent Representations for Emotional Speech Synthesis #语音合成 #情感语音合成 #低资源 #数据增强 #语音增强 8.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.2/10 | 后50% | #语音合成 | #数据增强 | #情感语音合成 #低资源 | arxiv 👥 作者与机构作者：Dang Quang Vinh, Ngo Quang Huy 机构：Aimesoft JSC，河内，越南 💡 毒舌点评这篇论文就像一次未经充分准备的实验室报告：作者将一个标准模型（FastSpeech 2）稍作修改，便应用于一个竞赛任务，然后汇报了极其糟糕的结果（MOS接近噪音水平，音节错误率超过60%）。然而，在结论中，作者却使用“promisingly”和“favourable”这样的词汇来形容其系统，这与报告的客观数据形成了近乎荒诞的矛盾。论文既没有尝试与基线进行对比以证明修改的有效性，也没有深入分析失败的原因，只是将问题归咎于数据集噪声并简单提及修复过程。作为一篇“实证研究”，其核心价值——对方法有效性的分析——完全缺失，提供的更多是一份失败的系统日志。 📌 核心摘要本文是针对VLSP 2022情感语音合成竞赛任务的系统描述。作者在FastSpeech 2框架上进行了修改：对于单说话人子任务（Sub-task 1），添加了情感嵌入（查找表）；对于说话人适配子任务（Sub-task 2），同时添加了说话人和情感嵌入，并引入了一个灵感来源于Pan and He (2021)的“韵律瓶颈”（prosody bottleneck）模块。实验使用了竞赛方提供的数据集，经过了降噪、文本修正等预处理。最终系统在官方评估中表现不佳，报告的MOS自然度得分低，音节错误率（SER）高。论文未提供与基线的对比，也未分析失败原因。 ...

AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Optimization for Pathological Speech Reconstruction

📄 AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Optimization for Pathological Speech Reconstruction #语音识别 #强化学习 7.4/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.4/10 | 前50% | #语音识别 | #强化学习 | arxiv 👥 作者与机构 Pengfei Zhang: University of California Irvine Hoang H Nguyen: University of Illinois Chicago Yutong Song: University of California Irvine Wenjun Huang: University of California Irvine Tahmid Imtiaz Imu: Kennesaw State University Henry Peng Zou: University of Illinois Chicago Jiang Wu: University of California Irvine Honghui Xu: Kennesaw State University Amir M. Rahmani: University of California Irvine ...

ArtBoost: Synthetic Articulatory Data Augmentation for Acoustic-to-Articulatory Inversion

📄 ArtBoost: Synthetic Articulatory Data Augmentation for Acoustic-to-Articulatory Inversion #语音识别 #数据增强 #低资源 6.5/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #数据增强 | #低资源 | arxiv 👥 作者与机构论文为匿名提交（Anonymous），作者与机构信息未在提供的原文中披露。 💡 毒舌点评这篇论文就像是一个聪明的“数据搬运工”，想法直白得可爱：既然高质量的“发音轨迹”（EMA）数据难搞，那我就用现成的“脸动轨迹”（3D面部网格）数据来“假装”是它，先让模型学个皮毛。结果嘛，从实验数据上看，这招在小数据集上“唬人”效果拔群，在大数据集上聊胜于无。审稿人最烦这种“我知道这不够好，但你看数据提升了”的逻辑。核心的“领域差异”问题被轻描淡写地绕过了——用脸的运动去代表舌头、软腭的运动，这中间的物理鸿沟，论文只用两张漂亮的图就想糊弄过去，缺乏定量分析。此外，声称“对不同模型架构有效”，但只测了两个模型，这统计显著性堪忧。总而言之，这是一篇技术上中规中矩、想法上有小亮点但理论深度和实验严谨性都明显不足的工作，适合作为一篇“有启发性的小技巧”发表在workshop，但距离顶级会议（如原文暗示的NeurIPS级别）的标准，差距不小。给分6.2，是看在它确实为AAI领域提供了一个实用（尽管粗糙）的数据增强思路。 📌 核心摘要 ArtBoost 是一种针对声学到发音反转（AAI）任务的数据增强策略，旨在解决电磁 articulography（EMA）数据稀缺且昂贵的问题。其核心思想是利用大规模的语音-3D面部网格数据集（如TFHP），从中提取出代表可见发音器官（上唇、下唇、下切牙）运动轨迹的“伪发音轨迹”，作为额外的监督信号。具体流程包括：通过ASR将长视频分割为语句级片段；从网格中追踪对应面部锚点的三维坐标，构建出符合传统EMA格式的12通道轨迹（仅部分通道非零）；采用两阶段训练：先用带有通道掩码的损失函数在伪轨迹上预训练模型，使其学习可见的发音运动先验，然后在真实EMA数据集上进行全通道微调。实验在HPRC和USC-TIMIT两个数据集上，使用SSL-AAI和SI-AAI两种模型架构进行验证，结果表明该方法能一致性提升预测性能（PCC和RMSE），尤其在数据量更少的USC-TIMIT上增益显著。轨迹可视化进一步证实了伪轨迹的物理可解释性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中使用了公开数据集HPRC、USC-TIMIT和TFHP，但未提供这些数据集的处理脚本或具体使用方式的代码。 Demo：论文中未提及。复现材料：论文中未提供训练配置、检查点、附录等具体复现材料。论文中提到了实验设置（如使用单个NVIDIA RTX 3090 GPU，并遵循特定预处理协议），但未提供可直接复用的配置文件。论文中引用的开源项目：未提及。论文引用了FLAME拓扑模型等文献，但未给出其具体的开源仓库链接。 🏗️ 方法概述和架构 ArtBoost 的方法流程如论文图2所示，是一个从数据准备到模型训练的完整流水线，旨在将大规模语音-网格数据转化为可用于AAI模型预训练的伪监督信号。整个过程分为三个核心步骤：ASR引导的语句分割、伪发音轨迹提取、以及两阶段训练策略。 ...

ArtNet: A JEPA-Like Articulatory Predictive Framework for Robust Zero-Shot Phoneme Recognition

📄 ArtNet: A JEPA-Like Articulatory Predictive Framework for Robust Zero-Shot Phoneme Recognition #语音识别 #自监督学习 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.3/10 | 前50% | #语音识别 | #自监督学习 | arxiv 👥 作者与机构作者：Zeqian Hu, Fuliang Weng, Shu Shang, Yaqian Zhou 机构：Fudan University, China; Pedawise, Shanghai, China 💡 毒舌点评这篇工作思路清晰，实验也扎实，像一个优秀的“工程师”而非“科学家”。它巧妙地利用现成的强力骨干网络（mHuBERT-147）和已知概念（VIB、发音特征），组装出一个有效的零样本系统。然而，真正的创新点——将JEPA范式引入语音的适配方式，以及VSIA策略的理论深度——被淹没在了工程细节中。论文最大的遗憾在于“偷懒”：未能挑战更远语系的语言、未能深入剖析AP模块的“功劳”到底多少归于自身设计、多少归于强大骨干网络的“光环效应”。这让它的贡献停留在“有效系统集成”层面，对于追求“为什么有效”的顶会来说，吸引力有限。 📌 核心摘要论文针对零样本跨语言音素识别中声学到符号映射脆弱的挑战，提出ArtNet框架。该框架借鉴视觉领域的联合嵌入预测架构（JEPA），将任务重构为基于发音特征的结构化预测任务。ArtNet包含一个发音预测器（AP）和变分信息瓶颈（VIB），旨在从自监督学习（SSL）特征中提取与语言无关的、鲁棒的发音表示，并抑制语言特定的变化。实验在七种未见语言上进行，结果显示，结合所提出的向量空间库存对齐（VSIA）策略，ArtNet显著优于基线，将音素错误率（PER）相对降低了20.56%，发音特征错误率（PFER）降低了7.01%。 ...

AUDEDIT: Inversion-Free Text-Guided Editing with Pretrained Audio Flow Models

📄 AUDEDIT: Inversion-Free Text-Guided Editing with Pretrained Audio Flow Models #生成模型 #流匹配 7.8/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.8/10 | 前25% | #生成模型 | #流匹配 | arxiv 👥 作者与机构 Zhongyuan Fu，南开大学计算机科学学院 💡 毒舌点评这篇论文精准地抓住了当前音频编辑领域一个非常实际的痛点：基于反转的编辑方法中“改得动”和“改对味”之间的矛盾。作者没有选择暴力优化或引入复杂模块，而是另辟蹊径，从流匹配模型自身的数学性质出发，找到了一条“直路”。思路清晰，实验扎实，消融研究做得尤其到位，把参数的影响剖析得很明白。但是，说到底，这更像是对现有工具（Stable Audio 3）的一次巧妙“调参”和路径规划，而非发明了一种全新的生成范式。其创新性被框定在了“无反转”这个特定赛道上，且强烈依赖于特定骨干模型，通用性和理论深度稍显不足。对于追求“颠覆性创新”的顶会来说，这或许是一篇扎实的工作，但离“改变游戏规则”还有距离。 📌 核心摘要本文提出了AudEdit，一种无需训练、无需反转的零样本文本引导音频编辑框架。其核心思想是直接构建从源音频到目标编辑的传输路径，而非传统方法的“源->噪声->目标”的迂回路径。具体而言，该方法利用预训练的整流流模型（Stable Audio 3），通过在每个时间步计算并积分目标条件速度场与源条件速度场在匹配随机噪声下的差值，来直接更新音频潜在表示。这种方法避免了在高噪声状态下丢失源音频关键细节（如瞬态、节奏、音色）的风险。在构建的音效和音乐编辑评估集上，AudEdit在提示词对齐度（CLAP分数）和源音频保留度（如FAD、LSD）两项关键指标上均显著优于SDEdit、ODE反转和FireFlow等强基线。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供预训练模型权重的获取链接。基础模型Stable Audio 3为第三方工作。数据集：论文中构建了音效和音乐编辑评估集，但未提供直接下载链接或公开托管地址，仅说明了数据来源。 Demo：论文中未提及在线演示链接。复现材料：论文未提供完整的复现材料包（如代码、预训练检查点、构建脚本）。但附录提供了详尽的实验设置、默认参数表（表4）和基线伪代码（附录B），为独立复现提供了关键信息。论文中引用的开源项目：引用了Stable Audio 3、CLAP、SAME等多个开源项目作为基础组件或基线，但未在文中提供具体URL。 🏗️ 方法概述和架构 AudEdit的核心架构建立在预训练的Stable Audio 3文本到音频生成模型之上，该模型采用整流流（Rectified Flow）框架。方法本身是一个无需训练的推理算法，主要包含两个阶段：1）将源音频编码为潜在表示；2）通过求解一个直接的速度差分方程来迭代编辑该潜在表示，最后解码得到编辑后的波形。 ...

Beyond Artifacts: Towards Generalizable Synthetic Song Detection via Music-Intrinsic Features

📄 Beyond Artifacts: Towards Generalizable Synthetic Song Detection via Music-Intrinsic Features #音乐信息检索 8.4/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构作者：Yan Han, Zhibin Wen, Yuan Wang, Shuangrun Shao, Xiaobing Li, Yang Xu, Wei Li 机构：中央音乐学院、南方科技大学、复旦大学 💡 毒舌点评这篇工作试图解决一个非常实际且紧迫的问题——合成音乐的检测。作者们提出了一个听起来很有道理的“音乐内在特征”框架（Sofia），并配备了一个新的数据集MUSIC8K。从论文结构看，它很完整：有问题定义、方法、新基准、详尽的实验。然而，一些关键点需要审慎对待。首先，“生成器不变”是一个很强的声明，但论文主要实验仅覆盖了有限的一批最新生成器，无法保证对所有未来生成器有效。其次，框架的“灵活性”主要体现在特征组合上，但五个固定编码器的选择可能本身就引入了偏见，论文并未探讨是否可以用更少或更优的编码器子集达到同等效果。最后，虽然作者承认了局限性，但将“可扩展性”作为核心价值之一来强调，可能略微淡化了当前实例（Sofia-VAG）在特定特征假设下的脆弱性。总体而言，这是一个扎实的系统性工作，但离“通用解决方案”还有距离。 📌 核心摘要本文针对合成歌曲检测（SSD）中现有方法依赖生成器特定伪影、泛化能力弱的问题，提出了Sofia（基于音乐特征的合成歌曲检测框架）。Sofia通过特征特定的专家网络来建模音乐内在属性（人声V、音频效果A、全局音乐结构G），并利用自适应混合专家（MoE）模块融合这些特征，以学习生成器不变的表示。为全面评估，作者构建了新的基准数据集MUSIC8K，包含最新生成器的歌曲（MUSIC8K-O）和带有真实音频扰动的歌曲（MUSIC8K-P）。在MUSIC8K-O上，Sofia-VAG (MoE) 变体的F1分数比最强基线CLAM高18.5个百分点，同时在鲁棒性评估中表现出色。此外，研究表明Sofia通过少样本适应能够快速适应新生成器。 ...

Beyond Classification: A Cough Regression Benchmark for Respiratory Acoustic Foundation Models

📄 Beyond Classification: A Cough Regression Benchmark for Respiratory Acoustic Foundation Models #音频事件检测 #自监督学习 #低资源 6/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6/10 | 前50% | #音频事件检测 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Mayur Sanap, Prasanna Desikan, Edgar Lobaton 💡 毒舌点评这篇论文本质上是一项扎实但略显保守的工程性工作：将几个已有的呼吸音基础模型在新的回归任务上进行系统性横评。其价值在于填补了“评估”环节的空白，而非提出新颖的方法或深刻的理论。然而，严谨的实验设计（多头、多目标、多数据集）和对关键现象（如迁移不对称性）的清晰揭示，使其成为该领域一个有用的基准，但不足以称为突破性研究。最大风险在于，评估结论高度依赖于所选模型和任务，且“基准”本身的影响力取决于社区后续是否采纳。 📌 核心摘要本文针对呼吸音基础模型（FMs）在咳嗽音频上进行连续健康指标（如年龄、BMI）预测能力的评估空白，提出了一个系统性的回归基准。研究冻结了五个主流基础模型（Opera-CT/CE/GT, HeAR, M2D+Resp）的编码器，提取音频嵌入，并与三种不同复杂度的回归头（线性层、MLP-small、完整MLP）结合，在三个公开数据集（CIDRZ, Coswara, CoughVID）的六个回归目标上进行了全面评估。主要发现包括：1）MLP-small作为回归头在性能和泛化性上取得了最佳平衡；2）生成式预训练目标（Opera-GT）在年龄回归任务上持续优于对比式目标；3）跨数据集迁移呈现显著不对称性，大规模、多样化的网络数据可有效迁移到小规模临床数据，反之则不行；4）低数据量场景下的性能主要由预训练数据的多样性而非模型架构决定。论文为社区提供了一个评估呼吸音基础模型回归能力的标准化框架，并揭示了当前模型在回归任务上的潜力与局限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提供可直接下载的模型权重链接。评估的基础模型需参考其原始论文获取： Opera-CT, Opera-CE, Opera-GT: Zhang et al., 2024. HeAR: Baur et al., 2024. M2D+Resp: Niizumi et al., 2025. 数据集： CIDRZ (N=1049): 来自Google Health AI (2024)。描述为智能手机记录的赞比亚TB诊所患者咳嗽录音。 Coswara (N=2560): 来自Bhattacharya et al. (2023)。描述为通过网络应用在印度收集的咳嗽录音。 CoughVID (N=6858): 来自Orlandic et al. (2021)。描述为通过智能手机全球提交的咳嗽录音。 Demo：论文中未提及。复现材料：论文中未提供训练配置文件、检查点或详细复现脚本。论文在正文中详细描述了基准测试设计、音频预处理流程（重采样至16kHz单声道，填充/截断至2秒）、回归头架构（Linear, MLP-small, MLP）和主要训练超参数（Adam优化器，学习率\(10^{-4}\)，批量大小64，L2正则化\(10^{-5}\)，学习率衰减0.97/epoch，早停耐心10），这提供了复现所需的关键信息，但不足以视为完整的复现材料。 🏗️ 方法概述和架构本论文的核心方法是构建一个标准化的基准测试框架，用于评估预训练的呼吸音基础模型在咳嗽回归任务上的性能。整个流程（如图1所示）是统一且模块化的，包含数据预处理、特征提取、回归头训练与评估三个主要阶段。 ...