论文速递 | 语音/音乐/音频论文速递

FSC-Net: Integrating Fast Fourier Convolutions and Progressive Learning for Speech Bandwidth Extension

📄 FSC-Net: Integrating Fast Fourier Convolutions and Progressive Learning for Speech Bandwidth Extension #音频质量评估 6.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #音频质量评估 | #音频质量评估 | arxiv 👥 作者与机构 Xinan Chen, Xiaobin Rong, Qinwen Hu, Kai Chen, Jing Lu Key Laboratory of Modern Acoustics, Nanjing University, Nanjing 210008, China NJU-Horizon Intelligent Audio Lab, Horizon Robotics, Beijing 100094, China ...

Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition

📄 Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition #语音情感识别 #自监督学习 7.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Li Qian Song, Shuanglin (可能)，来自1. 湘江实验室 (Xiangjiang Laboratory)，长沙，中国；2. 埃克塞特大学 (University of Exeter)，埃克塞特，英国。联系邮箱为：slay575@163.com, ruxiaoqian@gmail.com, s.song@exeter.ac.uk。 💡 毒舌点评这篇论文试图用微分几何的华丽外衣，给一个相对直白的统计操作（在子空间上计算协方差矩阵并取对数）正名。动机（一阶聚合丢失相关性）是合理的，但论述中将“协方差矩阵在欧氏空间操作”上升到“几何失真”、“伪熵”的高度，显得过于理论化，有点把简单问题复杂化的嫌疑。实验上，虽然在两个标准数据集上超越了基础池化基线，但对比的基线集显得陈旧且单一（没有与近期任何二阶聚合方法如Bilinear Pooling，或其他几何方法如Log-Det Pooling对比），使得“有效性”的宣称大打折扣。最遗憾的是，作为一篇强调计算效率（避免维度爆炸）的论文，居然完全不提供SOC层与基线的计算开销对比，这在注重实用的顶会审稿人眼里是很大的减分项。作者声称SOC是“drop-in module”，却不展示其插入后的整体效率变化，说服力不足。 📌 核心摘要本文针对自监督语音识别（SSL）表征在聚合为整段描述符时丢失特征间高阶相关性的问题，提出了第二阶相关（SOC）层。SOC层首先通过一个可学习的线性层将高维SSL特征投影到一个紧凑的低维子空间，在此子空间中计算特征的协方差矩阵，将其建模为对称正定（SPD）流形上的描述符。随后，通过Log-Euclidean映射（LEM）将协方差矩阵映射到欧几里得切空间，并进行半向量化以供下游分类器使用。在ESD和RAVDESS两个数据集上的实验表明，SOC在多个冻结SSL主干网络上均优于全局平均池化（GAP）、全局标准差池化（ASP）和帧感知池化（FA）等一阶基线方法。 ...

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

📄 Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks #语音识别 #对抗样本 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 9.2/10 | 前25% | #语音识别 | #对抗样本 | #多模态模型 | arxiv 👥 作者与机构 Jiani Xie, University of Melbourne Andrew C. Cullen, University of Melbourne Paul Montague, DST Group Benjamin I. P. Rubinstein, University of Melbourne ...

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

📄 Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization #多模态模型 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 6.2/10 | 前50% | #多模态模型 | #图神经网络 | arxiv 👥 作者与机构哈尔滨工业大学（计算学院）、鹏城实验室、哈尔滨工业大学苏州研究院。 💡 毒舌点评这篇论文在“概念缝合”上做得不错，把图网络、双曲几何和开放词汇这些热门方向缝合成一个新框架。想法听起来很“顶会”，但仔细看技术实现，双阈值机制里的 \(w_1/w_2\) 是拍脑袋定的超参数，指示函数不可微也没交代，理论部分对双曲空间的作用解释得像玄学。实验上，消融研究做了，但“为什么有效”的分析深度不够，更像是组件堆叠的功劳报告。最让人皱眉的是开源方面，啥也没提供，这对于顶会论文来说是重大减分项——光说代码“可复现”是不够的。作者声称解决了开放词汇泛化问题，但实验里未见类别性能仍远低于已见类别，这“显著提升”的结论需要打个问号。总的来说，包装大于实质，想法有价值，但执行和论证的严谨性离顶级工作还有差距。 📌 核心摘要本文针对开放词汇音频-视觉事件定位（OV-AVEL）任务，提出一种分层语义约束异构图（HSCHG）框架。该框架包含两个主要阶段：首先，在欧氏空间构建异构层次图网络（HHGN），联合建模片段级和视频级的音视一致性表示；其次，将多层级表示映射到双曲空间，利用层次蕴涵正则化损失显式建模语义层次关系，以增强对未见类别的泛化能力。核心创新在于将异构图的多粒度跨模态交互与双曲空间的几何层次先验相结合，为开放词汇场景下的多模态理解提供了新思路。在OV-AVEBench基准上的实验表明，该方法在已见和未见类别上均优于现有基线，尤其在未见类别上取得显著性能提升。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文使用OV-AVEBench数据集（基于VGGSound构建），但未提供具体下载链接。 Demo：论文中未提及。复现材料：论文未提供训练配置文件、检查点或附录等复现材料的下载链接。论文中引用的开源项目： ImageBind: 论文使用其作为特征提取器。项目链接：https://github.com/facebookresearch/ImageBind 🏗️ 方法概述和架构 HSCHG框架（如图3所示）旨在为OV-AVEL任务学习具有语义一致性且层次分明的音视表示。其整体流程可分为四个主要阶段：特征提取、异构图网络处理、双曲空间映射与约束、损失优化。特征提取与初始化：使用冻结的预训练ImageBind模型分别提取音频、视觉和文本特征。对于输入视频，将其划分为\(T\)个片段，得到片段级音频特征 \(\mathbf{A}^{p} \in \mathbb{R}^{T \times D}\) 和视觉特征 \(\mathbf{V}^{p} \in \mathbb{R}^{T \times D}\)，以及类别文本特征 \(\mathbf{E} \in \mathbb{R}^{(|C|+1) \times D}\)。通过对片段特征进行时间平均池化，得到视频级音频特征 \(\mathbf{A}^{v}\) 和视觉特征 \(\mathbf{V}^{v}\)。此外，为每个样本构建一个视频级文本特征 \(e_{v}\)（通过提示“a full video of {category}”编码得到），用于后续层次约束。这些初始化的特征作为异构图网络的节点输入。 ...

How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

📄 How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling #参数高效微调 #迁移学习 #音乐信息检索 8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前50% | #音乐信息检索 | #参数高效微调 | #迁移学习 | arxiv 👥 作者与机构作者：Jinju Lee 机构：PearlLeeStudio（个人工作室/实验室） 💡 毒舌点评这篇论文以极其谦逊和保守的姿态，进行了一次扎实但略显“安全”的探索。它避免了在音乐生成领域常见的过度宣称，而是诚实地勾勒出和弦符号这一表示的边界。优点在于实验设计完整（165格网格+多种诊断），且控制变量做得不错（数据大小匹配、基座消融）。缺点是其保守性可能也限制了贡献的冲击力——结论（和弦不足以代表完整流派）几乎是一个领域共识的确认，而非惊人的新发现。此外，所有实验仅在单个消费级GPU上完成，虽显示了可访问性，但也可能暗示了模型规模和实验规模的局限性。它更像是一份严谨的“工程可行性与表示边界”报告，而非一篇能显著推动模型能力或音乐理解的突破性论文。 📌 核心摘要本研究旨在探索和弦符号时间序列在承载音乐流派身份方面的能力与边界。作者将音乐简化为和弦符号序列，以冻结的流行-爵士Music Transformer为基座模型，系统评估了五种参数高效微调方法在11个目标流派上的适应效果。核心发现是：所有适应方法都能可靠提升流派内的和弦预测准确率，但方法间差异不显著，且控制令牌基线性能强劲，表明适应效果主要源于轻量级条件控制而非特定适配器。结合和弦分类器弱、生成分布更收敛、错误流派适配器也有效等诊断，论文得出一个保守但清晰的结论：和弦符号可作为音乐AI中一个有用且可控的中间层，但它本身不足以编码完整的、可感知的流派身份。真正的流派真实性需要未来结合节奏、音色等其他音乐层，并进行人类感知评估。 🔗 开源详情代码：论文中明确声明已发布制品，包括评估脚本。获取链接为：https://huggingface.co/PearlLeeStudio。但未提及独立的GitHub代码仓库。模型权重：论文中提到冻结的基线检查点（F1）和所有特定流派的适配器均已发布。获取链接为：https://huggingface.co/PearlLeeStudio。数据集：论文中提及的数据集为 Chordonomicon，其派生切片用于非商业研究，许可证为 Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)。论文未提供具体数据集下载链接，但注明已记录确切的源版本、许可证文本和文件校验和。Bach chorales 数据来源于公开的 music21 语料库。 Demo：论文中未提及。复现材料：论文指出，完整的165单元格网格和所有诊断实验均在单个消费级笔记本电脑GPU（NVIDIA GeForce RTX 4070 Laptop, 8 GB）上完成训练和评估，表明该研究具有可复现性。所有发布材料（权重、数据切分、评估脚本）位于 https://huggingface.co/PearlLeeStudio。论文中引用的开源项目： Music Transformer：论文指出基线模型架构遵循此系列。链接：https://github.com/jason9693/music-transformer (非原始论文仓库，但为常见开源实现之一)。 Chordinator：论文将其列为在精神上相近的工作，因其研究了多流派下的风格条件和弦生成。链接：https://github.com/elsonidoq/chordinator (常见开源仓库)。 music21：论文提及 Bach chorales 数据来源于此公开语料库。链接：https://web.mit.edu/music21/。注意：论文中引用的其他项目（如 Hu et al. 2022 关于 LoRA）未直接给出代码链接。以上列出的链接为论文提及项目的常见公共仓库或主页，供参考。 🏗️ 方法概述和架构本研究的方法论核心是在冻结基座模型上进行多流派适应与系统性诊断，以探测和弦符号表示的承载能力。 ...

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

📄 HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec #语音合成 #自监督学习 #语音生成 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #语音合成 | #自监督学习 | #语音生成 | arxiv 👥 作者与机构作者：Arjun Gangwar, Umesh S 机构：Indian Institute of Technology, Madras, India 邮箱：arjungangwar@gmail.com, umeshs@ee.iitm.ac.in 💡 毒舌点评这篇文章的核心想法，即将两个已有的范式（双流架构和语义蒸馏）进行“统一”，其创新性相当有限，更像是一个工程上的组合。论文最大的卖点在于“推理时不需SSL模型”的速度提升，但这本质上是用训练时的蒸馏损失换取了推理时的复杂性降低，技术路径并不新颖。实验部分，所有模型均仅在LibriSpeech上训练，这在评估跨语言和零样本能力时说服力大打折扣——模型只是在同一个英语数据集上见过足够多数据后，碰巧能更好地处理相似分布的英语语音而已。论文声称实现了“强大的语义-声学解耦”，但除了一个RVQ-1 WER指标外，缺乏任何更直接、更严谨的解耦度量来支撑这一核心主张。此外，完全不提供代码，极大地阻碍了结果的可验证性和社区的后续研究。 📌 核心摘要针对多模态大语言模型中语音离散化的需求，现有神经音频编解码器存在语义解耦强但推理慢（如DualCodec）或推理快但解耦弱（如DAC蒸馏变体）的权衡。本文提出HybridCodec，一种结合了双流架构与语义蒸馏的统一模型。其训练时利用冻结的SSL模型（w2v-BERT-2.0）对语义流进行知识蒸馏，推理时则移除该重型SSL模型。实验表明，HybridCodec在域内（LibriSpeech）测试集上取得了最优的RVQ-1 WER（15.36%），相比DualCodec实现了约3倍的推理加速，同时在跨语言和零样本场景下保持了竞争力的重建质量和泛化能力。 🔗 开源详情代码：论文中未提及代码链接，未开源。模型权重：论文中未提及模型权重的公开获取链接，未开源。数据集：论文使用了三个公开数据集：LibriSpeech（960小时，需重采样至24kHz）、SeedTTS-en（论文引用[Anastassiou2024SeedTTSAF]）和Common Voice French（从测试集随机采样1000条）。论文未提供SeedTTS-en等的具体下载链接。 Demo：论文中未提及。复现材料：论文提供了详细的模型架构（图1）、训练配置（数据集、音频处理、优化步骤、损失函数权重等）以及评估细节。未提供预训练检查点或复现脚本。表3中“open-source checkpoints”指的是对比的基线模型（Mimi, DualCodec）的原始开源检查点，而非本文HybridCodec的检查点。论文中引用的开源项目（均为引用参考，非本文提供）： DualCodec：作为基线对比，引用自[dualcodec]。 DAC (Distill)：作为基线对比，基于[DAC]。 Mimi：作为开源模型对比，引用自[moshi]。 w2v-BERT-2.0：用作SSL特征提取器，引用自[w2v-bert-2.0]。 Whisper v3-large：用于WER评估，引用自[radford2022whisper]。 ECAPA-TDNN：用于SSIM评估，属于SpeechBrain工具包，引用自[ECAPA-TDNN]。 UTMOS：用于感知质量评估，引用自[UTMOS]。 PESQ：标准化评估指标，论文未指明具体实现来源。 ConvNeXt Block：用于模型架构，引用自[convnext]。 🏗️ 方法概述和架构 HybridCodec的核心设计是联合优化一个共享的编码器-解码器和两个并行的处理分支（语义流与声学流），并通过蒸馏引入SSL知识，最终实现在不依赖推理时SSL模型的前提下获得良好的语义-声学解耦。 ...

IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems

📄 IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems #流式处理 6.5/10 ✅ 6.5/10 | 前50% | #语音对话系统 | #流式处理 | arxiv 👥 作者与机构 Zhong Tao, Jiajun Deng, Nikita Kuzmin, Yinke Zhu, Tianxiang Cao, Tristan Tsoi, Zhili Tan, Simon Lui, Xunying Liu 1 The Chinese University of Hong Kong, China 2 AudioLab Hong Kong, Huawei Leibniz Research Center, China 3 Nanyang Technological University, Singapore 💡 毒舌点评这篇文章抓��了全双工对话系统在真实噪声环境中的一个切实痛点——干扰语音污染条件输入。IRAF的思路直观，即“不确定的就不信”，用一个轻量门控去缩放可能被污染的音频特征，这听起来简单直接，甚至有些“土办法”的味道。论文声称这是“首次”尝试解决E2E全双工系统的这类问题，但方法本身（用一个Speaker Embedding做引导的注意力门控）在语音分离、说话人日志等领域已有大量影子，创新深度有限。实验在两个数据集上做了，也加了消融，看起来扎实，但缺少与更多近期SOTA的直接对比，说服力打了折扣。最让人皱眉的是，整个门控的监督信号（目标说话人活跃帧）在训练时依赖完美的说话人活动分割，这在真实在线场景中如何获取？论文对此避而不谈。一个严重依赖“干净”训练信号来应对“嘈杂”现实的方法，其泛化能力要打个大大的问号。总的来说，这是一篇工程上合理、实验上尚可、但理论新意和实际部署可行性存疑的工作。 📌 核心摘要本文针对端到端双通道全双工语音对话系统在存在干扰说话人的现实环境中性能下降的问题，提出了IRAF（干扰鲁棒自适应融合）模块。该问题源于干扰语音被错误编码为用户查询，污染了大语言模型（LLM）的条件输入，导致轮次管理错误和响应质量降低。IRAF是一个轻量级、流式兼容的模块，它在每一帧接收用户音频嵌入和目标说话人嵌入，通过一个小型Transformer网络预测一个可靠性门控值\(g_t \in [0,2]\)。\(g_t\)用于缩放用户音频表示，然后与代理文本嵌入融合后送入LLM。IRAF与整个模型联合端到端训练，并引入一个辅助二分类损失（权重0.1）来引导门控学习区分目标说话人活跃帧与干扰帧。在MS-MARCO和InstructS2S-200K数据集上的实验表明，与仅用噪声增强训练的基线（NoisyAug）相比，IRAF在多种干扰条件下均显著提升了响应质量（BLEU, sBERT）和交互性能（RSR, SSR），并降低了响应延迟。消融实验和SNR分析进一步证实了该方法的有效性和泛化性。 ...

KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026

📄 KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026 #语音合成 #强化学习 #参数高效微调 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | #语音合成 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构 Seymanur Akti, Alexander Waibel Karlsruhe Institute of Technology (KIT), Carnegie Mellon University (CMU), KIT Campus Transfer (KCT) 💡 毒舌点评这篇论文就像一份优秀的“实验工程报告”，而不是一篇理论创新的论文。它把几个现成的工具（提示、RL、检索）组合起来解决了一个实际问题，效果看起来也还可以。但问题在于，它几乎在所有方面都“差点意思”：创新性？无非是在输入里加标签，RL微调也是常规操作。深度？奖励函数就是CER和SSIM的简单平均，连消融实验都懒得做全。对比？只跟自己家的基线比，外面的大神系统看都不看。最让人头疼的是，论文自己把摘要复制粘贴了一遍，这种低级失误简直是对审稿人智商的侮辱。总体而言，这是一篇典型的、为了参加共享任务而匆忙拼凑的系统描述，实用有余，学术性严重不足。 ...

Leveraging Soft Distributions of SSL-Derived Discrete Speech Tokens for Downstream Inference

📄 Leveraging Soft Distributions of SSL-Derived Discrete Speech Tokens for Downstream Inference #自监督学习 #概率图模型 7.4/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #语音识别 | #自监督学习 | #概率图模型 | arxiv 👥 作者与机构作者: Kentaro Onda, Satoru Fukayama, Daisuke Saito, Nobuaki Minematsu 机构: 1. The University of Tokyo, Japan; 2. National Institute of Advanced Industrial Science and Technology (AIST), Japan ...

Making the Most of Limited Data: Score-Aware Training for Text-to-Music Generation

📄 Making the Most of Limited Data: Score-Aware Training for Text-to-Music Generation 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #音乐生成 | arxiv 👥 作者与机构 Yun-Chen Cheng, Tzu-Hung Huang, Chih-Pin Tan （来自台湾，未在提供的文本中明确机构名称） 💡 毒舌点评这篇论文就像个在资源受限的厨房里想做出米其林大餐的厨师。想法很聪明——既然没有顶级食材（大规模数据），那就得在每一片菜叶（每个音频片段）和每一次火候控制（每个训练步骤）上下足功夫。用CLAP分数给数据打分、分类、区别对待，这套“分数感知”的理念本身很有启发性，是解决现实问题（学术界无法复现SOTA）的务实思路。但问题是，厨师只用小锅（2000样本）做了一桌子菜（消融实验）来证明自己的手艺，却在最后用大灶台（全量数据）做了一道菜（最终提交）。我们如何能确信小锅上的经验能完美放大到大灶台？那些“隐式正则化”、“分布弥合”的妙招，在数据量剧增时还灵光吗？MuQ这个“神秘香料”在小锅里完全没效果（未收敛），却在大菜里撒了一把，这操作实在令人费解。整篇论文像一个精心设计但验证不足的工程报告，点子不错，但作为一篇追求严谨方法论创新的顶会论文，实验的软肋太明显了。 📌 核心摘要本文针对文本到音乐生成（TTM）在有限数据与计算资源下的训练挑战，提出了一种“分数感知训练”框架。核心思想是以CLAP音频-文本对齐分数作为贯穿全流程的监督信号，区别化处理不同质量的训练样本。主要贡献包括四个互补组件：1）基于CLAP分数的分段过滤管道，剔除对齐最差的片段；2）CLAP分数条件化的Beta分布噪声时间步调度，将中低分数片段导向高噪声训练阶段，作为一种隐式正则化；3）两阶段字幕处理流程，先使用信息密集的详细字幕预训练，再在LLM重写的简洁风格字幕上微调，以弥合训练-推理时的文本分布差距；4）REPA辅助损失，将冻结的CLAP和MuQ编码器的表示与模型隐藏状态对齐，以迁移预训练知识。该系统（450M参数）提交至ICME 2026 ATTM挑战赛效率赛道，在目标评估阶段获第2名，主观MOS评估中获第3名。小规模消融实验验证了CLAP REPA和Beta时间表的正则化效果，但揭示了MuQ REPA在短训练周期下的问题。论文坦诚指出，所有详尽消融均在小规模（2000样本）上进行，其结论向最终大规模模型的推广性有待验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的模型权重链接。论文提及参与了ICME 2026 ATTM Challenge并提交了模型，但未提供开源或公开下载的权重链接。数据集：论文中提及使用“MTG-Jamendo dataset”的CC-licensed subset作为标准训练与评估数据集。论文未提供该数据集的直接下载链接，但指明其为挑战赛所用的CC授权子集。 Demo：论文中未提及在线演示链接。复现材料：论文在Table II中提供了完整的架构与训练超参数配置，但未提供独立的复现指南、检查点、LLM重写提示中使用的few-shot示例或数据划分的外部链接。论文中引用的开源项目：论文引用了FluxAudio [11]、ACEStep 1.5 [8]、CLAP [4]、MuQ [14]、Qwen2-Audio-7B-Instruct [2]、Music Flamingo [7]、FLAN-T5 [12]、Qwen3-4B-Instruct（未编号引用）。所有引用均来自参考文献列表，论文正文与补充材料中均未明确提供这些项目的GitHub、HuggingFace或任何其他具体的URL链接。 🏗️ 方法概述和架构本文的方法论围绕“分数感知训练”这一统一原则组织，将音频-文本对齐的CLAP分数\(S \in [0, 1]\)作为核心信号，系统性地适配训练流程中的数据选择、噪声调度、文本条件和表示学习四个环节。整体架构基于FluxAudio流匹配骨干网络，使用冻结的ACEStep 1.5音频编解码器将48kHz波形编码为25Hz的连续潜变量。模型条件化于两种互补的文本表示：FLAN-T5编码器提供通过交叉注意力注入的序列级token嵌入（序列条件），CLAP编码器提供通过自适应层归一化（Adaptive Layer Normalization）结合的全局语义嵌入（全局条件）。在Transformer的联合和融合块之后提取隐藏状态，用于两个REPA对齐分支。 ...