零样本 | 语音/音频论文速递

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

📄 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions #音频质量评估 #大语言模型 #多模态模型 #零样本 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Leying Zhang（上海交通大学计算机科学与技术学院，听觉认知与计算声学实验室，AI研究院）通讯作者：Yanmin Qian（上海交通大学计算机科学与技术学院，听觉认知与计算声学实验室，AI研究院）作者列表： Leying Zhang（上海交通大学） Bowen Shi（独立研究者，美国） Haibin Wu（独立研究者，美国） Bach Viet Do（独立研究者，美国） Yanmin Qian（上海交通大学） 💡 毒舌点评这篇论文把“指令跟随”从聊天机器人玩出了新花样，成功让一个3B参数的LLM学会了听声辨器，成为一个跨领域的全能“音频考官”，实验结果全面碾压了各种老牌打分模型和通用多模态大模型，实用性拉满。不过，它的“超能力”似乎建立在对训练数据分布的高度适应上，一旦遇到像语速评估这种对时序动态要求苛刻的任务，就立马“打回原形”，暴露了当前LLM在细粒度音频感知上的本质短板。 📌 核心摘要要解决的问题：随着生成式音频模型的快速发展，现有评估方法（传统客观指标或通用多模态大模型）在领域泛化能力、零样本任务适应性和指令灵活性上存在严重瓶颈。一个模型往往只能用于特定任务或评估维度。方法核心：提出JASTIN框架，将音频评估重新定义为指令驱动的自回归推理任务。其核心架构是冻结的预训练音频编码器（PE-A-Frame-base）+ 轻量级可训练音频适配器 + 微调的大语言模型（Llama-3.2-3B）。通过交错的对话模板输入，将自然语言评估指令与音频特征一起输入LLM，直接生成数值评分。与已有方法相比新在哪里：统一泛化：单个模型可零样本处理语音、音乐、音效等24种评估任务，无需任务特定重训练。创新的数据准备管道：采用多源（人工标注、伪标签、代理任务数据）、多任务、多校准（动态评分范围、语义反转）、多描述（LLM驱动重述）的异构数据增强策略，极大提升了模型对指令和评估标准的理解与鲁棒性。指令鲁棒性与人类中心对齐：模型能灵活适应评分规则和标定的变化，同时对同义指令保持稳定输出，其预测结果与人类主观评分的相关性达到了新的SOTA水平。主要实验结果�� 在QualiSpeech和SpeechEval两个语音数据集上，JASTIN在几乎所有指标上的皮尔逊(PCC)和斯皮尔曼(SRCC)相关系数均超过所有对比基线（包括专用评估模型、通用MLLM和传统指标）。例如，在QualiSpeech的失真(Dist.)指标上，JASTIN的PCC达到0.561，而第二好的专用模型QualiSpeech仅为0.518。在跨领域AES数据集（语音、音效、音乐）上，JASTIN性能与专用的AES模型相当或更优，例如在语音质量(PQ)指标上PCC达0.707（AES模型为0.730），在音乐内容享受度(CE)上PCC达0.749（超过AES的0.748）。在域外(OOD)任务（音乐文本对齐、整体音乐质量、合成语音MOS、ASMR语音MOS）上，JASTIN显著超越所有通用大模型（如Gemini-3-Pro, Qwen3-Omni），证明了其出色的零样本泛化能力。例如，在音乐文本对齐(M-TA)任务上，JASTIN的PCC为0.487，而Gemini-3-Pro仅为0.175。实际意义：提供了一个通用、灵活、可扩展的自动化音频评估基础框架。研究人员和开发者可以像给人类评估员下指令一样，用自然语言定义评估任务和标准，无需为每个新任务收集数据或训练专用模型，极大降低了音频质量评估的门槛和成本。主要局限性：在时间敏感任务（如语速评估）上表现不佳，相关系数很低，与大多数基线模型一样，揭示了当前LLM架构在精细时序动态感知上的共同弱点。在处理高度专业化或美学驱动的音频领域（如ASMR）时，模型可能因内部语音质量先验知识而产生误判，将高保真的耳语误认为音频伪影。仅支持单音频评分，尚不支持多音频比较或参考音频评估。 🔗 开源详情代码：https://github.com/vivian556123/Jastin 模型权重：音频编码器基础模型：https://huggingface.co/facebook/pe-a-frame-base （论文中引用的第三方预训练模型，非Jastin自训练权重）语言模型骨干：https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct （论文中引用的第三方预训练模型，非Jastin自训练权重） Jastin模型本身的训练权重：论文中未提及下载链接或开源权重。数据集：论文中提及用于训练的多源数据集，但未提供统一的下载包或开源链接。具体数据集名称及来源见下文“论文中引用的开源项目”部分。 Demo：论文中未提及。复现材料：论文中开源了模型设计、推理脚本、数据处理脚本以及所有模板、任务描述和提示。这些材料已包含在上述GitHub代码仓库中。论文中详细说明了训练配置（如使用8个A100 GPU，训练6000步等），但未提供训练好的检查点（checkpoint）。论文中引用的开源项目：模型： PE-A-Frame: https://huggingface.co/facebook/pe-a-frame-base Llama-3.2-3B: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct 数据集（部分提及）： ChildSpeech: https://huggingface.co/datasets/TomRoma/Child_Speech_dataset_Whisper 其他作为数据来源被提及的公开数据集名称：BVCC、QualiSpeech、SpeechEval、UrgentMOS、LibriTTS、Expresso、CommonVoice、EARS、AudioSet、FreeSound、MusicCaps、MUSDB18、LibriSpeech、NCSSD、CHAINs。完整任务列表：在论文的补充材料中提及，链接为 https://github.com/vivian556123/Jastin/blob/main/prompts-and-tasks.html 🏗️ 模型架构 JASTIN的整体架构如图1所示，旨在将连续的音频信号与离散的文本指令在LLM的语义空间中对齐。 ...

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

📄 Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data #生物声学 #任务算术 #模型合并 #零样本 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #任务算术 | #模型合并 #零样本 | arxiv 学术质量 4.0/7 | 选题价值 4.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ragib Amin Nihal（东京科学研究所，系统与控制工程）通讯作者：未明确说明（根据邮箱 ragib@ra.sc.e.titech.ac.jp 推断，可能为第一作者）作者列表： Ragib Amin Nihal（东京科学研究所，系统与控制工程；RIKEN BDR） Benjamin Yen（东京科学研究所，系统与控制工程） Runwu Shi（东京科学研究所，系统与控制工程；RIKEN BDR） Takeshi Ashizawa（东京科学研究所，系统与控制工程） Kazuhiro Nakadai（东京科学研究所，系统与控制工程；RIKEN BDR） 💡 毒舌点评亮点在于将生态学中的“声学生态位假说”巧妙映射到模型参数空间，为“为什么简单的模型合并（平均）在生物声学任务上有效，而复杂的冲突解决方法（如TIES）反而失效”提供了一个优雅的几何解释（任务向量近正交）。短板是应用场景相对垂直（多物种生物声学监测），其核心发现（基于频谱距离预测合并效果）的普适性有待在更广泛的音频任务（如通用声音事件检测）中验证，且合并后的模型精度（59.2%）相比联合训练基线（68.3%）仍有近10个百分点的明显差距。 🔗 开源详情代码：论文中未提及代码链接。论文摘要下方有“Code Link”字样，但后文未给出具体URL。模型权重：论文中未提及具体权重链接，但文中使用的预训练模型为BEATs (iter3+ AS2M) [chen2023beats]。数据集：论文使用了多个开源数据集，具体获取链接未在论文中给出，但引用中指明了来源平台： BirdCLEF 2023/2024/2025：来源为Kaggle竞赛数据集。 Watkins Marine Mammal Sound Database：来源为WHOI（伍兹霍尔海洋研究所）。 AnuraSet：来源为Zenodo。 BirdSet POW：来源为HuggingFace Datasets。（注：论文附录C和表格S3中提供了详细描述，但未给出具体项目主页URL。） Demo：论文中未提及。复现材料：论文附录提供了详细的训练协议。具体包括：完整超参数配置（附录D，表S2）。任务向量计算方法和存储格式（附录D.3）。复现所需的配置哈希（SHA-256前缀 c4c3cf3b）和随机种子设置（附录H）。所有实验的附加分析（附录E，包括数据效率、层级分析、持续学习等）。（注：论文未提供预训练检查点或具体代码的下载链接。）论文中引用的开源项目： BEATs：预训练音频模型。论文中引用[chen2023beats]，未提供具体链接。 Task arithmetic：模型合并方法。论文中引用[ilharco2023editing]，未提供具体链接。 TIES-Merging：冲突解决型合并方法。论文中引用[yadav2023ties]，未提供具体链接。 DARE：基于丢弃的合并方法。论文中引用[yu2024dare]，未提供具体链接。 DELLA：结合DARE和TIES的合并方法。论文中引用[panigrahi2024della]，未提供具体链接。 AudioSet：BEATs的预训练数据集。论文中引用[audioset]，未提供具体链接。补充信息 [细节详述] 补充：模型架构的关键设计动机之一是BEATs使用了LayerNorm，这使得合并后的编码器无需进行权重重新校准（原文2.5节：“BEATs uses LayerNorm, so merged encoders do not require recalibration."）。 ...

Learning Generalizable Action Representations via Pre-training AEMG

📄 Learning Generalizable Action Representations via Pre-training AEMG #生物声学 #自监督学习 #预训练 #零样本 #信号处理 ✅ 7.5/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #零样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Zhenghao Huang (华南理工大学) 通讯作者：Lin Shu (华南理工大学) 作者列表：Zhenghao Huang (华南理工大学)、Huilin Yao (华南理工大学)、Kaikai Wang (华南理工大学)、Lin Shu (华南理工大学) 💡 毒舌点评亮点：将EMG信号巧妙类比为“生理语言”并设计了完整的“分词-造句-预训练”管线，在跨被试识别任务上取得了令人信服的性能提升（平均准确率提升近6个百分点），为EMG基础模型研究提供了有价值的范式探索。短板：核心创新更多是工程集成与范式迁移（NLP的VQ-GPT思路到EMG），而非原理性突破；论文声称“首次”大规模预训练，但对“大规模”的量化描述模糊（如预训练token总数、FLOPs），且关键超参数和训练细节在正文中完全缺失，严重损害了工作的可复现性和说服力。 🔗 开源详情代码：https://github.com/AEMG-series/AEMG 模型权重：论文中未提及模型权重的具体下载链接（如 HuggingFace/ModelScope 等）。数据集：论文中提及使用了八个公开的 EMG 数据集（包括 ULB-MLG, EMG-EPN, Ninapro DB4, Toro-Ossaba 等），但未提供这些数据集的统一获取链接。具体数据集名称和来源详见论文附录 B.1 和附录表 2。 Demo：论文中提及“demos”资源与代码一同在 GitHub 仓库提供（见上述代码链接）。复现材料：论文中详细描述了算法（如算法 1：神经收缩分词器）、模型架构（NST）、训练损失（公式 8）以及消融实验的配置，但未提供具体的训练脚本、配置文件或预训练检查点下载方式。相关信息主要在论文正文中。论文中引用的开源项目：论文中未提及任何第三方开源项目/工具的具体名称和链接。论文主要引用了相关学术研究（如 Transformer 架构本身）。补充信息 [训练细节] 补充：论文在附录D.6中提供了预训练的具体训练配置，而非正文中所述完全缺失。包括：优化器为AdamW，学习率为2e-4，批大小为32，训练了100个epoch，硬件环境为4张NVIDIA A100 80GB GPU。这些信息对于完整复现预训练过程至关重要。 [模型架构] 补充：论文在NST骨干网络部分明确说明，为每个收缩词注入的“联合时空条件嵌入”显式编码了三个属性：解剖学来源（电极布局）、激活相位和时序顺序。这一设计是应对异构电极拓扑、增强模型对肌肉协同位置信息理解的关键。 [实验结果] 补充：关于信号切分视角对比实验（表3），论文指出一个有趣现象：使用传统固定窗口方法时，掩码预训练阶段的预测准确率反而更高。作者分析这是因为传统切片包含大量可预测的零填充或静态噪声片段，降低了预训练难度，但这也佐证了NCT分词迫使模型学习更复杂、更有挑战性的生理语义，从而在下游任务中表现更好。 [论文自述的局限性] 补充：论文在摘要和结论中自述的局限性还包括：1）EMG信号本身的高度个性化可能限制通用词汇表对所有用户的完美适用性；2）当前工作专注于手势识别这一特定任务，未来可扩展至其他运动意图解码。 [与SOTA的具体差距数值] 补充：分析中已提及AEMG-Large与SOTA方法的平均准确率差距（5.85%）。此外，在特定数据集上（如Ninapro DB4），AEMG-Large (88.10%) 相比表现最好的SOTA方法SCDEM (82.33%)，提升达到了 5.77%，具体数字可更精确对应。 📌 核心摘要这篇论文旨在解决肌电图（EMG）信号在跨被试、跨设备场景下泛化能力差的核心问题。其方法核心是提出了AEMG框架，首次将大规模自监督预训练范式引入EMG领域，核心创新在于：1）提出“EMG即语言”范式，通过神经收缩分词器（NCT）将连续EMG信号分割为离散的“肌肉收缩词”，再组合成“EMG句子”；2）构建跨设备的统一表示空间，以处理异构数据；3）通过向量量化（VQ）学习一个通用的“EMG词汇表”，并通过掩码预测进行预训练，以捕捉肌肉协同模式。与已有基于特定数据集和有监督学习的方法相比，AEMG的新在于其大规模、无监督的预训练范式以及模拟语言结构的信号处理思路。主要实验结果表明，在严格的跨被试（LOSO）手势分类任务中，AEMG-Large模型在四个数据集上的平均准确率达到89.81%，比六种现有SOTA方法中最好的（84.02%）高出5.85个百分点；在少样本适应中，仅用5%的目标用户数据即可达到约90%的微调性能。其实际意义在于为构建通用、强健的EMG解码基础模型奠定了基础，有望减少对个体校准的依赖。主要局限性包括：框架核心组件（分词、VQ、掩码建模）并非全新；论文未提供预训练的具体数据规模、计算资源和关键训练参数，影响了复现；对比的基线方法并非该领域最新的基础模型工作。 ...

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #零样本 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pengjun Fang（香港科技大学）通讯作者：未明确说明。论文列出了多位作者及其单位，通常通讯作者会在投稿系统中标注，但此处文本未明确指出。根据作者列表顺序和惯例，可能为Qifeng Chen或Harry Yang，但为避免猜测，此处标记为“未说明”。作者列表： Pengjun Fang（香港科技大学） Yingqing He（香港科技大学） Yazhou Xing（香港科技大学） Qifeng Chen（香港科技大学） Ser-Nam Lim（中佛罗里达大学） Harry Yang（中佛罗里达大学） 💡 毒舌点评 AC-Foley的亮点在于用“听觉范例”替代“文字描述”来指挥AI配音，这巧妙绕过了语言在描述“微妙质感”时的无力感，并通过精心设计的两阶段训练确保了模型不是简单复读机。然而，其短板也明显：当视频或参考音本身涉及多重声源交叠或节奏极端错配时（比如用猫叫配急促打字），模型的协调能力就会捉襟见肘，暴露了其在处理复杂声景和时序冲突上的稚嫩。 🔗 开源详情代码：论文中未提及代码仓库链接。仅在伦理声明中提及未来将以Apache 2.0许可证发布模型。模型权重：未提及公开预训练权重。数据集：使用公开数据集（VGGSound, AudioCaps2.0, WavCaps），并说明了其许可证（见附录F）。 Demo：未提供在线演示链接。复现材料：提供了详尽的训练细节（优化器、学习率schedule、batch size、训练硬件与时间）、网络结构参数（隐藏维度、block数量），以及消融实验的设置，复现信息较为充分。引用的开源项目/模型：论文依赖并提及了以下开源工作：CLIP（视觉/文本编码器）、Synchformer（同步特征提取器）、BigVGAN（声码器）、ImageBind（多模态嵌入，用于数据筛选和评估）、AdamW（优化器）。 📌 核心摘要这篇论文（ICASSP 2026 / ICLR 2026）针对现有视频到音频（V2A）生成方法中依赖文本控制导致的语义粒度粗和描述模糊两大瓶颈，提出了AC-Foley，一种参考音频引导的视频到音频合成框架。其核心方法是直接将参考音频的声学特征作为条件信号，通过多模态Transformer和基于流匹配的生成模型，合成与视频同步且具有参考音频音色特性的声音。与已有方法相比，AC-Foley的新颖之处在于：1) 用音频直接控制，实现了细粒度音色迁移和零样本声音生成；2) 提出了包含重叠与非重叠条件的两阶段训练策略，解决了参考音频的时间适配与泛化问题。 ...

Alethia: A Foundational Encoder for Voice Deepfakes

📄 Alethia: A Foundational Encoder for Voice Deepfakes #语音伪造检测 #预训练 #自监督学习 #流匹配 #零样本 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #预训练 | #语音伪造检测 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Yi Zhu（未说明）、Brahmi Dwivedi（未说明）、Jayaram Raghuram（未说明）、Surya Koppisetti（未说明） 💡 毒舌点评亮点在于将“检测”任务的思路前推至“表征”阶段，通过设计新颖的生成式预训练目标，为下游任务奠定了更坚实的表示基础，且实验规模宏大（56个数据集），说服力强。短板在于论文在开源贡献、训练细节（如优化器、学习率调度）以及部分理论分析上着墨不多，略显“报告”性��，对后续研究者的复现支持有限。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及补充信息 [细节详述] 补充：论文未提供任何关于模型规模的信息。原文及现有分析中均未提及Alethia的具体参数量（如层数、隐藏维度、注意力头数等）以及瓶颈层的维度d，这使得无法评估模型的计算复杂度与资源需求。 [实验结果] 补充：论文中未明确列出与基线模型（如HuBERT、wav2vec 2.0等）在具体数据集上的性能对比数字（如EER、Accuracy的具体值），也未以表格形式系统展示。现有分析仅基于论文中的性能提升百分比图（图5、6）进行总结。这导致无法量化Alethia相较于当前SOTA模型的绝对优势。 [实验结果] 补充：论文在摘要中声明评估了“5种不同任务”，但具体是哪5种任务在现有分析中未明确列出。根据论文标题和上下文推测可能包括检测、定位等，但精确的任务分类未被提取。 [评分理由] 补充：在“学术质量”的“证据可信度”子项中，扣分点除了实现细节缺失外，还应包含“训练数据未公开”。这是复现的另一个关键限制。 [开源详情] 补充：论文明确声明了所有资源的缺失。原文中写道：“We have not released any code, model weights, or datasets for this work.” 这直接证实了分析中“未提及”实为“明确未提供”。 ...

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #语音情感识别 #多模态模型 #偏好优化 #基准测试 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #偏好优化 | #多模态模型 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ashutosh Chaubey（南加州大学创新技术研究所）通讯作者：Mohammad Soleymani（南加州大学创新技术研究所）作者列表：Ashutosh Chaubey（南加州大学创新技术研究所）、Jiacheng Pang（南加州大学创新技术研究所）、Maksim Siniukov（南加州大学创新技术研究所）、Mohammad Soleymani（南加州大学创新技术研究所） 💡 毒舌点评本文提出的 EmoReAlM 基准测试系统性地揭示了现有多模态模型在情感推理上“瞎扯淡”的两种主要模式（虚假关联与幻觉），其 AVEm-DPO 优化方法针对性地解决了问题，并在零样本设定下取得了显著提升，是一项扎实且完整的工作。短板在于，其优化方法和基准测试的构建高度依赖 GPT-4o 等大模型，虽然进行了人工验证，但这使得整个工作在一定程度上建立在“模型评价模型”的基础上，其上限可能受制于标注模型自身的理解能力，且引入了难以完全消除的偏差。 📌 核心摘要要解决的问题：现有多模态大语言模型在进行音频视觉情感推理时，存在两大核心缺陷：一是将情绪错误地归因于无关的音视频线索（推理错误），二是为了合理化情绪而“编造”出不存在的音视频线索（感知错误/幻觉）。后者主要由语言模型的文本先验偏差导致。方法核心：论文提出了一个两阶段方案。首先，构建了名为 EmoReAlM 的专用基准测试（包含4000个人工验证的多选题），用于系统评估模型在关联、一致性及幻觉等方面的表现。其次，提出了 AVEm-DPO 技术，这是一种直接偏好优化方法，通过构建两种偏好对来对齐模型响应：a) 基于提示的多模态输入偏好（Prompt-based Modality Preference），确保模型关注正确的模态；b) 基于情感的响应偏好（Emotion-based Response Preference），区分正确、无关和幻觉的响应。此外，引入了文本先验去偏（Text Prior Debiasing）正则化项，抑制模型仅凭文本线索生成响应。与已有方法相比新在哪里：评估：超越了现有情感推理或幻觉基准，提供了一个标准化、无需外部LLM评估的、专注于音视觉情感理解中特定错误的测试集。优化：在应用 DPO 到多模态领域时，创新性地结合了“基于提示的模态偏好”和“文本先验去偏”，比通用的 Naive-DPO 和 Vista-DPO 更具针对性。主要实验结果：在零样本设定下，AVEm-DPO 显著提升了两个基线模型（Our base, EmotionLLaMA⋆）的性能。在提出的 EmoReAlM 基准上，相对性能提升达 6-19%。在现有情感识别数据集（DFEW, RAVDESS, MER2023）和推理数据集（EMER）上也取得了最优或极具竞争力的结果。关键结果对比如下表所示：模型 EmoReAlM (平均准确率) DFEW (UAR) RAVDESS (UAR) MER2023 (F1) EMER (Clue) Our base (基线) 65.1% 56.78% 53.59% 89.19% 5.63 + AVEm-DPO 83.3% 58.54% 58.66% 92.18% 6.37 EmotionLLaMA⋆ (基线) 63.8% 54.89% 52.59% 90.01% 5.78 + AVEm-DPO 80.1% 57.06% 56.21% 91.68% 6.02 Qwen 2.5 Omni (SOTA对比) 70.0% 46.94% 32.88% 79.72% 5.85 实际意义：该工作为构建可靠、可解释的社会AI代理提供了更精确的评估工具（EmoReAlM）和更有效的训练方法（AVEm-DPO），有助于减少多模态模型在情感理解中的不准确性，提升人机交互的可靠性。主要局限性：1) EmoReAlM 基准测试源于 DFEW 数据集，可能继承其文化偏见；2) 模型在识别“厌恶”等复杂/模糊情绪时表现仍不佳；3) 论文承认在缓解虚假音频线索关联方面仍有改进空间。 🏗️ 模型架构本文的核心贡献并非提出一个全新的端到端模型架构，而是提出了一种训练方法（AVEm-DPO）来提升现有音频视觉多模态大语言模型（MLLMs）的性能。其作用的对象是两个参考基线模型：“Our base”和“EmotionLLaMA⋆”。因此，架构描述将围绕AVEm-DPO如何作用于基础模型展开。 ...

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 #强化学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #零样本 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dekun Chen (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute) 通讯作者：未明确说明（论文中未明确指出通讯作者）作者列表：Dekun Chen (香港中文大学（深圳）/深圳湾实验室), Xueyao Zhang (香港中文大学（深圳）), Yuancheng Wang (香港中文大学（深圳）), Kenan Dai (Huawei Technologies Co., Ltd.), Li Ma (Huawei Technologies Co., Ltd.), Zhizheng Wu (香港中文大学（深圳）/澳门城市大学/Amphion Technology Co., Ltd.) 💡 毒舌点评这篇论文的核心亮点在于其系统性地将“风格、音色、内容”的解耦问题，转化为一个可分阶段优化的强化学习课程（PPT），技术路径设计精巧且实验证据扎实。不过，其最终效果高度依赖奖励模型的质量，而论文中使用的7B开源奖励模型与闭源前沿模型仍存在代差，这在一定程度上限制了其在最复杂指令上的表现上限，也为未来工作留下了明确的改进方向。 ...

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #多模态模型 #自监督学习 #跨模态检索 #零样本 #模型评估 ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评这篇论文理论与实践结合得不错，Theorem 1为“分裂字典”问题提供了理论保证，而提出的组稀疏+掩码方案在CLIP/CLAP上也确实有效提升了多模态概念的数量和语义性。但最大的短板是实验上缺乏代码开源，对于一篇方法论论文来说，这大大削弱了其即时影响力和社区复现验证的价值，使得“方法有效性”部分打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开训练好的SAE/GSAE/MGSAE模型权重。数据集：使用了公开数据集（CC3M, JamendoMaxCaps, MusicBench等），论文中未说明是否提供额外的处理脚本。 Demo：未提及在线演示。复现材料：论文在附录A.2中提供了较为详细的实验设置，包括数据集、超参数范围选择方法、训练步数等，有助于复现。论文中引用的开源项目：引用了dictionary_learning工具库（Marks et al., 2024）作为TopK SAE的实现基础。 📌 核心摘要这篇论文旨在解决稀疏自编码器（SAE）应用于多模态对齐嵌入（如CLIP）时产生的“分裂字典”问题，即学习到的稀疏特征大多只对单一模态激活，损害了跨模态对齐。核心方法包括：理论上证明了在对齐嵌入空间上，存在比分裂字典对齐性更好的非分裂字典；提出组稀疏自编码器（GSAE）和掩码组稀疏自编码器（MGSAE），通过组稀疏损失（鼓励配对样本的稀疏码具有相同支撑集）和跨模态随机掩码来引导学习多模态字典。与标准SAE相比，该方法显著增加了跨模态激活的神经元数量，减少了“死神经元”，并提升了跨模态零样本任务的性能。例如，在CLIP图像/文本任务上，MGSAE在CIFAR-10上的零样本分类准确率达到84.2%，比标准TopK SAE高出18.5个百分点；在CLAP音频/文本任务上，MGSAE在NSynth乐器分类上达到35.4%，远超SAE的26.5%。该工作的实际意义在于为多模态模型的可解释性分析和可控生成提供了更好的分解工具，其主要局限是依赖配对的多模态数据进行训练，且未提供开源代码。 ...

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

📄 SpeechOp: Inference-Time Task Composition for Generative Speech Processing #语音增强 #语音分离 #扩散模型 #多任务学习 #零样本 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Justin Lovelace（Cornell University）通讯作者：未明确说明（论文作者来自Cornell University和Adobe Research，从贡献描述看，Adobe Research团队的Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin可能承担更多指导角色，但论文未明确标注通讯作者）作者列表： Justin Lovelace（Cornell University） Rithesh Kumar（Adobe Research） Jiaqi Su（Adobe Research） Ke Chen（Adobe Research） Kilian Q Weinberger（Cornell University） Zeyu Jin（Adobe Research） 💡 毒舌点评本文巧妙地将“资源过剩”的TTS模型改造为“资源匮乏”S2S任务的处理器，其提出的TC-CFG推理组合策略从原理上解释了如何优雅地融合不同生成任务的信号，避免了简单的分数平均带来的先验冲突。然而，论文的核心扩散架构（DiT+VAE）和多任务训练范式本身并无颠覆性创新，其真正亮点在于系统整合与工程设计，且在代码和模型开源方面显得较为吝啬，限制了社区的快速跟进与验证。 ...

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiehui Luo（中央音乐学院），Yuguo Yin（北京大学）（论文注明贡献相等）通讯作者：Yuguo Yin（北京大学）作者列表： Jiehui Luo（中央音乐学院） Yuguo Yin（北京大学） Yuxin Xie（北京大学） Jinghan Ru（北京大学） Xianwei Zhuang（北京大学） Minghua He（北京大学） Aofan Liu（北京大学） Zihan Xiong（电子科技大学） Dongchao Yang（香港中文大学） 💡 毒舌点评这篇论文的亮点在于将对比学习中的“力分解”具象化，并精准指出垂直分量是“双刃剑”，由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心（一个可学习的正则化项）相对朴素，且论文未开源代码，使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的预训练或微调后的模型权重。数据集：使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo：未提及。复现材料：论文提供了较为详细的实现细节（如编码器选择、优化器、学习率、批次大小、温度等），并在附录中补充了部分消融实验和统计显著性分析。论文中引用的开源项目：CED-Base（音频编码器）， SONAR-TE（文本编码器）， Deepseek V3（用于翻译和回译分析）。 📌 核心摘要本文针对音频-文本对比学习（CLAP）中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现，来自负样本的推力可分解为与拉力方向平行和垂直的分量；其垂直分量虽包含丰富信息，但其不受控的特性会导致优化路径发生侧向偏移，影响训练稳定性和最终对齐质量。 ...