多任务学习

语音/音乐/音频论文速递 2026-05-18

语音/音乐/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

📄 SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning #说话人验证 #音频大模型 #音频理解 #多粒度表征 #结构化推理 #多任务学习 ✅ 7/10 | 前25% | #说话人验证 | #音频大模型 | #音频理解 #多粒度表征 | arxiv 学术质量 5.6/8 | 影响力 0.6/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：KiHyun Nam (韩国科学技术院 KAIST) 通讯作者：Joon Son Chung (韩国科学技术院 KAIST) 作者列表：KiHyun Nam (韩国科学技术院 KAIST), Jungwoo Heo (首尔大学), Siu Bae (韩国科学技术院 KAIST), Ha-Jin Yu (首尔大学), Joon Son Chung (韩国科学技术院 KAIST, 通讯作者) 💡 毒舌点评这篇论文的动机清晰，针对音频优先智能体时代通用Audio-LLM在说话人理解上的不足，提出了一个专用的框架。其核心亮点在于通过分层说话人分词器整合了互补的多粒度说话人表征，并设计了结构化、可审计的验证推理目标，将传统二分类问题转化为包含环境、剖面和决策链的自然语言推理过程，这在方法论上是新颖的。然而，其主要短板在于实验的说服力不足：虽然在受控的、规模有限的基线（通用Audio-LLM）上展示了优势，但缺乏与现代端到端说话人验证模型（如基于ECAPA-TDNN或ResNet的模型）在公认的大规模标准测试集（如VoxCeleb2测试集、VoxSRC）上的直接性能对比。这使得其“说话人专用”模型的实际性能水平（是超越还是不及当前SOTA）成疑，更像是一次在特定设定下的方法验证。此外，结构化推理模板的刚性可能限制了其在更复杂、开放场景下的泛化能力。 ...

语音/音乐/音频论文速递 2026-05-15

语音/音乐/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

📄 AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling #音频编码 #语音情感识别 #知识蒸馏 #对比学习 #多任务学习 ✅ 7.0/10 | 前25% | #音频编码 | #知识蒸馏 | #语音情感识别 #对比学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未明确指定（根据邮箱推测为Ye Gao，但论文未明确标注）作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Xinyuan Song（Emory University）、Y. Alicia Hong（George Mason University）、Yanfu Zhang（College of William & Mary）、Ye Gao（College of William & Mary） 💡 毒舌点评亮点：论文明确将“情感保留”从下游评估指标提升为编解码器训练的核心优化目标，这一问题重新定义和建模思路（三阶段框架）具有清晰的学术贡献和实用价值。短板：框架整体是多个成熟技术（交叉注意力、关系蒸馏、对齐损失）的工程化组合，对“情感”这一模糊概念的建模仍高度依赖外部冻结模型，创新深度有限。此外，论文未深入讨论计算效率的权衡。 ...

Speech-based Psychological Crisis Assessment using LLMs

📄 Speech-based Psychological Crisis Assessment using LLMs #语音情感识别 #大语言模型 #数据增强 #多任务学习 #医疗音频 📝 5.8/10 | 前25% | #语音情感识别 | #大语言模型 | #数据增强 #多任务学习 | arxiv 学术质量 5.8/8 | 影响力 1.2/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Terumi Chiba（清华大学）通讯作者：Ziyun Cui（北京大学回龙观临床医学院），Chao Zhang（清华大学，世界卫生组织自杀预防研究与培训合作中心）作者列表：Terumi Chiba（清华大学）、Yang Luo（清华大学）、Ziyun Cui（北京大学回龙观临床医学院）、Yongsheng Tong（清华大学）、Chao Zhang（清华大学，世界卫生组织自杀预防研究与培训合作中心） 💡 毒舌点评论文提出的“副语言注入”方法，试图将语音中的情感线索显式文本化以供LLM处理，思路清晰，且针对临床场景（心理热线）的定位明确。然而，核心方法（语音到文本的描述转换）并非完全新颖，且其实验的最大软肋在于数据集规模极小（154例），这使得所有“显著”的结论都蒙上了一层“小样本巧合”的阴影。在如此有限的数据上，模型的高分有多少是源自方法本身的优越性，又有多少是源于对特定样本的过拟合，论文未能给出足够令人信服的论证。此外，对推理链生成这一辅助任务所依赖的外部教师模型（gpt-oss-120b）的潜在偏差，缺乏深入的风险讨论。 📌 核心摘要问题：心理支持热线的危机级别评估依赖于人工操作员，存在主观性强、资源有限等问题。现有基于语音的研究多集中于二分类的自杀风险评估，对更细分的三类别心理危机水平评估探索不足，且常忽略语音中的副语言信息（如哭泣、颤抖）。方法核心：提出一个基于LLM的框架，核心是“副语言注入”和“推理增强训练”。副语言注入利用SpeechLLM（Step-Audio-R1）从语音中提取情感化非语言线索（如“哭泣声”），并遵循临床创伤评估表（TAF）的情感领域标准，将这些线索以结构化文本形式注入ASR转录文本。推理增强训练则让模型在分类的同时，生成符合TAF框架的诊断推理链作为辅助任务，以提升分类性能和可解释性。创新点：与已有方法相比，新在：(1) 明确地将临床评估框架（TAF）深度融入副语言特征提取（指导SpeechLLM）和推理链构建，使模型行为更贴合临床实践；(2) 提出将副语言信息显式转化为文本描述（“注入”）而非在音频层面端到端建模的策略，并验证其优于直接使用SpeechLLM；(3) 结合数据增强（将长通话切分为连续片段）以缓解小样本问题。实验结果：在154例真实中文心理热线通话数据集上进行5折交叉验证，进行三项分类（无危机、低危机、中高度危机）。最终系统达到宏F1分数0.802，准确率0.805，显著优于所有基线。关键消融实验显示，移除数据增强、副语言注入、辅助损失分别导致宏F1下降10.0%、4.1%和1.7%。关键对比如下表所示：方法准确率 (Mean ± Std) 宏F1分数 (Mean ± Std) Zero-shot LLM 0.455 0.371 OpenSMILE (SVM) 0.486 ± 0.053 0.471 ± 0.062 SpeechLLM (Qwen2.5-Omni-7B) 0.564 ± 0.075 0.551 ± 0.079 本文方法 (Ours) 0.805 ± 0.061 0.802 ± 0.062 实际意义：为利用LLM处理心理热线语音数据提供了一种可解释、可整合临床知识的技术路径，有望辅助操作员进行更一致、客观的危机分级，优化热线资源配置。主要局限性：数据集规模极小（154例），可能限制了模型泛化性的验证；方法依赖于外部的SpeechLLM（Step-Audio-R1）和用于生成推理链的教师模型（gpt-oss-120b）；缺乏在跨机构、跨语言数据上的外部验证；代码和数据集均未开源。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中提供了以下模型的 HuggingFace 链接： ASR模型: Paraformer-zh: https://huggingface.co/funasr/paraformer-zh 语音模型 (用于副语言特征提取): Step-Audio-R1.1: https://huggingface.co/stepfun-ai/Step-Audio-R1.1 基础大语言模型 (微调目标): Qwen2.5-7B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 基线大语言模型: gpt-oss-120b: https://huggingface.co/openai/gpt-oss-120b 基线语音大语言模型: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B 数据集：论文中提及使用了包含 154 个通话录音（总时长约 100 小时）的中国心理支持热线数据集，但论文中未提及该数据集的公开获取链接或开源协议。 Demo：论文中未提及。复现材料：论文中提供了详细的实验配置信息，可用于复现。具体包括：5折交叉验证设置、使用 LoRA (rank=8, α=64) 对 Qwen2.5-7B-Instruct 进行微调、训练细节（AdamW优化器，学习率 3×10⁻⁵，余弦退火调度，有效批量大小16）、数据增强方法（将通话音频分割为固定时长片段）。但未提供预训练检查点或打包的复现材料。论文中引用的开源项目： OpenSMILE：用于提取声学特征 (eGeMAPSv02)。项目链接：https://github.com/audeering/opensmile-python emotion2vec：用于情感嵌入提取。模型链接：https://huggingface.co/emotion2vec/emotion2vec_plus_large gpt-oss-120b：用于生成诊断推理链的监督信号。模型链接：https://huggingface.co/openai/gpt-oss-120b Qwen2.5-Omni-7B：作为SpeechLLM基线。模型链接：https://huggingface.co/Qwen/Qwen2.5-Omni-7B 🏗️ 方法概述和架构 ...

NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction

📄 NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction #空间音频 #神经网络 #波束成形 #多任务学习 #音频增强 ✅ 6.5/10 | 前30% | #空间音频 | #神经网络 | #波束成形 #多任务学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 💡 毒舌点评这篇论文工整地做了一道“拆分重组”的数学题：把估计A，拆成估��A的一部分和另一部分，再加起来。思路清晰，工程上也有其价值——特别是那个能调β的漫射声控制，对于需要精细调节“干湿比”的录音师来说，可能是个不错的玩具。然而，整套验证全在自家后院（合成数据）里完成，没敢拉到真实世界的泥潭里打滚，这让“性能媲美NDF”和“优于传统基线”的结论，听起来有点像在真空环境下的胜利。创新性扎实但有限，像给一辆好车加了个炫酷的控制旋钮，而非发明了新引擎。对于追求原理性突破的读者，可能会觉得不够过瘾；但对于寻求实用工具的工程师，或许值得一瞄。 📌 核心摘要本文提出了NDF+，一个用于在紧凑麦克风阵列上联合实现定向滤波与漫射声提取的神经网络框架。其核心创新是将传统NDF的单一目标（虚拟定向传声器信号估计）重新表述为两个耦合子任务：去混响VDM重建（相干声估计）与漫射声提取。通过端到端联合训练双掩模网络，NDF+能在保持最终VDM重建质量与原始NDF相当的同时，提供对输出信号中漫射声成分的显式、连续控制。在合成数据上的系统实验表明，NDF+在子任务性能上显著优于级联基线，其可控性在立体声录音应用中得到了验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：训练集和验证集使用了 LibriSpeech 数据库（子集：train-clean-360 和 dev-clean）。获取链接：https://www.openslr.org/12/。测试集使用了 EARS 数据集。获取链接：https://github.com/facebookresearch/ears （根据论文引用[richter2024ears]推断）。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等具体复现材料。论文中引用的开源项目：论文中引用的基线方法或工具如下，但论文中未提供其具体开源链接： FT-JNF (框架)：引用 [FT-JNF]。 RIRGenerator (房间脉冲响应生成器)：引用 [RIRGenerator]。 AWPE (加权预测误差去混响算法)：引用 [4960438]。 DRSwWPE (一种实时去混响算法)：引用 [huang2024practical]。 Diffuse BF (漫射声波束成形器)：引用 [diffuse_beamformer]。 Dynamic Acoustic Scene Generator (动态声景生成器)：引用 [DASGenerator]。 Monte Carlo RIR (蒙特卡洛房间脉冲响应模拟)：引用 [MonteCarloRIR]。作者与机构未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 ...

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐评估 #多任务学习 #自监督学习 #预训练模型 ✅ 7.5/10 | 前25% | #音乐评估 | #多任务学习 | #自监督学习 #预训练模型 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）通讯作者：Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design）作者列表：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）、Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design） 💡 毒舌点评这篇论文为AI生成音乐这个“野蛮生长”的领域提供了一个扎实的多任务学习基线，首次将“好听”（美学）和“流行”（数据）放在一起建模，且跨模型的泛化实验证明了学到的美学特征具有普适性。但令人遗憾的是，联合学习“流行度”这个主任务本身并未带来显著提升，似乎美学和流行在特征上互补但并不互促，这削弱了“多任务学习能提升主任务”这一核心动机的说服力。 ...

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

📄 Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement #语音增强 #麦克风阵列 #波束成形 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音增强 | #麦克风阵列 | #波束成形 #生成模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Dongheon Lee (Meta Reality Labs Research 1, Korea Advanced Institute of Science and Technology (KAIST) 2) 通讯作者：Juan Azcarreta (Meta Reality Labs Research) 作者列表：Dongheon Lee (Meta Reality Labs Research 1, KAIST 2)、Ashutosh Pandey (Meta Reality Labs Research)、Sanjeel Parekh (Meta Reality Labs Research)、Daniel Wong (Meta Reality Labs Research)、Jacob Donley (Meta Reality Labs Research)、Buye Xu (Meta Reality Labs Research)、Juan Azcarreta (Meta Reality Labs Research) 💡 毒舌点评亮点：论文核心贡献非常聚焦，Spatial-Magnifier模型针对“空间上采样”这一特定任务进行了专门的架构设计（选择模块、DCA模块），而非简单套用现有语音增强网络；SARL框架提出的特征级条件化（SARL-F）是一种新颖且有效的思路，实验消融证明了其优越性。短板：方法整体依赖于预训练的MC-SE模型作为下游，其性能天花板受制于此；此外，论文虽然展示了在模拟数据和特定阵列上的优秀性能，但缺乏在真实世界设备和复杂噪声环境下的端到端验证，且未开源任何实现细节，限制了其直接影响力。 ...

语音/音乐/音频论文速递 2026-05-07

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文评分分档主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐理解 #多任务学习 #自监督学习 #音乐生成 🔥 8.0/10 | 前25% | #音乐理解 | #多任务学习 | #自监督学习 #音乐生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）通讯作者：Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design）作者列表：Jaavid Aktar Husain（AMAAI Lab, Singapore University of Technology and Design）、Dorien Herremans（AMAAI Lab, Singapore University of Technology and Design） 💡 毒舌点评论文的最大亮点是首次为AI生成音乐构建了流行度与美学质量的联合预测框架，并用严谨的跨架构泛化实验证明了美学特征的有效性，为这一新兴领域提供了有价值的分析视角。短板在于其核心的多任务学习框架在技术上相对常规，且实验结果显示美学辅助任务对主流行度任务的提升有限，这使得“联合预测”带来的增益不够突出。 ...