AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

📄 AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling #音频编码 #语音情感识别 #知识蒸馏 #对比学习 #多任务学习 ✅ 7.0/10 | 前25% | #音频编码 | #知识蒸馏 | #语音情感识别 #对比学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未明确指定(根据邮箱推测为Ye Gao,但论文未明确标注) 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Xinyuan Song(Emory University)、Y. Alicia Hong(George Mason University)、Yanfu Zhang(College of William & Mary)、Ye Gao(College of William & Mary) 💡 毒舌点评 亮点:论文明确将“情感保留”从下游评估指标提升为编解码器训练的核心优化目标,这一问题重新定义和建模思路(三阶段框架)具有清晰的学术贡献和实用价值。短板:框架整体是多个成熟技术(交叉注意力、关系蒸馏、对齐损失)的工程化组合,对“情感”这一模糊概念的建模仍高度依赖外部冻结模型,创新深度有限。此外,论文未深入讨论计算效率的权衡。 ...

2026-05-13 · 更新于 2026-06-12 · 3 min · 578 words

Speech-based Psychological Crisis Assessment using LLMs

📄 Speech-based Psychological Crisis Assessment using LLMs #语音情感识别 #大语言模型 #数据增强 #多任务学习 #医疗音频 📝 5.8/10 | 前25% | #语音情感识别 | #大语言模型 | #数据增强 #多任务学习 | arxiv 学术质量 5.8/8 | 影响力 1.2/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Terumi Chiba(清华大学) 通讯作者:Ziyun Cui(北京大学回龙观临床医学院),Chao Zhang(清华大学,世界卫生组织自杀预防研究与培训合作中心) 作者列表:Terumi Chiba(清华大学)、Yang Luo(清华大学)、Ziyun Cui(北京大学回龙观临床医学院)、Yongsheng Tong(清华大学)、Chao Zhang(清华大学,世界卫生组织自杀预防研究与培训合作中心) 💡 毒舌点评 论文提出的“副语言注入”方法,试图将语音中的情感线索显式文本化以供LLM处理,思路清晰,且针对临床场景(心理热线)的定位明确。然而,核心方法(语音到文本的描述转换)并非完全新颖,且其实验的最大软肋在于数据集规模极小(154例),这使得所有“显著”的结论都蒙上了一层“小样本巧合”的阴影。在如此有限的数据上,模型的高分有多少是源自方法本身的优越性,又有多少是源于对特定样本的过拟合,论文未能给出足够令人信服的论证。此外,对推理链生成这一辅助任务所依赖的外部教师模型(gpt-oss-120b)的潜在偏差,缺乏深入的风险讨论。 📌 核心摘要 问题:心理支持热线的危机级别评估依赖于人工操作员,存在主观性强、资源有限等问题。现有基于语音的研究多集中于二分类的自杀风险评估,对更细分的三类别心理危机水平评估探索不足,且常忽略语音中的副语言信息(如哭泣、颤抖)。 方法核心:提出一个基于LLM的框架,核心是“副语言注入”和“推理增强训练”。副语言注入利用SpeechLLM(Step-Audio-R1)从语音中提取情感化非语言线索(如“哭泣声”),并遵循临床创伤评估表(TAF)的情感领域标准,将这些线索以结构化文本形式注入ASR转录文本。推理增强训练则让模型在分类的同时,生成符合TAF框架的诊断推理链作为辅助任务,以提升分类性能和可解释性。 创新点:与已有方法相比,新在:(1) 明确地将临床评估框架(TAF)深度融入副语言特征提取(指导SpeechLLM)和推理链构建,使模型行为更贴合临床实践;(2) 提出将副语言信息显式转化为文本描述(“注入”)而非在音频层面端到端建模的策略,并验证其优于直接使用SpeechLLM;(3) 结合数据增强(将长通话切分为连续片段)以缓解小样本问题。 实验结果:在154例真实中文心理热线通话数据集上进行5折交叉验证,进行三项分类(无危机、低危机、中高度危机)。最终系统达到宏F1分数0.802,准确率0.805,显著优于所有基线。关键消融实验显示,移除数据增强、副语言注入、辅助损失分别导致宏F1下降10.0%、4.1%和1.7%。关键对比如下表所示: 方法 准确率 (Mean ± Std) 宏F1分数 (Mean ± Std) Zero-shot LLM 0.455 0.371 OpenSMILE (SVM) 0.486 ± 0.053 0.471 ± 0.062 SpeechLLM (Qwen2.5-Omni-7B) 0.564 ± 0.075 0.551 ± 0.079 本文方法 (Ours) 0.805 ± 0.061 0.802 ± 0.062 实际意义:为利用LLM处理心理热线语音数据提供了一种可解释、可整合临床知识的技术路径,有望辅助操作员进行更一致、客观的危机分级,优化热线资源配置。 主要局限性:数据集规模极小(154例),可能限制了模型泛化性的验证;方法依赖于外部的SpeechLLM(Step-Audio-R1)和用于生成推理链的教师模型(gpt-oss-120b);缺乏在跨机构、跨语言数据上的外部验证;代码和数据集均未开源。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中提供了以下模型的 HuggingFace 链接: ASR模型: Paraformer-zh: https://huggingface.co/funasr/paraformer-zh 语音模型 (用于副语言特征提取): Step-Audio-R1.1: https://huggingface.co/stepfun-ai/Step-Audio-R1.1 基础大语言模型 (微调目标): Qwen2.5-7B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 基线大语言模型: gpt-oss-120b: https://huggingface.co/openai/gpt-oss-120b 基线语音大语言模型: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B 数据集:论文中提及使用了包含 154 个通话录音(总时长约 100 小时)的中国心理支持热线数据集,但论文中未提及该数据集的公开获取链接或开源协议。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验配置信息,可用于复现。具体包括:5折交叉验证设置、使用 LoRA (rank=8, α=64) 对 Qwen2.5-7B-Instruct 进行微调、训练细节(AdamW优化器,学习率 3×10⁻⁵,余弦退火调度,有效批量大小16)、数据增强方法(将通话音频分割为固定时长片段)。但未提供预训练检查点或打包的复现材料。 论文中引用的开源项目: OpenSMILE:用于提取声学特征 (eGeMAPSv02)。 项目链接:https://github.com/audeering/opensmile-python emotion2vec:用于情感嵌入提取。 模型链接:https://huggingface.co/emotion2vec/emotion2vec_plus_large gpt-oss-120b:用于生成诊断推理链的监督信号。 模型链接:https://huggingface.co/openai/gpt-oss-120b Qwen2.5-Omni-7B:作为SpeechLLM基线。 模型链接:https://huggingface.co/Qwen/Qwen2.5-Omni-7B 🏗️ 方法概述和架构 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 451 words

NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction

📄 NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction #空间音频 #神经网络 #波束成形 #多任务学习 #音频增强 ✅ 6.5/10 | 前30% | #空间音频 | #神经网络 | #波束成形 #多任务学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 💡 毒舌点评 这篇论文工整地做了一道“拆分重组”的数学题:把估计A,拆成估���A的一部分和另一部分,再加起来。思路清晰,工程上也有其价值——特别是那个能调β的漫射声控制,对于需要精细调节“干湿比”的录音师来说,可能是个不错的玩具。然而,整套验证全在自家后院(合成数据)里完成,没敢拉到真实世界的泥潭里打滚,这让“性能媲美NDF”和“优于传统基线”的结论,听起来有点像在真空环境下的胜利。创新性扎实但有限,像给一辆好车加了个炫酷的控制旋钮,而非发明了新引擎。对于追求原理性突破的读者,可能会觉得不够过瘾;但对于寻求实用工具的工程师,或许值得一瞄。 📌 核心摘要 本文提出了NDF+,一个用于在紧凑麦克风阵列上联合实现定向滤波与漫射声提取的神经网络框架。其核心创新是将传统NDF的单一目标(虚拟定向传声器信号估计)重新表述为两个耦合子任务:去混响VDM重建(相干声估计)与漫射声提取。通过端到端联合训练双掩模网络,NDF+能在保持最终VDM重建质量与原始NDF相当的同时,提供对输出信号中漫射声成分的显式、连续控制。在合成数据上的系统实验表明,NDF+在子任务性能上显著优于级联基线,其可控性在立体声录音应用中得到了验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: 训练集和验证集使用了 LibriSpeech 数据库(子集:train-clean-360 和 dev-clean)。获取链接:https://www.openslr.org/12/。 测试集使用了 EARS 数据集。获取链接:https://github.com/facebookresearch/ears (根据论文引用[richter2024ears]推断)。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等具体复现材料。 论文中引用的开源项目:论文中引用的基线方法或工具如下,但论文中未提供其具体开源链接: FT-JNF (框架):引用 [FT-JNF]。 RIRGenerator (房间脉冲响应生成器):引用 [RIRGenerator]。 AWPE (加权预测误差去混响算法):引用 [4960438]。 DRSwWPE (一种实时去混响算法):引用 [huang2024practical]。 Diffuse BF (漫射声波束成形器):引用 [diffuse_beamformer]。 Dynamic Acoustic Scene Generator (动态声景生成器):引用 [DASGenerator]。 Monte Carlo RIR (蒙特卡洛房间脉冲响应模拟):引用 [MonteCarloRIR]。 作者与机构 未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 ...

2026-05-08 · 更新于 2026-06-12 · 2 min · 414 words

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐评估 #多任务学习 #自监督学习 #预训练模型 ✅ 7.5/10 | 前25% | #音乐评估 | #多任务学习 | #自监督学习 #预训练模型 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design) 通讯作者:Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 作者列表:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design)、Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 💡 毒舌点评 这篇论文为AI生成音乐这个“野蛮生长”的领域提供了一个扎实的多任务学习基线,首次将“好听”(美学)和“流行”(数据)放在一起建模,且跨模型的泛化实验证明了学到的美学特征具有普适性。但令人遗憾的是,联合学习“流行度”这个主任务本身并未带来显著提升,似乎美学和流行在特征上互补但并不互促,这削弱了“多任务学习能提升主任务”这一核心动机的说服力。 ...

2026-05-07 · 更新于 2026-06-12 · 3 min · 485 words

Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement

📄 Spatial-Magnifier: Spatial upsampling for multichannel speech enhancement #语音增强 #麦克风阵列 #波束成形 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音增强 | #麦克风阵列 | #波束成形 #生成模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Dongheon Lee (Meta Reality Labs Research 1, Korea Advanced Institute of Science and Technology (KAIST) 2) 通讯作者:Juan Azcarreta (Meta Reality Labs Research) 作者列表:Dongheon Lee (Meta Reality Labs Research 1, KAIST 2)、Ashutosh Pandey (Meta Reality Labs Research)、Sanjeel Parekh (Meta Reality Labs Research)、Daniel Wong (Meta Reality Labs Research)、Jacob Donley (Meta Reality Labs Research)、Buye Xu (Meta Reality Labs Research)、Juan Azcarreta (Meta Reality Labs Research) 💡 毒舌点评 亮点:论文核心贡献非常聚焦,Spatial-Magnifier模型针对“空间上采样”这一特定任务进行了专门的架构设计(选择模块、DCA模块),而非简单套用现有语音增强网络;SARL框架提出的特征级条件化(SARL-F)是一种新颖且有效的思路,实验消融证明了其优越性。短板:方法整体依赖于预训练的MC-SE模型作为下游,其性能天花板受制于此;此外,论文虽然展示了在模拟数据和特定阵列上的优秀性能,但缺乏在真实世界设备和复杂噪声环境下的端到端验证,且未开源任何实现细节,限制了其直接影响力。 ...

2026-05-07 · 更新于 2026-06-12 · 4 min · 797 words

语音/音乐/音频论文速递 2026-05-07

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分 前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分 前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分 前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分 前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分 前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分 前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分 前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分 前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分 前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分 前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分 前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分 前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分 前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分 前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分 前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分 前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分 前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分 前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分 前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分 前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

2026-05-07 · 更新于 2026-06-12 · 14 min · 2879 words

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐理解 #多任务学习 #自监督学习 #音乐生成 🔥 8.0/10 | 前25% | #音乐理解 | #多任务学习 | #自监督学习 #音乐生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design) 通讯作者:Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 作者列表:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design)、Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 💡 毒舌点评 论文的最大亮点是首次为AI生成音乐构建了流行度与美学质量的联合预测框架,并用严谨的跨架构泛化实验证明了美学特征的有效性,为这一新兴领域提供了有价值的分析视角。短板在于其核心的多任务学习框架在技术上相对常规,且实验结果显示美学辅助任务对主流行度任务的提升有限,这使得“联合预测”带来的增益不够突出。 ...

2026-05-06 · 更新于 2026-06-12 · 2 min · 357 words

Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts

📄 Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts #多模态模型 #自监督学习 #对比学习 #多任务学习 #模型评估 ✅ 7.0/10 | 前25% | #多模态模型 | #自监督学习 | #对比学习 #多任务学习 | arxiv 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hahyeon Choi(未说明具体机构) 通讯作者:Nojun Kwak(未说明具体机构) 作者列表:Hahyeon Choi(未说明具体机构),Nojun Kwak(未说明具体机构) (注:论文作者列表仅提供姓名,未在正文中明确标注所属大学、实验室或公司。根据致谢部分,研究由韩国政府资助,但作者具体机构未在文中说明。) 💡 毒舌点评 论文最大的亮点在于它没有陷入“目标函数炼丹”,而是从“表示结构”的角度为多模态学习提出了一个清晰、模块化的三阶段框架(S3),理论分析也挺到位,尤其是对对比学习和InfoMax方法缺陷的剖析。不过,短板也很明显:它把一个通用的多模态框架牢牢焊死在了“视频情感分析”这个应用场景上,实验完全基于MultiBench里的四个情感任务,既没碰音频,也没展示在更广泛任务(如检索、生成)上的威力,让人怀疑这“结构化”的优势到底有多通用。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及使用了 MultiBench 基准套件中的四个数据集:MOSEI、MOSI、UR-FUNNY 和 MUStARD。论文中未提供这些数据集的具体获取链接。 Demo:论文中未提及 复现材料:论文中未提及训练配置、检查点等具体复现材料。文中提供了实验细节(如附录 G.2)和部分消融研究结果(如表 3, 表 4),但未提供完整的代码或模型文件。 论文中引用的开源项目: MultiBench:论文中提及的多模态基准套件,但未提供链接。 CLIP:论文中作为对比方法提及,但未提供链接。 FactorCL:论文中作为对比方法提及,但未提供链接。 FOCAL:论文中作为对比方法提及,但未提供链接。 JointOpt:论文中作为对比方法提及,但未提供链接。 DisentangledSSL:论文中作为对比方法提及,但未提供链接。 补充信息 细节详述 补充:论文未在正文中提供具体的训练超参数(如学习率、优化器、训练轮数),但在附录G.2中说明其设置遵循先前工作(Liang et al., 2023; Wang et al., 2025)以进行公平对比。 实验结果 补充:论文Table 1提供了不同粒度χ和稀疏化比例p下的完整性能数据,更清晰地展示了“反U型”曲线。以χ=8在MOSEI上的结果为例,完整S3性能随p值从1.0降至0.1的变化为:75.78% (Special.) → 77.36% (p=1.0) → 77.95% (p=0.7) → 77.01% (p=0.1)。论文Table 2显示,与最强基线DisentangledSSL相比,S3在MOSI上的提升约为1.0%(65.16% vs 66.13%),在MUStARD上的提升约为1.0%(61.60% vs 62.56%)。 细节详述 补充:论文附录H.3的Table 4提供了“选择”阶段可训练参数的比例,显示仅更新路由器参数,其占比在0.0984%(χ=2)到1.0708%(χ=8)之间,强调了该阶段的高效性。 模型架构 补充:论文4.4节详细解释了超参数“粒度χ”与“扩展比ρ”的关系和设计动机。χ决定了专家隐藏维度(D_expert = D_ffn / χ),ρ决定了参数增加量(ρ = P_moe / P_ffn),总专家数N_expert = χ * ρ。论文固定ρ=8,并说明将激活专家数k设为等于χ,以保证与原始FFN的公平比较。 核心摘要 补充:论文在结论部分明确列出了未来研究方向,包括:(1) 针对关键任务的模态自适应信息保留;(2) 对模型深度中语义抽象的层自适应建模;(3) 减少标签依赖的自监督路由适应;(4) 更精确语义分解的增强专家特化;(5) 自适应粒度和剪枝策略的稀疏化。这反映了作者对框架局限性的认识和未来拓展路径。 作者与机构 补充:论文致谢部分明确说明研究由韩国政府通过IITP的三个基金(RS-2021-II211343, RS-2022-II220953, RS-2025-25442338)资助。 📌 核心摘要 解决的问题:现有主流多模态表示学习方法存在根本矛盾——对比学习(Contrastive Learning)倾向于对齐共享信息但丢失模态独特信息,而信息最大化(InfoMax)方法试图保留所有信息却引入大量任务无关冗余。论文指出,这种矛盾部分源于缺乏将表示结构化的归纳偏置。 方法核心:提出S3(特化、选择、稀疏化)框架,基于混合专家(MoE)模型构建结构化的多模态表示。 特化(Specialization):使用MoE编码器将多模态输入分解为概念级的“专家”表示,并通过信息最大化损失和分布语义一致性(DSC)约束进行自监督预训练。 选择(Selection):冻结编码器,仅微调路由网络,通过监督对比损失(促进任务充分性)和基于vMF分布的紧致性损失(促进信息最小性)来选择性激活任务相关专家。 稀疏化(Sparsification):在推理时,根据路由分数剪枝低贡献的专家路径,无需额外训练,得到更简洁的表示。 创新之处:核心创新是从“结构”视角重新设计MMRL,将信息显式分解为可选择的语义组件,而非优化单一损失函数。这提供了理论上的“任务充分性”与“信息最小性”的统一框架,并发现了性能随稀疏度呈“反U型”曲线的关键现象。 实验结果:在MultiBench的四个情感分析基准(MOSEI, MOSI, UR-FUNNY, MUStARD)上,S3框架在多个细粒度设置(χ=8)下取得了最优的线性探测准确率。例如,在MOSEI上,完整S3框架(χ=8,剪枝后)达到77.95% 的准确率,超过了之前最好的DisentangledSSL(77.45%)和CLIP(76.87%)。关键消融实验表明,三阶段流程是必要的,单独使用稀疏化效果不佳。 实际意义:该框架为构建更可控、高效的多模态模型提供了新思路,其“选择-稀疏”机制允许在推理时动态权衡性能与计算效率,对边缘部署等场景有潜在价值。所提出的“结构化”理念可能启发其他领域表示学习的设计。 主要局限:实验范围局限于视觉-文本模态和情感分析任务,未验证在其他模态(如音频)或任务(如检索、生成)上的通用性。评估仅使用线性探测,未与端到端微调或其他评估方式对比。理论上的“分布语义一致性”在实际模型中如何精确实现和验证仍需深入探讨。 🏗️ 模型架构 S3框架是一个三阶段的模块化流程,其核心架构基于混合专家(Mixture-of-Experts, MoE) 构建。 ...

2026-05-06 · 更新于 2026-06-12 · 2 min · 325 words

语音/音乐/音频论文速递 2026-05-06

语音/音乐/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Towards Open World Sound Event Detection 8.5分 前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分 前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分 前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分 前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分 前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分 前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分 前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分 前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分 前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分 前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分 前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分 前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分 前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分 前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分 前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分 前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分 前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分 前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分 前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分 前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分 前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

2026-05-06 · 更新于 2026-06-12 · 15 min · 3158 words

Multi-Axis Speech Similarity via Factor-Partitioned Embeddings

📄 Multi-Axis Speech Similarity via Factor-Partitioned Embeddings #音频检索 #多任务学习 #对比学习 #说话人识别 ✅ 6.0/10 | 前50% | #音频检索 | #多任务学习 | #对比学习 #说话人识别 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1 | 置信度 中 👥 作者与机构 第一作者:Jim O‘Regan(KTH Royal Institute of Technology, Department of Speech, Music & Hearing) 通讯作者:未说明(论文中仅列出两位作者的邮箱,未明确标注通讯作者) 作者列表:Jim O’Regan(KTH Royal Institute of Technology, Department of Speech, Music & Hearing)、Jens Edlund(KTH Royal Institute of Technology, Department of Speech, Music & Hearing) 💡 毒舌点评 亮点:概念非常新颖,首次提出用带符号的加权组合在语音嵌入的多个子空间中实现可控检索(如用负权重“讨厌”某个说话人),并通过精心设计的“偏好翻转”实验证实了这一机制的可行性。短板:最引人深思的发现——语义投影头在没有说话人监督时会完全“摆烂”——恰恰揭示了该方法目前最大的脆弱性,它更像是一个对训练技巧敏感的“特例”,而非一个稳健的通用框架,且极小的实验规模和完全缺失的开源信息让说服力大打折扣。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 405 words