FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

📄 FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings #模型评估 #线性模型 #多语言 #多模态模型 📝 评分:5.5/10 | arxiv 👥 作者与机构 第一作者:Santosh Kesiraju (布尔诺理工大学,Speech@FIT实验室) 通讯作者:Petr Schwarz (布尔诺理工大学,Speech@FIT实验室,根据联系邮箱推断) 其他作者: Bolaji Yusuf (布尔诺理工大学,Speech@FIT实验室) Šimon Sedláček (布尔诺理工大学,Speech@FIT实验室) Oldřich Plchot (布尔诺理工大学,Speech@FIT实验室) 💡 毒舌点评 亮点:提供了一把“线性手术刀”,干净利落地剖开了SONAR、LaBSE这些黑盒嵌入,直观展示了里面到底塞了哪些词,还量化了“英语霸权”在嵌入空间中的统治力。槽点:本质上还是个高级线性探针,创新天花板明显;主要发现“多语言模型更偏爱英语”这事儿,大家心里其实都有数,论文只是用更漂亮的方式证实了它。 📌 核心摘要 本文提出FLiP,一种因子化线性投影模型,旨在理解并解释多语言、多模态句子嵌入空间(如SONAR, LaBSE, Gemini)。核心思想是将嵌入空间的解释转化为一个线性关键词提取任务:通过一个简单的线性投影,从句子嵌入向量中恢复出构成该句子的词汇。实验表明,训练良好的FLiP模型能从嵌入中回忆起75%以上的词汇内容,显著优于非因子化基线。利用这一工具,作者系统性地诊断了不同嵌入模型的跨模态对齐(语音-文本)和跨语言对齐性能,揭示了这些模型普遍存在的英语偏向性,即语义的线性表示在英语中最清晰,随语言距离增大而衰减。FLiP为研究者提供了一种无需依赖下游任务即可内在评估嵌入质量的诊断工具。 🏗️ 模型架构 FLiP的整体架构是一个因子化的对数线性模型,其目标是学习一个从句子嵌入空间到词汇空间的线性映射,以提取关键词。 完整输入输出流程: 输入:一个预训练的句子嵌入向量 t (来自文本) 或 s (来自语音),维度为 d (如SONAR为1024,LaBSE为768)。 投影:将输入嵌入通过一个因子化的投影矩阵 W = AB 进行映射。 A:维度为 |V| x r,可视为一个词嵌入矩阵,其中 |V| 是词汇表大小(如100K),r 是因子化秩(如512)。 B:维度为 r x d,是一个从模态/语言空间到潜在语义空间的投影矩阵。 计算:z = b + A * (B * u),其中 b 是偏置向量,u 是输入嵌入。B*u 将输入映射到 r 维潜在空间,A 再将其映射到 |V| 维的词汇空间,得到 logits z。 输出概率:对 logits z 应用 softmax 函数,得到词汇表上的概率分布 θ。 关键词提取:在推理时,直接选取 logits z 中数值最大的 k 个索引,映射回词汇表,得到提取的关键词。无需优化。 关键设计选择理由: ...

2026-04-21

FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs

📄 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 🔥 评分:10.0/10 | arxiv 👥 作者与机构 第一作者:Yun Hong(中国科学院计算技术研究所,智能信息处理国家重点实验室;中国科学院大学) 通讯作者:Yang Feng(中国科学院计算技术研究所,智能信息处理国家重点实验室;中国科学院大学) 其他作者:Yan Zhou(中国科学院计算技术研究所,智能信息处理国家重点实验室;中国科学院大学) 机构详情:所有作者均隶属于中国科学院计算技术研究所的“智能信息处理国家重点实验室”和“人工智能安全国家重点实验室”,以及中国科学院大学。 💡 毒舌点评 亮点是“冻结LLM”这个思路简直是懒人智慧的巅峰——让模型自己懂共情,我们只负责搭个桥,数据和训练成本直接砍半。槽点嘛,虽然生成的语音情感挺到位,但毕竟用的是现成的TTS模块,情感表达的上限可能被预训练模型锁死了,想让它“影帝级”爆发估计有点难。 📌 核心摘要 本文旨在解决训练共情语音聊天机器人时面临的共情语音数据稀缺、模型泛化能力弱、以及微调导致LLM通用能力退化三大难题。作者提出了FreezeEmpath,一种高效的端到端训练框架。其核心方法是冻结基础LLM,采用语义-情感解耦编码策略,通过独立的语义适配器和情感提取器从语音中分别提取内容和情感特征,并设计三阶段训练(语义对齐、情感对齐、语音生成)将这些特征与LLM的嵌入空间对齐,从而将LLM内在的文本共情能力迁移到语音模态。整个训练仅需现有的中性语音指令数据和语音情感识别数据,无需人工构建的共情语音数据。实验表明,FreezeEmpath在共情对话、语音情感识别和口语问答任务上均显著优于现有SOTA模型,证明了其方法的有效性和高效性。 🏗️ 模型架构 FreezeEmpath的整体架构由三部分组成:语音理解模块、基础LLM和语音生成模块。 完整输入输出流程: 输入:用户的语音指令。 语音理解模块: 语音编码器(Whisper-large-v3):将原始语音波形编码为隐藏状态序列 X ∈ ℝ^{L×T×D}(L=层数,T=序列长度,D=维度)。 语义适配器:由一个下采样层和一个2层前馈网络(FFN)组成,将编码器输出映射到LLM的嵌入空间,得到语义特征序列 S。 情感提取器:包含两步池化。 层级池化:使用一个门控网络 g 对编码器所有层的隐藏状态进行加权平均,得到压缩后的特征 X̂。 帧级池化:使用一个可学习的查询 Q,通过多头交叉注意力机制(MHA,4个头)聚合 X̂ 的时间维度信息,再通过一个2层FFN(隐藏维度2048)映射为LLM嵌入空间的情感特征向量 E。 序列拼接:将语义特征序列 S、固定连接词嵌入 F1、情感特征向量 E、固定连接词嵌入 F2 拼接,形成最终输入序列 X_S = [S, F1, E, F2] 送入LLM。 基础LLM(Qwen2.5-7B-Instruct):全程参数冻结。接收 X_S,基于其内在的语义理解和共情能力,生成文本响应 r 的隐藏状态序列。 语音生成模块: 流式语音解码器:一个解码器Transformer(初始化自Qwen2.5-0.5B)。它包含一个门控融合模块,聚合来自LLM的上下文隐藏状态和已解码文本 token 的精确语义信息。解码器以流式方式自回归生成语音 token 序列 u(词汇表大小8192,频率50Hz)。流式参数为:每读入 R=3 个输入嵌入,生成 W=15 个语音 token。 Token2Wav模块:使用预训练的IndexTTS2的流匹配模型和声码器,将语音 token 序列 u 转换为最终的共情语音响应。 关键设计理由: ...

2026-04-21

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

📄 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval #音频检索 #多模态模型 #鲁棒性 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:HaeJun Yoo(韩国西江大学) 通讯作者:Myoung-Wan Koo(韩国西江大学)(根据论文联系邮箱推断) 其他作者:Yongseop Shin, Insung Lee, Du-Seong Chang(均来自韩国西江大学) 💡 毒舌点评 亮点:论文最犀利的地方在于“掀桌子”——直接指出大家常用的AudioCaps/Clotho评测集和真实用户查询方式(平均才1.8个词!)严重脱节,并为此精心打造了一套更贴近现实的“用户意图查询”(UIQ)考题和“硬负样本辨别”评分标准,这比单纯刷高几个点的Recall@K有意义得多。 槽点:模型本身(OEA)有点像“富二代”——背靠强大的多模态LLM(Qwen2.5-Omni等)这个“家族产业”,通过LoRA等手段“微调”一下就上岗了。虽然效果不错,但核心创新更多在“评测”和“应用”层面,而非底层模型架构的突破,让人感觉“这活儿我上我也行(如果有足够GPU的话)”。 📌 核心摘要 这篇论文旨在解决当前音频-文本检索模型在真实、多样化用户查询下性能下降的问题。作者指出,现有基准测试(如AudioCaps, Clotho)依赖描述性标题式查询,与真实世界中简短、多变的搜索行为(如问题、命令、关键词、排除性查询)存在巨大差距。为此,论文提出了两大核心贡献:1) Omni-Embed-Audio (OEA):一个基于多模态大语言模型(如Qwen2.5-Omni)的统一编码器架构,通过LoRA适配器将文本和音频映射到同一嵌入空间,充分利用LLM强大的语义理解能力;2) User-Intent Queries (UIQ) 基准:包含五种查询类型(问题、命令、关键词、同义改写、排除性查询)的评测集,并配套提出了硬负样本辨别率 (HNSR) 等新指标,以评估模型抑制语义相似但内容相异干扰项的能力。实验表明,OEA在传统文本到音频检索上与SOTA的M2D-CLAP持平,但在文本到文本检索(相对提升22%)和硬负样本辨别(HNSR@10提升4.3个百分点)上显著领先,证明了LLM骨干在理解复杂查询和进行细粒度语义区分方面的优势。论文还进行了详尽的数据泄漏分析,并发布了无泄漏的MECAT基准评测结果。 🏗️ 模型架构 OEA的核心设计是利用一个预训练的多模态LLM作为统一的双模态编码器,而非传统的双塔(独立文本/音频编码器)结构。 整体流程: 输入处理: 文本:将查询包装为 query: <文本> 格式,经过分词器转换为Token序列。 音频:将16kHz单声道原始波形输入到多模态LLM内置的音频编码器中,转换为音频特征,再包装为 passage: <音频特征> 格式。 骨干网络:文本Token或音频特征序列被送入共享的多模态LLM骨干(如Qwen2.5-Omni-3B/7B, Omni-Embed-Nemotron-3B)。骨干网络的大部分权重被冻结。 参数高效适配:在骨干网络的注意力层中插入LoRA适配器(仅约11-16M可训练参数),用于模态适配。 特征聚合:对骨干网络输出的最后一层隐藏状态进行平均池化,得到一个固定长度的向量。 投影与归一化:池化后的向量分别通过各自模态专属的投影头(一个线性层+LayerNorm+L2归一化),映射到一个共享的512维检索嵌入空间,并进行L2归一化,得到最终的单位范数嵌入向量。 关键设计理由: 统一编码器:旨在缩小模态差异,并让音频理解直接受益于LLM强大的语言先验和推理能力。 LoRA:在保持预训练知识的同时,以极低的参数成本实现模态适配。 共享嵌入空间:便于直接计算文本与音频嵌入之间的余弦相似度,用于对比学习和检索。 💡 核心创新点 系统性评估框架创新(UIQ基准): 是什么:提出了一个涵盖三类五种查询类型(对话式:问题/命令;改写式:关键词/同义句;排除式:否定查询)的“用户意图查询”基准,以更真实地评估检索鲁棒性。 之前:评测仅限于描述性标题,无法反映真实搜索中常见的查询变体和复杂语义。 如何解决:通过LLM生成并经人工验证,创建了大规模、多样化的UIQ查询集,并分析了其与真实查询分布的一致性。 效果:暴露了现有模型在命令式查询和否定理解上的不足,为领域提供了更全面的评估工具。 针对排除性查询的新评估指标: ...

2026-04-21

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Aryan Vijay Bhosale, Vishnu Raj(根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断,均来自 University of Maryland College Park, USA) 其他作者: Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(University of Maryland College Park, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起,解决了视频配乐中“既要懂视频又要听指挥”的痛点,还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”(如FSQ, RITE)都是现成的,而且目前只能给10秒短片配乐,离给一部电影完整配乐的“终极梦想”还有不小的距离,更像是个精致的概念验证版。 ...

2026-04-21

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 整体流程: 输入:参考图像 I_ref,说话音频序列 A_talk,聆听音频序列 A_listen。 音频编码与注入: 使用预训练的Wav2Vec 2.0编码器提取两路音频的多层特征。 设计独立的自适应音频Q-Former(Talking和Listening分支各一个)对音频特征进行压缩和跨模态对齐。每个Q-Former在时间窗口内使用可学习的查询(Queries)通过交叉注意力聚合音频特征。这允许两路音频自适应地融合不同层次的语义信息,并为分类器自由引导(CFG)生成更平滑的无条件嵌入。 编码后的音频特征通过3D时空交叉注意力注入到视频潜在表示中,使用1D旋转位置编码(RoPE) 保持时序对齐。 核心注意力机制 - 多头高斯核(MHGK): 在计算视频与音频的交叉注意力时,为每个注意力头 h 引入一个高斯时序偏置矩阵 B^(h)。 该矩阵 B^(h)(i, j) = α_h * (1 - exp(-(i-j)^2 / (2σ_h^2))) 作为距离惩罚项加入注意力分数中。其中 σ_h 控制感受野宽度,α_h 控制惩罚强度。 通过为不同头设置不同的 σ_h,模型能动态分配感受野:σ_h → 0 时,退化为严格局部注意力,确保唇同步;σ_h → ∞ 时,偏置趋近于0,变为全局注意力,用于捕捉上下文语义和情感。 视频生成与解码: 模型基于Wan2.2-5B DiT骨干网络,使用其VAE将视频压缩为潜在表示。 训练目标是最小化流匹配损失:L_FM = E[||v_θ(x_t, t, c) - (x_1 - x_0)||^2],其中 c 包含参考图像和双路音频条件。 推理时,从噪声 x_0 出发,通过求解常微分方程(ODE)逐步去噪得到生成视频 x_1。 训练策略 - 两阶段增量训练: 阶段一(说话优先):仅使用说话音频适配器,在大规模单人说话数据上训练,让模型先掌握精确的唇同步和自然的说话行为。 阶段二(聆听融合):引入聆听音频适配器,在VoxHear数据集上微调,使模型学会在保持说话能力的同时,对聆听音频做出自然的交互反应。 💡 核心创新点 多头高斯核(MHGK)注意力机制: ...

2026-04-20

Hierarchical Codec Diffusion for Video-to-Speech Generation

📄 Hierarchical Codec Diffusion for Video-to-Speech Generation #语音合成 #扩散模型 #多模态模型 #零样本 #跨模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jiaxin Ye(Fudan University) 通讯作者:Hongming Shan(Fudan University,hmshan@fudan.edu.cn) 其他作者: Gaoxiang Cong(Institute of Computing Technology, Chinese Academy of Sciences;University of Chinese Academy of Sciences) Chenhui Wang(Fudan University) Xin-Cheng Wen(Harbin Institute of Technology (Shenzhen)) Zhaoyang Li(Fudan University) Boyuan Cao(Fudan University) 💡 毒舌点评 亮点:这篇论文像个严谨的“交通协管员”,终于把 RVQ 不同层级当成了不同的车道——让嘴唇和身份去底层飙内容,让表情去高层管情绪,治好了 VTS 领域长期存在的“视觉条件瞎注入”的拥堵病。 槽点:虽然口口声声“首个”层次化离散扩散,但骨子里是 SEDD + MaskGCT Codec + DiT AdaLN 的“学术拼好饭”;更妙的是训练时偷偷用真实音频的 GE2E 特征来 stabilize 模型,推理时却只能看脸硬撑,这算不算一种“开卷考试练出的学霸”? ...

2026-04-20

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

📄 Spatial-Aware Conditioned Fusion for Audio-Visual Navigation #声源定位 #多模态模型 #强化学习 #基准测试 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Shaohang Wu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室) 通讯作者:Yinfeng Yu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室;邮箱:yuyinfeng@xju.edu.cn) 其他作者:无其他作者 💡 毒舌点评 这篇论文把 FiLM 这瓶“旧酒”装进了音频-视觉导航的“新瓶”,效果居然出奇地好——只增加了 0.15M 参数就把 unheard 场景的 SR 拉高了 28 个百分点,堪称“少即是多”的典范。但槽点在于 SDLD 的 20 个离散区间完全靠拍脑袋(“30米除以20约等于1.5米步长”),连个区间数消融都没有;且整篇论文对 FiLM 的引用和改造堪称“教科书级搬运”,说成“建立新范式”多少有点给自己加戏。 📌 核心摘要 本论文针对音频-视觉导航(AVN)中目标空间意图模糊、视觉特征缺乏听觉条件引导两大问题,提出了 Spatial-Aware Conditioned Fusion(SACF)框架。该框架首先设计了 Spatially Discretized Localization Descriptor(SDLD),将声源相对方向与距离离散化为 20 个区间并预测其概率分布,通过期望计算与 LSTM 时序精炼得到紧凑空间描述符;其次提出了 Audio-Descriptor Conditioned Visual Fusion(ACVF),基于音频嵌入与空间描述符生成 FiLM 通道调制参数(γ, β),对视觉特征图进行轻量化线性变换,从而抑制背景噪声、增强目标导向视觉表示。在 SoundSpaces 的 Replica 与 Matterport3D 数据集上,SACF 在深度输入设置下显著超越 SoundSpaces 基线,尤其在 Unheard 场景(未听过目标声音)下 Replica 的 SR 提升 28.2%、Matterport3D 的 SPL 提升 20.5%。整体模型参数量仅约 4.5M,以较低计算开销实现了强泛化性。局限性在于 RGB 输入下部分指标(如 SNA)仍略低于对比方法 AGSA,且未进行真实世界迁移验证。 ...

2026-04-20

The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction

📄 The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction #语音生物标志物 #多模态模型 #跨模态 #模型评估 📝 评分:2.5/10 | arxiv 👥 作者与机构 第一作者:Dhruvin Dungrani(Department of Information Systems, Independent Researchers) 通讯作者:未明确标注 其他作者:Disha Dungrani(Department of Information Systems, Independent Researchers) 💡 毒舌点评 这篇论文最大的学术贡献似乎是给“高管上过播音课所以声音不紧张”这个现象取了一个名叫“Acoustic Camouflage”的酷炫术语;全篇最硬核的技术栈是三个逻辑回归,放在今天大概连Kaggle入门赛都进不了前十。更尴尬的是,图1用MAE默默展示融合后误差其实变小了,与正文疯狂强调的Recall暴跌形成了史诗级互搏。 📌 核心摘要 本研究探讨了在企业财报电话会议中,副语言声学特征(音高、抖动、停顿等)对预测灾难性股价下跌的效用。作者基于MAEC数据集,提取了两种模态的特征:文本端使用FinBERT计算脚本化开场白与即兴Q&A之间的情感极性差异(Sentiment Delta),音频端提取临床语音压力标记的方差特征(音高方差、抖动方差、平均NHR、非 voiced 分数方差)。为避免噪声早期传播,作者采用双流晚期融合架构——两个L1正则化逻辑回归分别处理单模态,再由一个L2正则化逻辑回归元学习器融合概率输出。实验发现,孤立文本流的少数类召回率达到66.25%,而孤立音频流仅50.83%;违背直觉的是,晚期融合后召回率进一步跌至47.08%。作者将这一现象命名为“Acoustic Camouflage”(声学伪装):经过媒体训练的高管能在语音上维持镇定,使音频流释放与真实风险相反的低风险噪声,从而在多模态平均中“稀释”了文本流的高风险信号。该研究为高风险金融预测中的语音处理应用划定了边界条件,但也指出VoIP压缩和降噪算法可能进一步破坏声学信号的真实性。 🏗️ 模型架构 论文提出的系统是一个极简���双流晚期融合诊断架构,整体流程如下: 1. 输入层 数据源:MAEC(Multimodal Aligned Earnings Conference Call)数据集,包含对齐的财报电话会议音频与文本转录。 文本输入:截取每场会议的两个片段——前1,500字符(高度脚本化的管理层开场白)和Q&A环节中1,500字符(非脚本化即兴回答)。 音频输入:与上述文本对齐的电话会议原始音频信号。 2. 特征提取层 文本流(1维标量输出): 使用预训练语言模型 FinBERT 分别对脚本段和即兴段进行情感极性编码。 计算 Sentiment Delta:两段情感极性的数学差值,作为衡量“叙事结构崩溃”的代理变量。若高管在压力问答中情感显著低于脚本,则Delta绝对值增大。 音频流(4维向量输出): Pitch Variance:基频(F0)的方差,捕捉音高波动。 Jitter Variance:周期到周期频率不稳定性(抖动)的方差。 Mean NHR(Noise-to-Harmonic Ratio):噪音和谐波比均值,作为声音嘶哑度的代理。 Variance of Unvoiced Fractions:无声音段(停顿、犹豫)比例的方差。 选择这些方差指标是为了对说话人基线差异进行归一化。 3. 基础分类层(两个独立的孤立流) ...

2026-04-20

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #音频大模型 #多模态模型 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 作者:Xiquan Li, Aurian Quelennec, Slim Essid 论文中未明确标注作者所属机构(无机构名称、邮箱或地址信息)。 💡 毒舌点评 亮点:用 229M 参数的“小不点”在乐器识别上干翻了 8B 参数的巨无霸,堪称音乐 AI 界的“蚁人”——小而强悍。槽点:模型架构基本是“MATPAC++ 和 SmolLM2 的包办婚姻”,9M 的投影器充当媒婆,核心工作量似乎全花在造 350 万条 QA 数据上了;而且既然叫 TinyMU,能不能把 135M 的 LLM 也再压缩压缩? 📌 核心摘要 本文针对现有大型音频语言模型(LALM)参数庞大(数十亿级)、训练推理成本高、难以部署在边缘设备的问题,提出了 TinyMU——一个仅有 229M 参数的紧凑音乐语言模型。为此,作者构建了 MusicSkills-3.5M 数据集,包含 350 万个涵盖多选、二元判断和开放式格式的音乐问答样本,结合基于规则与 LLM 辅助的数据合成方法,覆盖流派、乐器、情绪、结构等多维度音乐知识。TinyMU 采用 MATPAC++(85M)作为自监督音频编码器提取细粒度特征,通过仅含两层线性层的轻量投影器(9M)与 SmolLM2-135M 语言模型对齐,并在训练时冻结编码器。实验表明,TinyMU 在乐器识别(Medley-Solos-DB)上甚至超过 8B 模型,在 MuChoMusic 推理基准上达到 SOTA 模型的 82%,同时体积缩小 35 倍。然而,论文在训练超参数、硬件开销等方面披露不足,且未开源。 ...

2026-04-20

语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20