Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

📄 Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations #提示学习 #大语言模型 9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.6/10 | 前25% | #语音识别 | #提示学习 | #大语言模型 | arxiv 👥 作者与机构 作者:Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong, Baotian Hu, Min Zhang 机构: 哈尔滨工业大学(深圳)计算与智能研究所 深圳环岛研究院 💡 毒舌点评 这篇论文的出发点不错,将“本体”和“记忆”这两个概念塞进ASR后纠正任务里,试图解决长上下文对话中信息稀疏和噪声干扰的问题。想法算是有点新意,但读下来总觉得哪里差点意思。方法上,所谓的“本体工作记忆”本质上是个动态更新的实体/术语库加检索,没什么理论深度。最让人困惑的是,论文声称提出一个“框架”,但很多关键组件(如本体提取器 E_ϕ、检索器 Retrieve_η)的实现细节完全黑箱,就用个“实现无关”一笔带过,这到底是框架还是个实验性pipeline?实验部分倒是铺得挺开,用了不少模型,但Baseline的选择有点迷惑。那个用Gemma-4-26B做的“Full-History”baseline,直接把所有历史文本塞给模型,这不就等于验证了“塞太长上下文对LLM也没用”这个大家都知道的结论吗?这对验证你本体记忆的有效性有什么帮助?最实在的贡献可能还是那个RAMC-Corr数据集,流程说得很细,是个不错的评测基准。总而言之,想法可取,工程实现有待商榷,论证不够严密,像一篇做了很多实验但没想透彻的早期工作。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 407 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) (注:机构详情未在论文正文中明确列出,脚注显示了项目资助信息) ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 359 words

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio

📄 MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio #音频深度伪造检测 #自监督学习 #提示学习 #数据集 🔥 10/10 | 前10% | #音频深度伪造检测 | #多流提示调优 | #自监督学习 #提示学习 | arxiv 学术质量 6.9/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 high 👥 作者与机构 Qingcao Li: 浙江大学,未明确标注单位,但为共同第一作者 Yipeng Lin: 未明确标注单位 Weichen Lian: 未明确标注单位 Zhongjie Ba: 未明确标注单位 Peng Cheng: 浙江大学(通讯作者),中国科学院信息工程研究所 Zhichao Lian: 未明确标注单位 💡 毒舌点评 本文档定位清晰,旨在填补音频深度伪造检测在真实混合声源场景下的评估空白,工作扎实。MixFake数据集的构建方法(解耦式混合)和任务定义(前景/背景检测)是主要贡献。然而,所谓的“Multi-stream Prompt Tuning”方法虽能提升性能,但创新性有限,更像是一种工程化的特征增强技巧。将希尔伯特-黄变换(HHT)和Teager-Kaiser能量算子(TKEO)这些经典信号处理工具作为“提示”注入SSL模型,思路有趣,但论文对“为什么这些特定先验在此有效”的机制解释流于表面,缺乏更深层的分析。消融实验表IV和表V内容完全重复,这是一个明显的排版或逻辑错误,削弱了论证的严谨性。总体而言,这是一篇合格的应用型论文,数据集有价值,方法有效,但距离顶会要求的理论或方法上的重大突破尚有距离。 📌 核心摘要 研究背景与问题: 音频深度伪造检测在复杂、混合声源的真实场景中面临挑战。现有基于自监督学习(SSL)的模型因其“语义中心”特性,在处理缺乏语言信息的背景音乐或环境声时性能严重下降。标准数据集(如ASVspoof)多为干净语音,无法模拟这一现实挑战。 核心方法与数据集: 本文首先提出了MixFake,一个大规模基准数据集,用于系统评估混合声源(语音前景+音乐/环境声背景)和不同信噪比(SNR)下的伪造检测。为解决“语义中心”局限,提出了多流提示调优(Multi-stream Prompt Tuning)框架。该框架在冻结的SSL骨干网络(XLS-R)每一层注入三种可学习提示流:基础流(Base Stream)提供基础可学习参考;频率流(Frequency Stream)通过希尔伯特-黄变换(HHT)提取多尺度瞬时频率特征,注入相位和频率异常信息;纹理流(Texture Stream)利用Teager-Kaiser能量算子(TKEO)和特征通量(Feature Flux)提取能量波动特征,并通过门控机制融合。这些信号级先验与SSL语义特征结合,增强了模型对非语义成分伪造伪影的捕捉能力。 主要结果: 在MixFake数据集上,所提方法在前景语音检测任务中达到0.95% EER,在更困难的背景音频检测任务中达到12.40% EER,相比基线方法(如XLSR-AASIST)有显著提升(背景检测绝对改进达7.72%)。在跨数据集(In-the-wild)评估中,也表现出更好的泛化性(6.24% EER)。 结论与意义: MixFake数据集为混合音频伪造检测提供了首个系统化评估基准。所提出的多流框架通过融合经典信号处理先验,有效弥补了SSL模型在处理非语义音频成分上的不足,为复杂场景下的深度伪造检测提供了新思路。 ...

2026-05-25 · 更新于 2026-06-12 · 2 min · 382 words

Sunac: Source-Aware Unified Neural Audio Codec

📄 Sunac: Source-Aware Unified Neural Audio Codec #音频生成 #提示学习 #语音分离 #端到端 ✅ 7.5/10 | 前50% | #音频生成 | #提示学习 | #语音分离 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ryo Aihara(三菱电机研究实验室, 三菱电机公司) 通讯作者:未说明 作者列表:Ryo Aihara(三菱电机研究实验室, 三菱电机公司)、Yoshiki Masuyama(三菱电机研究实验室)、Francesco Paissan(特伦托大学, 三菱电机研究实验室)、François G. Germain(三菱电机研究实验室)、Gordon Wichern(三菱电机研究实验室)、Jonathan Le Roux(三菱电机研究实验室) 💡 毒舌点评 亮点:将源分离与音频编解码在特征空间进行优雅融合,通过提示机制统一处理不同数量和种类的音频源,设计思路非常灵活且具有前瞻性。 短板:论文在展示模型最强能力(处理多个同类型源)的关键实验上,缺乏对“条件特征提取器”各模块贡献的消融分析,使得模型高效性的来源不够透明;同时,完全缺乏代码和训练细节,让“可复现性”成为泡影。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开SUNAC模型权重。文中使用了预训练的DAC^1、TUSS^2、FasTUSS^2和SDCodec^3模型,但这些并非SUNAC本身。 数据集:评估使用了更新版的Divide and Remaster (DnR)数据集^36,但论文未说明其是否公开或如何获取训练集。 Demo:未提及。 复现材料:论文未给出训练超参数(如学习率、优化器)、检查点或附录说明。仅提供了模型参数量和计算量的总结表格(表1),不足以支撑复现。 论文中引用的开源项目: Descript Audio Codec (DAC):https://github.com/descriptinc/descript-audio-codec Task-Aware Unified Source Separation (TUSS):https://github.com/merlresearch/unified-source-separation SDCodec:https://github.com/XiaoyuBIE1994/SDCodec ViSQOL评估工具:https://github.com/google/visqol 论文中未提及开源计划:关于SUNAC自身的代码、模型或数据的开源计划,论文中未提及。 📌 核心摘要 问题:传统的神经音频编解码器(NAC)将混合音频信号(如语音+音乐)纠缠在一起编码,这对于只需要处理特定源(如会议纪要只需语音)的下游任务(如LLM)是低效的。现有方案(如SDCodec)无法处理同一类型的多个并发源(如两人同时说话)。 方法核心:提出SUNAC,一个基于提示的源感知统一神经音频编解码器。其核心是在共享的编码器之后、量化器之前,插入一个“条件特征提取器”。该模块接收编码特征和表示目标源类型的可学习提示向量,直接从混合特征中提取出指定源的特征,然后共享的量化器和解码器对其进行重建。同时,提出了一个级联系统(TUSS-DAC)作为性能上界。 新在哪里: 架构:相比于级联系统,SUNAC将分离与编码在特征空间集成,避免重复计算;相比于SDCodec,它使用统一的特征提取和单一共享的RVQ,通过提示实现灵活提取,且能处理同类型多源。 技术:在条件特征提取器中,创新性地使用了跨提示Transformer模块和基于FiLM的条件注入机制。 训练:采用置换不变训练(PIT)在特征空间解决同类型多源的输出排列模糊问题。 主要实验结果: 计算效率:SUNAC(69.2M参数,总MAC可扩展)比级联系统(如TUSS-DAC:85.2M)计算量更低,且优于轻量化级联版本(FasTUSS-DACT)。 核心能力:在分离两个说话人(表4)任务中,SDCodec(SI-SDR为0)完全失败,而SUNAC(SI-SDR为11.80)取得了与级联系统(13.35)可比的性能。 基础性能:在分离不同类源(表3)任务中,SUNAC的VisQOL得分(语音3.68, 音乐4.14)与最优基线接近;在复杂混合源(表5, 含两个说话人)任务中,SUNAC在语音分离上的SI-SDR(7.46)远高于SDCodec(约-1),接近级联系统(9.07)。 模型 SI-SDR (混合) ↑ VisQOL (混合) ↑ SI-SDR (语音) ↑ VisQOL (语音) ↑ TUSS-DAC – – 13.35 ± 3.80 4.08 ± 0.39 FasTUSS-DACT – – 10.73 ± 4.66 3.83 ± 0.46 SDCodec 0.00 ± 2.83 3.04 ± 0.62 0.00 ± 2.83 3.04 ± 0.62 SUNAC 11.80 ± 3.07 4.12 ± 0.42 11.80 ± 3.07 4.12 ± 0.42 表4:从{, }中分离结果。SUNAC在处理同类型多源上显著优于SDCodec。 实际意义:为音频LLM、全双工对话系统、音频事件检测等下游任务提供了一种更高效、灵活的前端音频表示获取方案,允许用户按需从混合信号中提取和编码感兴趣的源。 主要局限:模型在处理训练时未见过的源数量和类型组合时性能会下降(表5);论文未提供代码和详细训练配置,复现困难;缺乏对条件特征提取器内部模块的详细消融实验。 🏗️ 模型架构 SUNAC是一个端到端的神经音频编解码器,其目标是从混合音频信号\(x\)中,根据用户提供的提示(如“语音”、“音乐”),直接生成对应源的离散token。 整体架构(图1(c))包含四个主要部分,数据流如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 336 words