语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-06-16 · 23 min · 4800 words

A Model of Multi-turn Human Persuadability Using Probabilistic Belief Tracing

📄 A Model of Multi-turn Human Persuadability Using Probabilistic Belief Tracing 8.2/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.2/10 | 前50% | arxiv 👥 作者与机构 Jared Moore, Noah Goodman, Nick Haber, Max Kleiman-Weiner 斯坦福大学,华盛顿大学 💡 毒舌点评 这篇论文试图将说服研究从“前后对比”的简单粗暴测量,升级到“逐轮信念追踪”的精细过程分析,想法是好的,甚至有点理想化。它贡献了一个实验平台和一套评估框架,并构建了一个基于贝叶斯网络(BN)的“模拟靶子”。然而,仔细审视其“证据链”,会发现几个关键环节略显脆弱,整体说服力打了折扣。首先,作为核心证据的“人类行为数据”样本量偏小(核心分析N=32或84),统计效力存疑,特别是对于得出普遍性结论而言。其次,方法的“客观性”高度依赖于LLM——修辞标注、BN结构生成和条件概率拟合均由LLM完成,却未充分报告其内部一致性或验证其“认知合理性”,这使得整个建模过程建立在了一个可能不稳固的“黑箱”基础上。再者,模拟器的评估虽设计了多个维度,但关键的“重放误差”实验仅在一个命题上进行,泛化能力存疑;而“LLM裁判”评估本身也陷入循环论证的风险。最后,论文声称将分析推向“过程级”,但发现的行为模式(如两种轨迹聚类)解释深度有限,与其宣称的“认知科学价值”尚有距离。总体而言,这是一个方法论上的有益尝试,框架设计有亮点,但支撑核心主张(尤其是BN模拟器的“真实性”与“优越性”)的实验证据链存在多个需要加固的薄弱点。 📌 核心摘要 本文针对当前LLM说服研究主要依赖“信念前后测”的局限,提出了一个名为PersuasionTrace的多轮说服过程研究框架。该框架包含一个实验平台,用于收集人类被试在多轮说服对话中的逐轮信念轨迹数据,并对说服论点进行修辞维度(logos/pathos/ethos)标注。基于收集的人类数据,作者构建了一个基于贝叶斯网络(BN)的“人类说服易感性”模拟器,该模拟器维护显式的潜在信念状态,并通过“原子化-贝叶斯更新-语言化”三步管道模拟信念动态。主要实验结论包括:1)人类信念更新轨迹呈现高变化与低变化两种聚类模式;2)人类对不同修辞策略的易感性存在差异;3)所提出的BN模拟器在“人类相似性”评估中接近人类参考基准,并在“天真说服”抵抗性、立场偏差等多个诊断性评估中优于未结构化的LLM基线模拟器。论文的核心贡献在于将说服效果的评估从端点变化推进到过程保真度,并开源了相关平台和数据。 🔗 开源详情 代码:https://github.com/jlcmoore/persuasiontrace 模型权重:未提及开源可下载的模型权重。论文中使用的大语言模型(如 gpt-5, gpt-4.1, gpt-5.1, gpt-5.4-mini, gemini-3-flash-preview 等)均通过其商业API进行调用。 数据集:DebateGPT 数据集 (https://huggingface.co/datasets/frasalvi/debategpt, 开源协议:CC-BY-SA 4.0)。此外,论文还使用了自生成和整理的信念节点图、修辞标注数据及人类信念轨迹数据,这些包含在代码仓库中。 Demo:https://converse.analogi.se 复现材料:论文在附录中提供了详细的人类实验队列定义(表1)、模拟器队列定义(表2)、贝叶斯网络信念图的构建过程(附录B.7.1)、完整的提示模板(附录C,图16-28)以及评估指标的计算公式(附录B.8-B.10)。所有数据和代码均包含在代码仓库中。 论文中引用的开源项目: DebateGPT 数据集:https://huggingface.co/datasets/frasalvi/debategpt (开源协议:CC-BY-SA 4.0) spectrum-llama-3.1-8b-v1 模型:https://huggingface.co/analogio/spectrum-llama-3.1-8b-v1 (开源协议:Llama 3.1 Community License) 🏗️ 方法概述和架构 PersuasionTrace是一个包含实验平台与计算模型的综合框架,旨在研究与模拟多轮说服过程中的信念动态。 ...

2026-06-05 · 更新于 2026-06-16 · 1 min · 204 words

Age-Aware Adapter Tuning for Children's Speech Recognition

📄 Age-Aware Adapter Tuning for Children's Speech Recognition #语音识别 #参数高效微调 #自监督学习 #低资源 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #语音识别 | #参数高效微调 | #自监督学习 #低资源 | arxiv 👥 作者与机构 论文中未明确列出作者及机构信息。 💡 毒舌点评 增量改进,包装先行:论文标题中的“Age-Aware”听起来很前沿,但核心贡献是为不同年龄组训练多个小适配器并进行路由。这本质上是“为不同子群体微调不同模块”的工程实践,学术创新有限。最大的卖点——性能提升,从12.6%到12.3%的WER(0.3%的绝对改进)在语音识别领域属于微弱改善,说服力不足。 实验设计存在疑问:12+组的WER极低(4.5%-5.1%),但论文自己也承认该组“仅包含单次发音样本”,与其他组的句子级识别任务完全不同。将不同难度、不同格式的任务混合计算宏WER,并以此论证方法在“所有年龄组”的改进,有混淆视听之嫌。方法在最具挑战的3-4岁组的改进(从8.5%到8.3%)同样微不足道。 “接近”的阈值在哪?:论文反复强调预测年龄路由性能“接近”真实年龄路由。但具体到数字,Top-1预测路由的宏WER(17.9%)比真实路由(17.6%)差0.3%,整体WER差0.1%。这种差距是否可接受取决于实际部署成本,但论文未讨论路由器可能带来的额外延迟和错误传播风险。 FiLM作为对比组显得疲软:FiLM适配器的性能甚至不如简单的“堆叠适配器”(stacked adapter),这要么说明FiLM实现存在问题,要么说明在当前设定下这种动态调制机制对儿童语音的年龄差异过于复杂或无效。论文用它作为主要对比,削弱了“年龄专用适配器更优”这一结论的力度。 局限性轻描淡写:作者在结论中承认“不同年龄组的录音和任务构成可能影响分组结果”,但这恰恰是实验设计的核心漏洞,却被一笔带过。没有消融实验验证年龄组划分的合理性,也没有探索其他划分方式。 📌 核心摘要 本文研究了在参数高效适配框架下,年龄信息如何改进儿童语音识别(ASR)。研究在预训练的NVIDIA Parakeet-tdt-0.6B-v2模型上进行,首先训练一个适用于所有儿童语音的共享适配器作为基线。随后,提出了两种年龄感知适配策略:1)年龄专用适配器,为每个年龄组训练独立的残差适配器,通过预测的年龄路由器进行选择;2)统一FiLM适配器,使用一个受年龄条件调制的共享适配器。在On Top of Pasketti儿童ASR挑战赛的Word Track数据集(包含3-12岁及以上儿童语音)上的实验表明,使用真实年龄进行路由的年龄专用适配器在所有年龄组上均优于共享适配器基线,将整体WER从12.6%降至12.3%,宏WER从18.4%降至17.6%。使用预测年龄路由的性能接近真实年龄路由(整体WER 12.3%,宏WER 17.8%)。统一FiLM适配器的效果弱于年龄专用适配器。研究结论表明,年龄专用残差适配是改善儿童ASR鲁棒性的有前景且实用的方向。 ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 408 words

An ERP Study on Recursive Locative Processing in Mandarin-Speaking Children with Autism

📄 An ERP Study on Recursive Locative Processing in Mandarin-Speaking Children with Autism 5.9/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 📝 5.9/10 | 前50% | arxiv 👥 作者与机构 论文作者:王小一(苏州大学)、傅辰曦(苏州大学)、庄子曼、杨彩梅。机构为苏州大学。 💡 毒舌点评 这篇论文像一份扎实但缺乏惊喜的实验室报告。它正确地运用了ERP技术去探测一个重要的认知问题(ASD儿童的递归语言加工),并发现了三个成分上系统性的组间差异模式,这本身是值得肯定的。然而,它最大的软肋在于“小”和“浅”:样本量只有12对,让任何结论都笼罩在统计效力不足的阴影下;对“级联假说”这一核心理论主张的支撑,完全依赖于横断面的相关模式,缺乏因果验证的直接证据;方法学细节(如EEG预处理)报告不够充分,限制了结果的可评估性和可复现性。它更像是一项探测性研究,其发现需要更大样本和更深入的设计来确认。 📌 核心摘要 本研究使用事件相关电位(ERP)技术,探究了24名普通话儿童(12名ASD,12名TD)在处理两级递归方位结构时的神经活动。通过跨模态句子-图片匹配任务,研究发现TD儿童在结构不匹配时引发了显著的P200(早期预测)和P600(句法重分析)效应,而ASD儿童在这两个阶段的反应均减弱。相反,ASD儿童在不匹配条件下表现出增强的N400效应(语义整合)。此外,ASD儿童在P600时间窗的半球侧化指数(LI)表现出更大的个体间变异性,但该变异性与PPVT(接受性词汇)分数无显著关联。研究结果支持一种“级联假说”:ASD儿童早期结构预测效率的降低,可能导致了后续语义整合成本增加和句法重分析资源不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重。 数据集:论文中未提及公开数据集链接。研究使用的实验材料(120个试次,包含匹配与不匹配条件)在论文中描述,但未提供可公开获取的数据集。 Demo:论文中未提及。 复现材料:论文详细描述了实验范式(基于E-Prime 3.0的图片-句子验证任务)、EEG预处理流程(使用EEGLAB)及统计模型(R语言LMM),但未提供具体的配置文件、检查点或附录等补充材料。 论文中引用的开源项目: EEGLAB:论文在方法部分明确提及使用此工具进行EEG数据预处理。官方仓库:https://github.com/sccn/eeglab 🏗️ 方法概述和架构 本研究的核心方法是事件相关电位(ERP)结合跨模态句子-图片匹配范式,用于考察实时语言加工。 实验范式与刺激:采用图片-句子验证任务。每试次呈现一张图片(描绘两级递归方位关系)和一句听觉句子。被试需判断句子是否与图片匹配并按键反应。刺激包含120个试次(60匹配,60不匹配)。句子为递归方位结构(如“这是魔方上的尺子上的花朵”),不匹配条件调换两个方位短语的顺序。句子通过文本转语音以词-by-词方式呈现,词间间隔100毫秒,以保证时间锁定精度。关键时间锁定点为第二个方位短语(LocP2,用于分析P200)和句末名词(用于分析N400和P600)。实验分为四个随机区组,并包含练习。 EEG数据记录与预处理:使用32通道Smarting PRO系统(10-20系统)记录脑电,采样率250Hz,线上50Hz陷波滤波。离线参考为TP9/TP10。预处理在EEGLAB中进行,步骤包括:0.1–30 Hz带通滤波,分为-200至1000毫秒的epoch,并进行基线校正。通过目视检查和独立成分分析(ICA)去除伪迹,振幅超过±175 μV的epoch被剔除。(注:原文未提及ICA去除成分的数量及最终保留的trial数量平衡情况) ...

2026-06-05 · 更新于 2026-06-16 · 3 min · 622 words

An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization

📄 An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization #语音合成 #低资源 7.7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #低资源 | arxiv 👥 作者与机构 Xiao-Hang Yang, Fei Liu, Rui-Chen Jiang, Jian-Qing Gao, Zhen-Hua Ling, Ji Wu 机构:中国科学技术大学 (1), 科大讯飞 (2), 清华大学 (3) 💡 毒舌点评 这篇论文解决的是一个真实且重要的问题:如何在比特率压到极限(0.5 kbps)时还能保持语音质量。P2PSVQ的思路——用预测来模拟量化——确实巧妙,相当于“脑补”出了额外的细节,且不花带宽。这比单纯堆大模型(如BigCodec)要优雅。然而,论文的软肋在于“验证”部分。主观测试样本量小,难以服众;对比FSQ方法(SQCodec)时,对方官方代码不支持0.5 kbps,这成了一个无法验证的“借口”。更关键的是,伪VQ的引入让模型复杂度(参数量)翻了三倍多,虽然FLOPs增长不多,但推理时的内存占用和延迟可能是个隐患,论文却对此轻描淡写。消融实验揭示了一个尴尬事实:伪VQ加多了,基本token信息变少,预测反而变难,质量会掉。这使得核心设计(伪VQ数量)的选择更像是在走钢丝。总体而言,一个不错的idea,但支撑它的实验和分析还不够扎实,像是匆忙毕业的作品。 ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 302 words

Audio Interaction Model

📄 Audio Interaction Model #流式处理 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.8/10 | 前50% | #流式处理 | #流式处理 | arxiv 👥 作者与机构 11位作者。机构包括南洋理工大学(NTU)、新加坡国立大学(NUS)、香港中文大学(CUHK)。 💡 毒舌点评 这篇论文的动机确实抓住了当前音频大模型的一个痛点:离线、单任务、不实时。提出的“音频交互模型”概念听起来很前沿,也构建了听起来很宏大的SoundFlow框架和庞大的数据集StreamAudio-2M。但仔细审视,有几个问题让它离顶尖工作有些距离:1) “交互”的定义过于狭窄,本质上是决定“何时说话”,缺乏真正的对话协商或情感反馈循环。与Moshi等全双工系统的对比不够深入。2) 数据集完全合成,其合成流水线(尤其是LLM规划场景)引入的分布偏见和现实性未得到充分验证,附录的2小时真实数据验证规模太小。3) 关键评估指标(如主动响应基准)过于粗糙,仅用准确率,未评估响应质量或时机恰当性。4) 论文声称的部分开源(提供项目页和数据集)与完全开源(代码、模型权重)有差距,影响了可复现性评分。总体而言,这是一篇扎实的工程与系统构建工作,在特定任务(如流式训练)上显示了有效性,但理论深度和对“交互”本质的探索不足,更像一个针对特定问题的精巧解决方案,而非一个具有深远影响力的新范式。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)离线、单任务的局限,提出了“音频交互模型”这一新范式,并设计了SoundFlow框架予以实现。Audio-Interaction模型能够以流式方式持续监听音频流,并实时决定是保持沉默还是进行响应,从而在统一框架下融合了传统音频理解任务(如对话、ASR)和流式原生能力(如同声传译、主动帮助)。核心贡献包括:1)提出SoundFlow框架,涵盖从数据构建、流式训练到异步推理的全流程;2)构建了大规模流式音频数据集StreamAudio-2M(2.6M项,302k小时);3)提出了评估主动响应能力的Proactive-Sound-Bench。实验表明,Audio-Interaction在主流音频基准上保持了竞争力,同时解锁了离线模型无法实现的流式能力。 🔗 开源详情 代码:论文中未提及明确的代码仓库链接。论文提供了项目主页:https://xzf-thu.github.io/Audio-Interaction。 模型权重:论文中未提及模型权重的直接下载链接或开源仓库。模型基于Qwen2.5-Omni-3B初始化。 数据集:论文明确提供了StreamAudio-2M数据集的链接:https://huggingface.co/datasets/zhifeixie/StreamAudio-2M。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录中提供了详细的训练超参数配置(附录E,表11)、算法伪代码(算法1-4)、数据集构建流程(附录B.4)以及评估基准定义(附录D),为复现提供了重要信息。 🏗️ 方法概述和架构 SoundFlow是一个端到端的框架,旨在实现“感知-决策-响应”循环。其核心架构包含三大组件,协同工作以支持流式交互: 交互数据合成: 时频联合预处理模块 (TFJP):一个轻量级的预处理流水线,用于将短音频片段拼接成长流前进行平滑处理,使其更自然、更适合下游训练。该模块通过迭代执行静音裁剪(silence_cut)、噪声估计与去除(denoise)、核心信息定位(core_locate)、边界对齐(boundary_norm)和频谱平滑(spec_smooth)等操作来实现。其中,boundary_norm使用半个音频块的对齐步长 δ = 1/2,spec_smooth使用长度为 ω 的短窗进行平滑。该过程由算法1详细描述。 分层音频事件选择:为解决简单随机拼接导致的事件冲突和语境不连贯问题,采用层次化的事件策划流水线:(i) 场景规划:使用LLM从随机匹配的音频标注中规划一个完整的高级场景,包含多个主题或子事件;(ii) 事件细化:将每个主题细化为具体的音频事件序列,并为每个事件分配一个音频片段;(iii) 片段落地:通过检索或生成两种机制获取最终音频片段。该设计旨在生成语义连贯性和环境合理性的长流音频。 流式训练: 流式建模:模型以增量方式处理固定长度的音频块(本实现中为400ms)。在每个时间步,模型预测一个特殊的控制令牌 \(d_t \in \{\texttt{<silent>}, \texttt{}\}\) 来决定是继续监听还是开始响应。这形成了统一的“感知-决策-响应”序列过程。 上下文记忆与理解感知静音训练:为解决训练中观察到的两个关键失败模式:(1) 上下文保留不足(模型容易忽略早期上下文),引入历史回顾训练,在序列后期插入关于前面内容的问题;(2) 误触发(模型容易对交互无关的声学事件做出响应),在训练中加入大量经由智能体验证的静音音频,要求模型在这些情况下保持沉默。 双损失多步流式转换:模型从Qwen2.5-Omni-3B初始化。训练损失包含两个部分:标准语言建模损失 \(\mathcal{L}_{\text{LM}}\) 和流式控制令牌预测损失 \(\mathcal{L}_{\text{stream}}\),由权重 \(\lambda\) 平衡。整个训练包含四个阶段:(1) 格式训练:使用离线数据教模型目标序列格式和<Spe_token>的使用;(2) 适配器训练:训练适配器将分块的声学表示映射到语言模型空间;(3) 大规模流式监督训练:在核心能力(音频理解、ASR、口语对话)上联合优化适配器和语言模型;(4) 指令微调:在复杂流式行为(持续辅助、理解感知干预、主动响应)上进一步训练模型,使用交错序列数据。 异步交互推理: 采用FIFO调度的异步推理方案以实现实时稳定交互。编码器作为纯生产者,持续处理音频流块并将其声学表示追加到时间有序队�� \(\mathcal{Q}\)。解码器作为事件驱动的消费者,其触发逻辑基于上一个生成的令牌 \(r_{t-1}\):如果 \(r_{t-1} \in \{\texttt{<eos>}, \texttt{<silent>}\}\),解码器会清空队列 \(\mathcal{Q}\) 并将其特征吸入KV缓存,然后生成一个控制令牌;否则,解码器执行自回归文本生成步骤,不触碰队列。这种“触发时清空”的机制消除了推理停顿,并将响应完成后恢复监听的首帧延迟降低了4.5倍。该过程由算法3详细描述。 ...

2026-06-05 · 更新于 2026-06-16 · 4 min · 718 words

Automatic Labelling of Speech Translation Errors

📄 Automatic Labelling of Speech Translation Errors #语音识别 #多模态模型 #模型评估 #低资源 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #多模态模型 | #模型评估 #低资源 | arxiv 👥 作者与机构 Dominik Macháček (Charles University, University of Edinburgh), Maike Züfle (Karlsruhe Institute of Technology), Ondrej Klejch (University of Edinburgh) 💡 毒舌点评 这篇工作像一个精心准备的“开胃菜”:它正确地识别了ST评估领域一个鲜有人触碰的细分方向(错误跨度标注),并为此设计了一套完整的“菜单”(标注协议、数据集、基准系统)。然而,这终究不是一场盛宴。其核心贡献在于定义问题和提供初步基线,而非给出强有力的解决方案。数据集规模极小(仅约30分钟音频),且仅来自两个文档,这严重限制了结论的普适性。所谓的“自动化系统”评估,本质上只是对XCOMET和Qwen两个现有模型进行了非常浅层的“试用”,缺乏针对性的优化或深入的架构分析。最令人失望的是,论文虽然指出了语音处理的重要性,但并未真正提出或评估一个端到端的、为STEL任务设计的新模型。它更像是一份“可行性报告”或“任务说明书”,离解决所提出的问题还有很长的路要走。其最大的价值在于为后续研究铺平了道路并设立了基础基准,但就其自身而言,贡献的深度和广度有限。 ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 366 words

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis

📄 Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis #多模态模型 #参数高效微调 #低资源 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #多模态模型 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构 作者:Bin Wen, Tien-Ping Tan。 机构:School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia。 ...

2026-06-05 · 更新于 2026-06-16 · 3 min · 634 words

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

📄 Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models #音频问答 #多模态模型 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频问答 | #多模态模型 | arxiv 👥 作者与机构 Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang 东北大学(Northeastern University, China);上海人工智能实验室(Shanghai Artificial Intelligence Laboratory, China) ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 229 words

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition

📄 Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition #语音识别 #鲁棒性 #自监督学习 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #生成对抗网络 | #鲁棒性 #自监督学习 | arxiv 👥 作者与机构 第一作者:Yifan Liao(香港科技大学(广州)及武汉大学) 共同作者:Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng(香港科技大学(广州)) 通讯作者:Xinlei He(武汉大学) 💡 毒舌点评 论文提出了一个巧妙的想法,即利用SSL特征和声码器构建对抗样本,确实在特定实验设置下取得了惊人的攻击效果和迁移性。然而,实验设计存在明显局限性:将所有攻击方法的超参数调优限制在验证集上,并要求其DNSMOS/NISQA/UTMOS >2.5,这实际上为依赖声码器重构的方法提供了不公平的优势,因为其他纯波形扰动攻击在此约束下能力被严重削弱。此外,论文对方法本身的理论分析(如为何特征空间扰动能更好迁移)深度不足,更多是经验性的展示。物理世界实验过于初步,无法有力支撑其鲁棒性声称。代码未开源,严重阻碍了可复现性和社区验证。整体而言,是一篇在特定框架下效果显著但存在方法论偏见和验证不足的论文。 ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 408 words