Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Yuyue Wang(中国人民大学) 通讯作者:Xihua Wang(中国人民大学) 机构:中国人民大学 💡 毒舌点评 一篇动机明确、架构清晰的工作,定义了‘自由文本到统一音频生成’这一有潜力的任务,并提出了一个不错的解决方案。然而,如同许多初次尝试定义新任务的工作,其‘统一’的光环在实验部分略显褪色。基线选择过于保守,仅与较早的VoiceLDM和流水线方法对比,对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见,这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’,尤其是主观评估样本量仅50个,说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文,创新有余,验证不足。 📌 核心摘要 本文针对“自由文本提示生成统一音频”这一新任务,提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型,其核心创新是引入“语义潜在思维链”机制,在连续语义空间进行隐式规划,以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干,直接处理文本,无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明,PlanAudio在复合场景下优于基线方法,并在单独音效和语音任务上保持竞争力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的公开链接。 数据集:论文中提及基于以下公开数据集构建训练数据,并合成了新的基准数据集。具体获取方式如下: AudioSet: 论文用于合成复合音频数据,未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估,未提供链接。 WavCaps: 论文用于声音生成,未提供链接。 LibriTTS: 论文用于语音生成评估,未提供链接。 PlanAudio-Bench:论文中提出的新基准测试集,论文中未提及公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料的公开链接。 论文中引用的开源项目: Qwen2.5-1.5B: 作为模型初始化的基础LLM。 链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。 链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。 论文中未提供具体链接。 Whisper: 用于生成转录。 论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。 论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架,旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构(如图2所示)基于单一Transformer骨干(初始化自Qwen2.5-1.5B),将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 506 words

Utilizing Missed Detections in Directional Sensitivity-Based DOA Estimation

📄 Utilizing Missed Detections in Directional Sensitivity-Based DOA Estimation #粒子滤波 #概率图模型 #信号处理基础 ✅ 7.1/10 | 前50% | #语音识别 | #粒子滤波 | #概率图模型 #信号处理基础 | arxiv 学术质量 5.6/7 | 影响力 1.2/2 | 可复现性 0.3/2 | 置信度 中 👥 作者与机构 论文作者为 Gustav Zetterqvist, Fredrik Gustafsson, Gustaf Hendeby,隶属于瑞典林雪平大学电气工程系。 💡 毒舌点评 本文想法直接且有趣——将“漏检”这种通常被丢弃的“阴性结果”信息显式地建模进DOA估计的概率框架中,这个思路本身是清晰且有价值的。但通篇读下来,感觉更像一个扎实的工程方法改进,而非具有突破性理论贡献的顶级工作。创新点清晰但有限,强假设(无虚警、高斯噪声、已知检测概率)在现实复杂环境中能打几折是存疑的。实验部分,虽然包含了仿真和真实BLE实验,但对比基线过于简单(仅与忽略漏检的NLS比较),没有与文献中其他可能更先进的RSSI DOA方法(如Dir-MUSIC或某些机器学习方法)进行对比,这使得对方法优越性的论证不够强。论文写作清晰,但开源信息的完全缺失在2025年的今天显得有些保守,严重影响了可复现性和社区贡献度。对于专注于语音/音乐/音频信号处理的读者而言,这篇工作的方法论(概率建模、似然函数构建)有借鉴价值,但其应用场景(无线信标定位)与核心音频处理任务相去甚远,因此直接影响力有限。 📌 核心摘要 本文针对基于接收信号强度(RSSI)的波达方向(DOA)估计问题,提出了一种能够显式利用传感器“漏检”(即信号低于检测阈值未被上报)信息的概率估计框架。传统方法通常忽略漏检信息,仅利用检测到的信号进行估计。本文将每个传感器的测量结果建模为两种互斥事件:检测事件(观测值服从阈值截断的正态分布)和漏检事件(其概率为1减去检测概率)。通过联合构建包含所有传感器(无论检测与否)的似然函数,并推导其负对数似然作为优化目标,实现了最大似然(ML)估计。该方法被具体应用于使用傅里叶级数建模方向性天线增益模式的RSSI DOA估计。仿真和基于低功耗蓝牙(BLE)定向天线阵列的真实实验表明,在低信号强度(高漏检率)场景下,所提方法相比仅使用检测信号的基线方法,能够显著提升DOA估计精度。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及数据集链接或名称(论文详细描述了实验中使用的数据采集方法与设置,但未提供公开的数据集或下载链接) Demo:论文中未提及 复现材料:论文中未提及(论文详细描述了仿真实验与真实实验的配置,包括传感器数量、阵列配置、噪声参数、优化方法(网格搜索)、以及粒子滤波器设置等,但未提供可直接下载的配置文件或检查点) 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出的方法是一个分层的概率估计框架,核心思想是将传感器报告“无测量值”这一事件本身视为一种蕴含信息的观测,并将其纳入统一的似然函数中进行参数估计。该框架可分为通用状态估计建模(第3节)和具体DOA估计应用(第4节)两个层次。 通用状态估计框架(第3节): 核心假设与测量模型:假设目标始终存在(无漏检目标),且无虚警(任何检测均来自目标)。每个传感器 \(m\) 的测量模型为:若检测到信号,则输出测量值 \(Y = h_m(x) + e\),其中 \(h_m(x)\) 是与待估状态 \(x\) 相关的已知测量函数,\(e \sim \mathcal{N}(0, \sigma^2)\) 为高斯噪声;否则输出空集 \(\emptyset\)。检测与否由测量值是否超过固定阈值 \(\gamma\) 决定。 检测概率建模:定义检测概率 \(p_{D,m}(x) = P(Y \neq \emptyset)\)。在给定检测到的条件下,测量值 \(Y\) 服从截断正态分布:\(\mathcal{N}_{\text{Tr}}(Y; h_m(x), \sigma^2, \gamma, \infty)\)。因此,单次测量的似然函数为混合形式:检测时为 \(\mathcal{N}_{\text{Tr}}(p_D(x))\),漏检时为 \((1-p_D(x))\)。 联合似然函数构建:对于 \(N\) 个独立传感器,将检测集 \(\mathcal{D}\) 和漏检集 \(\mathcal{MD}\) 的似然相乘,得到联合似然函数 \(p(\mathbf{Y}|x)\)。关键创新点在于,漏检集 \(\mathcal{MD}\) 的乘积项 \(\prod_{m \in \mathcal{MD}} (1-p_{D,m}(x))\) 显式地将漏检事件的概率贡献纳入总似然。 优化目标:取负对数,得到最小化目标(公式9)。该目标由两部分求和构成:检测传感器的“检测数据对数似然项”(包含测量值拟合项和检测概率项)和漏检传感器的“漏检数据对数似然项”(仅包含漏检概率项)。最小化该目标即可得到状态 \(x\) 的最大似然估计 \(\hat{x}\)。文中提到,由于阈值导致似然函数不可微,无法得到闭式Fisher信息矩阵与克拉美罗下界(CRLB)。 在DOA估计中的具体应用(第4节): 状态定义与测量方程:状态 \(x\) 被定义为信号源的DOA角度 \(\psi\) 和中心信号功率 \(\alpha\)。对于每个传感器 \(m\),测量方程为 \(y_m = \alpha + h_m(\psi) + e_m\),其中 \(h_m(\psi)\) 是传感器 \(m\) 的方向性灵敏度模式。 方向性模式建模:使用 \(K\) 阶傅里叶级数(FS)建模 \(h_m(\psi) = \sum_{k=-K}^{K} c_{m,k} e^{ik\psi}\)。选择FS是因为它能有效捕获天线方向图的周期性、主瓣、旁瓣和后瓣结构,且参数有限。在本文中,\(K=7\) 是通过BIC选定的。 检测概率的具体分解:将检测概率 \(p_{D,m}(\psi, \alpha)\) 进一步分解为两部分:\(p_{D,m}(\psi, \alpha) = p_{c,m} \cdot p_{\alpha,m}(\psi, \alpha)\)。其中,\(p_{\alpha,m}(\psi, \alpha) = 1 - \Phi\left( \frac{\gamma - (\alpha + h_m(\psi))}{\sigma} \right)\) 是由阈值 \(\gamma\) 决定的理论检测概率(\(\Phi\) 为正态CDF);\(p_{c,m}\) 是一个常数检测效率项(\(0 < p_{c,m} \leq 1\)),用于建模非阈值因素(如硬件不完美、环境干扰)导致的额外检测损失。这种分解使模型更贴近实际。 最终优化问题:将上述具体模型代入通用负对数似然函数,得到公式(15)。优化问题变为联合估计 \(\hat{\psi}, \hat{\alpha}\)。检测项包含测量值的高斯拟合项和 \(-\log(p_{c,m})\);漏检项则包含 \(-\log\left(1 - p_{c,m} \Phi\left( \frac{(\alpha + h_m(\psi)) - \gamma}{\sigma} \right)\right)\)。 实现与跟踪:在实验部分,优化采用网格搜索法(对 \(\psi\) 和 \(\alpha\) 离散化遍历)。针对真实实验中存在多峰似然函数的问题,引入了恒速(CV)粒子滤波(PF)来跟踪正确的似然峰值,提升DOA估计的时序稳定性。 架构流程:论文的图3清晰地展示了架构流程:1) 输入所有传感器的观测(部分为检测值,部分为漏检标志);2) 根据状态假设,计算每个传感器对应的检测概率 \(p_D(x)\);3) 将观测划分为检测集和漏检集;4) 分别计算“检测数据对数似然”和“漏检数据对数似然”;5) 将两者相加得到总对数似然;6) 通过优化算法(如网格搜索或结合PF)最大化总对数似然,得到最终的状态估计。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 360 words

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

📄 VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding #多语言 #音频问答 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #多语言 | #模型评估 | arxiv 学术质量 8/7 | 影响力 8/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文第一作者为Jashin Ye,通讯作者为Dongxiao Wang。主要研究机构为阿里巴巴的Future Living Lab。论文中注明Jashin Ye与Dongxiao Wang贡献相等。 💡 毒舌点评 这是一篇扎实的“工作”论文,而非“方法”论文。它的主要贡献是填补了一个明确的空白——小时级自然音频理解的基准,这一点值得肯定。然而,其“严苛”评估的基石,即数据构建流水线,本身就深度依赖当前最强的闭源模型(Qwen3.5-Omni, Gemini)来生成字幕和构建QA,这构成了一种方法论上的循环依赖。用你所要评估的“裁判”来训练“题目”,这在某种程度上削弱了基准的独立性和公平性。论文声称是“首个”,但类似BLAB等工作的存在使得这一声明的绝对性需要商榷。此外,仅用准确率评估QA,对于评估“推理过程”和“错误性质”来说过于粗糙。总的来说,它是一个有用的工具,但其设计上的妥协(依赖闭源模型)和评估上的单一性限制了其作为“黄金标准”的价值。 📌 核心摘要 本文提出了VoiceGiraffe,首个面向小时级极端长上下文音频理解的双语问答基准。基准包含123个完整录音(总时长113.1小时),涵盖体育、电竞、影视剧、新闻、播客五大领域,并设计了从单跳感知到多跳推理的两层任务分类体系,共包含1500个高质量问答对。通过对9个开源和4个闭源模型的系统评估,论文揭示了当前大音频语言模型在该任务上的核心瓶颈:小时级理解极具挑战性,最优推理范式因模型而异,且长程记忆持久性是当前模型的显著弱点,表现模式与人类相反。基准测试远未饱和,亟需具备持久记忆机制的新型模型。 🔗 开源详情 代码:论文中未提及开源数据处理或评估代码。 模型权重:论文中未提及开源任何模型权重。 数据集:论文中声明“我们将发布VoiceGiraffe基准以支持未来研究”,但未提供具体的下载链接、托管平台(如Hugging Face)或发布时间表。 Demo:论文中未提及Demo。 复现材料:论文中未提供用于复现数据构建流水线(如提示词、API调用参数)或实验的详细配置。 论文中引用的开源项目:pyannote VAD (Bredin et al., 2020) 用于音频分段。 补充链接(自动提取): 代码仓库:https://github.com/OpenMOSS/MOSS-Audio 🏗️ 方法概述和架构 VoiceGiraffe的核心是一个多阶段、协作式的数据构建流水线(图3),旨在将原始长音频转化为经过验证的QA对。该流水线包含四个主要阶段: 源数据收集与分割:从公共平台收集五个领域的完整长音频,经人工过滤后,使用pyannote VAD将其分割为30-40秒的片段。这一步建立了全局时间锚点,为后续一致的标注奠定基础。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 389 words

When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR

📄 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR #语音识别 #数据增强 #参数高效微调 #大语言模型 🔥 10/10 | 前50% | #语音识别 | #参数高效微调 | #数据增强 #大语言模型 | arxiv 学术质量 6.9/7 | 影响力 1.8/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 作者:Maike Züfle, Jan Niehues 机构:卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology, Germany) 💡 毒舌点评 这篇论文指出了一个实际且有趣的“盲点”:当你为了让ASR模型听懂行话而给它提供上下文或微调时,它可能会因为“听岔了”而泄露这些行话本身。这就像你告诉助理“Nexus是我们秘密项目的代号”,结果他在听到有人说了声“Texas”时,却大喊“Nexus!”一样。作者很聪明地将这个现象定义为一种非对抗性的、源于正常使用机制的隐私风险,并用一个设计精巧的控制实验进行了量化。不过,论文的“解决方案”部分——在提示中同时加入正确词和错误词——在实践中显得有些天真,更像是一个诊断工具而非真正的防御。整体上,这是一篇发现问题的警醒之作,技术深度适中,但实验设计的完备性和开源贡献值得肯定。 📌 核心摘要 本文研究了语音大语言模型(SpeechLLMs)在领域自适应过程中引入的一个未被充分认识的隐私风险:上下文诱导的转录泄露。当用户通过提示词注入上下文或对模型进行领域微调以提升专业术语识别能力时,如果说话者发出一个与上下文或训练数据中某个私有术语语音相似的词,模型可能会错误地转录为该私有术语,从而无意中泄露信息。作者构建了一个包含679个语音相似词对的控制评估数据集,并在两个前沿SpeechLLM(Qwen2.5-Omni-7B, Phi-4-multimodal-instruct)上评估了提示注入和微调两种自适应机制的影响。实验表明,两种机制都会导致可测量的泄露率,且结合使用时泄露效应会加剧。论文还探讨了一种在提示中同时提供正确词与泄露词的缓解策略,并分析了准确性-泄露率权衡,最终发现仅进行微调而不注入提示上下文能在保持高准确率的同时实现近乎零泄露,但在实际应用中难以实现。 🔗 开源详情 代码:https://github.com/maikezuefle/asr-context-induced-leakage 模型权重: Qwen2.5-Omni-7B:https://huggingface.co/Qwen/Qwen2.5-Omni-7B Phi-4-multimodal-instruct:https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集:论文中构建的评估数据集(包含679个音素相似词对、生成的上下文句子、合成音频)通过上述代码仓库发布,链接为:https://github.com/maikezuefle/asr-context-induced-leakage Demo:论文中未提及 复现材料:论文在附录A和B中提供了详细的数据准备过程(如使用spaCy和CMU词典的音素相似词对提取、使用Gemma-3-12B生成上下文和填充句子的提示)、Kokoro-82M TTS合成配置(使用美国英语声音列表)、以及两个模型的微调超参数配置(LoRA设置、优化器参数等),这些信息结合代码足以支持复现主要实验。 论文中引用的开源项目: spaCy (用于命名实体识别): en_core_web_trf 模型。论文未提供独立链接,但spaCy是一个广泛使用的开源项目,主页为 https://spacy.io/。 CMU Pronouncing Dictionary (用于查找音素相似词): 论文提供了访问地址:http://www.speech.cs.cmu.edu/cgi-bin/cmudict Kokoro-82M TTS (用于语音合成): https://huggingface.co/hexgrad/Kokoro-82M LlamaFactory (用于微调Qwen模型): 论文引用了该框架,其开源项目主页为 https://github.com/hiyouga/LLaMA-Factory HF Transformers + Accelerate (用于微调Phi-4模型): 论文提及使用了Hugging Face的Transformers库和Accelerate库,其官方项目为 https://github.com/huggingface/transformers 和 https://github.com/huggingface/accelerate。 🏗️ 方法概述和架构 本文方法的核心是构建一个可控的评估框架,以量化“上下文诱导的转录泄露”现象。整个方法流程可分为三个主要阶段:评估数据集构建、模型自适应设置和泄露度量与缓解评估。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 225 words

Why We Need Speech to Evaluate Speech Translation

📄 Why We Need Speech to Evaluate Speech Translation #语音翻译 #多模态模型 #参数高效微调 #数据增强 🔥 8.3/10 | 前50% | #语音翻译 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 Maike Züfle (1), Danni Liu (1), Vilém Zouhar (2), Jan Niehues (1) 1 Karlsruhe Institute of Technology (KIT), 2 ETH Zurich 💡 毒舌点评 这篇论文像一位严谨的诊断医生,成功地揭示了一个重要但被忽视的病症:当前的语音翻译评估指标(无论是文本还是语音输入)对性别一致性和韵律等语音特有现象几乎完全失明。其诊断过程(系统性的元评估、新模型训练、深入的探测实验)无可挑剔,结论有理有据。然而,它最大的缺点在于“只诊断,不治病”。论文明确指出了三个病根(编码器信息丢失、模型忽略语音源、训练数据不足),却未能提出任何有效的解决方案或有潜力的治疗方向。这使得文章的贡献止步于“揭示问题”,而非“解决问题”。对于期望看到方法创新或突破性结果的审稿人来说,这无疑会拉低评价。不过,这种扎实的“问题定位”工作为后续研究铺平了道路,价值不容否认。 📌 核心摘要 本文针对语音翻译(ST)评估中存在的盲点展开研究。核心发现是:现有的文本和语音质量估计(QE)指标,包括直接使用语音输入的BLASER和SpeechQE,均无法评估语音翻译中至关重要的性别一致性和韵律现象,其表现接近随机猜测。为探究原因,作者训练了SpeechCOMET模型家族(基于SONAR和Whisper编码器)并评估了SpeechLLM作为评估器。两者在标准QE任务(IWSLT数据集上的相关性评分)上表现良好,甚至超越了文本基线COMETKiwi,但在语音特有现象评估上同样失败。通过探测实验,论文揭示了三个根本原因:1)SONAR等编码器抑制了声学特征;Whisper和SpeechLLM的编码器保留声学特征但模型未使用;2)QE模型在训练中倾向于忽略语音源信号;3)标准QE训练数据中缺乏相关示例。论文开源了所有模型和代码,并呼吁开发专门的语音特定数据集和真正依赖语音的模型。 🔗 开源详情 代码:https://github.com/MaikeZuefle/speechCOMET 模型权重:论文中未提及模型权重的直接下载链接,需根据代码和超参数自行训练。 数据集:使用了 IWSLT 2026 Metrics Shared Train Dev, MuST-SHE, ContraProST, WMT Human All 数据集,均为第三方公开数据集,论文未提供直接获取链接。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录中提供了详尽的训练超参数(表4,表5)、模型架构细节(第3.1、3.2节)、数据处理方法(附录A.3)和消融实验结果(附录B),这些信息均包含在论文正文及附录中,可复现性高。 论文中引用的开源项目: COMET/COMETKiwi: 用于质量估计的基线模型。链接:https://github.com/unilm/comet SONAR: 用于语音编码的多语言模型。链接:https://github.com/facebookresearch/SONAR Whisper: 用于语音编码和语音识别的模型。链接:https://github.com/openai/whisper Qwen2.5 Omni: 论文中作为SpeechLLM进行评估的多模态大模型。链接:https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者和名称推断) LlamaFactory: 用于微调大语言模型的框架(用于SpeechLLM的微调)。链接:https://github.com/hiyouga/LLaMA-Factory spaCy: 用于语言特征探测的NLP工具。链接:https://github.com/explosion/spaCy Kokoro TTS & MMS TTS: 用于合成训练数据的文本转语音系统。链接:https://github.com/hexgrad/kokoro (Kokoro), https://github.com/facebookresearch/fairseq/tree/main/examples/mms (MMS TTS) 🏗️ 方法概述和架构 本文方法主要分为三部分:1)对现有指标的元评估,2)训练新的语音感知QE模型SpeechCOMET,3)评估SpeechLLM作为QE模型。 ...

2026-05-28 · 更新于 2026-06-19 · 4 min · 684 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-19 · 15 min · 3187 words

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

📄 A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning #多模态模型 #自监督学习 #数据集 ✅ 7.7/10 | 前50% | #多模态模型 | #自监督学习 | #数据集 | arxiv 学术质量 5.3/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 Loukas Ilias, Dimitris Askounis 决策支持系统实验室,电气与计算机工程学院,雅典国立技术大学,15780 希腊雅典 (电子邮件: lilias@epu.ntua.gr; askous@epu.ntua.gr)。 💡 毒舌点评 这篇论文就像给痴呆症检测装了一套“混合动力系统”——一边是BERT的文本理解,一边是HuBERT的听声辨症,还用了个互信息损失(MINE)当“胶水”把两者粘起来。思路清晰,工程上也还算扎实。但问题是,这套系统跑在两个并不算大的数据集上(ADReSS只有156人),就宣称达到了“competitive performance”,这底气有点不足。更让人皱眉的是,在PROCESS-2数据集上,这个复杂的多模态模型居然只比一个简单的BERT基线好那么一丁点儿,甚至在关键的召回率和F1上还略输,这让“多模态融合能捕获互补信息”的主要卖点打了折扣。消融实验倒是做得挺细,从池化、模型选择到融合方式都试了一遍,但这也暴露了它的性能对设计选择非常敏感,稍微换点东西就可能掉下来。总而言之,这是一篇工整但缺乏惊喜的工作,像是完成了一份标准作业,距离真正的临床应用或技术突破还有距离。 📌 核心摘要 本文提出了一种用于基于自发语音的痴呆症自动检测的端到端可训练多模态深度学习框架。该框架分别使用预训练的HuBERT模型和BERT模型从10秒语音片段及转录文本中提取声学和文本表示。为更好捕捉与认知衰退相关的时序声学特征,采用了注意力统计池化(ASP)来聚合帧级声学嵌入。文本表示采用BERT的<S>[CLS]<S> token嵌入。两种模态表示通过一个基于注意力的音频-文本融合(AT-Fusion)机制结合。此外,引入了互信息神经估计(MINE)目标函数,以显式最大化声学与文本表示间的互信息,改善跨模态对齐。在ADReSS Challenge和PROCESS-2两个公开数据集上的实验表明,所提方法在ADReSS测试集的召回率(88.33%)、F1分数(84.31%)和准确率(83.33%)上优于对比的多模态基线。在PROCESS-2数据集(二分类任务)上,取得了81.75%的准确率和83.50%的特异性。消融实验验证了注意力统计池化、MINE目标、HuBERT模型选择以及AT-Fusion策略的有效性。 🔗 开源详情 代码:论文中未提及提供官方代码仓库。 模型权重:论文中未提及提供训练好的模型权重。 数据集: ADReSS Challenge:论文未给出具体下载链接,仅引用了文献[28]。 PROCESS-2:论文提供了公开链接:https://huggingface.co/datasets/CognoSpeak/PROCESS-2。 Demo:论文中未提及。 复现材料:论文未提供训练检查点或完整的复现材料包。但提供了关键的训练配置信息:使用PyTorch实现;在单张NVIDIA A100 PCIe 80GB GPU上训练;批大小为8;使用StepLR学习率调度器(步长为4,衰减系数 γ=0.1);早停策略(验证损失连续8个epoch不下降则停止);互信息损失权重 λ=0.25。 论文中引用的开源项目: BERT: https://github.com/google-research/bert HuBERT: https://github.com/facebookresearch/hubert wav2vec 2.0: https://github.com/facebookresearch/wav2vec XLS-R: 论文中提到 XLS-R 为 wav2vec 2.0 的扩展,共享同一代码库,即 https://github.com/facebookresearch/wav2vec 🏗️ 方法概述和架构 本文提出一个多模态痴呆症检测框架,其整体架构包含文本编码、声学编码、多模态融合与分类四个核心模块,通过端到端训练联合优化。具体流程如下: ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 675 words

An investigation of AI integration in sound designer workflows and experiences

📄 An investigation of AI integration in sound designer workflows and experiences 📝 4.6/10 | 后50% | arxiv 学术质量 3.3/7 | 影响力 1.2/2 | 可复现性 0.1/2 | 置信度 中 👥 作者与机构 论文标题:An investigation of AI integration in sound designer workflows and experiences 作者:Nelly Garcia, Joshua Reiss 机构:Queen Mary University of London 💡 毒舌点评 这是一篇典型的行业调研型HCI论文,旨在揭示需求而非提出技术方案。其价值在于扎实的实证数据和对一个被忽视细分领域(专业声音设计)的深入访谈。然而,作为一篇投递顶会的论文,其“研究”属性略显单薄。方法论上,问卷设计深度有限,76份样本和20次访谈对于支撑一个“行业现状”报告尚可,但距离严谨的学术研究还有差距。定量分析部分(图2)仅停留在描述性统计,缺乏显著性检验或相关性分析,使得结论的说服力打折扣。定性分析虽然提出了一个五主题框架,但框架本身更像是一种归纳式的总结,理论深度有限,与文中引用的“行动者网络理论”等框架的结合略显生硬,未充分发挥理论视角的解释力。论文的立意很好,但呈现方式更像一份高质量的行业白皮书,创新性不足,理论贡献和技术贡献均不突出。 📌 核心摘要 本研究通过混合方法(问卷调查与半结构化访谈)调查了76名专业声音设计师及音频从业者,探讨当前AI音频工具与专业声音设计实践需求之间的差距。研究识别出五个核心主题:情境(Context)、工作流(Workflow)、潜力(Potential)、风险(Risks)和正当使用(Right Use)。主要发现表明,从业者对AI持谨慎态度,他们强烈偏好能提供精细控制、辅助重复性任务(如修复、分离)的工具,而非端到端的自动化生成系统。AI的接受度高度依赖于项目语境(快速消费媒体 vs. 高端叙事制作)。主要风险包括专业技能退化、质量失控和自主性丧失;潜力在于激发创意、加速迭代。从业者对训练数据的透明度和版权问题(“正当使用”)表现出深切的伦理关切。论文最终指出,AI工具开发的当前方向(自动化生成)与声音设计行业的实际需求(情境化、可控制的辅助)存在根本错配。 🔗 开源详情 代码:未提及 模型权重:未提及 数据集:未提及 Demo:未提及 复现材料:未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本研究采用两阶段混合方法设计,旨在同时获得行业视角的广度和个体经验的深度。 阶段一:在线问卷调查 ...

2026-05-27 · 更新于 2026-06-19 · 1 min · 171 words

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #多模态模型 #基准测试 #多模态模型 🔥 9.7/10 | 前25% | #多模态模型 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学、香港中文大学。 💡 毒舌点评 这篇论文旨在解决音视频生成领域一个真实存在的痛点——评估。作者们观察到现有评估方法(如VBench, VABench)的不足:要么只关注单模态,要么依赖通用的VQA模型,无法捕捉人像场景下微妙的跨模态错误。AVBench提出了一套“全自动、专有化、与人类对齐”的评估方案,其核心在于用精心设计的困难负样本对多模态大模型进行监督微调,使其成为“专业裁判”。这个思路本身是正确且有实用价值的。然而,作为审稿人,我必须指出其局限性。首先,整套方案的“全自动”高度依赖于基础模型(Qwen系列)和外部评估器(如SyncNet, DOVER++),其性能瓶颈可能转移到了这些组件上,论文对此的讨论不足。其次,虽然构建了庞大的训练集(300KK样本),但“困难负样本”的生成策略(如基于LLM的文本微扰、音视频轨道的人工偏移)在多大程度上覆盖了真实生成模型可能犯的“所有”错误,缺乏理论或更充分的实验验证。最后,论文宣称的“可微分奖励信号”潜力很吸引人,但并未提供任何在实际RLHF流程中应用的案例,更像一个远景声明。论文写作清晰,实验对比了多个主流模型,数据表格详实。但评审意见的深度可以更进一步,例如对评测器自身鲁棒性的分析(如对抗样本)、对训练集分布偏差的讨论等仍有空间。总体来说,这是一篇扎实的、解决实际问题的系统工作,但距离“终极评估框架”还有距离。 📌 核心摘要 本文介绍了AVBench,一个针对人像中心音视频生成模型的自动化评估基准。现有评估方法存在忽略细粒度人像相关性、滥用通用模型以及缺乏精确连续评分等问题。AVBench通过两个核心设计来解决:1) 提出了涵盖视觉质量、音频质量及多层跨模态一致性的十维评估指标,专门针对人像场景;2) 构建了大规模(300KK样本)且包含多样化困难负样本(如微小时移、情感错配、LLM驱动的语义突变)的训练集,通过监督微调(SFT)训练出专用的评估器。这些评估器(音视频、音频文本、视频文本)通过归一化预测概率产生连续、可微分的评分。实验表明,AVBench的自动评分与人类偏好判断高度相关(最高皮尔逊相关系数达0.9779),且在硬样本测试中能有效识别模型弱点,为评估和优化音视频生成系统提供了可靠工具。 🔗 开源详情 代码:未提供代码仓库链接。 模型权重:未提供模型权重链接。 数据集:未提供数据集直接下载链接。论文使用了OpenHumanVid数据集构建训练集,但未提供该数据集链接。 Demo:提供了项目主页链接:https://yajialiang.github.io/AVBench-site/ 复现材料:未提及训练配置文件、检查点或可复现材料包。 论文中引用的开源项目: OpenHumanVid:未提供链接,仅提及名称。 CLAP:提供了GitHub链接。 ViCLIP:提供了GitHub链接。 ImageBind:提供了GitHub链接。 Qwen3-Omni:未提供链接,仅提及名称。 Qwen-3 Max:未提供链接,仅提及名称。 Qwen2.5-Omni:提供了GitHub链接。 Qwen2-Audio:提供了GitHub链接。 Whisper-large-v3:提供了GitHub链接。 DF_Arena:提供了GitHub链接。 NISQAv2:未提供链接,仅提及名称和论文引用。 Audiobox-Aesthetics:提供了GitHub链接。 DOVER++:提供了GitHub链接。 LAION-Aesthetics:提供了GitHub链接。 SyncNet:提供了项目链接。 LatentSync:未提供链接,仅提及名称和引用。 🏗️ 方法概述和架构 AVBench的框架建立在两个并行支柱上:高质量评测集构建与专用评估器训练。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 331 words

Beyond Binary: Speech Representations Across the Cognitive Score Hierarchy

📄 Beyond Binary: Speech Representations Across the Cognitive Score Hierarchy #自监督学习 #支持向量机 #预训练 #低资源 🔥 8.1/10 | 前50% | #自监督学习 | #自监督学习 | #支持向量机 #预训练 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.4/2 | 置信度 高 👥 作者与机构 论文作者包括Serli Kopar, Roshan Prakash Rane, Christian Mychajliw, Lydia Federmann, Gerhard Eschweiler, Sam Berg, Paula Andrea Gijsen, Kerstin Perez-Toro, Daniela Ritter。主要机构包括:1) 赫尔蒂AI脑健康研究所,图宾根大学;2) 图宾根AI中心;3) 柏林洪堡大学心理学系;4) 图宾根大学医院老年病学中心;5) 图宾根心理健康中心;6) 德国心理健康中心图宾根合作点;7) 石勒苏益格-荷尔斯泰因大学医学中心和基尔大学神经内科;8) 图宾根大学医院神经学中心及临床脑研究赫尔蒂研究所;9) 埃尔朗根-纽伦堡大学模式识别实验室;10) 柏林夏里特医学院精神病学和心理治疗系。 💡 毒舌点评 这篇论文在临床语音分析领域迈出了有意义的一步,将目光从简单的二分类投向了认知评估的内在层级结构,这一点值得肯定。研究设计思路清晰,利用CERAD+电池的固有结构构建了一个精巧的分析框架。“专家”与“通才”的比喻虽然启发思考,但更像一个事后归因的描述性框架,其理论深度和验证力度尚显不足。最大的硬伤在于,论文在声称性能模式存在显著“稀释”和“反向稀释”时,却没有提供任何统计检验来证明这些趋势不是随机波动,这让核心论点的说服力大打折扣。此外,将任务简单二分为“开放”和“结构化”忽略了认知成分的复杂性。数据虽来自真实临床环境,但单语(德语)的局限性和未公开的数据集,限制了其更广泛的影响力。总的来说,这是一份扎实的经验性报告,但距离形成一个经得起严格推敲的理论框架还有差距。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 262 words