Building Community-Centred NLP Resources for Puno Quechua

📄 Building Community-Centred NLP Resources for Puno Quechua #语音识别 #自监督学习 #低资源 ✅ 7.2/10 | 前50% | #语音识别 | #自监督学习 | #低资源 | arxiv 学术质量 3.7/7 | 影响力 1.5/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Elwin Huaman (剑桥大学) Adrian Gamarra Lafuente (斯坦福大学) Johanna Cordova (法国国立东方语言文化学院 ERTIM) Anna Korhonen (剑桥大学) 💡 毒舌点评 一篇扎实、具有重要社会影响力的基础设施建设工作。贡献明确,数据集和开源生态是其最大亮点。然而,论文在技术深度和实验分析的严谨性上存在明显短板,例如测试集划分策略不明、银数据质量分析缺失、以及未在大型基线模型上进行微调对比,这些缺陷削弱了其作为顶级会议论文的技术说服力。论文更像是一份优秀的社区资源报告,而非一篇方法论驱动的技术论文。 📌 核心摘要 本文旨在为秘鲁普诺地区的克丘亚语变体(qxp)构建社区驱动的数字资源。主要贡献包括:1) 构建了针对单一克丘亚语变体迄今最大的语音语料库(66小时,含36小时人工验证数据),通过四阶段参与式设计收集;2) 建立了首个针对该变体的系统性ASR基准,评估了Whisper-base, wav2vec2-base, XLS-R-300M等模型在微调(含/不含持续预训练CPT)后的表现,并与大规模多语言模型(omniASR, MMS)进行对比;3) 完全开源所有数据集、代码和模型。关键发现表明:银数据(自动转写)对自发语音识别性能的提升起决定性作用(相对WER降低达77%);持续预训练(CPT)对脚本语音有稳定增益;所有微调模型在域外(OOD)泛化能力上存在明显差距,而超大基线模型表现更优。 🔗 开源详情 数据集:在Mozilla Data Collective上发布,包含: Common Voice Scripted Speech v25:34.81小时(30.5小时验证) Common Voice Spontaneous Speech v3:35.3小时(5.18小时验证 + 30小时银数据) 一个小型域外(OOD)语料库(Add_data,约16分钟) 许可证:CC0-1.0 代码:提供明确的GitHub仓库链接:https://github.com/QuechuaBase/asr-puno-quechua 模型权重:所有微调模型(包括Whisper-base、wav2vec2-base、XLS-R-300M及其CPT变体,在V和V+S配置下)均开源。提供Hugging Face组织主页链接:https://huggingface.co/QuechuaBase Demo:论文中未提及专门的在线演示(Demo)地址。 复现材料:论文提供了详细的复现信息,包括: 数据划分:70/25/5(训练/开发/测试)。 训练配置:超参数(学习率、更新步数、调度器等)和不同数据集配置(V, V+S)细节。 硬件环境:所有实验在单块48GB L40S GPU上完成。 评估结果:完整的WER和CER结果表格(表2和表3)。 未提及单独的“复现材料”代码仓库或文档包。 🏗️ 方法概述和架构 本文的核心方法框架是一个“参与式设计数据收集 + 基础模型微调与评估”的流程,旨在构建一个服务于普诺克丘亚语社区的端到端ASR系统。架构图(Figure 1)展示了一个从数据收集到模型部署的简化流程。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 385 words

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

📄 Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios #语音合成 #情感语音合成 🔥 9.9/10 | 前25% | #语音合成 | #情感语音合成 | arxiv 学术质量 6.4/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 第一作者:Changhao Pan (浙江大学)。通讯作者:Zhou Zhao (浙江大学)。作者单位包括浙江大学和字节跳动。 💡 毒舌点评 一篇扎实、必要且组织良好的基准测试论文。它成功地将“长语音生成质量”这个模糊概念拆解为可量化的维度,并提供了目前最全面的评估框架。然而,它的“杀手锏”——基于Gemini Pro的表达力评估——却是一个黑盒,这为基准的长期可复现性埋下了隐患。实验规模宏大,但闭源模型的“遥遥领先”与开源模型的“努力追赶”形成了鲜明对比,清晰地勾勒出了技术差距。数据构建流程详尽得令人印象深刻,甚至用上了GPT-5和DeepSeek V3.2,堪称“用前沿AI评测前沿AI”的典范。总体而言,这是一份对社区贡献极大的资源,但它的价值很大程度上依赖于所用闭源评估器的持续稳定和可用性。 📌 核心摘要 本文提出了SwanBench-Speech,一个针对长语音生成(包括单说话人长文本和对话生成)的综合性评估基准。该基准覆盖了17种下游应用场景,基于声学、语义和表现力三大核心挑战,构建了包含1101个样本的测试集。论文设计了一个包含7个自动评估指标(音色一致性、混响一致性、声音保真度、内容准确率、韵律连贯性、表现丰富性、表现层次性)的评估协议,并通过人类感知测试验证了指标与人类评分的相关性。通过对16个单说话人模型和10个对话生成模型的广泛实验,论文揭示了当前模型的优势与不足:在保真度和准确率上已接近人类水平,但在混响一致性、韵律连贯性和表现层次性上仍有显著差距;模型在高表现力场景中性能下降;自回归(AR)与非自回归(NAR)模型在表现力和内容准确率上存在权衡;训练数据质量(如片段长度、声场稳定性)比数量更重要。 🔗 开源详情 代码: 论文承诺开源全部代码库,包括数据处理和评估脚本。项目主页已提供(https://swanaigc.github.io/#bench),但GitHub具体仓库链接在当前版本中尚未明确给出。 模型权重: 不涉及。SwanBench-Speech是评估基准,不包含模型。论文评估的开源模型(如CosyVoice, FishSpeech等)有其各自的开源仓库,但论文未在本文中集中提供链接。 数据集: 论文明确承诺在HuggingFace上以CC BY-NC-SA 4.0许可证开源SwanBench-Speech测试集(1101个样本)。 Demo: 在线演示链接为 https://swanaigc.github.io/#bench。 复现材料: 论文提供了极其详尽的附录,涵盖了数据构建流程、评估协议细节、实验设置、消融研究、更多结果分析等。评估使用的所有第三方工具(如FunASR Nano, WhisperX, SRMRpy等)均已列出其开源地址。 论文中引用的关键开源项目: SenseVoice (转写): https://huggingface.co/FunAudioLLM/SenseVoiceSmall Paraformer (对齐,中文): https://modelscope.cn/models/iic/speech_timestamp_prediction-v1-16k-offline WhisperX (对齐,英文): https://github.com/m-bain/whisperX FunASR Nano (ASR): https://github.com/FunAudioLLM/Fun-ASR-Nano-2512 WavLM TDCNN (说话人嵌入): https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification SRMRpy (混响评估): https://github.com/jfsantos/SRMRpy SpeechJudge (韵律评估模型,基于Qwen2.5-Omni-7B): 论文提及为微调模型,未提供独立开源链接。 SentenceBERT (去重): https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2 VAD模型: https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch 和 https://github.com/snakers4/silero-vad Torchaudio SQUIM: https://docs.pytorch.org/audio/main/tutorials/squim_tutorial.html JiWER (WER/CER计算): https://pypi.org/project/jiwer/ 🏗️ 方法概述和架构 SwanBench-Speech的构建是一个系统化、多阶段的工程,其核心架构可分为三个相互关联的模块:测试集构建、评估协议设计与大规模实验分析。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 608 words

Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures

📄 Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures #信号处理基础 📝 5/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 学术质量 3.2/7 | 影响力 1.5/2 | 可复现性 0.3/2 | 置信度 高 👥 作者与机构 Winko W. An†, Saketh Sundar†, Lisa Yankowitz, Daryush D. Mehta, and Carol L. Wilkinson。 机构包括:波士顿儿童医院发育医学科(与哈佛医学院合作);哈佛大学(S. Sundar);费城儿童医院(L. Yankowitz);哈佛医学院及马萨诸塞州总医院喉外科与语音康复中心(D. D. Mehta)。 💡 毒舌点评 这篇论文的核心工作是对一种现有传感技术(胸表加速度计)在特定新场景(婴儿哭声)下的工程验证。其“创新性”更偏向于应用验证而非方法革新,对于期望看到新颖模型或理论的顶会读者而言,可能略显单薄。论文最大的优势在于其清晰的实验设计和临床相关性,但受限于样本量(85人)和较为基础的分析框架,其结论的普遍性和深度有待进一步验证。代码和数据的缺失严重影响了研究的可复现性和社区贡献度,这在当前强调开源的学术环境中是一个显著短板。整体而言,这是一项扎实但影响范围有限的临床工程研究,适合发表于专业领域期刊而非追求广泛影响力的顶级机器学习会议。 📌 核心摘要 本研究旨在验证一种胸部表面加速度计(ACC)在提取婴儿哭声声学特征方面的有效性,以应对传统麦克风(MIC)在临床环境中面临的噪声和隐私挑战。研究在85名4个月和12个月大婴儿的疫苗接种过程中,同步采集了ACC和MIC信号。通过手动标注,提取了包括基频(F0)、抖动、微扰、倒谱峰突出度(CPP)和谐波噪声比(HNR)在内的七个声学特征。使用组内相关系数(ICC)评估一致性,结果显示:ACC与MIC在F0和抖动(特别是JCV)上表现出优秀至良好的绝对一致性和一致性;微扰指标(Shimmer)绝对一致性较差,但一致性尚可,且ACC值系统性偏低;CPP显示中等一致性,HNR显示中等一致性且ACC值系统性偏高。研究结论表明,胸表加速度计能可靠捕获婴儿哭声中与时间相关的声学特征(F0, 抖动),为噪声鲁棒、保护隐私的哭声临床分析提供了可行工具。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重。 数据集:论文中未提及数据集的公开获取链接或开源协议。数据集(85名婴儿的MIC/ACC同步录音)属于受IRB协议保护的临床研究数据,未提供公开分享途径。 Demo:论文中未提及。 复现材料:论文未提供训练配置、检查点等具体的复现材料链接。虽然详细描述了分析流程,但未提供可下载的处理脚本或配置文件。 论文中引用的开源项目: Praat:语音学分析软件,用于数据标注和特征提取。链接:https://www.fon.hum.uva.nl/praat/ Parselmouth:Praat的Python接口库,用于信号处理和特征提取。链接:https://github.com/YannickJadoul/Parselmouth pingouin:统计学Python库,用于计算ICC。链接:https://pingouin-stats.org/ NumPy, SciPy, pandas:基础Python科学计算库,用于数据分析。链接分别为 https://numpy.org/, https://scipy.org/, https://pandas.pydata.org/ OpenAI’s DALL·E:用于生成论文图1(a)的示意图。论文中提及并声明了使用。链接:https://openai.com/dall-e-2 🏗️ 方法概述和架构 本研究的方法可分为数据收集、数据标注、特征提取与统计分析四个核心阶段,形成一个从原始信号到验证结论的完整流程。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 354 words

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构 作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 581 words

DEMON: Diffusion Engine for Musical Orchestrated Noise

📄 DEMON: Diffusion Engine for Musical Orchestrated Noise #音乐生成 #扩散模型 ✅ 6.0/10 | 前50% | #音乐生成 | #扩散模型 | arxiv 学术质量 6.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Ryan Fosdick。机构:论文中未提及。 💡 毒舌点评 这篇论文更像是一份“实时音频扩散系统的工程实现报告”,而非一篇典型的机器学习研究论文。其核心贡献是构建了一个整合现有技术(ACE-Step, StreamDiffusion, TensorRT)的复杂管线,并对其控制参数的传播特性进行了细致的工程分析。论文的亮点在于对“参数传播延迟”这一实际部署问题的深入剖析和量化,这对于构建交互式系统至关重要。然而,其弱点也同样明显:缺乏任何形式的用户研究或正式的听觉感知评估。所有的“音乐性”、“控制性”和“质量”主张都建立在客观指标(CLAP, SNR, FAD)和延迟测量之上,这使得论文的核心价值——“将去噪过程变为可演奏的乐器”——显得根基不稳。作者在讨论中坦承了这一局限,但这恰恰是本文最大的软肋。它证明了系统“能跑”,但未能有力证明系统“好用”且“好玩”。对于一篇以“乐器”和“表演”为旗号的论文,这种缺失是致命的。此外,论文声称的创新点(如per-slot异构调度)在工程上很有意义,但作为学术贡献,其新颖性和普适性有待更强的论证。 📌 核心摘要 本文介绍了DEMON,一个基于扩散模型的实时音乐生成引擎,旨在将去噪过程转化为一个低延迟、高吞吐量的交互式音乐控制界面。其核心架构构建于ACE-Step 1.5音乐生成模型和StreamDiffusion的环形缓冲区流式框架之上,并集成了TensorRT混合精度加速与窗口化VAE解码。论文的主要技术贡献在于提出了一个关于控制参数在流式扩散管线中传播特性的四类分析框架(每请求、迁移调度、每步共享可变、模型权重),并设计了per-slot异构去噪调度与基于SDE的per-frame源混合控制,以在维持高吞吐量的同时,实现参数变化的快速响应。实验在单张RTX 5090上实现了每秒12.3次针对60秒音乐的解码完成(窗口化VAE解码带来8.0倍加速),并量化了不同控制路径的延迟特性。然而,论文的局限性在于其所有质量与交互性主张均缺乏正式的听觉测试或用户研究支撑,且控制局限于去噪动态参数,无法直接操纵音符、和弦等音乐内容。系统的价值主要体现在工程集成与对实时交互延迟的深入分析上,而非提出新的生成模型。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提供模型权重链接。 数据集:实验评估中使用了FMA-small数据集的一个500轨道子集(用于FAD计算),FMA-small是公开数据集:https://huggingface.co/datasets/marsyas/gtzan。 Demo:项目主页包含实验音频示例:https://daydreamlive.github.io/DEMON/#experiments。 复现材料:论文提及有补充发布,包含一些逐tick的测量表格,但未提供具体的训练配置、检查点或独立的复现指南。相关补充材料链接同项目主页。 论文中引用的开源项目: StreamDiffusion:https://github.com/StreamDiffusion/StreamDiffusion ACE-Step:https://github.com/ace-step/ACE-Step StreamV2V:https://github.com/FramePack-Video/StreamV2V DDSP:https://github.com/magenta/ddsp RAVE:https://github.com/acids-ircam/RAVE 🏗️ 方法概述和架构 DEMON是一个五阶段的流式音频生成管线(Figure 1),其设计目标是将扩散模型的去噪过程转化为一个宽频(多参数、逐帧调控)且响应迅速的实时乐器。 Session API(用户接口层): 功能:作为系统入口,负责处理用户输入(如MIDI旋钮、参数),完成文本编码、源音频准备、LoRA(低秩适配器)的加载与管理,并缓存模型加载和torch.compile预热结果以加速后续生成。 实现:此阶段封装了底层复杂性,为流式管线提供准备好的条件输入(文本嵌入、源潜变量、LoRA状态)。 StreamPipeline(流式核心): 功能:维持一个深度为\(D\)的环形缓冲区,其中包含多个处于不同去噪阶段的“在飞”生成任务。每个时钟周期(tick)执行一次批量前向传播,推进所有槽位(slot)的去噪进度。经过预热后,每\(S/D\)个tick完成一次生成(\(S\)为去噪步数)。 核心组件与创新: Per-slot异构去噪调度:每个槽位作为独立的、有状态的对象,拥有自己的时间步长调度(在提交时根据当时的denoise值“烘焙”而成)。批量前向传播中,每一行(对应一个槽位)的时间步长从其自有调度中读取[slot.t_schedule[slot.step] for slot in active_slots]。这使得在用户连续调整去噪强度滑块时,新提交的槽位使用新调度,而在飞的旧槽位继续沿原调度完成,输出流不中断。与StreamDiffusion全局重置prepare()(会清空队列导致停顿)相比,该机制在连续滑动测试中实现了100%的完成率。 共享可变逐步状态:对于在每个去噪步都会被读取的参数(如SDE曲线、x0目标强度),它们不作为冻结状态烘焙在槽位中,而是存储在管线级的共享状态寄存器中。一旦更新,所有在飞槽位在下一个tick就会读取新值,效果与剩余步数成正比。这绕过了环形缓冲区的排空延迟(\(S\) tick),实现了1 tick的响应起始延迟。 在飞调度迁移:将denoise时间表视为共享可变状态,在每个tick顶部将新调度赋给所有在飞槽位(保持步索引不变,仅交换sigma值)。这实现了denoise参数变化的1 tick起始延迟,但会产生轨迹不连贯的混合输出,因此被定位为一个快速响应选项,而非主要控制表面。 四类参数传播分类:系统将上述机制整合为一个分类法:a) 每请求(冻结):如条件、源音频,在提交时烘焙,起始与收敛延迟均为\(S\) tick;b) 迁移调度(共享可变):如去噪调度迁移,起始1 tick,收敛\(S\) tick(通过轨迹混合);c) 逐步共享可变(影子):如SDE曲线、x0目标强度,起始1 tick,收敛渐进式(远小于\(S\) tick);d) 模型权重:如LoRA重载,起始与收敛均立即生效。 Diffusion Engine(扩散引擎): 功能:执行逐步去噪数学运算的核心,包括ODE/SDE求解器和塑造求解过程的逐帧控制曲线(“宽度”轴)。 核心控制 - 逐帧SDE源混合:在标准的SDE重噪步骤(\(x_{t+1} = t_{next} \cdot \text{sde_noise} + (1-t_{next}) \cdot x_{0,\text{pred}}\))之上,添加了一个逐帧(per-frame)混合操作: \[ x_{t,\text{next}} = \text{curve}[t] \cdot x_{t,\text{full}} + (1 - \text{curve}[t]) \cdot x_{t,\text{source}} \] 其中 \(x_{t,\text{source}} = t_{next} \cdot \text{sde_noise} + (1-t_{next}) \cdot \text{source_latents}\)。 当curve=1.0时为标准SDE;当curve=0.0时完全锚定于源潜变量。通过为不同帧设置不同的曲线值(如从0到1的渐变),可以在单次生成中实现不同时间区域的差异化处理(如开头保留原声,结尾完全生成),这是全局标量denoise无法实现的。 其他逐帧曲线:引擎还暴露了一系列可逐帧调制的去噪动力学曲线(Table 2),包括guidance_curve(动态引导强度)、velocity_scale(帧级变换速率)、ode_noise_curve(帧级随机纹理)、x0_target_strength(帧级向独立目标混合)等。所有曲线均可通过共享状态进行实时控制。 Latent Similarity Filter(潜变量相似性过滤器): 功能:在VAE解码前,计算当前完成潜变量与前一个潜变量的均方误差(MSE)。若低于阈值(\(1 \times 10^{-3}\)),则跳过本次VAE解码,直接复用上一次的音频输出。 实现:这是对StreamDiffusion随机相似性过滤器的确定性改编,用于节省稳定区域的解码开销。 Windowed VAE Decode(窗口化VAE解码): 功能:解决全潜变量(如60秒对应1500帧)VAE解码的高延迟问题。 实现:基于对Oobleck VAE经验感受野的分析,仅解码当前播放窗口及两侧的重叠裕量(默认0.5秒,约12.5帧),而非整个潜变量。在裕量之外,窗口内的输出与全解码在16位PCM渲染下逐样本完全一致。这使得VAE解码延迟与生成时长解耦,仅取决于窗口大小(如3秒窗口下解码从56ms降至7ms)。 Acceleration(加速层): TensorRT混合精度引擎:将DiT解码器导出为ONNX,采用混合精度策略(注意力与MLP使用fp16,时间步嵌入、AdaLN、RMSNorm使用fp32)以避免全fp16量化在24层DiT中累积导致的输出衰减(约7倍)和NaN问题。 运行时LoRA重载:启用TRT的REFIT构建器标志,在运行时通过IRefitter API直接应用LoRA权重的增量(\(B \times A\),在fp32中计算后转为引擎数据类型),无需重新构建引擎,实现风格的快速热切换。 VAE TRT引擎:为编码器和解码器分别构建支持动态形状的TRT引擎,并共享CUDA流以避免同步开销。 数据流与交互:用户参数通过Session API转化为条件输入。StreamPipeline管理多个并行去噪任务(槽位),每个tick从各槽位读取时间步长(异构调度)和共享可变状态(如SDE曲线),提交给Diffusion Engine进行一次批量前向传播。完成的潜变量经过相似性过滤器,若需更新则由窗口化VAE解码为音频块,最后通过交叉淡入淡出加入输出流。加速层贯穿始终,确保全链路实时性。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 259 words

Diffusion Large Language Models for Visual Speech Recognition

📄 Diffusion Large Language Models for Visual Speech Recognition #参数高效微调 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #参数高效微调 | #数据增强 | arxiv 学术质量 7.0/7 | 影响力 7.0/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 作者:Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro†(†通讯作者) 机构:韩国科学技术院(KAIST)集成视觉语言实验室(Integrated Vision Language Lab) 💡 毒舌点评 本文是一篇“站在巨人肩膀上”的应用型工作。其核心想法——将扩散大语言模型(DLLM)引入视觉语音识别(VSR)以解决自回归解码的局限——是直接且合理的。实验结果(19.5% WER)也确实刷新了LRS3-only设置下的SOTA,证明了该范式在此任务上的有效性。然而,审稿人必须指出:1) 创新性深度有限,主要贡献是将现有DLLM解码策略(置信度解掩码)和训练技巧(两阶段训练)应用到VSR领域,而非提出全新的模型架构或理论;2) 实验的严谨性和全面性存在明显短板,消融实验严重不足,跨数据集验证薄弱;3) 部分关键实现细节(如阈值、训练超参数)缺失,影响了可复现性。总体而言,这是一篇扎实的系统工程工作,但在作为一篇NeurIPS/ICML/ICLR级别的论文时,其理论创新和实验的完备性还有提升空间。 📌 核心摘要 本文针对视觉语音识别(VSR)中自回归解码器因固定从左到右生成顺序而无法有效处理视觉模糊性的局限,提出了首个基于扩散大语言模型(DLLM)的VSR框架(DLLM-VSR)。该方法将转录过程建模为在固定长度画布上的迭代掩码去噪,允许灵活顺序解码。核心设计包括:1) 基于置信度的解掩码策略,优先解码并固定高置信度token,将其作为双向上下文来指导模糊位置的预测;2) 为适配VSR而设计的两阶段掩码去噪训练策略,第一阶段专注于文本内容对齐,第二阶段学习长度建模(填充padding token);3) 一种长度引导的候选解码方法,利用视频时长预测多个可能的转录长度假设,并行解码后通过联合重排序选择最佳结果。在LRS3数据集上,DLLM-VSR仅使用其标注数据训练便达到了19.5%的词错误率(WER),建立了新的最优性能。 🔗 开源详情 代码:https://bit.ly/DLLM-VSR (已提供,可访问) 模型权重:论文中未提及是否开源预训练的DLLM-VSR模型权重。 数据集:论文中提及使用LRS3和LRS2数据集,但未提供下载地址或开源协议链接(LRS3/LRS2通常需要申请)。 Demo:论文中未提及。 复现材料:论文提供了代码,但未明确说明是否包含完整的训练配置、脚本、环境说明以及两阶段训练的具体参数设置。 论文中引用的开源项目: Dream (基于Qwen2.5): https://github.com/ArtificialAnalysis/Dream LLaDA: https://github.com/ArtificialAnalysis/LLaDA LaViDa: https://github.com/ArtificialAnalysis/LaViDa Dimple: https://github.com/ArtificialAnalysis/Dimple DreamOn: https://github.com/ArtificialAnalysis/DreamOn DAEDAL: https://github.com/ArtificialAnalysis/DAEDAL Block Diffusion: https://github.com/ArtificialAnalysis/Block-Diffusion wav2vec 2.0: https://github.com/facebookresearch/wav2vec Whisper: https://github.com/openai/whisper Qwen2.5: https://github.com/QwenLM/Qwen2.5 🏗️ 方法概述和架构 本文提出的DLLM-VSR框架(如图2所示)旨在将扩散大语言模型的灵活解码能力应用于视觉语音识别任务。其整体架构包含一个冻结的视觉编码器、一个长度适配器、两个投影层以及一个基于LoRA适配的DLLM解码器。核心创新在于解码方式和训练策略的重新设计。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 256 words

Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox

📄 Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox #语音情感识别 #语音识别 #多模态模型 ✅ 6.8/10 | 前50% | #语音情感识别 | #语音识别 | #多模态模型 | arxiv 学术质量 4.5/7 | 影响力 1.8/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Jiacheng Pang (南加州大学 USC),Ashutosh Chaubey (MIT),Mohammad Soleymani (南加州大学 USC) 机构:信息科学研究所 (USC),计算机科学与人工智能实验室 (CSAIL, MIT) 💡 毒舌点评 合成数据的“温室花朵”效应:VoxParadox 基准虽然精巧,但完全依赖 TTS 合成数据。论文声称其设计“由构造保证”,但这恰恰是它最大的软肋。模型在这个精心控制的对抗性环境中取得的任何提升,在面对真实世界中充满噪声、歧义、文化背景和微小语气变化的“言不由衷”时,可能都只是镜花水月。生态效度(ecological validity)的短板,使得方法的实用价值大打折扣。 “灵丹妙药”式的改进声明:论文将 PCLM+DPO 描述为解决瓶颈的有效方案,但证据链并不完整。在一个模型(Audio Flamingo 3)上取得巨大成功,远不足以证明该方案的普适性。论文未报告其他被评估模型(如 SALMONN, Qwen-Audio 等)的改进情况,这使得方法的“通用性”声明显得仓促。是方法真的巧妙,还是仅仅在 Audio Flamingo 3 的特定架构上“过拟合”了? “黑箱”模块缺乏透视:PCLM 被描述为“自适应地组合多层信息”,但其内部机制如同黑箱。论文没有提供任何可视化或定量分析,展示在不同任务或输入下,模型究竟如何、以及为何选择了特定的音频层组合。这种“Prompt-Conditioned”的承诺,在缺乏可解释性分析的情况下,说服力有限。 消融研究的缺失:将 PCLM 和 DPO 打包提出,却没有进行充分的消融实验,这是方法论上的重大遗漏。我们不知道性能提升有多少归功于表征质量的改善(PCLM),有多少归功于偏好引导(DPO),两者的协同效应究竟如何。这使得方法的贡献难以被准确归因和理解。 实验对比的模糊性:虽然声称评估了“多种”Audio LLMs,但 Table 1 的细节在提供的文本中不完整。审稿人需要清晰地看到所有基线模型在所有任务上的具体数字,以判断 VoxParadox 是否真的暴露了模型的共性问题,以及所提方法是否在所有情况下都有效。泛泛的“显著提升”结论,缺乏足够的数据支撑。 📌 核心摘要 本文针对 Audio LLMs 在副语言信息理解上的不足(过度依赖文本转录而非声学线索),提出了系统性的分析、评估与改进方案。首先,设计了对抗性基准 VoxParadox(2000 样本,10 类任务),通过控制语音合成制造转录与声学风格的矛盾,以量化模型的模态偏见。实验表明,模型普遍在声学真值上准确率低(AccGT),却对文本暗示的错误标签高度一致(ALA)。其次,通过层级探测(layer-wise probing)分析瓶颈,发现副语言信息在编码器深层及编码器-LLM 接口处可能退化,且即使信息存在于音频 token 中,LLM 也常忽略。为解决此问题,提出 Prompt-Conditioned Layer Mixer(PCLM)以自适应融合多层音频表征,并结合 Direct Preference Optimization(DPO)训练模型偏好声学证据。在 Audio Flamingo 3 上,该方法将 VoxParadox 准确率从 17.40% 提升至 65.20%,MMSU 副语言子集从 37.74% 提升至 54.78%。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 554 words

EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction

📄 EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction #多模态模型 #多任务学习 🔥 8/10 | 前50% | #多模态模型 | #多任务学习 | arxiv 学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Chong Jing, Zitong Lan, Junan Zhang, Zhizheng Wu 机构:香港中文大学(深圳)(Chong Jing, Junan Zhang, Zhizheng Wu),宾夕法尼亚大学(Zitong Lan) 💡 毒舌点评 这篇工作在工程应用上做得扎实,但理论原创性的天花板清晰可见。它成功地将视觉领域的“交替注意力”机制“移植”到了音频这个新场景,并辅以一个动机良好的物理调制模块,最终在特定任务上取得了SOTA。这种“旧瓶装新酒”的范式在应用层屡试不爽,但作为顶会论文,其核心贡献的“新颖性”需要打折。更令人遗憾的是,作为一篇同时期的工作,却完全回避了与最直接竞争对手FLAC的正面比较(仅以“并发工作”一笔带过),这在实验对比的完整性上留下了无法回避的短板。论文的强项在于细致的消融实验,特别是掩码探针实验设计巧妙,试图解释模型行为,这比单纯刷分更有价值。然而,写作上的细节疏忽(图表引用混乱)和某些技术描述的含糊(如DiT块的具体操作)拉低了整体的精致感。总的来说,这是一篇扎实的系统工作(systems paper),而非一篇具有颠覆性思想的理论突破。 📌 核心摘要 本文针对从稀疏观测预测新视角房间脉冲响应(RIR)的逆问题,提出了EigeNet框架。该框架旨在解决现有方法在多视角时空关系建模不足和物理可解释性缺失两大瓶颈。核心创新包括:1)提出交叉视角交替注意力Transformer(CVAT),交替进行视角内局部和跨视角全局注意力,以显式建模局部声学结构和全局空间关系;2)设计几何信息调制模块与基于7倍频带功率谱的辅助损失,显式建立几何特征与RIR功率谱的关联,将单任务转化为多任务学习。在模拟数据集AcousticRooms和真实数据集HAA上的实验表明,EigeNet在EDT、C50、T60等指标上显著优于xRIR等基线,并展现出良好的跨模态泛化性和物理可解释性。 🔗 开源详情 代码:https://github.com/FEAfeatherTHER/EigeNet 模型权重:https://github.com/FEAfeatherTHER/EigeNet 数据集: AcousticRooms:论文中声明通过Treble平台获取(https://www.treble.tech/),但未提供直接���预处理数据下载链接。 Hearing-Anything-Anywhere (HAA):论文中未提供任何公开获取链接。 Demo:论文中未提及。 复现材料:未提供单独的复现材料包(如训练脚本、配置文件)。复现依赖于上述GitHub仓库的代码以及自行获取的数据集。 🏗️ 方法概述和架构 EigeNet框架旨在利用稀疏的参考视角RIR及其对应的几何信息,预测目标新视角的RIR。其整体架构如图1所示,包含编码、调制、核心Transformer处理和解码预测四个主要阶段。 问题形式化与输入: 给定\(N\)个参考视角,每个视角\(i\)包含:源位置\(tx_i \in \mathbb{R}^3\),接收器位置(设为坐标原点)\(rx_i \in \mathbb{R}^3\),以及对应的RIR信号\(h_i \in \mathbb{R}^{1 \times L}\)。同时,为目标视角(索引为0)提供接收器位置处的全景深度图\(D\)。目标是估计目标视角在\(tx_0\)处的RIR \(h_0\)。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 403 words

From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection

📄 From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection 🔥 8.7/10 | 前50% | #语音伪造检测 | arxiv 学术质量 6.4/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 作者:Ke Liu, Jiwei Wei, Wenyu Zhang, Shuchang Zhou, Ruikun Chai, Yutao Dai, Chaoning Zhang, Yang Yang 机构:未明确说明具体单位,根据作者姓名推测可能来自中国的高校或研究机构。 💡 毒舌点评 这篇论文敏锐地抓住了当前音频-视觉深度伪造检测中的一个关键盲区——“唱歌”场景。当所有方法都盯着“说话”时,唱歌带来的节奏变化和更丰富的面部表情确实让现有的唇音同步检测器“露馅”。作者们提供了新的数据集(SHDF)和框架(T-AVFD),实验结果也足够亮眼,尤其是在唱歌数据集上把基线方法“按在地上摩擦”。但是,那个手动设置的调制向量α像是一根拐杖,虽然好用,但让整个自适应融合的优雅性打了折扣。开源只给项目页面,不给代码,这在顶会审稿人眼里属于“诚意不足”。总的来说,这是一篇扎实的“填坑”论文,问题明确,方案有效,但离“完美”还有几步关键的台阶没迈上去。 📌 核心摘要 本文针对音频-视觉深度伪造检测中从“说话”到“唱歌”场景转换所带来的域偏移挑战。作者首先通过域偏移诊断(MMD²)和分数分布重叠分析,定量证明了唱歌场景对现有检测器构成巨大挑战。为此,他们构建了首个唱歌场景的伪造检测数据集SHDF。为了应对跨场景泛化难题,提出了一个无监督的文本引导框架T-AVFD,该框架仅使用真实说话视频训练,通过面部真实性模式学习器(FAPL)和多模态差分权重学习模块(MMDWL)联合建模面部语义和唇音一致性,在多个说话数据集和SHDF上实现了显著优于基线方法的泛化性能和鲁棒性。 🔗 开源详情 代码:论文中提供了项目主页链接 https://LiuKe3068LikWix.github.io/SingingHead-DeepFake/,但未明确提供官方代码仓库的直接链接。 模型权重:未提及模型权重的下载链接。 数据集: 数据集名称:Singing Head DeepFake (SHDF)。 获取链接/开源协议:论文未提供数据集直接下载链接。真实视频部分承诺提供YouTube链接(见附录A.2),伪造视频部分计划通过生成管道提供。数据集仅用于学术研究。 Demo:未提及在线演示链接。 复现材料:论文提供了详细的训练配置(优化器:Adam,学习率:9×10⁻⁴,批大小:512)、超参数设置和实验设置描述,但未提及提供检查点文件下载。 论文中引用的开源项目: Alpha-CLIP:https://github.com/sunao-phi/AlphaCLIP MEMO:https://github.com/MEMO-Head/MEMO Hallo2:https://github.com/fudan-generative-vision/hallo2 EchoMimic:https://github.com/BadToBest/EchoMimic DreamTalk:https://github.com/DreamTalk-AI/DreamTalk Sonics:论文中引用,但未提供具体链接。 AVAD:https://github.com/MauriceFeng/AVAD AVH-Align:https://github.com/Smeu-Alexandru/AVH-Align 🏗️ 方法概述和架构 T-AVFD框架旨在学习场景无关的伪造检测特征,其核心架构包含两个模块,仅使用真实说话视频进行训练。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 384 words

Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

📄 Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini #多模态模型 #对比学习 #语音识别 ✅ 7.9/10 | 前25% | #语音识别 | #对比学习 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini(共81位作者)。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 634 words