Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

📄 Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features #语音生物标志物 #模型评��� #多通道 #跨模态 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 共同第一作者:Chenqian Le (未明确机构,推断为纽约大学) 共同第一作者:Ruisi Li (未明确机构,推断为纽约大学) 其他作者:Beatrice Fumagalli (未明确机构,推断为纽约大学), Xupeng Chen (未明确机构,推断为纽约大学), Amirhossein Khalilian-Gourtani (未明确机构,推断为纽约大学), Tianyu He (未明确机构,推断为纽约大学), Adeen Flinker (未明确机构,推断为纽约大学), Yao Wang (未明确机构,推断为纽约大学) 通讯作者/机构:论文未明确标注。根据研究内容和作者列表,Adeen Flinker 和 Yao Wang 可能是项目负责人或通讯作者。所有作者均来自纽约大学(New York University),具体实验室/系所未在提供的文本中明确说明。 💡 毒舌点评 亮点:论文把神经科学领域的mTRF和方差分解工具“拿来主义”用在肌肉信号上,思路清晰,实验设计严谨(24个受试者,句子级交叉验证),把“为什么发音特征比音素特征更好”这件事说得明明白白,还画出了漂亮的解剖对应图。 槽点:说到底是在验证一个相当直觉化的猜想(发音动作当然比音素标签更贴近肌肉活动),创新性更多体现在“首次系统验证”而非“提出新方法”。而且,只做了“编码”分析,没做“解码”验证,就像精心证明了菜谱(特征)更好,但没真的做道菜(解码系统)给大家尝尝。 🔗 开源详情 代码:论文中未提及作者是否开源本研究使用的代码(如数据处理、mTRF模型训练、方差分解脚本)。 模型权重:论文中使用了开源的SPARC模型(来自Cho et al., 2024),但作者自身工作的模型(训练好的mTRF权重)未提及公开。 数据集:研究使用了自采的sEMG数据集(24人),论文中未提及该数据集是否公开。TIMIT语料库是公开数据集。 预训练权重:不适用。 在线Demo:无。 引用的开源项目:明确提到了ADMM_mTRF(Python实现)和Montreal Forced Aligner (MFA)。 📌 核心摘要 这篇论文旨在为无声言语接口(SSI)选择更优的中间表示目标。研究系统比较了发音特征(SPARC)和传统的音素独热编码,在预测表面肌电(sEMG)信号包络上的表现。核心发现是:1)在出声、默语和次发声三种模式下,SPARC特征的编码准确性均显著优于音素特征;2)出声和默语模式的编码性能相当,次发声模式虽弱但仍显著高于随机水平,证实了无声发音仍可诱发可检测的肌肉活动;3)方差分解显示,SPARC对sEMG方差有显著的独特贡献,而音素特征的独特贡献极小;4)编码权重图揭示了电极位置与特定发音器官(唇、颌、舌)运动之间稳定、可解释的解剖学关联。该研究为构建基于生理对齐表示的、更鲁棒的sEMG-SSI系统提供了重要的实证依据和设计指导。 ...

2026-04-22 · 更新于 2026-06-12 · 2 min · 221 words

语音/音乐/音频论文速递 2026-04-22

语音/音乐/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-06-12 · 8 min · 1620 words

Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization

📄 Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization #音频分离 #信号处理 #多通道 #麦克风阵列 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mahmoud Fakhry(推断为FBK - Fondazione Bruno Kessler,意大利) 通讯作者:Maurizio Omologo(推断为FBK - Fondazione Bruno Kessler,意大利) 其他作者:Piergiorgio Svaizer(推断为FBK - Fondazione Bruno Kessler,意大利) (注:论文摘要未明确列出作者所属机构,以上信息根据常见研究合作模式及作者姓名推断得出。) 💡 毒舌点评 亮点:论文巧妙地将非负矩阵/张量分解(NMF/NTF)与经典的多通道Wiener滤波框架结合,用数据驱动的“先验基矩阵库”替代了传统EM算法中对源方差的迭代估计,思路清晰且有一定新意。 槽点:创新更像是对现有工具(β-散度NTF)的“组合应用”,而非底层算法的突破;摘要中声称“优于其他算法”但未提供任何具体数字支撑,说服力大打折扣,读起来像一份“工作汇报”而非扎实的学术论文。 🔗 开源详情 论文摘要中未提及任何关于代码、模型权重、数据集或在线Demo的开源计划。 📌 核心摘要 本文针对混响环境下的多通道音频源分离问题,提出了一种基于β-散度非负因子分解的参数估计新方法。传统方法依赖期望最大化(EM)算法估计源频谱方差和空间协方差矩阵,本文则利用包含源频谱先验信息的基矩阵(可直接提取或从预训练冗余库中获取),通过非负张量分解(NTF)来估计这些参数。该方法通过最小化β-散度并采用乘性更新规则实现因子分解,并可通过调节β值控制分解的稀疏性。实验表明,因子分解的稀疏性(而非β的具体取值)对提升分离性能至关重要。在多种混合条件下的评估显示,该方法能提供优于其他可比算法的分离质量。 🏗️ 模型架构 论文提出的整体流程是一个两阶段方法: 先验信息准备阶段: 输入:目标源的音频数据(用于直接提取)或一个大型的预训练音频频谱基矩阵库。 处理:从目标源数据中提取频谱基矩阵,或从冗余库中通过某种匹配算法(如非负张量分解)检测出最能代表观测混合信号中各源功率谱的基矩阵。 输出:一组频谱基矩阵,作为后续分离的“先验信息”。 源分离阶段: 输入:多通道混响音频混合信号。 核心处理:将问题建模为多通道高斯模型,其中似然函数由源频谱方差和空间协方差矩阵参数化。关键创新在于,这些参数不再通过EM算法迭代估计,而是通过应用非负张量分解(NTF) 来估计。 NTF的目标是将观测到的多通道时频功率谱张量分解为几个因子矩阵的乘积,其中就包含了利用第一阶段得到的频谱基矩阵作为约束或初始化的部分。 分解过程通过最小化β-散度(一种广义的散度度量,包含KL散度、欧氏距离等作为特例)来实现,并使用稳定的乘性更新规则进行优化。 通过调整β的值,可以控制分解结果的稀疏性。 参数估计:NTF的分解结果直接给出了各源的频谱方差估计和对应的空间协方差矩阵估计。 信号分离:利用估计出的参数,应用经典的多通道Wiener滤波,从混合信号中分离出各个源信号。 输出:分离后的各源信号。 通俗理解:想象一下,你有几杯混合了不同果汁(声源)的水(混合录音),并且你有一些纯净果汁的“配方”(频谱基矩阵)。传统方法(EM)是不断试尝混合水,猜测每种果汁的浓度和杯子的形状(空间信息)。本文的方法是,直接用这些“配方”作为模板,去匹配混合水中出现的“味道模式”(功率谱),一旦找到最佳匹配,就能反推出每种果汁的浓度和杯子的形状,最后再把它们分离开。β-散度就像是匹配时使用的“尺子”,不同的尺子(β值)会影响匹配的精细程度(稀疏性)。 💡 核心创新点 用NTF替代EM进行参数估计:将多通道音频分离中关键参数(源方差、空间协方差)的估计问题,从传统的迭代优化(EM)转化为一个基于先验约束的因子分解问题(NTF)。这提供了一种不同的、可能更直接利用源先验知识的参数化途径。 引入频谱基矩阵作为结构化先验:明确地将源的频谱特性以“基矩阵”的形式作为先验信息融入分离过程。这些基矩阵可以是直接从已知源类型中学习得到的,也可以从一个大型通用库中检索得到,增强了模型对已知声源的针对性和可解释性。 利用β-散度的稀疏性控制能力:指出并验证了在所提NTF框架下,通过调节β值来控制因子分解的稀疏性,是提升分离性能的关键因素,而不仅仅是β值本身对散度度量的选择。这为优化分离效果提供了一个实用的调参方向。 🔬 细节详述 训练数据:摘要中未提及用于训练冗余基矩阵库的具体数据集名称、规模或预处理方式。 损失函数:核心是最小化β-散度。其数学形式未在摘要中给出,但通常定义为两个非负矩阵/张量P和Q之间的散度:D_β(P||Q) = (1/(β(β-1))) * (P^β Q^(1-β) - βP + (β-1)Q)。当β→1时退化为KL散度,β=2时为欧氏距离。 训练策略:未提及具体的学习率、batch size等。NTF的优化使用乘性更新规则,这是一种保证非负性的经典迭代算法。 关键超参数:β值是核心超参数,用于控制散度形式和稀疏性。论文强调稀疏性本身是关键。 训练硬件:未提及。 推理细节:推理阶段即为应用训练好的基矩阵库和NTF算法对新的混合信号进行分离,具体流程如模型架构所述。 数据增强/正则化:未明确提及,但通过β值控制的稀疏性可被视为一种正则化手段。 📊 实验结果 主要指标对比:摘要中仅定性声称“提供了优于其他可比算法的分离质量”,未提供任何具体的量化指标数值(如SDR, SIR, SAR等)和对比模型名称。 消融实验:摘要中指出“稀疏性,而不是分配给β的值,对于提高分离性能至关重要”,这暗示了可能进行了关于β值和稀疏性控制的实验,但未给出具体数据。 与SOTA方法的对比:未提供具体对比方法和结果数据。 在不同数据集/条件下的细分结果:提到“在多种混合条件下进行了评估”,但未列出具体条件(如不同混响时间、信噪比、声源数量)和对应的结果数据。 用户研究/主观评价结果:未提及。 ⚖️ 评分理由 创新性:6.5/10 - 创新点在于将NMF/NTF框架与传统多通道分离流程进行特定方式的结合,并强调了稀疏性的作用。这属于应用层面的方法改进和组合创新,而非提出全新的理论或模型。 实验充分性:5.0/10 - 严重不足。摘要部分缺乏任何量化实验数据,使得所有结论(如“优于其他算法”、“稀疏性至关重要”)都成为无本之木,无法评估其真实效果和说服力。这是最大的短板。 实用价值:7.0/10 - 如果方法有效,其利用先验库的思路对于已知声源场景(如会议中的人声、特定机械噪声)的分离具有实际应用潜力。但缺乏实验数据支撑,其实际效能存疑。 灌水程度:6.0/10 - 摘要表述存在“提供更好分离质量”这类缺乏数据支撑的断言,有夸大或空泛之嫌。但方法描述本身逻辑清晰,不算完全无意义。 🖼️ 图片与表格 论文摘要中未包含任何图片或表格。因此,无需进行图片保留建议或表格数据输出。 ...

2026-04-19 · 更新于 2026-06-12 · 1 min · 123 words

语音/音乐/音频论文速递 2026-04-18

语音/音乐/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18 · 更新于 2026-06-12 · 43 min · 9080 words