Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

📄 Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features #语音生物标志物 #模型评��� #多通道 #跨模态 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 共同第一作者:Chenqian Le (未明确机构,推断为纽约大学) 共同第一作者:Ruisi Li (未明确机构,推断为纽约大学) 其他作者:Beatrice Fumagalli (未明确机构,推断为纽约大学), Xupeng Chen (未明确机构,推断为纽约大学), Amirhossein Khalilian-Gourtani (未明确机构,推断为纽约大学), Tianyu He (未明确机构,推断为纽约大学), Adeen Flinker (未明确机构,推断为纽约大学), Yao Wang (未明确机构,推断为纽约大学) 通讯作者/机构:论文未明确标注。根据研究内容和作者列表,Adeen Flinker 和 Yao Wang 可能是项目负责人或通讯作者。所有作者均来自纽约大学(New York University),具体实验室/系所未在提供的文本中明确说明。 💡 毒舌点评 亮点:论文把神经科学领域的mTRF和方差分解工具“拿来主义”用在肌肉信号上,思路清晰,实验设计严谨(24个受试者,句子级交叉验证),把“为什么发音特征比音素特征更好”这件事说得明明白白,还画出了漂亮的解剖对应图。 槽点:说到底是在验证一个相当直觉化的猜想(发音动作当然比音素标签更贴近肌肉活动),创新性更多体现在“首次系统验证”而非“提出新方法”。而且,只做了“编码”分析,没做“解码”验证,就像精心证明了菜谱(特征)更好,但没真的做道菜(解码系统)给大家尝尝。 🔗 开源详情 代码:论文中未提及作者是否开源本研究使用的代码(如数据处理、mTRF模型训练、方差分解脚本)。 模型权重:论文中使用了开源的SPARC模型(来自Cho et al., 2024),但作者自身工作的模型(训练好的mTRF权重)未提及公开。 数据集:研究使用了自采的sEMG数据集(24人),论文中未提及该数据集是否公开。TIMIT语料库是公开数据集。 预训练权重:不适用。 在线Demo:无。 引用的开源项目:明确提到了ADMM_mTRF(Python实现)和Montreal Forced Aligner (MFA)。 📌 核心摘要 这篇论文旨在为无声言语接口(SSI)选择更优的中间表示目标。研究系统比较了发音特征(SPARC)和传统的音素独热编码,在预测表面肌电(sEMG)信号包络上的表现。核心发现是:1)在出声、默语和次发声三种模式下,SPARC特征的编码准确性均显著优于音素特征;2)出声和默语模式的编码性能相当,次发声模式虽弱但仍显著高于随机水平,证实了无声发音仍可诱发可检测的肌肉活动;3)方差分解显示,SPARC对sEMG方差有显著的独特贡献,而音素特征的独特贡献极小;4)编码权重图揭示了电极位置与特定发音器官(唇、颌、舌)运动之间稳定、可解释的解剖学关联。该研究为构建基于生理对齐表示的、更鲁棒的sEMG-SSI系统提供了重要的实证依据和设计指导。 ...

2026-04-22 · 更新于 2026-05-19 · 2 min · 221 words