论文速递 | 语音/音乐/音频论文速递

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

📄 Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation #语音合成 #多任务学习 #扩散模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.6/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #多任务学习 | #扩散模型 | arxiv 👥 作者与机构作者：Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie 机构：1 Northwestern Polytechnical University, China; 2 Kuaishou Technology, China; 3 Beijing Institute of Technology, China; 4 Institute of Automation, Chinese Academy of Sciences, China; 5 University of Science and Technology of China, China; 6 Shanghai Jiao Tong University, China 邮箱：ziyu_zhang@mail.nwpu.edu.cn, lxie@nwpu.edu.cn ...

VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track

📄 VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track #集成学习 #音频事件检测 3.9/10 | 创新 1.2/2 | 严谨 0/1.5 | 实验 0.6/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.7/1.5 📝 3.9/10 | 前50% | #音频问答 | #集成学习 | #音频事件检测 | arxiv 👥 作者与机构 Wenming Tu, Xiang Hao, Jing Wang, Yixuan Peng, Bohan Li, Ziyang Ma, Tao Liu, Shuai Fan, Kai Yu, Zilong Zheng 上海交通大学计算机科学与工程学院 X-LANCE实验室，中国上海 AISpeech有限公司，中国苏州中国科学院自动化研究所，中国北京 ...

VoxCPM2 Technical Report

📄 VoxCPM2 Technical Report #语音合成 #语音克隆 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.5/10 | 前50% | #语音合成 | #语音克隆 | #多语言 | arxiv 👥 作者与机构核心贡献者：Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Jiancheng Gui, Jiaheng Wu, Ziyang Wang, Xudong Shen, Runchuan Ye, Zhisheng Zhang, Jiuyang Zhou, Bingsong Bai, Weiyue Sun, Mengyuan Deng, Qundong Shi, Zhiyong Wu, Zhiyuan Liu 其他贡献者：Biyuan Lin, Caixian Chen, Chao Jia, Chenzhe Jing, Daixi Zeng, Jiayi Zhang, Jie Zhou, Jilong Ma, Jie Sun, Ling Zheng, Minmin Fan, Siyuan Huang, Shuo Wang, Susu Bai, Wenxi Yang, YingJiao Wang, Yitong Wang, Zhen Luo, Zhizheng Yang, Zhong Zhuang 机构：清华大学深圳国际研究生院人机语音交互实验室（THUHCSI），清华大学自然语言处理实验室（THUNLP），ModelBest ...

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

📄 Watch, Remember, Reason: Human-View Video Understanding with MLLMs #多模态模型 #流式处理 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #流式处理 | arxiv 👥 作者与机构作者：Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 机构：J. Meng, Y. Tan, Y. Tong 隶属于北京大学智能科学与技术学院；Q. Xu, L. Qi 隶属于武汉大学；K. Gao, Y. Li 隶属于上海交通大学；J. Li 隶属于南洋理工大学；H. Wang, W. Liu 隶属于中国科学院自动化研究所（CASIA）；Q. Zhou 隶属于东京大学；G. Cheng 隶属于利物浦大学；J. Zhang 隶属于浙江大学；L. Kong 隶属于新加坡国立大学；M. Yang 隶属于加州大学默塞德分校。 ...

Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

📄 Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path #音频生成 #理论分析 8.7/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前25% | #音频生成 | #理论分析 | arxiv 👥 作者与机构作者：Thomas Sesmat, Gabriel Meseguer-Brocal, Geoffroy Peeters 机构：论文正文未明确列出作者机构，但致谢部分提及工作由法国巴黎萨克雷电信学院提供计算资源支持。 💡 毒舌点评这篇论文的工作，说好听点是“把显而易见的事情理论化”，说难听点就是“在噪声和数据之间的中间点发现了模型拟合训练数据残差”这一现象，并为其穿上了“钟形曲线”和“闭式解”的理论外衣。其核心创新点——那个看起来很美的闭式解\(\lambda_F^*\)，被其赖以生存的“各向同性高斯”假设牢牢锁死在玩具模型的范畴。一旦遇到现实世界里稍有复杂度的潜在空间（如CelebA），这理论就哑火了，只剩下那个依然普适但不够“性感”的钟形曲线。作者试图用一个在特定假设下才成立的峰值预测来撑起理论贡献的门面，这多少有点“拿着放大镜找金矿”的嫌疑。至于那个作为“概念验证”的成员推理攻击（MIA），用了一个极其简单的MLP分类器，且在最具理论优势的MAESTRO数据集上取得了0.91的AUC，这固然不错，但论文对此攻击的实际威胁模型（白盒、需完整访问插值路径）避而不谈，使其现实意义大打折扣。最后，开源情况的含糊其辞（提到有代码但不提供链接）更是给这篇顶会水准论文的严谨性抹上了一层阴影。整体而言，这是一篇技术细节扎实但格局受限、理论贡献存在“硬伤”、应用价值被高估的论文。 📌 核心摘要论文研究了Rectified Flow（RF）生成模型在训练过程中如何编码训练数据的成员身份信息（即“成员信号”）。通过分析定义RF训练的线性插值路径 \(X_\lambda = (1-\lambda)X_0 + \lambda X_1\)，作者证明了训练集与测试集在重建误差上存在一个沿插值参数 \(\lambda\) 分布的“钟形”差异。该差异源于模型在特定 \(\lambda\) 处拟合了训练样本特有的残差。在数据噪声和分布均为各向同性高斯的假设下，论文推导出了该差异峰值位置 \(\lambda_F^*\) 的闭式表达式。作者在多个音频和图像数据集上实验验证了理论预测，并展示了将此钟形差异结构作为特征，构建成员推理攻击（MIA）的概念验证方法，其性能优于将扩散模型攻击方法适配到RF的基线方法。 ...

Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

📄 Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders #语音识别 #Whisper 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.9/10 | 前50% | #语音识别 | #Whisper | arxiv 👥 作者与机构论文作者：Aparin, Popov, Sadekova, Yermekova (全名：Georgii Aparin, Vadim Popov, Tasnima Sadekova, Assel Yermekova)。机构：1 AI Foundation and Algorithm Lab；2 National University of Science and Technology MISIS；3 National Research University Higher School of Economics。 ...

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜（38 篇，按分数降序）排名论文总分分档主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分前25% #语音识别 6. dots.tts Technical Report 9.0分前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

A Model of Multi-turn Human Persuadability Using Probabilistic Belief Tracing

📄 A Model of Multi-turn Human Persuadability Using Probabilistic Belief Tracing 8.2/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.2/10 | 前50% | arxiv 👥 作者与机构 Jared Moore, Noah Goodman, Nick Haber, Max Kleiman-Weiner 斯坦福大学，华盛顿大学 💡 毒舌点评这篇论文试图将说服研究从“前后对比”的简单粗暴测量，升级到“逐轮信念追踪”的精细过程分析，想法是好的，甚至有点理想化。它贡献了一个实验平台和一套评估框架，并构建了一个基于贝叶斯网络（BN）的“模拟靶子”。然而，仔细审视其“证据链”，会发现几个关键环节略显脆弱，整体说服力打了折扣。首先，作为核心证据的“人类行为数据”样本量偏小（核心分析N=32或84），统计效力存疑，特别是对于得出普遍性结论而言。其次，方法的“客观性”高度依赖于LLM——修辞标注、BN结构生成和条件概率拟合均由LLM完成，却未充分报告其内部一致性或验证其“认知合理性”，这使得整个建模过程建立在了一个可能不稳固的“黑箱”基础上。再者，模拟器的评估虽设计了多个维度，但关键的“重放误差”实验仅在一个命题上进行，泛化能力存疑；而“LLM裁判”评估本身也陷入循环论证的风险。最后，论文声称将分析推向“过程级”，但发现的行为模式（如两种轨迹聚类）解释深度有限，与其宣称的“认知科学价值”尚有距离。总体而言，这是一个方法论上的有益尝试，框架设计有亮点，但支撑核心主张（尤其是BN模拟器的“真实性”与“优越性”）的实验证据链存在多个需要加固的薄弱点。 📌 核心摘要本文针对当前LLM说服研究主要依赖“信念前后测”的局限，提出了一个名为PersuasionTrace的多轮说服过程研究框架。该框架包含一个实验平台，用于收集人类被试在多轮说服对话中的逐轮信念轨迹数据，并对说服论点进行修辞维度（logos/pathos/ethos）标注。基于收集的人类数据，作者构建了一个基于贝叶斯网络（BN）的“人类说服易感性”模拟器，该模拟器维护显式的潜在信念状态，并通过“原子化-贝叶斯更新-语言化”三步管道模拟信念动态。主要实验结论包括：1）人类信念更新轨迹呈现高变化与低变化两种聚类模式；2）人类对不同修辞策略的易感性存在差异；3）所提出的BN模拟器在“人类相似性”评估中接近人类参考基准，并在“天真说服”抵抗性、立场偏差等多个诊断性评估中优于未结构化的LLM基线模拟器。论文的核心贡献在于将说服效果的评估从端点变化推进到过程保真度，并开源了相关平台和数据。 🔗 开源详情代码：https://github.com/jlcmoore/persuasiontrace 模型权重：未提及开源可下载的模型权重。论文中使用的大语言模型（如 gpt-5, gpt-4.1, gpt-5.1, gpt-5.4-mini, gemini-3-flash-preview 等）均通过其商业API进行调用。数据集：DebateGPT 数据集 (https://huggingface.co/datasets/frasalvi/debategpt，开源协议：CC-BY-SA 4.0)。此外，论文还使用了自生成和整理的信念节点图、修辞标注数据及人类信念轨迹数据，这些包含在代码仓库中。 Demo：https://converse.analogi.se 复现材料：论文在附录中提供了详细的人类实验队列定义（表1）、模拟器队列定义（表2）、贝叶斯网络信念图的构建过程（附录B.7.1）、完整的提示模板（附录C，图16-28）以及评估指标的计算公式（附录B.8-B.10）。所有数据和代码均包含在代码仓库中。论文中引用的开源项目： DebateGPT 数据集：https://huggingface.co/datasets/frasalvi/debategpt （开源协议：CC-BY-SA 4.0） spectrum-llama-3.1-8b-v1 模型：https://huggingface.co/analogio/spectrum-llama-3.1-8b-v1 （开源协议：Llama 3.1 Community License） 🏗️ 方法概述和架构 PersuasionTrace是一个包含实验平台与计算模型的综合框架，旨在研究与模拟多轮说服过程中的信念动态。 ...

Age-Aware Adapter Tuning for Children's Speech Recognition

📄 Age-Aware Adapter Tuning for Children's Speech Recognition #语音识别 #参数高效微调 #自监督学习 #低资源 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #语音识别 | #参数高效微调 | #自监督学习 #低资源 | arxiv 👥 作者与机构论文中未明确列出作者及机构信息。 💡 毒舌点评增量改进，包装先行：论文标题中的“Age-Aware”听起来很前沿，但核心贡献是为不同年龄组训练多个小适配器并进行路由。这本质上是“为不同子群体微调不同模块”的工程实践，学术创新有限。最大的卖点——性能提升，从12.6%到12.3%的WER（0.3%的绝对改进）在语音识别领域属于微弱改善，说服力不足。实验设计存在疑问：12+组的WER极低（4.5%-5.1%），但论文自己也承认该组“仅包含单次发音样本”，与其他组的句子级识别任务完全不同。将不同难度、不同格式的任务混合计算宏WER，并以此论证方法在“所有年龄组”的改进，有混淆视听之嫌。方法在最具挑战的3-4岁组的改进（从8.5%到8.3%）同样微不足道。 “接近”的阈值在哪？：论文反复强调预测年龄路由性能“接近”真实年龄路由。但具体到数字，Top-1预测路由的宏WER（17.9%）比真实路由（17.6%）差0.3%，整体WER差0.1%。这种差距是否可接受取决于实际部署成本，但论文未讨论路由器可能带来的额外延迟和错误传播风险。 FiLM作为对比组显得疲软：FiLM适配器的性能甚至不如简单的“堆叠适配器”（stacked adapter），这要么说明FiLM实现存在问题，要么说明在当前设定下这种动态调制机制对儿童语音的年龄差异过于复杂或无效。论文用它作为主要对比，削弱了“年龄专用适配器更优”这一结论的力度。局限性轻描淡写：作者在结论中承认“不同年龄组的录音和任务构成可能影响分组结果”，但这恰恰是实验设计的核心漏洞，却被一笔带过。没有消融实验验证年龄组划分的合理性，也没有探索其他划分方式。 📌 核心摘要本文研究了在参数高效适配框架下，年龄信息如何改进儿童语音识别（ASR）。研究在预训练的NVIDIA Parakeet-tdt-0.6B-v2模型上进行，首先训练一个适用于所有儿童语音的共享适配器作为基线。随后，提出了两种年龄感知适配策略：1）年龄专用适配器，为每个年龄组训练独立的残差适配器，通过预测的年龄路由器进行选择；2）统一FiLM适配器，使用一个受年龄条件调制的共享适配器。在On Top of Pasketti儿童ASR挑战赛的Word Track数据集（包含3-12岁及以上儿童语音）上的实验表明，使用真实年龄进行路由的年龄专用适配器在所有年龄组上均优于共享适配器基线，将整体WER从12.6%降至12.3%，宏WER从18.4%降至17.6%。使用预测年龄路由的性能接近真实年龄路由（整体WER 12.3%，宏WER 17.8%）。统一FiLM适配器的效果弱于年龄专用适配器。研究结论表明，年龄专用残差适配是改善儿童ASR鲁棒性的有前景且实用的方向。 ...

An ERP Study on Recursive Locative Processing in Mandarin-Speaking Children with Autism

📄 An ERP Study on Recursive Locative Processing in Mandarin-Speaking Children with Autism 5.9/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 📝 5.9/10 | 前50% | arxiv 👥 作者与机构论文作者：王小一（苏州大学）、傅辰曦（苏州大学）、庄子曼、杨彩梅。机构为苏州大学。 💡 毒舌点评这篇论文像一份扎实但缺乏惊喜的实验室报告。它正确地运用了ERP技术去探测一个重要的认知问题（ASD儿童的递归语言加工），并发现了三个成分上系统性的组间差异模式，这本身是值得肯定的。然而，它最大的软肋在于“小”和“浅”：样本量只有12对，让任何结论都笼罩在统计效力不足的阴影下；对“级联假说”这一核心理论主张的支撑，完全依赖于横断面的相关模式，缺乏因果验证的直接证据；方法学细节（如EEG预处理）报告不够充分，限制了结果的可评估性和可复现性。它更像是一项探测性研究，其发现需要更大样本和更深入的设计来确认。 📌 核心摘要本研究使用事件相关电位（ERP）技术，探究了24名普通话儿童（12名ASD，12名TD）在处理两级递归方位结构时的神经活动。通过跨模态句子-图片匹配任务，研究发现TD儿童在结构不匹配时引发了显著的P200（早期预测）和P600（句法重分析）效应，而ASD儿童在这两个阶段的反应均减弱。相反，ASD儿童在不匹配条件下表现出增强的N400效应（语义整合）。此外，ASD儿童在P600时间窗的半球侧化指数（LI）表现出更大的个体间变异性，但该变异性与PPVT（接受性词汇）分数无显著关联。研究结果支持一种“级联假说”：ASD儿童早期结构预测效率的降低，可能导致了后续语义整合成本增加和句法重分析资源不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重。数据集：论文中未提及公开数据集链接。研究使用的实验材料（120个试次，包含匹配与不匹配条件）在论文中描述，但未提供可公开获取的数据集。 Demo：论文中未提及。复现材料：论文详细描述了实验范式（基于E-Prime 3.0的图片-句子验证任务）、EEG预处理流程（使用EEGLAB）及统计模型（R语言LMM），但未提供具体的配置文件、检查点或附录等补充材料。论文中引用的开源项目： EEGLAB：论文在方法部分明确提及使用此工具进行EEG数据预处理。官方仓库：https://github.com/sccn/eeglab 🏗️ 方法概述和架构本研究的核心方法是事件相关电位（ERP）结合跨模态句子-图片匹配范式，用于考察实时语言加工。实验范式与刺激：采用图片-句子验证任务。每试次呈现一张图片（描绘两级递归方位关系）和一句听觉句子。被试需判断句子是否与图片匹配并按键反应。刺激包含120个试次（60匹配，60不匹配）。句子为递归方位结构（如“这是魔方上的尺子上的花朵”），不匹配条件调换两个方位短语的顺序。句子通过文本转语音以词-by-词方式呈现，词间间隔100毫秒，以保证时间锁定精度。关键时间锁定点为第二个方位短语（LocP2，用于分析P200）和句末名词（用于分析N400和P600）。实验分为四个随机区组，并包含练习。 EEG数据记录与预处理：使用32通道Smarting PRO系统（10-20系统）记录脑电，采样率250Hz，线上50Hz陷波滤波。离线参考为TP9/TP10。预处理在EEGLAB中进行，步骤包括：0.1–30 Hz带通滤波，分为-200至1000毫秒的epoch，并进行基线校正。通过目视检查和独立成分分析（ICA）去除伪迹，振幅超过±175 μV的epoch被剔除。（注：原文未提及ICA去除成分的数量及最终保留的trial数量平衡情况） ...