SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory

📄 SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory #基准测试 #数据集 8.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #基准测试 | #数据集 | arxiv 👥 作者与机构 作者:Samiul Alam, Shakhrul Iman Siam, Michael J. Proulx, James Fort, Richard Newcombe, Hyo Jin Kim, Mi Zhang 机构:俄亥俄州立大学 (The Ohio State University), Meta ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 383 words

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

📄 DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities #多模态模型 #自监督学习 #数据集 #基准测试 9.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前25% | #多模态模型 | #自监督学习 | #数据集 #基准测试 | arxiv 👥 作者与机构 Sajad Ebrahimi, Nima Jamali, Bardia Shirsalimian, Kelly McConvey, Wentao Zhang, Jalehsadat Mahdavimoghaddam, Maksym Taranukhin, Maura Grossman, Vered Shwartz, Yuntian Deng, Ebrahim Bagheri University of Toronto, University of Waterloo, Toronto Metropolitan University, University of British Columbia, Vector Institute ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 257 words

Representation Matters in Randomized Smoothing for Audio Classification

📄 Representation Matters in Randomized Smoothing for Audio Classification #数据集 #理论分析 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #音频分类 | #数据集 | #理论分析 | arxiv 👥 作者与机构 Jong-Ik Park, Shreyas Chaudhari, José M. F. Moura, Carlee Joe-Wong 未提及作者机构信息。 💡 毒舌点评 这篇论文像一篇严谨的“用户手册”或“检测报告”,而不是一篇提出新武器的“武器库”论文。它精准地指出了音频领域随机平滑实践中的一个普遍但常被忽视的“歧义性”问题——就像指出不同厂家用不同的尺子量同一件衣服,得出了互相矛盾的“尺寸合格”证书。作者给出的解决方案(报告规范)是正确且必要的,但本质上是社区共识的倡导,而非技术创新。实验是诊断性的,生动地展示了问题的严重性(如有效扰动范数变化230-351倍),但未能进一步证明其报告框架本身能带来性能提升或解决更复杂的场景。对于追求“新SOTA”或“新理论”的读者来说,它可能会显得有些“务虚”;但对于希望进行严谨、可比较的音频鲁棒性研究的同行而言,它又是一篇不可或缺的“卫生标准”指南。分数不高,但价值独特。 📌 核心摘要 本文聚焦于随机平滑(RS)在音频分类中因表示歧义导致的报告不明确问题。作者指出,由于音频处理流水线通常包含归一化、增益控制和特征转换等步骤,RS所认证的输入空间(波形、特征或处理后信号)常常未被清晰定义。为此,论文提出一个表示感知的报告框架,建议明确指定认证对象、扰动位置、增益策略、原始半径、信号相对尺度和任何后处理变换。通过在语音命令(Speech Commands)和环境声(ESC-50)数据集上的诊断性实验,论文量化了不同表示选择(波形平滑、特征平滑、后处理平滑)对认证结果(如认证准确率、有效扰动几何)的具体影响,证明了统一报告规范的必要性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集:Speech Commands(用于关键词检测)和 ESC-50(用于环境声音分类)。论文中未提供具体的获取链接。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的复现配置,包括: 数据集处理:音频为单声道,重采样至 16 kHz,进行 RMS 归一化,并裁剪或填充至固定长度(Speech Commands 为 1 秒,ESC-50 为 5 秒)。 模型架构:一个输入原始波形的 log-mel CNN。具体参数为:64 个梅尔频带,FFT 大小为 1024,窗口长度为 400,跳数长度为 160,包含四个卷积块(通道数分别为 32、64、128、128)。 训练超参数:优化器为 AdamW,学习率为 \(10^{-3}\),权重衰减为 \(10^{-4}\),梯度裁剪为 1.0,使用余弦退火学习率调度。采用 bfloat16 混合精度训练,并在训练时添加标准差为 0.005 的高斯波形增强。Speech Commands 训练 30 个 epoch,ESC-50 训练 200 个 epoch。 认证设置:使用固定预算的蒙特卡洛随机平滑(RS),其中 \(n_0=100\)(用于选择类别),\(n=10,000\)(用于认证),失败水平 \(\alpha=0.001\),\(\sigma\) 取值 \(\{0.0025, 0.005, 0.01, 0.02\}\)。 论文中引用的开源项目: MUSAN:论文中提到用于数据增强(加噪、混响),但未提供链接。 SpecAugment:论文中提到用于数据增强,但未提供链接。 Learnable Audio Frontend (LEAF):论文中提到作为音频前端处理的范例,但未提供链接。 PCEN (Per-Channel Energy Normalization):论文中提到作为归一化前端处理的范例,但未提供链接。 🏗️ 方法概述和架构 本文的核心不是提出一个新的分类器或平滑算法,而是提出一套用于音频随机平滑实验的报告框架和诊断指标。其方法论框架基于对现有RS流程中三个关键失败模式的分析,并据此构建三个报告合同(Contract)来规范化描述。 ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 321 words

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký (论文未在摘要中提供具体机构,通常包括布拉格捷克技术大学、小米、OPPO等) ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 508 words

RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection

📄 RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection #数据集 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前50% | #数据集 | #自监督学习 | #基准测试 | arxiv 👥 作者与机构 Wenze Ren¹, Ke-Han Lu¹, Kai-Wei Chang⁴, Tiantian Feng⁷, Ching Fang⁸, Zhi-Chi Liao², Dao Thi Hai Yen², Syu-Siang Wang⁶, Yu Tsao³, Chi-Te Wang⁵, Shih-Hau Fang² ¹ National Taiwan University, ² National Taiwan Normal University, ³ Academia Sinica, ⁴ Massachusetts Institute of Technology, ⁵ Far Eastern Memorial Hospital, ⁶ Yuan Ze University, ⁷ University of Southern California, ⁸ Taipei Municipal Zhongshan Girls High School ...

2026-06-02 · 更新于 2026-06-12 · 5 min · 854 words

MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors

📄 MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors #语音合成 #语音识别 #自监督学习 #多任务学习 #数据集 🔥 8.5/10 | 前25% | #语音合成 | #多任务学习 | #语音识别 #自监督学习 | arxiv 学术质量 5.7/7 | 影响力 1.6/2 | 可复现性 1.2/2 | 置信度 高 👥 作者与机构 作者:Guangyin Bao, Taiping Zeng, Jianfeng Feng, Xiangyang Xue 机构:复旦大学、中国科学技术大学等(原文未明确列出所有机构) 💡 毒舌点评 这篇论文在非侵入式神经语音重建这个“硬骨头”问题上迈出了扎实的一步,将重建目标从模糊的声学相似提升到“可理解”的语义层面,思路巧妙。然而,其核心优势(生成先验)同时也是阿喀琉斯之踵——“生成幻觉”如同悬顶之剑,论文虽承认但量化不足,让人怀疑在真实、未知语音下的可靠性。频谱相似度不及基线,暴露了其“重语义、轻细节”的本质,这或许是条正确的路,但文章对此的辩护稍显无力。消融实验中声学流的“微弱”贡献令人尴尬,作者试图解释,但证据链不够强。整体而言,这是一篇“想法好于实现精度”的工作,为领域提供了有价值的范式转移方向,但距离鲁棒、可靠的应用还有明显差距。 📌 核心摘要 针对从非侵入式神经信号(EEG/MEG)重建连续可理解语音这一挑战性任务,本文提出了MindVoice框架。核心思想是承认单一神经信号不足以精确重建复杂语音,转而利用多种预训练生成模型(ASR、语音编解码器、TTS)的先验知识来弥补信息缺口。MindVoice采用双流架构:语义流将神经信号与预训练语音VQ-VAE的离散语义码本对齐,并利用冻结ASR模型的语言建模能力补全文本;声学流对齐预训练语音编解码器的声学嵌入以捕获音色等细节。最终,将重建的文本与预测的声学嵌入作为提示,输入预训练TTS模型生成最终语音。在Brennan EEG和Gwilliams MEG两个公开数据集上的实验表明,MindVoice在语义准确性(ASR-BERTScore-F1)、音色相似度(WavLM)和整体感知质量(MOS)上显著优于现有基线(Vanilla, FESDE),但在频谱相似度(mel-MSE)上不占优,揭示了低级频谱误差与感知质量间的不匹配。论文还提供了丰富的可视化分析和消融实验,展示了模型的可解释性与重建偏好。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集: Brennan EEG Dataset:自然语言理解EEG数据集 (Brennan and Hale, 2019)。链接:https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7YPUMT Gwilliams MEG-MASC Dataset:大规模自然语言理解MEG数据集 (Gwilliams et al., 2023)。链接:https://github.com/lprouat/MASC Demo:论文中未提及Demo链接 复现材料:附录A.4提供了详细的模型架构参数和训练超参数。 论文中引用的开源项目: Whisper:ASR模型 (Radford et al., 2023)。链接:https://github.com/openai/whisper FishSpeech-s1-mini:文本到语音(TTS)模型 (Liao et al., 2024)。链接:https://github.com/fishaudio/fish-speech Qwen3-ASR:自动语音识别模型 (Shi et al., 2026)。链接:https://github.com/QwenLM/Qwen-Audio BigVGAN-v2:声码器 (Lee et al., 2023a)。链接:https://github.com/kan-bayashi/BigVGAN FESDE:语音重建基线方法 (Lee et al., 2024)。链接:https://github.com/leesuhungsam/fesde WhisperX:语音对齐工具。链接:https://github.com/m-bain/whisperX MNE:神经信号数据分析库。链接:https://github.com/mne-tools/mne-python spaCy:自然语言处理库。链接:https://github.com/explosion/spaCy BERTScore:文本相似度评估工具。链接:https://github.com/Tiiiger/bert_score SpeechMOS / UTMOS:自动语音质量评估模型。链接:https://github.com/sarulab-speech/UTMOS22 🏗️ 方法概述和架构 MindVoice的总体框架(图2)是一个模块化的三阶段管线,旨在将非侵入式神经信号(EEG/MEG)解码为可理解的语音波形。其核心设计理念是“解耦重建与先验注入”:首先将复杂的端到端重建任务分解为互补的语义内容恢复与声学属性估计两个子任务,然后分别利用对应的预训练生成模型作为强大先验来弥补神经信号的信息缺失。 ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 401 words

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

📄 ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood #自监督学习 #参数高效微调 #语音识别 #音频分类 #说话人日志 #数据集 🔥 8/10 | 前25% | #语音识别 | #自监督学习 | #参数高效微调 #音频分类 | arxiv 学术质量 5.3/7 | 影响力 1.8/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 作者:Tiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan 机构:南加州大学,俄亥俄州立大学,加州大学洛杉矶分校,哈佛大学,波士顿大学,迈阿密大学 ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 264 words

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

📄 Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking #数据集 #数据增强 #多语言 #低资源 #语音合成 #语音识别 🔥 8.6/10 | 前25% | #语音合成 | #数据增强 | #数据集 #多语言 | arxiv 学术质量 5.3/7 | 影响力 1.3/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Songbo Hu1, Yinhong Liu1, Ej Zhou1*, Evgeniia Razumovskaia1, Xiaobin Wang2, Alexander Fraser3, Ivan Vulić1†, Anna Korhonen1† 1语言技术实验室,剑桥大学,英国 2独立研究者 3计算、信息与技术学院,慕尼黑工业大学,德国 *共同第一作者,†共同通讯作者 💡 毒舌点评 这篇论文做了一件“正确但保守”的事:为多语言对话系统构建了一个大规模、高质量的基准数据集。其方法论清晰,开源彻底,是社区需要的基础设施。然而,主要问题在于其“合成”本质和“管道式”评估框架。用LLM生成对话再由人录音,虽然解决了隐私和成本问题,但得到的终究是“假设性”的健康咨询,与真实世界复杂、混乱的患者交互相去甚远。更关键的是,所有基准测试都基于传统的ASR->检索->LLM->TTS管道,这固然是当前的技术现实,但使得数据集的核心价值——支持原生语音对话模型研究——大打折扣。论文在揭示跨语言性能差异上做得不错,但这更多是现有模型(如Whisper, GPT)多语言能力不均衡的反映,而非数据集本身的独特发现。总体而言,这是一篇扎实的资源论文,但未能在方法论或系统评估上带来突破性视角,更像是一份详尽的“使用说明书”。 ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 358 words

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

📄 A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning #多模态模型 #自监督学习 #数据集 ✅ 7.7/10 | 前50% | #多模态模型 | #自监督学习 | #数据集 | arxiv 学术质量 5.3/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 Loukas Ilias, Dimitris Askounis 决策支持系统实验室,电气与计算机工程学院,雅典国立技术大学,15780 希腊雅典 (电子邮件: lilias@epu.ntua.gr; askous@epu.ntua.gr)。 💡 毒舌点评 这篇论文就像给痴呆症检测装了一套“混合动力系统”——一边是BERT的文本理解,一边是HuBERT的听声辨症,还用了个互信息损失(MINE)当“胶水”把两者粘起来。思路清晰,工程上也还算扎实。但问题是,这套系统跑在两个并不算大的数据集上(ADReSS只有156人),就宣称达到了“competitive performance”,这底气有点不足。更让人皱眉的是,在PROCESS-2数据集上,这个复杂的多模态模型居然只比一个简单的BERT基线好那么一丁点儿,甚至在关键的召回率和F1上还略输,这让“多模态融合能捕获互补信息”的主要卖点打了折扣。消融实验倒是做得挺细,从池化、模型选择到融合方式都试了一遍,但这也暴露了它的性能对设计选择非常敏感,稍微换点东西就可能掉下来。总而言之,这是一篇工整但缺乏惊喜的工作,像是完成了一份标准作业,距离真正的临床应用或技术突破还有距离。 📌 核心摘要 本文提出了一种用于基于自发语音的痴呆症自动检测的端到端可训练多模态深度学习框架。该框架分别使用预训练的HuBERT模型和BERT模型从10秒语音片段及转录文本中提取声学和文本表示。为更好捕捉与认知衰退相关的时序声学特征,采用了注意力统计池化(ASP)来聚合帧级声学嵌入。文本表示采用BERT的<S>[CLS]<S> token嵌入。两种模态表示通过一个基于注意力的音频-文本融合(AT-Fusion)机制结合。此外,引入了互信息神经估计(MINE)目标函数,以显式最大化声学与文本表示间的互信息,改善跨模态对齐。在ADReSS Challenge和PROCESS-2两个公开数据集上的实验表明,所提方法在ADReSS测试集的召回率(88.33%)、F1分数(84.31%)和准确率(83.33%)上优于对比的多模态基线。在PROCESS-2数据集(二分类任务)上,取得了81.75%的准确率和83.50%的特异性。消融实验验证了注意力统计池化、MINE目标、HuBERT模型选择以及AT-Fusion策略的有效性。 🔗 开源详情 代码:论文中未提及提供官方代码仓库。 模型权重:论文中未提及提供训练好的模型权重。 数据集: ADReSS Challenge:论文未给出具体下载链接,仅引用了文献[28]。 PROCESS-2:论文提供了公开链接:https://huggingface.co/datasets/CognoSpeak/PROCESS-2。 Demo:论文中未提及。 复现材料:论文未提供训练检查点或完整的复现材料包。但提供了关键的训练配置信息:使用PyTorch实现;在单张NVIDIA A100 PCIe 80GB GPU上训练;批大小为8;使用StepLR学习率调度器(步长为4,衰减系数 γ=0.1);早停策略(验证损失连续8个epoch不下降则停止);互信息损失权重 λ=0.25。 论文中引用的开源项目: BERT: https://github.com/google-research/bert HuBERT: https://github.com/facebookresearch/hubert wav2vec 2.0: https://github.com/facebookresearch/wav2vec XLS-R: 论文中提到 XLS-R 为 wav2vec 2.0 的扩展,共享同一代码库,即 https://github.com/facebookresearch/wav2vec 🏗️ 方法概述和架构 本文提出一个多模态痴呆症检测框架,其整体架构包含文本编码、声学编码、多模态融合与分类四个核心模块,通过端到端训练联合优化。具体流程如下: ...

2026-05-27 · 更新于 2026-06-12 · 4 min · 675 words

Can We Hear from Events? Generating Speech from Event Camera

📄 Can We Hear from Events? Generating Speech from Event Camera #语音合成 #数据集 ✅ 7.8/10 | 前25% | #语音合成 | #数据集 | arxiv 学术质量 5.7/7 | 影响力 1.3/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Jingping Fang, Lin Chen, Chenyang Xu, Tong Zhao, Weidong Cai, Xiaoming Chen† (*并列第一作者,†通讯作者) 机构:北京工商大学(Fang, Chen, Chen),西安电子科技大学(Xu),同济大学(Zhao),悉尼大学(Cai)。论文机构列表顺序与作者顺序对应。 💡 毒舌点评 这篇论文的“初心”很好,试图解决一个真实存在的物理问题——RGB相机的时间分辨率不足导致语音生成中微表情丢失。事件相机(Event Camera)作为解决方案,思路本身具有新颖性。然而,深入阅读后,几个“软肋”暴露无遗:第一,所谓的“真实”数据集EVT-SPK-Real规模极小(仅4小时),且严重依赖一个可微分模拟器V2E来生成大部分训练数据,这极大地削弱了其宣称的“解决RGB传感器根本局限”的力度——本质上还是在模拟数据上训练模型。第二,对比方法的选择有些“拉郎配”,例如将环境音生成模型MMAudio和Diff-Foley通过一个AS后缀转换成语音生成模型来比较,其公平性值得怀疑。第三,方法部分虽详尽,但核心框架(如VITS双流、流匹配解码器)并非独创,创新更多体现在“组合”和“应用”上。作者声称取得了SOTA,但部分优势(如对纯TTS模型的超越)在事件数据条件下是预期中的,而与其他视觉语音生成方法(如VoiceCraft-Dub)的差距在某些指标上并不显著,需要更细致的分析。总的来说,这是一个在新兴传感器数据上做的有意义的探索性工作,但离“成熟可靠”还有距离,且作为顶会论文,其故事性和实验说服力的完整性稍显不足。 📌 核心摘要 本文针对传统基于RGB帧的语音生成模型因固定曝光时间平滑了面部高频微动态而导致生成语音“情感表现力不足”的“时间粒度不匹配”问题,提出了EventSpeech。该框架首次将神经形态事件相机数据引入语音生成任务,利用事件流的高时间分辨率(微秒级)特性来捕捉连续的面部运动学特征。架构上,设计了事件编码器(Event Encoder)和具有分层小波上下文器(HWC)的多尺度音频编码器,并通过双向对齐机制同步文本、视觉事件与音频特征。此外,构建了首个包含大规模合成数据(EVT-SPK-Synth)和真实录制数据(EVT-SPK-Real)的事件语音基准数据集EVT-SPK。实验表明,EventSpeech在保持细粒度情感和抵抗运动模糊方面优于多个基线模型,尤其在真实数据集上展现出优势。 🔗 开源详情 代码:论文中提供了项目主页链接:https://xrfang-0102.github.io/EventSpeechWeb/, 应包含代码和Demo。 模型权重:未提及模型权重的具体下载链接。 数据集:论文中构建并介绍了EVT-SPK数据集,但未提供该数据集的具体下载链接或开源仓库地址。 Demo:在线演示链接随代码一同提供:https://xrfang-0102.github.io/EventSpeechWeb/。 复现材料:论文中提供了部分实现细节(如GPU数量、迭代次数、优化器),但未提供具体的训练脚本、配置文件或模型检查点下载地址。 引用的开源项目: V2E:可微分神经形态事件模拟器,用于将RGB视频转换为事件流。论文引用了文献[15],但未提供具体链接。 OpenFace:用于提取面部动作单元(AU)等特征以提供伪标签监督。论文中提及但未提供具体链接。 HiFi-GAN:预训练的声码器。论文引用了文献[25],但未提供具体链接。 🏗️ 方法概述和架构 EventSpeech框架(如图2所示)旨在建立从异步事件流到连续语音波形的映射,其核心由四个协同模块组成。 ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 449 words