To Be Multimodal or Not to Be: Query-Adaptive Audio-Visual Person Retrieval via Active Modality Detection

📄 To Be Multimodal or Not to Be: Query-Adaptive Audio-Visual Person Retrieval via Active Modality Detection #多模态模型 #说话人识别 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.8/10 | 前50% | #说话人识别 | #多模态模型 | arxiv 👥 作者与机构 作者: Erfan Loweimi, Mengjie Qian, Kate Knill, Guanfeng Wu, Chi-Ho Chan, Abbas Awan, Muhammad Kittler, Josef Kittler, Hui Wang, Mark Gales 机构: 1University of Cambridge, UK; 2Queen’s University Belfast, UK; 3University of Surrey, UK; †Cisco, UK; ‡Southwest Jiaotong University, China; ◆Teesside University, UK ...

2026-06-05 · 更新于 2026-06-16 · 4 min · 782 words

Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

📄 Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs #语音识别 #低资源 5.9/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.2/1.5 📝 5.9/10 | 前50% | #语音识别 | #低资源 | arxiv 👥 作者与机构 Gio Paik, Hyunseo Shin, Soungmin Lee。 机构未在提供的原文中明确说明。 💡 毒舌点评 这篇论文试图解决一个重要的实际问题——代码切换ASR在未见语言对上的泛化。作者很诚实地用现有“轮子”(模型合并、领域泛化)来尝试,也很坦诚地展示了这些方法效果不佳。这本身没问题。问题在于:1)“尝试”本身的技术贡献和新颖性非常有限,更像是一个方法应用的验证性实验,而非提出新解法;2)实验设计存在硬伤,尤其是完全依赖Whisper这一特定架构,其多语言特性和对CS的潜在偏见未被讨论,使得结论的普适性存疑;3)构建的数据集(尤其是ko-de)制作流程(翻译+录制)可能引入了显著的领域偏移,作为评估基准的有效性要打个问号。因此,虽然论文写作清晰、实验“完整”,但核心价值更接近于一个高质量的“负面结果”报告,离顶会论文的创新性和技术深度要求有明显差距。 📌 核心摘要 本文研究了将代码切换(CS)能力从有限的已见语言对(ko-en, ja-en, de-en)泛化到未见语言对(ko-ja, ko-de)的可能性。作者以Whisper-medium为骨干,尝试了三种路径:1)在单个已见语言对上微调;2)使用Task Arithmetic、TIES和DARE等方法合并多个微调模型;3)应用Fish、Fishr和GGA-L等领域泛化方法。实验结果表明,现有的模型合并和领域泛化方法在未见语言对上仅有有限的改进(最佳平均MER为0.32),远未达到实用水平,证明了直接应用这些通用方法对于CS-ASR泛化任务效果不足。参数分析显示,CS适应主要发生在模型的高层表示中。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: Korean-Japanese Code-Switching Speech 评估数据集:论文明确声明将开源,并提供了具体链接:https://huggingface.co/datasets/thetaone-ai/Korean-Japanese-Code-Switching-Speech。 其他训练/评估数据集:论文中引用了多个第三方数据集作为训练和评估基础(如 AI-Hub (ko-en), Shinnosuke et al. (ja-en), Lee et al. (2025) (de-en), Yan et al. (2025) (评估), Paik et al. (2026) (ko-en)),但未提供这些数据集的直接下载链接。这些数据集通常需要通过原始论文或相关研究项目获取。 Demo:论文中未提及。 复现材料: 训练配置:论文附录 A 提供了详细的训练细节,包括: 模型:Whisper-medium。 优化器:AdamW,使用余弦学习率衰减和10%训练步数的线性预热。 超参数: 单语言对微调:batch size 8,73 steps。 多语言对微调及领域泛化实验:batch size 9,195 steps。 合并工具:MergeKit。 计算环境:使用 PyTorch 2.8.0,在 NVIDIA GeForce RTX 4090 GPU 上运行。 检查点:论文中未提及公开发布模型检查点。 附录:论文提供了附录 A(实验细节)和附录 B(参数分析可视化),是复现研究的重要补充材料。 论文中引用的开源项目: Whisper (模型): 名称:Whisper 链接:https://huggingface.co/openai/whisper-medium (论文引用的模型)。 MergeKit (模型合并工具): 名称:MergeKit 论文描述:用于执行 Task Arithmetic、TIES、DARE 等模型合并方法的工具。 链接:https://github.com/arcee-ai/MergeKit (项目官方仓库,论文中引用了其原始论文 Goddard et al., 2024)。 其他方法论(通常由原始论文附带代码,但本文未直接引用其代码库): Task Arithmetic (Ilharco et al., 2023) TIES-Merging (Yadav et al., 2023) DARE (Yu et al., 2024) Fish (Shi et al., 2021) Fishr (Rame et al., 2022) GGA-L (Ballas and Diou, 2025) 注:上述方法的代码实现通常可在其原始论文的作者GitHub页面找到,但本论文未提供具体链接。 🏗️ 方法概述和架构 本文的核心方法并非提出新架构,而是系统性地评估三种现有技术范式在CS-ASR跨语言对泛化任务上的表现。实验流程主要包含三个阶段,且所有阶段均以预训练的Whisper-medium模型作为起点。 ...

2026-06-05 · 更新于 2026-06-16 · 3 min · 523 words

UniVoice: A Unified Model for Speech and Singing Voice Generation

📄 UniVoice: A Unified Model for Speech and Singing Voice Generation #语音合成 8.7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 Junjie Zheng1, Huixin Xue2, Shihong Ren2, Chaofan Ding1, Hao Liu2, Zihao Chen1 1 Giant Network 2 Shanghai Conservatory of Music 💡 毒舌点评 这篇论文瞄准了语音与歌声统一生成中的一个真实痛点——条件冲突,这个动机很好。其提出的因子化条件和学习null token的思路也足够巧妙,理论上很自洽,像一个优雅的“软件工程”解决方案。但是,作为顶会论文,理论深度略显不足,更像是为现有架构做的一个精妙适配,而非从第一性原理出发的突破。实验部分虽然全面,但评估细节(如测试集、人类评估协议)的透明度可以更高。总体而言,这是一篇扎实的“系统设计”论文,创新点清晰,工程价值明显,但理论贡献和颠覆性不足。 ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 320 words

USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding

📄 USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding #音频编码 #知识蒸馏 #自监督学习 #迁移学习 #多任务学习 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9/10 | 前25% | #音频编码 | #知识蒸馏 | #自监督学习 #迁移学习 | arxiv 👥 作者与机构 作者:Heng-Jui Chang, Liu Bhati, Saurabhchand Athi, Mrudula Ratnarajah, Anton Chhetri, Amit Glass, James Glass 机构:MIT CSAIL, USA;Amazon, USA ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 399 words

VoCodec: A Low-bitrate Streamable Neural Speech Codec with Voicing-driven Quantization

📄 VoCodec: A Low-bitrate Streamable Neural Speech Codec with Voicing-driven Quantization #语音编码 #流式处理 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音编码 | #流式处理 | arxiv 👥 作者与机构 第一作者:Xiao-Hang Jiang (江晓航)。 机构:中国科学技术大学,清华大学。 💡 毒舌点评 这篇工作的核心想法——给浊音多分点比特,清音少分点——本身是合理的,甚至可以说是回归了经典语音处理的一个常识。但问题在于,为了证明这个“显而易见”的道理,论文的实验和论证显得有些“小题大做”。作者用了一套看似复杂的神经网络框架,但核心的决策模块(浊音检测器)却异常简单粗暴(能量阈值),这就像用高射炮打蚊子,而高射炮的瞄准镜还是个固定的。此外,论文在多个关键细节上语焉不详(GAN训练、LSTM状态、IVQ的具体贡献),使得这项工作的可复现性和分析深度打了折扣。它更像是一次对StreamCodec的成功“调参”和“魔改”,而非一次深刻的技术突破。所谓27%的比特率节省,在特定条件下成立,但推广性存疑。 📌 核心摘要 VoCodec是一个面向低比特率场景的可流式神经语音编解码器。其核心创新在于提出“发声驱动量化”策略:通过一个基于基频能量的简单阈值检测器判断每帧是浊音还是清音,然后对感知更重要的浊音帧使用精细的残差标量-向量量化(RSVQ),而对清音帧使用粗糙的单标量量化(SQ)。论文在LibriTTS(16kHz)和VCTK(48kHz)数据集上进行了实验,表明VoCodec在1.1 kbps(16kHz)下的感知质量(MUSHRA)优于同为流式的StreamCodec,并接近计算量大得多的BigCodec。进一步的ABX测试显示,VoCodec以1.1 kbps的码率达到了与SQCodec等模型在1.5 kbps下相当的感知质量,实现了约27%的比特率节省。消融实验(VoCodec-r)通过反转量化策略,验证了为浊音帧分配更多比特的有效性。然而,该方法在理论分析深度、关键实现细节的披露、以及在复杂声学环境下的泛化能力验证方面存在不足。 🔗 开源详情 代码:论文中未提及代码开源链接。 模型权重:论文中未提及模型权重开源链接。 数据集:论文中使用了 LibriTTS 和 VCTK 数据集。获取链接如下: LibriTTS: 通常通过 LibriSpeech 官方工具或 HuggingFace 获得(论文未提供直接链接)。 VCTK: https://datashare.ed.ac.uk/handle/10283/3443。 Demo:论文中提供了语音样本演示页面:https://pb20000090.github.io/VoCodec/。 复现材料:论文未提供训练代码、检查点、具体训练脚本或配置文件的下载链接。 论文中引用的开源项目: StreamCodec:作为VoCodec的基础架构,论文未提供其代码仓库的具体链接。 HiFi-GAN:被用作解码器的vocoder,其官方代码仓库为 https://github.com/jik876/hifi-gan。 SoundStream 和 Encodec:作为相关工作被引用,提供了官方实现链接。 SQCodec:论文指出其官方发布仅提供了16 kHz下1.5 kbps的实现,未提供完整开源仓库。 🏗️ 方法概述和架构 VoCodec采用全因果的编码器-解码器架构,适用于流式传输。其整体流程如图1所示,包含四个核心组件:编码器、发声检测器、发声驱动量化器和解码器。 ...

2026-06-05 · 更新于 2026-06-16 · 3 min · 456 words

Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

📄 Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents #大语言模型 8.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前25% | #大语言模型 | #大语言模型 | arxiv 👥 作者与机构 Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen Carnegie Mellon University, Rice University, Singapore National University ...

2026-06-05 · 更新于 2026-06-16 · 2 min · 250 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-06-16 · 28 min · 5851 words

A Second-Order Cepstral Signature of Contact-Vibration Sounds Reproduced by Laptop Loudspeakers: A Synthetic Case Study

📄 A Second-Order Cepstral Signature of Contact-Vibration Sounds Reproduced by Laptop Loudspeakers: A Synthetic Case Study #倒谱分析 #信号处理基础 4.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 4.8/10 | 后50% | #信号处理基础 | #倒谱分析 | arxiv 👥 作者与机构 Jim Salsman, TalkNicer, Inc. 💡 毒舌点评 一篇非常初步的、探索性的合成案例研究。其核心思想(用“二阶倒谱”描述接触振动声)是新颖的,但实现方式极其简化,验证严重不足。论文花费大量篇幅构建并描述了一个六阶段的合成信号链,但这本质上是一个“自证预言”的玩具模型——你精心设计了每一步,然后去验证你预先设定的结论。整个分析缺乏任何真实世界的验证,使得所有结论都停留在“如果我的模型正确,那么……”的层面。作者诚实地列出了局限性,但这也正说明了本文目前只能算一个技术备忘录,远未达到发表级别。创新性虽有,但被其薄弱的实验基础和几乎为零的工程实用性所抵消。 📌 核心摘要 本文提出使用二阶倒谱(即对一阶倒谱再次进行倒谱分析)作为一种探索性描述符,来刻画通过笔记本电脑扬声器播放的手机振动接触声音的感知独特性。作者构建了一个包含六个阶段的合成信号链模型(机械产生、表面/空气传播、麦克风采集、编码/解码、笔记本播放、再录制/后处理),并在此合成数据上进行分析。结果显示,一阶倒谱的周期性在整个信号链中得以保留,而更清晰的二阶倒谱双峰性结构在机械源阶段(阶段1)和笔记本扬声器播放阶段(阶段5)最为明显。作者将此结果解释为支持一个假设:笔记本电脑的播放可能重新强调了潜在于接触振动中的、在中间录制和编码形式中表达不够清晰的周期性结构。 🔗 开源详情 代码:未提供。论文声明使用ChatGPT 5.5协助生成代码,但未公开。 模型权重:未提及。 数据集:合成数据。论文中称“合成数据……可按需提供”,但未提供下载链接或访问方式。 Demo:未提及。 复现材料:未提及。 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 本文的核心方法是构建一个六阶段的合成信号链,并对每个阶段的输出信号进行一阶和二阶倒谱分析。 ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 260 words

Channel-Oriented Design for EEG-to-Music Reconstruction

📄 Channel-Oriented Design for EEG-to-Music Reconstruction #音乐信息检索 #音频生成 #自监督学习 #对比学习 #数据增强 7.7/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #音乐生成 | #自监督学习 | #音乐信息检索 #音频生成 | arxiv 👥 作者与机构 Jiaxin Qing (UC Berkeley), Junwei Lu (Harvard University), Lexin Li (UC Berkeley) 💡 毒舌点评 这篇论文在脑机接口的细分赛道——EEG-to-Music重建上,精准地抓住了“通道信息早期混合”这个痛点,并提出了一个逻辑自洽、组件清晰的解决方案。理论分析虽简化,但为设计选择提供了合理的数学依据,比单纯喊口号强。实验部分,与当前SOTA基础模型的对比很到位,证明了专用设计优于通用预训练模型在特定任务上的表现。可解释性分析更是点睛之笔,将EEG的通道注意力与听觉处理脑区关联,提升了工作的可信度和价值。不过,其“对齐+固定生成器”的管道设计虽能隔离贡献,但也限制了对生成阶段优化潜力的探索。在通用性方面,模型对电极配置的固定依赖是一个明显的实用化短板。总的来说,这是一篇扎实、聚焦、有洞察力的工作,配得上顶会水准。 📌 核心摘要 本文研究了从EEG信号重建音乐这一具有挑战性的任务。作者指出,现有方法中过早地混合通道信息会破坏EEG中微弱但有区分度的信号。为此,提出了一个“通道导向”的设计框架,其核心包含三个组件:通道级标记化(将每个电极视为独立标记以保留空间局部证据)、通道级多视图自蒸馏(强制模型在不同时间裁剪和随机通道子集之间保持一致性,以学习鲁棒且分布式的表示)和通道级数据增强(通过结构化的通道丢弃提高对噪声和缺失电极的不变性)。这些组件被集成到一个编码-对齐-解码的管道中。从理论上,论文分析了通道级遮蔽相比块级遮蔽在何种条件下能降低跨类重叠。在实验上,通过与多种基线方法(包括专门的EEG2Mel和通用的EEG基础模型LaBraM、EEGPT、CBraMod)进行系统对比,在语义重建(CLAP score 0.683)和嵌入级对齐(50-way 识别准确率0.487)指标上取得了最佳性能。消融研究验证了每个组件的贡献,可解释性分析揭示了与听觉处理相关的通道注意力模式。 ...

2026-06-04 · 更新于 2026-06-16 · 2 min · 382 words

CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

📄 CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding #语音编码 #语音合成 #语音识别 #对比学习 8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前25% | #语音编码 | #自监督学习 | #语音合成 #语音识别 | arxiv 👥 作者与机构 Eugene Kwek (Pennsylvania State University), Feng Liu (Drexel University), Rui Zhang (Pennsylvania State University), Wenpeng Yin (Pennsylvania State University)。 ...

2026-06-04 · 更新于 2026-06-16 · 4 min · 720 words