📄 SelectTSL: Prompt-Guided Selective Target Sound Localization in Complex Scenarios

7.1/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5

✅ 7.1/10 | 前50% | #声源定位 | #端到端 | arxiv

👥 作者与机构

第一作者：Ziyang Jiang（未说明机构）
通讯作者：未说明
作者列表：Ziyang Jiang、Yu Chen、Zexu Pan、Xinyuan Qian、Bowen Xing、Ivor W. Tsang、Xu-Cheng Yin、Haizhou Li。作者机构在论文中未明确列出，仅标注了部分作者的IEEE会员身份：Ziyang Jiang (Student Member, IEEE)、Zexu Pan (Member, IEEE)、Xinyuan Qian (Senior Member, IEEE)、Ivor W. Tsang (Fellow, IEEE)、Xu-Cheng Yin (Senior Member, IEEE)、Haizhou Li (Fellow, IEEE)。

💡 毒舌点评

该工作将提示驱动的目标声提取与选择性空间定位进行端到端联合建模，提出的提取知情嵌入（EIE）驱动IPD增强器以及基数预测头设计，在动态多源场景下形成闭环，实验对比扎实。但场景仅限于双通道、最大两目标，且对混响鲁棒性的分析缺乏深度理论支撑，真实房间泛化性能波动较大，更像一次出色的工程集成而非范式级突破。

📌 核心摘要

要解决的问题：在复杂多声源干扰和噪声中，仅根据用户提供的文本或音频提示，选择性地估计指定目标声源的到达方向（DoA）并处理时变源数量。
方法核心：提出 SelectTSL，一个端到端框架，利用提示引导选择性注意力模块（PGSA）从双通道混合信号中提取目标幅度，并生成提取知情嵌入（EIE），以此驱动 IPD 增强器细化空间相位差，再与目标幅度融合，通过渐进式优化时序模块（PRTM）和双预测头同时输出帧级 DoA 后验图和源数量分布。
新在何处：首次将提示引导的目标声提取与空间定位统一为端到端可训练系统，通过 EIE 显式调控空间线索增强，并用基数预测头动态处理未知、时变的活跃目标数，区别于传统“对所有源定位”或“只提取波形”的独立范式。
主要实验结果：在合成双通道测试集上，SelectTSL 达到 MAE 0.98°、F1 95.67%、MOTA 91.57%，大幅领先 IPDNet、EINV2、SEL 等基线。在真实房间 TAU-SRIR 上平均 MAE 2.62°、MOTA 0.77。消融实验表明 PGSA、IPD 增强器和基数头均起关键作用。
实际意义：为智能音箱、助听器等提供了可交互的语义级选择性定位能力，用户可通过自然语言或参考音频指定关注目标，在干扰和噪声中仅追踪该目标。
主要局限性：仅支持双通道 180° 水平面定位和最多 2 个目标（Nmax=2）；对高混响、大房间和快速非平稳运动的鲁棒性不足；依赖 CLAP 嵌入，未见对开集类别的零样本扩展讨论；未提供计算复杂度分析。

🔗 开源详情

代码：论文中声明“Dataset and code will be released”，但未给出具体仓库地址或链接。
模型权重：论文中未提及模型权重或发布方式。
数据集：论文使用自建合成数据集（未公开），同时使用了以下公开数据集作为音源和噪声：
- LibriSpeech: https://www.openslr.org/12
- CC-Music Pianos: 未给出具体链接，可参考 https://github.com/ccmusic-database/pianos
- GuitarSet: https://guitarset.weebly.com/
- AudioSet: https://research.google.com/audioset/
- WavCaps: https://github.com/XinhaoMei/WavCaps
- MS-SNSD: https://github.com/microsoft/MS-SNSD
- WHAM!: https://wham.whisper.ai/
- ESC-50: https://github.com/karolpiczak/ESC-50
- UrbanSound: https://urbansounddataset.weebly.com/
- QUT-NOISE: https://research.qut.edu.au/saivt/databases/qut-noise-databases/
- Musan: https://www.openslr.org/17/
- TAU-SRIR (真实房间录音子集): https://doi.org/10.5281/zenodo.6408611
Demo：论文中未提及在线演示。
复现材料：论文中未提供额外复现材料（如检查点、训练日志等），仅在第 V-B 节给出了给出了详细的超参数和实现细节。
论文中引用的开源项目：
- GPURIR: https://github.com/DavidDiazGuerra/gpuRIR
- CLAP: https://github.com/LAION-AI/CLAP
- DPRNN / Conv-TasNet: 基于公开的 Speech Separation 基线（如 https://github.com/naplab/Conv-TasNet, https://github.com/yluo42/TAC 等，文中未直接给出链接）
- DCASE 2025 Task 3 baseline: 相关资源见 https://dcase.community/challenge2025/task-sound-event-localization-and-detection
- 其他依赖（如 Qwen2.5-7B）: https://github.com/QwenLM/Qwen2.5
- 文本提示改写使用 Qwen2.5-7B 生成同义句，用于评估语义相似度对文本单模态性能的影响。

🏗️ 方法概述和架构

SelectTSL 是一个端到端神经网络，输入双通道混合音频、可选的文本提示或 1 秒音频提示，输出帧级 DoA 后验图（180 个方位角 bin，0°–179°）和源数量分布（0、1、2 的目标数）。系统由两个主要模块级联：提示引导选择性注意力模块（PGSA）和 DoA 估计器。

PGSA 模块充当语义滤波器，负责从混合信号中提取与提示相关的目标成分，并产生 EIE 供下游空间增强使用。其结构包括：

音频编码器：器：对两通道信号做 STFT（nfft=1024，hop=256，16kHz），分离幅度谱和空间线索（IPD、ILD）。幅度谱经一维卷积和 ReLU 后得到编码特征 \(H^{(enc)}_m \in \mathbb{R}^{D_{emb} \times T_{in}}\)，其中 \(D_{emb}=256\)。
提示编码器：使用冻结的 CLAP 模型分别提取音频提示（1 秒参考音频）和文本提示的嵌入，通过各自 MLP 投影层投影到 256 维，再拼接为 512 维的联合引导向量 \(c_{fused} = [c_{audio}; c_{text}] \in \mathbb{R}^{512}\)。训练时仅优化投影层。
融合层（Fusion Layer）：采用两阶段 FiLM，由 \(c_{fused}\) 生成缩放和移位参数，先调制全维度编码特征，经投影后再由下采样引导调制投影特征，最终得到 \(H^{(fused)}_m\)。
提取网络（Extraction Network）：将融合后的特征分块（chunk 长 128，50% 重叠），使用 6 个 DPRNN 双路径 RNN 块（隐藏维度 64）进行帧内和帧间建模，并周期性注入跨注意力（cross-attention）将语义引导信息 \(c_{fused}\) 重新混入音频特征。最终输出软掩码，经 MLP 解码器重建目标幅度谱 \(\hat{A}_1, \hat{A}_2\)。同时从最后 \(K_{EIE}=2\) 个 DPRNN 块的中间特征（经线性投影对齐到频域）提取 EIE，即 \(K_{EIE}\) 张频-时特征图 \(H^{(eie)} \in \mathbb{R}^{K_{EIE} \times F \times T_{in}}\)，这些图保留了哪些时频区域属于目标的信息。仅使用第一通道的提取幅度 \(\hat{A}_1\) 供 DoA 估计器使用。

DoA 估计器接收 \(\hat{A}_1\)、原始混合 IPD cos/sin 值、ILD 和 EIE，分两步工作：

IPD 增强器（IPD Enhancer）：包含两个并行分支——声学分支对 \(\hat{A}_1\)、cos(IPD)、sin(IPD)、ILD 拼接后的 4 通道谱图用深度可分离 Conv2d 提取精细的谱-空间特征；语义分支对 EIE 做语义头处理，经全局池化生成尺度、移位和空间门控参数。两者通过带门控的 FiLM 融合（\(\tilde{A} = (1 + g(A_{sem})) \odot \text{FiLM}(A_{ac}, A_{sem})\)），再经融合头预测 cos/sin IPD 残差 \((\Delta C, \Delta S)\)，通过 atan2 恢复增强后的 IPD：\(IPD_{enh} = \text{atan2}(S_0 + \Delta S, C_0 + \Delta C)\)。这使得 IPD 在目标方位上被锐化，干扰引起的相位被削弱。
渐进式细化时序模块（PRTM）：将增强 IPD、ILD 和 \(\hat{A}_1\) 沿频率维拼接为 \(z_\tau\)，经线性投影后通过堆叠的特征细化块（FRB）逐层融合，每个 FRB 包含深度可分离 1D 卷积、SE 模块和残差连接，默认深度为 2。之后送入扩张 TCN（通道 256）和双向 GRU（隐藏 256）建模长程时序依赖。最后用时间对齐层将帧率从 \(T_{in}=251\) 压缩到标签分辨率 \(T_{out}=75\)。
预测头：对齐后的特征 \(H^{(aligned)} \in \mathbb{R}^{T_{out} \times 512}\) 分别由两个线性投影头输出 DoA 后验图（经 sigmoid，\(\hat{P}_{DoA} \in [0,1]^{T_{out} \times 180}\)）和源数量概率分布（经 softmax，\(\hat{P}_{card} \in [0,1]^{T_{out} \times 3}\)）。推理时先取预测的源数量 \(\hat{n}_t = \arg\max \hat{P}_{card}(t, \cdot)\)，再从经圆形高斯平滑和自适应阈值（\(\tau_t = \max(\mu_t + \sigma_t, 0.3)\)）处理的 DoA 后验图中选取 Top-\(\hat{n}_t\) 局部峰值作为方位估计。

训练采用联合损失：提取部分负 SI-SNR（双通道均值），定位部分 BCE 做多标签 DoA 监督，CE 做源数量分类，总损失 \(L = \omega_{sel} L_{sel} + \omega_{DoA} L_{DoA} + \omega_{card} L_{card}\)，权重设为 \((\omega_{sel}, \omega_{DoA}, \omega_{card}) = (1, 100, 1)\)，以平衡不同损失的量级差异（DoA 的 BCE 因标签稀疏而归一化后数值极小，需放大权重防止梯度消失）。

💡 核心创新点

提示引导选择性声源定位任务与统一框架：首次将文本/音频提示与多通道空间定位进行端到端联合建模，使系统可根据用户意图只输出指定目标的方位轨迹。此前 SSL 无选择性，TSE 丢失空间信息，本工，本工作弥合此鸿沟。
提取知情嵌入驱动的 IPD 增强：提出 EIE 和 IPD 增强器，利用提取网络内部语义特征直接调控空间线索，使相位差在目标方向得到强化。消融实验表明移除 IPD 增强器使 MAE 从 0.98° 升至 2.10°，MOTA* 从 0.92 降至 0.69。
动态基数预测与解耦定位：用独立的基数头预测每帧目标源数量，与 DoA 后验图解耦，通过推理时的 Top-\(\hat{n}_t\) 峰值选取自然适配多目标、间歇静音等时变场景。消融实验表明移除基数头使 MOTA* 从 0.92 降至 0.58，且将基数嵌入注入 DoA 头反而不如解耦设计。
多模态提示协同及真实场景泛化：实验验证文本和音频提示互补，单一模态下性能下降（文本 Only MAE 1.12°，音频 Only MAE 1.57°）；在真实 TAU-SRIR 房间中保持可用，平均 MAE 2.62°，展示了跨场景迁移潜力。还验证了模型在缺失提示比例达 30%–70% 时的退化趋势及对语义相似度变化的敏感性。

📊 实验结果

下表为表 III 的核心数据（静态和动态指标）：

模型	输入条件	MAE (°)↓	F1 (%)↑	MOTA* (%)↑	OSPA-T (°)↓
IPDNet	Mix	4.60	23.63	21.88	11.09
EINV2	Mix	11.37	40.36	7.91	11.26
SRP-DNN	Mix	6.24	31.34	6.98	11.21
FN-SSL	Mix	7.01	17.41	18.23	10.09
SEL	Mix	5.37	30.45	6.70	13.14
SEL	Sel-Joint	2.78	49.50	16.25	7.96
SelectTSL (Ours)	Mix	0.98	95.67	91.57	2.08

SelectTSL 在混合条件下远超所有基线，尤其在轨迹级 MOTA*（91.57%）和 OSPA-T（2.08°）上表现突出，说明轨迹连续性和准确性大幅提升。注意表中 Clean 参考输入下的各基线数据（如 IPDNet Clean MAE 1.40°、EINV2 Clean MAE 1.45°）在此省略，完整数据见原文表 III。

消融实验（表 IV、V、VI、VII）

PGSA 与耦合：禁用 EIE（\(K_{EIE}=0\)）使 MAE 升至 1.21°，MOTA 降至 87.93%；用原始混合幅度替代目标幅度（Mix→DoA）导致 MAE 3.32°，MOTA 49.16%，表明目标引导至关重要。
空间线索：去掉 ILD 使 MAE 升至 1.79°，MOTA 降至 77.27%；去掉 IPD 使 MAE 3.89°，MOTA 43.30%；去掉所有空间线索更差（MAE 4.54°，MOTA* 37.48%），证明 IPD 增强是核心，但 ILD 也有贡献。
IPD 增强器：直接使用原始 IPD 而非增强版本（A4），MAE 2.71°，MOTA 0.53；仅保留语义分支（A2）MAE 1.40°/MOTA 0.84，优于仅保留声学分支（A3）的 MAE 1.62°/MOTA* 0.80，但两者均不如完整设计。
EIE 块数：默认 \(K_{EIE}=2\) 最优；\(K_{EIE}=1\) 时 MAE 1.43°/MOTA* 0.89 接近；\(K_{EIE}=3\) 或 4 时性能单调下降（MAE 1.95°/2.25°），说明过多 EIE 块注入噪声。
基数头：移除基数头后 MOTA* 骤降至 0.58，OSPA-T 升至 6.33°；将基数嵌入注入 DoA 特征（Embed 或 Card-head attention）反而不如顶部峰值选取解耦设计（MAE 1.52°/1.87° vs 0.98°）。
提示模态：文本 Only MAE 1.12°，MOTA 0.86；音频 Only MAE 1.57°，MOTA 0.81；两者联合最佳。
训练策略：两阶段训练（先训提取再固定训 DoA）MAE 1.28°，MOTA* 0.82，不如端到端联合训练。
FRB 消融：完全移除 FRB 使 MAE 升至 3.80°，MOTA* 降至 0.38；默认深度 ×2 优于 ×1（MAE 1.52°）或 ×3/×4；移除 SE、卷积或残差连接均使性能下降。
语义相似度：文本提示语义相似度 [0.85,1.00] 时 MAE 1.94°/MOTA 0.74，降至 [0.50,0.70) 时 MAE 3.48°/MOTA 0.43，证实语义准确性对文本单模态至关重要。

鲁棒性测试（表 VIII–XI）

房间尺寸与混响（难度 A→C）：从简单房间（MAE 2.36°，MOTA 0.61）到最复杂（MAE 3.03°，MOTA 0.46），性能单调下降。房间尺寸从 [3.6,4.6]m 扩展到 [3.5,7.0]m，T60 从 [0.20,0.35]s 扩展到 [0.20,0.65]s。
运动速度（Bucket A→D）：慢速（±5°）MAE 1.20°，MOTA 0.96；快速（±50°）MAE 2.32°，MOTA 0.53。运动速度增加导致帧间方向突变，破坏时序平滑性。
运动模式：全静态场景 MAE 0.15°，MOTA 0.98；仅背景运动影响轻微；目标运动（无论背景是否运动）MAE ≈0.97°，MOTA ≈0.92。
缺失提示比例：无提示比例 30% 时 MAE 1.00°，MOTA 0.92；70% 时 MAE 2.53°，MOTA 0.60。
真实房间 TAU-SRIR：平均 MAE 2.62°，MOTA* 0.77；小型地毯教室（PB132）最佳 MAE 0.82°，大礼堂（SA203）最差 MAE 6.89°；SE203 教室 MAE 0.79° 但 OSPA-T 4.74°，反映轨迹关联断裂问题。

🔬 细节详述

训练数据：合成数据集 288.9 小时训练，31.1 小时验证，18.1 小时测试（共 208,008/22,392/13,032 条片段）。源信号来自 LibriSpeech（语音）、CC-Music Pianos、GuitarSet（乐器）、AudioSet、WavCaps（通用声事件）；噪声来自 MS-SNSD、WHAM!、ESC-50、UrbanSound、QUT-NOISE、Musan。房间默认尺寸 4×4×2 m，T60=0.2 s，双麦克风间距 20 cm（坐标 [1.9,2.0,1.0] 和 [2.1,2.0,1.0]），运动轨迹 5 s，15 Hz 标签（\(T_{out}=75\) 帧），SNR 在 \([-5, 5]\) dB 均匀采样。
真实数据：TAU-SRIR 9 个房间子集（Bomb shelter, Gym, PB132, PC226, SA203, SC203, SE203, TB103, TC352），使用对称麦克风对（mic 0 和 2）渲染固定 SRIR 片段，每个片段 5 s，共 72,000/9,000/9,000 条片段分别用于训练/验证/测试。
损失函数：提取损失为双通道负 SI-SNR 均值；DoA 损失为 BCE BCE（180 个方位 bin 的多标签分类）；基数损失为 CE（3 类）；权重 \(\omega_{sel}=1\)，\(\omega_{DoA}=100\)，\(\omega_{card}=1\)。
训练策略：Adam 优化器，学习率 \(5 \times 10^{-4}\)，梯度裁剪范数 1，最多 200 轮，早停耐心 10。batch size 未说明。
关键超参数：STFT 参数：nfft=1024，hop=256，16kHz 采样率，得 \(F=513\)，\(T_{in}=251\)；\(D_{emb}=256\)；DPRNN 块数 \(N_{dprnn}=6\)，chunk 长 \(L_{chunk}=128\)，隐藏维度 \(D_h=D_c=d_k=64\)；EIE 块数 \(K_{EIE}=2\)；FRB 默认深度 2；TCN 通道 \(C_{tcn}=256\)，GRU 隐藏 \(D_{gru}=256\)（双向拼接后 512）；\(T_{out}=75\)，\(\Theta=180\)，\(N_{max}=2\)。
训练硬件：未说明。
推理细节：后处理含圆形高斯平滑（考虑 0°-180° 环绕）、自适应阈值峰值选取（\(\tau_t = \max(\mu_t + \sigma_t, 0.3)\)），结合预测源数量选 Top-\(\hat{n}_t\) 峰值。
正则化：未特别说明，但损失权重 \(\omega_{DoA}=100\) 对防止 DoA 梯度消失起到关键平衡作用。

⚖️ 评分理由

创新性 (1.2/2)：首次将提示引导的 TSE 与空间定位形成统一的端到端框架，提出 EIE 调控空间线索架构和基数预测解耦策略，有效解决了选择性定位和动态源数量问题。但核心组件（DPRNN、FiLM、CLAP 等）多为现有模块的组合，整体方法论未跳出“分离+定位”范式，创新更多体现在系统整合和耦合设计上。CLAP 作为冻结编码器的使用方式在 TSE 领域已有大量先例。
技术严谨性 (1.2/1.5)：架构设计合理，损失权重和输出表征经过仔细设计（\(\omega_{DoA}=100\) 的动机阐明确切）。IPD 增强的残差预测方法可行但缺乏严格信号处理保证，未分析 atan2 恢复增强 IPD 时可能引入的相位不连续问题。依赖 CLAP 嵌入，未讨论在未见过类别上的行为或嵌入空间特性。基数预测与 DoA 的解耦论证清楚，但表 VII 中更紧密耦合的设计反而更差的原因仅归为“distort spatial structure”，缺乏深入分析。
实验充分性 (1.2/1.5)：与四个流派共 10 余种基线对比，消融实验深入系统（耦合、空间线索、EIE 块数、IPD 增强器分支、FRB 结构、基数头耦合方式、提示模态、语义相似度、训练策略），并包含运动速度、房间混响难度、运动模式、缺失提示比例及真实房间泛化测试。不足：仅评估双通道和最多 2 目标（\(N_{max}=2\)），未涉及更多通道或 3+ 目标的扩展测试；无统计显著性检验（如多次随机种子下的标准差）；真实房间评估使用固定 SRIR 渲染单源静态位置，缺乏真正的多源移动和动态混响变化场景；未与最新视听定位或大模型驱动的定位方法对比。
清晰度 (0.8/1)：整体结构清晰，图 2 架构图质量高，符号体系一致。但缺失 batch size、训练硬件等细节；图 3 和 4 的可视化虽有信息量但缺少定量分析的补充说明；部分超参数（如 chunk 重叠 50%）仅在文字描述中提及，表格汇总中未列出。
影响力 (1.0/1.5)：为选择性空间感知提供了新的统一框架，有望推动可交互 SSL 和听觉注意研究，在智能音箱、助听器等场景有应用潜力。但当前只限双通道和 2 目标，真实场景推广尚需大量工作；方法较工程化，缺乏通用理论贡献（如选择性定位的信息论基础或泛化界分析），影响力更多是技术路线示范而非领域里程碑。若能开源代码和数据集将提升影响力。
开源 (0.5/1.5)：论文承诺将发布代码与数据集（“Dataset and code will be released”），但目前未提供链接或仓库。无下载权重、无 DEMO 链接，因此仅兑现承诺得部分分。
可复现性 (0.4/0.5)：超参数、损失权重、网络结构、数据生成流程等关键细节均已给出，包括 STFT 参数、各模块维度、层数、激活函数，可独立复现。仅缺失 batch size 和硬件环境，不影响核心复现。
工程/实践价值 (0.8/1.5)：提供了完整的端到端流水线，涵盖特征提取、提示融合、相位增强和轨迹生成，可参考价值高。但相对工业级鲁棒性要求（如极低功耗、实时性）未评估；未提供推理延迟或参数量分析；限于双通道及合成主训，距实际部署仍有差距。

🚨 局限与问题

论文明确承认的局限：

仅支持双通道水平面 180° 定位，存在前后模糊，未扩展到三维或更多麦克风（Conclusion 中提到未来工作考虑视觉提示等扩展）。
当前最多处理两个目标（\(N_{max}=2\)），更高重叠数下需扩展。
运动速度快、大房间高混响条件下性能下降；依赖 CLAP 嵌入，未见对未知类别和复杂文本的讨论。
未来工作提到融合视觉提示（Conclusion）。

审稿人发现的潜在问题：

所有实验中的目标数量最多为 2。虽然基数头理论上可扩展至 \(N_{max}>2\)，但未验证训练稳定性、标签稀疏性加剧和精度下降风险。在 DCASE 场景中同时活跃 3+ 同类别声源并不罕见，当前设定回避了这一现实挑战。。
IPD 增强器的设计依赖提取网络提供的 EIE，但提取网络若严重出错（如将干扰误认为目标），可能反向污染空间线索。论文未分析这种错误传播的鲁棒性，也未报告提取网络的 SI-SNR 指标，使读者无法独立判断提取质量对定位的影响。
真实房间评估中每个 5 s 片段使用单个固定 SRIR 渲染静态源，缺乏真正的多源移动和动态混响变化（TAU-SRIR 本身提供多位置 RIR，但论文只取单点渲染），对真实运动场景的泛化可能被高估。真实动态混响场景中的 IPD 变化远比静态 RIR 复杂。
未提供计算复杂度或实时性分析（参数量、FLOPs、推理延迟）。对于可能落地于助听器等低功耗设备的任务，这是明显缺失。
多模态提示融合策略较简单（拼接后 FiLM），未详细对比不同融合方式（如门控跨注意力、提示加和等）的收益和局限。仅通过“二元 mask”实验（零化某一模态）说明互补性，缺少对融合机制本身的系统性消融。
训练策略仅比较了端到端与两阶段，未探索更先进的训练课程（如先简单场景后复杂场景的渐进式训练）、对抗训练或数据增强对鲁棒性的影响。
论文声称“大幅领先所有基线”，但在 Mix 条件下的某些基线（如 EINV2 的 F1 0.40 vs SelectTSL 的 0.96 差距确实巨大），部分基线（如 DCASE25、embed-ACCDoA）在 Mix 条件下几乎失效（F1≈0），这可能说明基线适配不够公平。例如，这些基线在原始论文中使用更多麦克风或 Ambisonics 输入，双通道适配可能未充分调优。

← 返回 2026-07-03 语音/音乐/音频论文速递

📄 SelectTSL: Prompt-Guided Selective Target Sound Localization in Complex Scenarios#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

消融实验（表 IV、V、VI、VII）#

鲁棒性测试（表 VIII–XI）#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#