Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction
📄 Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction #蛋白质工程 #图神经网络 #特征工程 #分子属性预测 ✅ 7.5/10 | 前25% | #蛋白质工程 | #图神经网络 | #特征工程 #分子属性预测 | arxiv 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院) 通讯作者:Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 作者列表:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院)、Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 💡 毒舌点评 这篇论文的亮点在于其“物理直觉先行”的建模思路:不是让模型自己从数据中“黑箱”学习,而是先将荧光蛋白发光的核心——发色团(CRO)及其微环境——拆解成可解释的“通道-信号-区域”传播图,这比直接用通用大模型“炼丹”更有说服力。但短板也同样明显:代码和数据均需“申请获取”,这种“半开源”状态在2024年显得有些保守,极大限制了结果的快速复现和领域内的竞争性验证。 📌 核心摘要 问题:荧光蛋白的量子产率(QY)由成熟发色团及其三维微环境决定,但现有预测方法(如序列相似性、通用蛋白质语言模型)未能显式建模局部物理信号如何作用于发色团的特定区域。 方法核心:提出一种以发色团为中心的“机制图”算法。将蛋白质PDB结构转化为分类型的3D残基图,对成熟发色团进行轻量级规则注册并将其分解为酚盐、桥连、咪唑啉酮三个功能区域,然后通过特定的物理接触通道(本文因结构数据限制,仅激活了立体位阻和疏水接触)将周围残基的物理化学信号(如体积、柔性、电荷、氢键能力等)传播至各区域,形成可解释的富集特征。最终,从121个候选特征中筛选出52个非身份特征池,并训练波段特异性的ExtraTrees回归模型。 创新性:与已有方法相比,其创新在于:① 问题表示从序列/通用图转变为以成熟发色团为锚点的三维机制图;② 引入“边缘特定信号传播”,将物理接触路径(通道)与传递的物化信号解耦,并明确作用区域,使每个特征都成为一个“通道-信号-区域”元组;③ 通过系统移除残基身份特征(如is_Tyr),构建了一个更具迁移性的非身份特征池,以提升对远缘同源蛋白的泛化能力。 主要结果:在包含531个荧光蛋白的基准数据集上,该方法在随机交叉验证中取得了最佳的预测性能,优于Band mean, ESM-C, SaProt等基线。关键优势体现在远缘同源性评估中,其在最困难的远缘区间(序列相似性<50%)性能显著高于所有基线。在需要筛选高/低QY蛋白的Top-K任务中,该方法也表现最佳。稳定选择的特征形成了可解释的波段特异性模式。 ...