Bootstrap

训练分子性质分类预测模型——赛题深入解析

赛题任务

选手根据提供的demo数据集,可以基于demo数据集进行数据增强、自行搜集数据等方式扩充数据集,并自行划分数据。运用深度学习、强化学习或更加优秀人工智能的方法预测PROTACs的降解能力,若DC50>100nM且Dmax<80% ,则视为降解能力较差(demo数据集中Label=0);若DC50<=100nM或Dmax>=80%,则视为降解能力好(demo数据集中Label=1)。

  • 核心任务--->预测PROTACs的降解能力。
  • 实现效果--->分类为 降解能力较差/降解能力好 两种结论。
  • 解决方法--->基于demo数据集进行数据增强、自行搜集数据等方式扩充数据集,并自行划分数据用于训练和验证模型。
  • 解题思路--->需要利用给定的数据集进行特征工程、模型选择和训练,然后使用训练好的模型对测试集中的用户进行预测,并生成相应的预测结果。

注:PROTACs:是一种三元复合物由目标蛋白配体、linker、E3连接酶配体组成,靶向降解目标蛋白质。

预测目标

  • 需要预测PROTACsDmax的降解能力,具体来说,就是预测 Lable 字段的值。
  • 根据 DC50 和 Dmax 的值来判断降解能力的好坏:

        lable=\left\{\begin{matrix} 0,&DC50>100nM,Dmax<0.8\\ 1,&DC50\leqslant 100nM,Dmax\geqslant 0.8& & \end{matrix}\right.

数据字段理解

  • 数据集包含了 多个字段,如  uuid(唯一标识符)、 Lable(降解能力的标签,0表示降解能力较差,1表示降解能力好)、 Uniprot 、 Target E3 ligase PDB 等,这些都是与PROTACs分子相关的信息。
  • 还包括了 降解能力相关 的数值指标,如 DC50 (半数降解浓度)、 Dmax (最大降解效率)、 IC50(半抑制浓度)、 EC50(半有效浓度)等。
  • 还包括了 与分子物理化学性质相关 的字段,如 Molecular Weight(分子量)、 Exact  Mass(精确质量)、 XLogP3(预测的脂水分配系数)等。
  • 还包括与E3连接酶的相互作用,以及形成的 三元复合物(目标蛋白、PROTACs、E3连接酶)的类似参数,如 IC50, EC50, Kd, Ki(与三元复合物相关的参数,与前面提到的类似,但这里特指三元复合物)、delta G, delta H, -T*delta S描述三元复合物的热力学参数)、kon, koff, t1/2(描述三元复合物的动力学参数)等。

  • 还包括了 与细胞活性相关 的参数,如 IC50, EC50, GI50, ED50, GR50(这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等)、PAMPA Papp(一种评估药物分子在仿生膜上的通透性的方法)等。

Smiles结构

NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN
(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1

Smiles是一种用于描述化学结构的文本字符串,它能够被用于输入化学信息学软件。

这个特定的Smiles字符串代表了一个含有多个环和官能团的有机分子。下面是这个分子结构的一些特征:

  • NC1 = NC = NC2 :表示一个含氮的六元环结构,可能是一个吡啶环。
  • C1C(C1=CC=C(0C3=CC=CC=C3)C=C1) :表示一个苯环 0C3=CC=CC=C3 ,该苯环通过一个碳原子连接到另一个苯环。
  • =NN2:表示一个氮氮双键。
  • [C@@H]1CCCN:表示一个手性中心,碳原子1连接到一个氮原子,并且有一个手性标记@@H
  • (C(=0)C2=CN(CC0CC0CC0CCCC3=CC=CC4=C3CN(C3CCC(=0)NC3=0)C4=0)N=N2):这是一个复杂的部分,包含一个羰基(C(=0)),一个烯醇胺结构,以及多个碳链和连接的氮原子。

这个Smiles字符串代表的分子可能是一种生物活性分子,例如一种药物或生物分子。由于其复杂性,通常需要专业的化学信息学软件来解析和可视化这种结构。

Assay (DC50/Dmax)结构

'Degradation of IRAK4 in HEK293T cells after 24 h treatment'
'Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment'

在药物筛选和细胞生物学实验中,这类信息对于评估化合物的潜在药效和毒性至关重要。通过测量特定蛋白质的降解情况,研究人员可以了解化合物对细胞功能的影响,并进一步研究其作用机制。

  • 这可能指的是一种实验测定方法,用于评估化合物对蛋白质降解的影响。
  • DC50 " 可能是指半最大降解浓度(Degradation Concentration 50),即导致蛋白质降解达到最大值一半的化合物浓度。
  • Dmax " 可能是指在实验条件下可观察到的最大降解效果。
  • Assay (DC50/Dmax) " 可能是一个比率或关系,用来量化化合物诱导的蛋白质降解效率。

InChI结构

InChI=1S/C47H61N7O6S/c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-
24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-
43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-
15-32)42-31(3)48-29-61-42/h14-25,29-30,38-39,43,49,55H,7-13,26-
28H2,1-6H3,(H,50,59)(H,51,56)(H,52,57)
(H,53,58)/t30-,38+,39-,43+/m0/s1

InChI(国际化学标识符)是一种用于唯一标识化学化合物的标准化字符串。它由一系列部分组成,提供了一种非常详细的化学结构表示方法,使得不同的化学信息学软件能够准确无歧义地解析和理解分子结构。通过InChI,研究人员可以确保在不同的数据库和软件平台之间准确交换化学结构信息。

 

RDKit库

RDKit库可以帮助处理SMILES字符串,如下代码可以

  • 将SMILES转换为分子对象
  • 进行分子结构绘制
from rdkit import Chem
from rdkit.Chem import AllChem, Draw

# SMILES字符串
smiles = "NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1"

# 将SMILES转换为分子对象
mol = Chem.MolFromSmiles(smiles)

# 检查分子是否有效
if mol is None:
    print("The SMILES string is invalid.")
else:
    print("The molecule was parsed successfully.")

    # 绘制分子结构
    molDrawer = Draw.MolToMPL(mol)
    molDrawer.show()

;