今天为大家介绍的是哈尔滨工业大学计算机科学与技术学院臧天仪教授等人发表在Briefings in Bioinformatics上的文章“Identifying drug–target interactions based ongraph convolutional network and deep neural network”。识别新的药物靶点相互作用(DTIs)是药物发现中一个重要但耗时且昂贵的步骤。然而,现有的方法大多是分别构建药物网络和靶点网络,然后根据已知的药物和靶点之间的关联来预测新的DTI,而没有考虑药物-蛋白质对之间的关联(DPP)。为了将DPP纳入到DTI建模中,本文构建了一个基于多种药物和蛋白质的DPP网络,以DPP为节点,DPP之间的关联为网络的边缘。然后,提出了一个新的基于深度学习的框架:图卷积网络DTI预测框架(GCN-DTI)用于新的药物-靶点相互作用识别。
一、研究背景
鉴别药物-靶点相互作用(DTI)是开发新药和了解其副作用的重要步骤。亲和色谱法和蛋白微阵列法是鉴别DTIs的常用实验方法。由于合成的化合物越来越多,它们被大量用于靶向蛋白质和疾病过程,这时使用生物实验来识别DTI是费时且昂贵的,并且很少有真正的DTI是使用这种方法被发现的。因此,近年来,研究人员试图利用计算方法来识别DTI。现有的计算型DTI识别方法可以分为三类:基于文本挖掘的方法、基于生物特征的方法和基于网络的方法。基于文本挖掘的方法通过从文献中提取信息,将药物及其目标的描述作为特征来识别DTI。然而,语言表达的多样性和文献中发现的信息冲突限制了基于文本挖掘的方法的性能。基于生物特征的方法是利用机器学习方法提取药物和靶标的生物特征来识别DTI。这些方法通常包括两个关键部分:特征提取和DTI预测。这些方法在一定程度上提高了DTI预测的精度。然而,这些方法没有考虑药物-药物或蛋白质-蛋白质相互作用。基于网络的方法基于网络拓扑计算药物和目标之间的相似性。通过构建包括药物、蛋白质或两者的网络来识别新的DTI。基于网络的方法通常能获得较好的预测精度,并且考虑了蛋白质和药物之间的关联。然而,这些方法没有考虑药物-蛋白质对(DPP)之间的关联。
为了解决上述各种方法的缺陷,作者提出了GCN-DTI,它结合了图卷积网络(GCN)和深度神经网络(DNN)来预测DTI。GCN-DTI将边缘预测问题转化为DPP分类问题。在这里,DPP是任何药物和任何蛋白质的组合。如果一个特定的DPP中的药物和蛋白质能够相互作用,它就被标记为真正的DPP,我们可以称之为DTI。在GCN-DTI模型中,药物网络和蛋白质网络被用来生成DPP网络。在DPP网络中,每个节点都是一个DPP,DPP网络的边缘由药物网络和蛋白质网络分别推断。因此,DPP网络包含了关于单个药物-蛋白质、药物-药物相互作用、蛋白质-蛋白质相互作用、药物-蛋白质相互作用的信息,以及最重要的DPP之间的联系。GCN可以根据DPP网络的拓扑结构提取各个DPP的特征。通过GCN层从这个大型网络中提取特征后,使用DNN来预测DPP的标签。
二、模型与方法
2.1 DPP网络的构建
如图1所示,为了分析DPP之间的关系,作者首先构建了基于药物和蛋白质网络的DPP网络,基于已知药物和蛋白质之间的相互作用,DPP网络具有相应的网络间关联。这些关联来自药物-药物相互作用网络和蛋白质-蛋白质相互作用网络,它们代表了DPP网络的边缘。每个DPP包含一种药物和一种蛋白质,代表DPP网络的一个节点。
在这个方法中,作者将DPP之间的关联定义为强关联、弱关联和无关联。因此,DPP的关联可以按一下标准被推断为强关联、弱关联或者无关联:(1)如果两个DPP共享一个药物或蛋白质,它们被定义为强关联。(2)如果两个DPP中的药物或蛋白质之间存在关联,则定义为弱关联。(3)如果两个DPP没有共同的药物或蛋白质,它们的药物或蛋白质也不能相互作用,它们被定义为无关联。根据这样的规则,就可以构建出DPP网络,同时可以表示出它的邻接矩阵。
接下来,提取药物和靶标的生物学特征。药物特征由化学类别定义(如肾上腺皮质激素、酰胺类、胺类和心血管药物)。蛋白质的特征是由它们的序列信息和它们的氨基酸的化学性质来定义的。每一种DPP的特征是由其药物分子和蛋白质分子的特征组合而成的。
图1. DPP网络构建示意图
2.2 基于GCN的特征表示
如图2所示,对于给定的DPP网络,邻接矩阵
可以是二进制的或者是加权的。由于DPP之间定义了三种类型的关联,这个方法对矩阵进行加权,强关联取1,弱关联取 0.5,无关联取0。加权矩阵可由上述规则计算得到,考虑两个DPP是否连通,如果连通,则考虑它们之间的连通强度。因此,DPP网络图的拉普拉斯矩阵可以表示为:
最后,GCN可以通过以下公式提取网络中每个DPP的特征:
其中X是每个节点的特征向量,每个DPP的特征是其药物特征和其蛋白质特征的结合。
图2. GCN网络特征表示层
2.3 通过深度神经网络进行分类
利用GCN提取DPP网络的特征后,使用DNN模型作为监督学习模型来确定DPP的真实性。如图3所示,DNN模型包含三层,该模型的输入是使用GCN提取的DPP特征向量。第一层和第二层的激活函数是ReLU。选择ReLU作为激活函数是因为它的计算效率,稀疏性和减少的可能性消失梯度。由于这是一个二分类问题,作者为最后一层选择了一个sigmoid激活函数。
图3. 深度神经网络分类层
三、实验结果
3.1 数据集DrugBank上的实验结果
图4展示了使用DrugBank数据集,GCN-DTI和其他模型获得的实验结果的比较。’COSINE’、’NRLMF’、’KRONRLS-MKL’和’BLM-NII’分别使用统计框架、逻辑矩阵分解、改进的多核学习和改进的二部局部模型方法,利用药物和蛋白质之间的相似性来推断药物-靶点相互作用。虽然这些方法没有考虑药物和蛋白质网络,这将导致信息的丢失。然而,’DDR’和’DNILMF’同时构建了药物网络和蛋白质网络,这使它们能够提取更多的化学和分子信息,从而获得更多的相似性信息。’DDR’使用随机森林方法根据不同的基于图的特征对DTI进行分类,而’DNILMF’使用logistic矩阵分解。虽然这两种方法分别建立了药物和蛋白质网络,但它们没有考虑不同DPP之间的联系。
与其他方法相比,GCN-DTI在AUPR方面有显著改善,AUC方面也表现良好。由于现有方法产生的AUC已经很好了,GCN-DTI在这个度量上只显示了轻微的改进。GCN-DTI在
任务中AUC和AUPR均表现最佳。这说明在不同DTI之间建立连接可以有效地提高算法区分真假DTI的能力。在
和
任务中,阳性组没有发现某些药物或靶点,因此结果不如
好。
图4. 数据集DrugBank上的实验结果
3.2 数据集Yamanashi上的实验结果
虽然以前的方法在Yamanashi数据集上得到了令人满意的结果,再次将GCN-DTI在该数据集测试,以显示其普遍适用性。对酶、离子通道、G蛋白偶联受体和核受体4种类型进行
测试。文中将GCN-DTI与Yamanashi数据集的DDR进行比较,得到的AUC和AUPR值如表1所示。作者使用重复5次的十折交叉验证计算结果的方差,以显示结果的稳定性。
表1. 数据集Yamanashi上的实验结果对比
3.3 药物-蛋白质关联类型预测实验结果
药物与受体相互作用的方式有很多种,不同类型的关联会导致不同的生化反应,这些作用分为30多种类型(如抑制剂和拮抗剂)。药物和蛋白质之间的联系类型是决定药物效果的关键。因此,作者测试了GCN-DTI基于DrugBank中已知的DTI对关联类型进行分类的能力。将关联类型的识别视为一个多分类问题,可以将这四种类型标记为0、1、2或3。为了进行分析,作者改变了DNN模型最后一层的激活函数:选择Softmax函数,因为它适合于多分类神经网络输出。此外,损失函数更改为类别交叉熵。
最后将3026个DTI分成10组进行10倍交叉验证。如图5所示,GCN-DTI对拮抗剂的分类效果最好,准确率为94.53%。3026种DTI的平均分类准确率为89.76%,表明GCN-DTI对不同类型关联的分类是有效的。
图5. GCN-DTI在分类关联类型任务中的准确率
四、总结
越来越多的研究试图使用计算方法准确地识别DTI。GCN-DTI的开发克服了先前方法没有考虑DPP之间关联的缺点,并提高了预测精度,具有较高的AUPR和AUC值。大多数先前的研究集中于构建单独的药物和蛋白质网络,并预测连接这两个网络的边缘。相比之下,GCN-DTI构建了一个DPP网络,每个节点包含来自其对应的药物和蛋白质网络的信息。从DPP网络的对应边也可以得到不同DPP之间的关系。因此,它是从一个非常大的DPP网络中区分真假DPP。GCN层用来提取每个DPP的特征,DNN层用来区分DPP的真假特征。
但是在包含将近一百万个节点的网络中,邻接矩阵太大,无法作为一个整体处理。因此,编码过程是逐行完成的,这对计算资源要求高,且耗时长,这是今后的研究工作中需要解决的问题。总之,与其他方法相比,GCN-DTI大大提高了药物和蛋白质相互作用鉴定的准确性。这些测试在两个独立的数据集上运行,表明GCN-DTI优于所有其他测试方法。这些实验证明了GCN-DTI的普遍适用性。
代码
https://github.com/zty2009/GCN-DNN/
参考文献