欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于分子描述符和机器学习方法预测
来源:一起赢论文网     日期:2015-12-23     浏览数:4040     【 字体:

 基于分子描述符和机器学习方法预测和虚拟筛选乳腺癌靶向蛋白HEC1抑制剂何 冰1,2 罗 勇李秉轲薛 英1,3 余洛汀1,*邱小龙4,5 杨登贵4(1四川大学华西医院生物治疗国家重点实验室肿瘤中心及生物治疗协同创新中心成都 610041;2成都师范学院化学与生命科学学院成都 611130; 3四川大学化学学院成都 610064;4江苏兆邦生物医药研究院有限公司江苏 南通 226000; 5江苏海门慧聚药业有限公司江苏 海门 226123)摘要: HEC1(癌症高表达蛋白)是纺锤体检查点控制、着丝粒功能、细胞存活的关键的有丝分裂调节器与原发性乳腺癌的不良预后有关筛选具有高亲和力的HEC1新型抑制剂对探索乳腺癌的靶向治疗具有重要意义.本文从结构多样性的化合物库中筛选HEC1抑制剂通过对分子描述符的特征筛选采用支持向量机(SVM)和随机森林(RF)方法分别对HEC1抑制剂和非抑制剂建立了分类模型经对比, RF模型显示了更好的预测精度.我们采用RF模型对HEC1抑制剂进行了虚拟筛选从“in-house”实体库筛选得到2个潜在的HEC1抑制剂分子.随后对筛出的化合物进行了体外活性实验发现对乳腺癌细胞株MDA-MB-468MDA-MB-231均有一定程度的抗肿瘤活性研究结果表明机器学习方法对于设计和虚拟筛选HEC1抑制剂有良好的效果.关键词: HEC1; 选择性抑制剂机器学习方法支持向量机随机森林虚拟筛选中图分类号: O641Predicting and Virtually Screening Breast Cancer Targeting ProteinHEC1 Inhibitors by Molecular Descriptors andMachine Learning MethodsHE Bing1,2 LUO Yong1 LI Bing-Ke2 XUE Ying1,3 YU Luo-Ting1,*QIU Xiao-Long4,5 YANG Teng-Kuei4(1State Key Laboratory of Biotherapy and Cancer Center, West China Hospital, Sichuan University, and Collaborative InnovationCenter for Biotherapy, Chengdu 610041, P. R. China; 2College of Chemistry and Life Science, Chengdu Normal University, Chengdu611130, P. R. China; 3College of Chemistry, Sichuan University, Chengdu 610064, P. R. China; 4Zhaobang Bio-Med. Institute Co.,Ltd., Nantong 226000, Jiangsu Province, P. R. China;5Wisdom Pharmaceutical Co., Ltd., Haimen 226123, Jiangsu Province, P. R. China)Abstract: Highly expressed in cancer 1 (HEC1) is a conserved mitotic regulator that is critical for spindlecheckpoint control, kinetochore functionality, and cell survival. Overexpression of HEC1 has been detected ina variety of human cancers, and it is linked to poor prognosis of primary breast cancers. Thus, it is important toscreen novel inhibitors with high affinity for HEC1. Machine learning (ML) methods were exhibiting goodpredicting capability in several aspects of the diverse compounds, such as pharmacokinetics,物理化学学报(Wuli Huaxue Xuebao)September Acta Phys. -Chim. Sin. 2015, 31 (9), 17951802 1795[Article] doi: 10.3866/PKU.WHXB201507301 www.whxb.pku.edu.cnReceived: April 2, 2015; Revised: July 30, 2015; Published on Web: July 30, 2015.*Corresponding author. Email: luodyu@163.com.The project was supported by the Category 1.1 New Drug SKLB1312 of Antitumor (Breast Cancer), which is the Cooperation Project betweenWest China Hospital of Sichuan University and Jiangsu Zhaobang Biological and Medical Research Institute Co., Ltd..四川大学华西医院与江苏兆邦生物医药研究院有限公司合作项目“抗肿瘤(乳腺癌)一类新药SKLB1312”资助© Editorial office of Acta Physico-Chimica Sinicapharmacodynamics, and toxicity. In this work, two ML methods, support vector machines (SVMs) and randomforests (RFs), were used to develop a classification method for searching inhibitors and non-inhibitors of HEC1from the chemical library of structural diversity by screening characteristics of molecular descriptors. Both MLmethods achieved promising prediction accuracies, and the RF model showed better performance. Weperformed virtual screening of HEC1 inhibitors by the RF model from an in-house database to screen potentialHEC1 inhibitors. Two novel potential candidates were found. In vitro experiments of the two compoundsshowed that both had a certain degree of antitumor activity for the MDA-MB-468 and MDA-MB-231 breastcancer cell lines. Our study shows that ML methods are promising to design and virtually screen inhibitors ofHEC1.Key Words: HEC1; Selective inhibitor; Machine learning method; Support vector machine;Random forest; Virtual screening1 引 言乳腺癌是女性癌症高发性恶性肿瘤全球范围内位于女性恶性肿瘤首位严重威胁女性身心健康.乳腺癌靶向治疗是在分子水平对其通路靶点设计药物通过药物与受体或调节分子结合下调受体表达或者活化下游基因使得肿瘤细胞凋亡或者抑制其生长目前乳腺癌常见靶向药物有人表皮生长因子受体(HER)靶向药物曲妥珠单抗(rastuzumab)、帕妥珠单抗(pertuzumab)、西妥昔单抗(cetuximab);还有小分子酪氨酸激酶抑制剂吉非替尼(gefitinib)、厄洛替尼(erlotinib)、拉帕替尼(lapatinib); 哺乳动物雷帕霉素靶蛋白靶向药物依维莫司(everolimus); 血管内皮生长因子( V E G F ) 靶向药物贝伐单抗(bevacizumab); 多聚二磷酸腺苷核糖聚合酶靶向药物抑制剂Olaparib已进入临床II.1HEC1是癌症高表达蛋白,2 相对于正常细胞它在癌症细胞系中的表达量更高. HEC1也是一类周期蛋白主要在G2/M期表达参与有丝分裂、动粒组装、有丝分裂检验点以及染色体稳定性的维持等在肿瘤的发生发展中占有重要作用利用小分子抑制剂来研究HEC1在癌症中高表达的作用对于临床具有极大的意义.3HEC1抑制剂相关机理已有不少研究.46 Wu7通过酵母双杂交筛选得到靶向Hec1/Nek2复合物的小分子抑制剂INH1, 该抑制剂通过抑制Nek2Hec1的磷酸化从而破坏Nek2-Hec1通路另一方面在降低Nek2表达量同时并不降低Hec1表达量的前提下导致中期染色体排列错误细胞不能进行正常的有丝分裂最终导致细胞的死亡这在肿瘤治疗中可能具有重要意义. Qiu8运用反向酵母双杂交系统筛选得到特异性阻断Hec1Nek2蛋白–蛋白相互作用的小分子化合物该小分子能够特异性降低Hec1的磷酸水平能够导致染色体不稳定现象的出现目前报道的Hec1/Nek2的抑制剂主要是加州大学欧文分校研究的INH系列化合物.912筛选得到对HEC1蛋白高亲和力、高选择性的小分子抑制剂特异性阻断Nek2HEC1的磷酸化作用对于乳腺癌靶向治疗有重要意义机器学习方法在预测化合物的药效动力学、药代动力学和毒性等方面有非常好的效果.1315 本研究采用支持向量机(SVM)和随机森林(RF)两种机器学习方法通过内部五重交叉验证和袋外数据(OOB)估计对训练模型进行优化以期获得良好的预测结果随后我们从这两种模型中选取出与HEC1抑制剂相关的物理化学特征用于HEC1潜在抑制剂的虚拟筛选并对筛选出的已有化合物进行了体外活性测试.2 材料与方法2.1 分子描述符分子描述符是对分子的结构和物理化学属性的定量描述符号广泛应用于定量结构活性关系(QSAR)和其他机器学习模型中用于预测各种药物及小分子的毒理学与药理学特征.1622 我们采用课题组编写的分子描述符计算程序采用AM1半经验方法对化合物三维(3D)结构进行优化然后分别计算了化合物189个描述符相对应的取值随后我们对SVM模型采用递归特征消除(RFE)方法RF模型使用程序自带的随机选择方法剔除掉这189个描述符中与体系不相干的或多余的描述符仅保留和体系最相关的关键描述符用于进一步虚拟筛选或其它研究这两种特征选择方法将在后文中详细介绍本研究涉及的189个分子描述符组参见表S1(Supporting Information), 189个描述符的详细说明请参见我们之前的文章.1619,231796 Acta Phys. -Chim. Sin. 2015 Vol.312.2 数据集¢¢本研究所用的数据集为122HEC1抑制剂和122HEC1非抑制剂. HEC1抑制剂均从文献收集得到.8,24 为保证所选出的HEC1抑制剂具备一定程度的高效性我们去除了HEC1抑制剂中的IC50值大于10 μmol L1的分子确定HEC1抑制剂的IC50值范围为7.5 9431 nmol L1. 通过对以上范围抑制剂分子描述符的计算我们将具有重复结构的分子舍弃,最终确定了122HEC1抑制剂加入到数据集中.为充分表示HEC1非抑制剂的广泛性并作为对比我们根据k均值聚类25的方法MDDR (MDLDrug Data Report)数据库中挑选出假定存在且对HEC1没有抑制作用的非抑制剂我们把MDDR中的未被报道具有任何HEC1抑制活性的分子(去除掉有无效的结构或分子描述符的分子剩下超过15万个分子), 根据计算得到它们的189个分子描述符的取值并分成122个聚类然后挑选出每个聚类中距离相应聚类的质心最近的分子即得到1 2 2HEC1非抑制剂化合物.对选定的244个分子均通过ChemBioDraw软件绘制得到其二维(2D)结构并用Corina软件将2D结构转换为3D结构再用ChemBio3D软件对3D结构进行优化.26,27 根据这些分子在化学空间中的相似性和分布的广泛性我们将122个抑制剂和122个非抑制剂其分成HEC1的训练集和测试集训练集和测试集中化合物的结构、类别和来源参见表S2S3 (Supporting Information).2.3 机器学习方法本研究采用了两种最新的机器学习方法——SVMRF, 通过SVMRF方法执行的预测可以归结为一个二元分类问题(即分为HEC1抑制剂或非抑制剂). 对于SVMRF理论的深入描述可以很容易从一些经典著作和优秀论文中获得因此这里仅对SVMRF分类的主要思想做一个简述.SVM是一种基于统计学习理论中的结构风险最小化(SRM)原则的方法而统计学习理论是一种著名的与核函数相关的机器学习方法.28,29 SVM方法通过使用核函数(本研究使用高斯径向基函数(RBF), 把输入变量投射到高维特征空间中然后从输入向量中选择一个所谓支持向量的小的子集在变换之后的空间中通过最大间隔的原则构建一个最优化的分类超平面从而把这些输入向量分成了两种不同的类别.30RF方法则是一种决策树自然生长且很多个决策树预测器组合在一起的分类方法每棵决策树依赖于对输入向量进行随机独立抽样所获得的数值,且森林中的所有决策树都具有相同的分布.31,32 每棵树都不受干涉地自然生长到最大的规模然后对于一个新的数据点给出自己的预测也就是说这颗树投票决定这一新数据点的类别当大量的决策树生成以后整个森林就选择最多数的投票结果作为对这个数据点类别的判定在对训练集的每次引导过程中大约三分之一的实例在训练过程遗漏而组成袋外数据估计(OOB)样本作为评估总预测精度指标的一部分, OOB在内部评估了RF的性能显示了使用相同大小的测试集具有和训练集同样的精确度是一种和经典的交叉验证相类似的新的评估方法.33,34 此外, RF可以根据对变量值随机排序所引起的系统性能降低的程度选择出对模型预测能力相对重要的描述符.18 尽管分子的某种特定描述符与其活性之间的关系被隐藏在一个“黑箱”中, RF模型仍然可以在训练过程中衡量每个描述符对于预测精度的贡献程度.352.4 特征选择方法和模型建立引入RFE方法可以提高机器学习方法的分类性能并能筛选出一些最相关的描述符这些描述符可以把数据集区分为阴性和阳性两类. RFE在生物化学很多领域例如药代动力学相关的药物活性以及毒理学属性等,14,15,16,20 显示出了高效性分类和预测能力并且发现很多有价值的特征获得了令人满意的推广因此, RFESVM相结合的方法(SVM +RFE)一开始就被应用于本研究中我们通过五重交叉验证方法从训练集的预测结果中分别选择了与HEC1抑制剂密切相关的一组描述符并使用RFE方法从整个训练集中产生一个有RFE特征的SVM模型.RF模型的每棵树均由随机选择的mtry个描述符和与训练集不同的自引导样本共同建立. RF模型的性能通过OOB估计从内部进行评估, OOB测试所选用的数据与构建森林所用到的数据互相独立.RF的训练过程中描述符的相对重要性亦可通过其自带的特征选择程序计算得到.2.5 性能评估机器学习方法的预测效果可以通过真阳性(TP), 真阴性(TN), 假阳性(FP)和假阴性(FN)这四个指标来进行衡量. TP是预测正确的HEC1抑制剂的No.9 何 冰等基于分子描述符和机器学习方法预测和虚拟筛选乳腺癌靶向蛋白HEC1抑制剂1797数量, TN是预测正确的HEC1非抑制剂的数量, FP是把HEC1的非抑制剂错误地预测成抑制剂的数量,FN是把HEC1的抑制剂错误地预测成非抑制剂的数量.一些精确性函数可以用来衡量模型的预测效果例如灵敏度(SE, HEC1抑制剂的预测精度), 特异性(SP, HEC1非抑制剂的预测精度), 错误率(ER), 总预测精度Q, 马氏相关系数C以上这些变量和函数之间的相互作用关系如下所示:SE =T PT P + FN £ 100 (1)SP =T NT N + FP £ 100 (2)ER =FP + FNT P + T N + FP + FN £ 100 (3)Q =T P + T NT P + T N + FP + FN £ 100 (4)C=p TP £ TN ¡ FN £ FP(T P +FN)(T P +FP )(T N+FN)(T N+FP )(5)3 结果与讨论3.1 模型建立与RFE方法的效果SVM模型根据我们课题组发展的程序1315建立,RF模型则由 BreimanCutler36提出的Fortran代码生成SVM模型中联合五重交叉验证方法,RFE方法的参与显著提高了训练集的预测精度详细结果参见表1.在预测HEC1抑制剂和非抑制剂的过程中SVM的参数σ被确定为5的时候模型表现出了最好的预测效果对于HEC1抑制剂和非抑制剂而言未使用RFE方法的SVM模型(记为SVM)的平均预测精度是95.83%98.67%; 与此相比使用了RFE方法的SVM模型(记为SVM + RFE)的以上数值分别为100%100%. "SVM"模型的QC的平均预测值分别为97.41%0.9484, "SVM + RFE"模型的QC值则分别是100%1. 从以上结果可以看出对于HEC1抑制剂和非抑制剂, QC这四项指标的平均预测精度而言结合了RFE方法的SVM模型比起单纯的SVM模型显示出了较明显的改善此外使用RFE方法还能有效选出一组与化合物的HEC1抑制活性最相关的分子描述符.特征选择是通过随机地减少森林中树与树之间的相关度来提高RF模型的预测性能因此RF模型的每个节点在构建决策树的过程中使用了特征选择树的数量ntree经优化取值为500, 用于生成稳定的袋外数据估计(OBB)预测率.31 参数mtry的取值范围是从1到描述符的总个数对于本研究≤ mtry ≤ 189,mtry的默认值一般设置为描述符总个数的平方根13. 本研究对每个mtry值对应的模型都进行了预测,通过对相应的OOB预测错误率的比较选出使OOB预测错误率最小时对应的mtry值为最优值mtry = 9的时候.1 SVM五重交叉验证预测结果Table 1 Prediction performance of SVM by 5-fold cross-validationMethodCrossvalidationHEC1 inhibitorsHEC1 non-inhibitorsQ/% CTP FN SE/% TN FP SP/%SVM 1 14 2 87.50 20 0 100 94.44 0.89192 11 1 91.67 14 1 93.33 92.59 0.85003 13 0 100 16 0 100 100 14 15 0 100 16 0 100 100 15 16 0 100 15 0 100 100 1average 95.83 98.67 97.41 0.9484SVM + RFE 1 16 0 100 20 0 100 100 12 12 0 100 15 0 100 100 13 13 0 100 16 0 100 100 14 15 0 100 16 0 100 100 15 16 0 100 15 0 100 100 1average 100 100 100 1RFE: recursive feature elimination. TP: true positive; FN: false negative; SE: sensitivity; TN: true negative; FP: false positive; SP: specificity; Q: the overallprediction accuracy; C: Matthews correlation coefficient. The prediction performance of SVM for HEC1 inhibitors and non-inhibitors evaluated byusing 5-fold cross-validation within the training set.1798 Acta Phys. -Chim. Sin. 2015 Vol.31预测精度的比较Table 2 Comparison of the prediction accuraciesMethod ParameterTraining setTesting setcompoundnumberER/%HEC1 inhibitorsHEC1 non-inhibitorsQ/% CTP FN SE/% TN FP SP/%SVM σ = 0.3 154 100 50 0 100 40 0 100 100 1.000SVM + RFE σ = 0.2 154 100 49 1 98 40 0 100 98.89 0.9778RF mtry = 9 154 100 50 0 100 40 0 100 100 1.000ER: errors rate. Comparison of the prediction accuracies of HEC1 inhibitors and non-inhibitors from RF and SVM approaches with the selecteddescriptors by using testing sets.我们通过测试集进一步评估所生成模型的效能和可靠性2给出了HEC1体系中用RFE选出的描述符所生成的SVM模型对测试集的抑制剂和非抑制剂的预测精度作为对比使用全部189个描述符所生成的SVM模型相应的预测精度也列在表中.在该体系中SVM”模型和“SVM + RFE”模型对非抑制剂的预测精度相同均为100%, 但是对于抑制剂而言使用RFE之后预测精度略微有所降低,对“SVM + RFE”模型为98%, 对“SVM”模型为100%.根据表2数据显示这些模型中所采用的分子描表3 SVMSVM + RFE模型选择出的12个最相关的描述符Table 3 12 descriptors selected by (SVM + RFE) model inthe SVMDescriptor Description ClassS(18) atom-type estate sum for>CH2electrotopological stateHiwpa amphiphilic moment geometrical propertiesS(9) atom-type H estate sum forCH- (sp2)electrotopological state6χvCH valence molecularconnectivity chi indices forcycles of 6 atomsmolecular connectivityand shapeTcent centric index electrotopological state5ÂvCH valence molecularconnectivity chi indices forcycles of 5 atomsmolecular connectivityand shapeRugty molecular rugosity geometrical propertiesS(35) atom-type estate sum for :N: electrotopological state6ÂvCH simple molecularconnectivity chi indices forcycles of 6 atomsmolecular connectivityand shapeQC,Min most negative charge on Catomsquantum chemicalpropertiesS(56) atom-type estate sum forSelectrotopologicalstateS(76) atom-type estate sum forSnH3electrotopological stateTwelve descriptors were selected by RFE incorporated with SVM (SVM +RFE) in the SVM model for the prediction of HEC1 inhibitors andnon-inhibitors.述符数量减少模型的多余度和分子描述符的不相干性得到了极大程度的降低体系中的描述符从189个降到了12表明RFE方法在选择最相关的特征和剔除掉多余分子描述符方面是高度有效的大大提高了HEC1体系的抑制剂和非抑制剂分类研究的效率.3.2 模型验证与机器学习方法的性能表2给出了HEC1体系中SVMRF方法对抑制剂和非抑制剂预测精度的详细比较特别是采用SVM方法所建立模型的参数值也在表中得到体现.对于“SVM + RFE”模型的参数σ = 0.2, 而对于“SVM”模型则为0.3. 相应的模型在这两个参数下都给出了最好的预测结果.如表3所示对于HEC1体系, SVM中“SVM +RFE”模型对抑制剂的预测精度为98%, 对非抑制剂的则为100%, 而“SVM”模型和RF方法对抑制剂和非抑制剂的预测精度均为100%. 相应的SVM +RFE”模型的QC值分别为98.89%0.9778, 而“SVM”模型的QC值和RF方法的相同分别是100%1.由于完全正确的预测准确率使得RF模型和“SVM”模型中没有预测错误的抑制剂和非抑制剂分子而对于“SVM + RFE”模型, SVM的测试集中有1个抑制剂被预测错误该抑制剂的结构信息可以参见图1. 预测错误的原因可能和RFE方法的描述图1 SVM模型对测试集预测错误的HEC1抑制剂的结构Fig.1 Structures of the misclassified HEC1 inhibitors byusing testing set in SVM modelNo.9 何 冰等基于分子描述符和机器学习方法预测和虚拟筛选乳腺癌靶向蛋白HEC1抑制剂1799符较少(12)造成的预测误差有关.基于以上数据来看对于HEC1体系尽管“SVM”模型与RF模型具有同样优越的预测性能但是“SVM”模型拥有全部189个描述符相较于RF模型用自带的特征选择方法挑出的25个最相关描述符而言过于复杂和冗余此外, RF方法的计算速度要比SVM方法快的多抛开性能不论仅从时间和计算成本上考虑显然RF模型更利于后续的虚拟筛选工作.3.3 最相关描述符与对模型的解释在HEC1体系中通过特征选择, SVMRF预测模型提取了与抑制剂和非抑制剂活性最相关的分子描述符部分描述符可为特定类别化合物相关的结构和物理化学属性提供更深层次的了解通过RFE方法的SVM模型体系分子描述符从189个选出12(3).RF模型选定了25(4)与预测性能高度相关的分子描述符并按照这些描述符对预测性能的贡献值的高低而对它们进行排序(2). 体系的RF模型VCHVCH所排出的描述符序列的前三位分别为S(56)(S-原子类型电拓扑态之和), 5χCH(五元环的简单分子连通性Chi指数)5 (五元环的价分子连通性Chi指数), 这三个描述符中的两个S(56)也同时被体系的SVM模型的RFE方法所选出.HEC1的母核结构中(3),24 存在含有S原子的五元环和所选出的贡献最大的三个描述符表述一致. RF选出的nsulph描述符反映了五元环中的S原子; S(35)S(34)反映了母核结构中的N; S(9)S(20)S(25)反映了母核结构的碳碳双键; nhyd反映了母核结构中的氢键表明所选出的描述符能够很好地代表H E C 1抑制剂的结构特征除此之外,S V M模型和R F模型中还有以下重合的描述符:S(18)(>CH2原子类型电拓扑态之和), S(9)(CH[sp2]原子类型H电拓扑态之和), Tcent(中心指数),Rugty(分子粗糙度), S(35)(:N:原子类型电拓扑态之和), QC,Min(C原子上最大的负电荷). 以上结果显示两种方法提取出的描述符有所交叉但各有自己独特的描述符说明学习过程是不同的.腺苷受体模型PROCHECK评价结果Table 4 Evaluation results of PROCHECK of modeled adenosine receptorDescriptor Description Class ContributionS(56) atom-type estate sum for S- electrotopological state 4.849VCH5 simple molecular connectivity chi indices for cycles of 5 atoms molecular connectivity and shape 2.565VCH5 valence molecular connectivity chi indices for cycles of 5 atoms molecular connectivity and shape 2.650nsulph count of S atoms simple molecular properties 2.561S(9) atom-type H estate sum for CH- (sp2) electrotopological state 2.157S(35) atom-type estate sum for :N: electrotopological state 2.002S(12) atom-type H estate sum for CHn (saturated) electrotopological state 1.909Tcent centric index electrotopological state 1.757S(34) atom-type estate sum for N- electrotopological state 1.603S(22) atom-type estate sum for >CH- electrotopological state 1.514S(20) atom-type estate sum for CH- electrotopological state 1.475S(25) atom-type estate sum for C< electrotopological state 1.400QC,Min most negative charge on C atoms quantum chemical properties 1.065S(26) atom-type estate sum for : C:- electrotopological state 1.019nhyd count of hydrogen atoms simple molecular properties 1.000Tbala balaban index electrotopological state 0.779Rugty molecular rugosity geometrical properties 0.763QN,Max most positive charge on N atoms quantum chemical properties 0.758S(18) atom-type estate sum for >CH2 electrotopological state 0.597QH,Max most positive charge on H atoms quantum chemical properties 0.564AQ,max most positive charge in a molecule quantum chemical properties 0.539dis1 length vectors (longest distance) geometrical properties 0.524Gloty molecular globularity geometrical properties 0.423QH,Min most negative charge on H atoms quantum chemical properties 0.412PSA polar molecular surface area geometrical properties 0.2751800 Acta Phys. -Chim. Sin. 2015 Vol.312 RF模型中得到的25个对HEC1抑制剂和非抑制剂预测最相关的描述符的相对重要性排名Fig.2 Relative importance of the 25 highest rankeddescriptors in the RF model for the prediction of HEC1inhibitors and non-inhibitors3 HEC1抑制剂母核结构Fig.3 Mother nuclear structure of HEC1 inhibitors4 HEC1抑制剂虚拟筛选结果Fig.4 Results of HEC1 inhibitor by virtual screening3.4 虚拟筛选in-house数据库测试集用来验证所建立模型的性能预测精度越高说明模型的性能就越好根据这一原则我们采用了效果更优的RF模型来对HEC1的抑制剂进行虚拟筛选我们对实验室“in-house”数据库(2100个实体化合物和片段)进行筛选最终得到了2HEC1的潜在选择性抑制剂(4).VCH我们虚拟筛选得到的两个分子在结构上和数据集的分子相比均有噻唑环结构、苯环结构以及和噻唑2位相连接的N原子且和表4中贡献值最大的前六位描述符S(56)5χCHnsulphS(9)、表化合物Lyt-1906Lyt-2010体外增殖抑制活性Table 5 Anti-proliferative activity of compounds Lyt-1906and Lyt-2010 in vitroCompound IC50/(μmol¢L1)MDA-MB-468 MDA-MB-231Lyt-1906 58.3 28.7Lyt-2010 7.8 5.6paclitaxel 0.31 0.75S(35)相吻合表明筛选结果极大可能具有生物活性.3.5 活性化合物体外抗肿瘤测试¢为验证筛选结果我们对筛选出的化合物Lyt-1906Lyt-2010, 进行了体外抗肿瘤活性测试(实验方法见Supporting Information实验1), 选用乳腺癌细胞株为MDA-MB-468MDA-MB-231. 如表5所示,化合物Lyt-1906Lyt-2010展示了较好的体外增殖抑制活性, IC50值在5.658.3 μmol L1, 结果验证了虚拟筛选方法的可靠性证实R F 模型对于筛选HEC1抑制剂的可靠性.4 结 论机器学习方法(RFSVM)对于HEC1抑制剂与非抑制剂分类模型的建立和虚拟筛选具有很好的效果尤其对于像HEC1这样还没有X射线晶体结构的靶点蛋白不能通过小分子和靶点蛋白对接的方法来进行抑制剂的快速筛选采用机器学习方法(RFSVM)进行高通量虚拟筛选就具有很重要的现实意义我们通过对分子描述符的特征筛选采用SVMRF方法分别对HEC1抑制剂和非抑制剂建立了分类模型RF模型中使用RF方法得到25个分子描述符SVM模型中使用RFE方法选择出12个最相关描述符大幅降低了分子描述符的冗余程度.我们对两种模型的预测效果做了对比采用具有更好预测性能的RF模型对HEC1抑制剂做了虚拟筛选得到了2个潜在的HEC1抑制化合物对筛选得到的化合物所进行的体外抗肿瘤活性测试均显示出一定活性在此基础上后期可以通过进一步修饰改构和生物学实验以发现HEC1抑制剂并对乳腺癌的治疗发挥良好作用.Supporting Information: The 189 molecular descriptorsof this study are listed in Table S1, and the structure, categoryand source of compounds in the training set and test set areprovided in Tables S2 and S3. Test method of antitumoractivity in vitro was in experiment 1. This information isNo.9 何 冰等基于分子描述符和机器学习方法预测和虚拟筛选乳腺癌靶向蛋白HEC1抑制剂1801available free of charge via the internet at http://www.whxb.pku.edu.cn.ReferencesGan, S. J.; Wang, Q.; Zhu, L. M.; Xie, H.; Ding, X. F.Basic & Clin. Med. 2015, 35 (1), 134. [甘绍举王 青朱丽敏,谢 浩丁先锋基础医学与临床, 2015, 35 (1), 134.](1)Chen, Y.; Riley, D. J.; Chen, P. L.; Lee, W. H. Mol. Cell Biol.1997, 17 (10), 6049.(2)Du, X. L.; Wang, M. R. Acta Acad. Med. Sin. 2007, 29 (1), 137.[杜小莉王明荣中国医学科学院学报, 2007, 29 (1), 137.](3)Hu, C. M.; Zhu, J.; Guo, X. E.; Chen, W.; Qiu, X. L.; Ngo, B.;Chien, R.; Wang, Y. V.; Tsai, C. Y.; Wu, G.; Kim, Y.; Lopez, R.;Chamberlin, A. R.; Lee, E. H.; Lee, W. H. Oncogene 2015, 34,1220. doi: 10.1038/onc.2014.67(4)Huang, L. Y.; Chang, C. C.; Lee, Y. S.; Chang, J. M.; Huang, J.J.; Chuang, S. H.; Kao, K. J.; Lau, G. M.; Tsai, P. Y.; Liu, C. W.;Lin, H. S.; Lau, J. Y. Mol. Cancer Ther. 2014, 13 (6), 1419.(5)Lee, Y. S.; Chuang, S. H.; Huang, L. Y.; Lai, C. L.; Lin, Y. H.;Yang, J. Y.; Liu, C. W.; Yang, S. C.; Lin, H. S.; Chang, C. C.;Lai, J. Y.; Jian, P. S.; Lam, K.; Chang, J. M.; Lau, J. Y.; Huang,J. J. J. Med. Chem. 2014, 57 (10), 4098. doi: 10.1021/jm401990s(6)Wu, G.; Qiu, X. L.; Zhou, L.; Zhu, J.; Chamberlin, R.; Lau, J.;Chen, P. L.; Lee, W. H. Cancer Res. 2008, 68 (20), 8393.doi: 10.1158/0008-5472.CAN-08-1915(7)Qiu, X. L.; Li, G.; Wu, G.; Zhu, J.; Zhou, L.; Chen, P. L.;Chamberlin, A. R.; Lee, W. H. J. Med. Chem. 2009, 52 (6), 1757.doi: 10.1021/jm8015969(8)Chen, Y.; Riley, D. J.; Zheng, L.; Chen, P. L.; Lee, W. H. J. Biol.Chem. 2002, 277 (51), 49408. doi: 10.1074/jbc.M207069200(9)Diaz-Rodríguez, E.; Sotillo, R.; Schvartzman, J. M.; Benezra, R.Proc. Natl. Acad. Sci. U. S. A. 2008, 105 (43), 16719. doi:10.1073/pnas.0803504105(10)Ferretti, C.; Totta, P.; Fiore, M.; Mattiuzzo, M.; Schillaci, T.;Ricordye, R.; Di Leonardo, A.; Degrassi, F. Cell Cycle 2010, 9(20), 4174. doi: 10.4161/cc.9.20.13457(11)Wei, R.; Ngo, B.; Wu, G.; Lee, W. H. Mol. Biol. Cell 2011, 22(19), 3584. doi: 10.1091/mbc.E11-01-0012(12)Xue, Y.; Li, H.; Ung, C.; Yap, C.; Chen, Y. Chem. Res. Toxicol.2006, 19, 1030. doi: 10.1021/tx0600550(13)Xue, Y.; Yap, C. W.; Sun, L. Z.; Cao, Z. W.; Wang, J.; Chen, Y.Z. J. Chem. Inf. Comput. Sci. 2004, 44, 1497. doi:10.1021/ci049971e(14)Xue, Y.; Li, Z.; Yap, C. W.; Sun, L.; Chen, X.; Chen, Y. Z. J.Chem. Inf. Comput. Sci. 2004, 44, 1630. doi: 10.1021/ci049869h(15)Yang, X. G.; Chen, D.; Wang, M.; Xue, Y.; Chen, Y. Z. J.Comput. Chem. 2009, 30, 1202. doi: 10.1002/jcc.v30:8(16)(17) Yang, X. G.; Lv, W.; Chen, Y. Z.; Xue, Y. J. Comput. Chem.2010, 31, 1249.Lv, W.; Xue, Y. Eur. J. Med. Chem. 2010, 45, 1167. doi:10.1016/j.ejmech.2009.12.038(18)Cong, Y.; Yang, X.; Lv, W.; Xue, Y. J. Mol. Graph. Model.2009, 28, 236. doi: 10.1016/j.jmgm.2009.08.001(19)Luan, F.; Liu, H.; Ma, W.; Fan, B. Eur. Med. Chem. 2008, 43,43. doi: 10.1016/j.ejmech.2007.03.002(20)Ung, C. Y.; Li, H.; Yap, C. W.; Chen, Y. Z. Mol. Pharmacol.2007, 71, 158.(21)Li, H.; Ung, C.; Yap, C.; Xue, Y.; Li, Z.; Cao, Z.; Chen, Y.Chem. Res. Toxicol. 2005, 18, 1071. doi: 10.1021/tx049652h(22)Li, B. K.; Cong, Y.; Tian, Z. Y.; Xue, Y. Acta Phys. -Chim. Sin.2014, 30 (1), 171. [李秉轲丛 湧田之悦薛 英物理化学学报, 2014, 30 (1), 171.] doi: 10.3866/PKU.WHXB201311041(23)Huang, J. J.; Lau, J. Improved Modulators of HEC1 Activity andMethods. CN Patent 103038231.A, 2013-04-10. [Huang, J. J.,Lau, J. HEC1活性调节剂及其方法中国, CN103038231.A[P].2013-04-10.](24)Duda, R. O.; Hart, P. E. Pattern Classification and SceneAnalysis; John Wiley & Sons: Hoboken, New Jersey, USA, 1973.(25)ChemDraw 7.0.1 ed.; CambridgeSoft Corporation, Cambridge:Massachusetts, USA, 2007.(26)Corina 3.4 edn.; Molecular Networks GmbH Computerchemie:Erlangen, Germany, 2006.(27)(28) Burges, C. J. Data Min. Knowl. Disc. 1998, 2, 121.Vapnik, V. N. The Nature of Statistical Learning Theory;Springer: Berlin & Heidelberg, Germany, 1995.(29)Doucet, J. P.; Barbault, F.; Xia, H.; Panaye, A.; Fan, B. Curr.Comput-Aid. Drug. 2007, 3, 263. doi:10.2174/157340907782799372(30)Svetnik, V.; Liaw, A.; Tong, C.; Culberson, J. C.; Sheridan, R.P.; Feuston, B. P. J. Chem. Inf. Comput. Sci. 2003, 43, 1947.doi: 10.1021/ci034160g(31)Breiman, L. Mach. Learn. 2001, 45, 5. doi: 10.1023/A:1010933404324(32)Khandelwal, A.; Krasowski, M. D.; Reschly, E. J.; Sinz, M. W.;Swaan, P. W.; Ekins, S. Chem. Res. Toxicol. 2008, 21, 1457.doi: 10.1021/tx800102e(33)Breiman, L. Out-of-bag Estimation, 1996,http://citeseerx.ist.psu.edu.sci-hub.org/viewdoc/download?doi=10.1.1.45.3712&rep=rep1&type=pdf (accessed Mar 15,2015).(34)Breiman, L. Wald Lecture II, Looking inside the Black Box,2005. http://www.stat.berkeley.edu/users/breiman (accessed Mar15, 2015).(35)Breiman, L.; Cutler, A. Random Forests, Version 5.1, 2004.http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (accessed Mar 15, 2015).(36)1802 Acta Phys. -Chim. Sin. 2015 Vol.31

[返回]
上一篇:基于思维进化的机器学习的遮挡人脸识别
下一篇:产品质量监管中的所有制偏倚