一种面向药物-靶点相互作用预测的不平衡数据处理方法 |
| |
作者姓名: | 叶志威 张晓龙 林晓丽 |
| |
作者单位: | 1. 武汉科技大学计算机科学与技术学院;2. 武汉科技大学大数据科学与工程研究院;3. 武汉科技大学智能信息处理与实时工业系统湖北省重点实验室 |
| |
基金项目: | 国家自然科学基金资助项目(61972299,U1803262,61702381); |
| |
摘 要: | 为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测。实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能。
|
关 键 词: | 不平衡数据处理 药物-靶点相互作用 词向量 特征提取 Borderline-SMOTE 梯度提升决策树 |
|
|