针对数据不平衡问题的分子生成模型 |
| |
引用本文: | 刘宏生,周威,张力.针对数据不平衡问题的分子生成模型[J].辽宁大学学报(自然科学版),2022(1):1-8+104. |
| |
作者姓名: | 刘宏生 周威 张力 |
| |
作者单位: | 1. 辽宁大学药学院;2. 辽宁大学信息学院;3. 辽宁大学生命科学院 |
| |
摘 要: | 化合物毒性预测中所使用的有标签数据较少且存在数据类别不平衡问题,因此为了解决这个问题,提高预测准确率,本文提出了一种自编码器-辅助分类器的生成对抗网络(AE-ACGAN)分子生成模型.该模型使用自编码器处理化合物数据得到特征向量,然后将其作为ACGAN模型的输入,生成的输出通过解码器解码得到新的化合物分子,在原始的ACGAN基础上进行改良,引入wasserstein距离解决原始模型的模式坍塌问题,同时对模型中的判别器的结构进行改良,在ACGAN模型的输入中加入真实的无标签数据来增强判别器的鉴别能力,使得无标签的数据也能得到充分的利用.实验结果表明,本文所提出的模型可以生成新颖的化合物分子,而且与原始数据具有相同的特征,可以加入到原始数据集中进行数据扩充,平衡后的数据集能够提升预测模型的准确率.
|
关 键 词: | 分子生成 化合物毒性预测 自编码器 生成对抗网络 |
|
|