首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Word2vec和K-Means算法的勘探开发成果文档聚类研究
引用本文:沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报(自然科学版),2023(1):113-119.
作者姓名:沈东义  姬银秀  毛火明  郭林  袁秋霞
作者单位:中海石油(中国)有限公司天津分公司
基金项目:国家科技重大专项(2016ZX05024-003)资助;
摘    要:根据渤海油田七年行动计划部署,现阶段勘探开发研究成果数量激增.目前,渤海油田勘探开发研究成果入库前分类工作主要依靠传统手动方式,效率低下且无法满足成果文档及时共享的需求.针对以上问题,提出一种基于Word2vec和卷积神经网络(convolutional neural networks, CNN)的文本特征提取方法并结合K-Means聚类算法对勘探开发阶段的成果文档进行自动分类.该方法在预训练word2vec向量的基础上基于自有开发成果文档标题语料库进行再训练,将低维向量的形式表征及文本的深层语义特征相结合,最后采用聚类算法对成果文档进行聚类.实验结果表明,在搜集的近7万份勘探开发成果文档数据集中,采用该方法使文档分类效率比手工方法提升了91.8%,标签获取准确率达93.6%,效率上和准确率都实现了较大提升.

关 键 词:Word2vec  CNN  短文本聚类  石油勘探开发
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号