首页 | 本学科首页   官方微博 | 高级检索  
     检索      

自然语言处理文本查重优化算法设计
引用本文:董星彤,陈士宏,陈淑鑫.自然语言处理文本查重优化算法设计[J].科学技术与工程,2022,22(3):1091-1097.
作者姓名:董星彤  陈士宏  陈淑鑫
作者单位:北京工商大学;齐齐哈尔大学
基金项目:国家自然科学基金联合项目(No. U2031142);国家自然青年基金项目(No. 11803013)
摘    要:为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力.考虑到主题词抽取、概率分布情况及时间复杂度三个方面,使用Python的OS库完成批处理去重、去停用词和去非中文词...

关 键 词:语义分析  查重模型  重要性采样  文本向量化  相似度计算
收稿时间:2021/2/17 0:00:00
修稿时间:2021/10/28 0:00:00

Algorithm Design of Text Duplicated-checking Based on Natural Language Processing
Dong Xingtong,Chen Shihong,Chen Shuxin.Algorithm Design of Text Duplicated-checking Based on Natural Language Processing[J].Science Technology and Engineering,2022,22(3):1091-1097.
Authors:Dong Xingtong  Chen Shihong  Chen Shuxin
Institution:Beijing Technology and Business University
Abstract:
Keywords:
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号