首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本相似性在抄袭问题中的应用研究
引用本文:丁智斌,霍豫宗,杜念.文本相似性在抄袭问题中的应用研究[J].华北科技学院学报,2013(1):91-95.
作者姓名:丁智斌  霍豫宗  杜念
作者单位:华北科技学院基础部;广发银行股份有限公司
摘    要:Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究方向。本文采用了PHP+MYSQL的开发环境对文本相似性的计算过程进行了模拟。计算过程采用的是余弦相似度和Jaccard相似度这两种基于向量内积的方法。在实验过程中通过对文本特征的操作来判断文本之间是否相似,另外还实现了将文本转化为简单的字符串集合进行比较来判断文本是否相似的方法。

关 键 词:文本挖掘  文本相似性  文本特征

The Application Research of TextSimilarity on Plagiarism
DING Zhibin,HUO Yuzong,DU Nian.The Application Research of TextSimilarity on Plagiarism[J].Journal of North China Institute of Science and Technology,2013(1):91-95.
Authors:DING Zhibin  HUO Yuzong  DU Nian
Institution:1.Department of Basic Courses,North China Institute of Science and Technology,Yanjiao Beijing-East 101601; 2.China Guangfa Bank,Guangzhou Guangdong 510080)
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号