基于语义匹配的抄袭检测方法 |
| |
作者姓名: | 邹杜 陈育青 张凌 |
| |
作者单位: | 1.华南理工大学 信息网络工程研究中心,广东 广州 510640; 2.华南理工大学 计算机科学与工程学院,广东 广州 510006 |
| |
基金项目: | the National Natural Science Foundation of China,国家自然科学基金资助项目 |
| |
摘 要: | 现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局限性,文中分析了文本语义与指纹排列顺序的关系,提出了语义匹配方法,将指纹向量投影到一个二进制向量,在降低维数的同时保留了指纹的位置信息.在PAN 公用语料集上将该方法与Jaccard 和Hamming 距离法进行了对比测试,发现文中方法的召回率和准确度均更优.
|
关 键 词: | 语义匹配 抄袭检测 指纹 文本语义 |
收稿时间: | 2013-03-10 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《华南理工大学学报(自然科学版)》下载全文 |
|