首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于文档指纹的中文复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。  相似文献   

2.
基于指纹和语义特征的文档复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测是保护知识产权、提高信息检索效率的有效手段.提出一种基于指纹和语义特征的文档复制检测方法.介绍了指纹提取算法以及相关的重叠度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征.在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本.  相似文献   

3.
互联网中的信息良莠不齐,因此必须对信息的发布、传播和访问进行有效的监控。离题文档检测指通过主题相关性来界定访问文档的合法性。超团模式是一种附加了整体相似度约束的特殊频繁项集。利用超团这种特性,提出了基于关联分析的离题文档检测方法,并介绍了原型系统的实现及应用。  相似文献   

4.
多文档文摘提取方法的研究   总被引:1,自引:0,他引:1  
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法.  相似文献   

5.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

6.
一种基于相似性的文档聚类算法   总被引:2,自引:0,他引:2  
针对常见信息检索技术的缺陷,提出一种基于相似性的文档聚类分析算法,将文档集合转化为向量集合,基于向量之间的余弦相似度,采取凝聚的层次聚类算法来获得聚类,给出了算法的详细描述的一个测试实例。  相似文献   

7.
关系抽取是自然语言处理领域的一项基础研究,抽取的结果可以用于知识图谱构建、人机问答、语义搜索等下游任务,具有广泛的应用场景和重要的研究价值。近年来,关系抽取研究取得了丰富的成果,但绝大多数研究局限于句子级关系抽取。研究表明,大量的关系无法通过单个句子提取,随着深度学习和自然语言处理技术的不断发展,文档级关系抽取研究工作迎来了新一轮的机遇和挑战。文中着重对近几年文档级关系抽取的研究进展进行分类和梳理,提炼出文档级关系抽取的一般技术路线图,分析文档级关系抽取研究的特征编码及特征聚合方法,并根据提取特征的不同,将文档级关系抽取方法概括为基于词汇特征、基于句法特征以及基于关系特征的3类方法;同时介绍常用文档级关系抽取数据集和评测指标,并对未来的研究趋势进行展望。  相似文献   

8.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

9.
针对传统方法过分依赖颜色等特征,导致对古籍文档复印件检测效果不佳的问题,基于深度学习技术建立了一种新的满文文档图像印章检测方法。通过图像变换和合成技术建立满文古籍文档图像数据增广算法解决训练数据不足的问题,在所构建的增广数据集上建立Faster R-CNN深度学习模型挖掘深层图像特征,实现满文文档图像印章检测方法。对采集的真实满文文档复印件图像进行实验,印章检测精度可以达到99.6%,表明本文的方法可以有效的检测古籍文档复印件图像中的印章,对满文文档的研究有重要意义。  相似文献   

10.
现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局限性,文中分析了文本语义与指纹排列顺序的关系,提出了语义匹配方法,将指纹向量投影到一个二进制向量,在降低维数的同时保留了指纹的位置信息.在PAN公用语料集上将该方法与Jaccard和Hamming距离法进行了对比测试,发现文中方法的召回率和准确度均更优.  相似文献   

11.
基于篇章结构相似度的复制检测算法   总被引:15,自引:0,他引:15  
学术论文的复制检测研究对于知识产权保护和抑制抄袭侵权等行为有重要意义.国内外主要用数字指纹及关键词匹配等技术进行论文的复制检测.为解决目前中文复制检测难题,给出了一种基于篇章结构相似度的中文学术论文复制检测算法及其问题的数学模型.在分析论文篇章结构的基础上,利用数字指纹和词频统计等技术,经编程实现,用于论文的全抄、部分抄袭和拼抄等抄袭现象的初步检测.与基于全文数字指纹和基于全文词频统计的检测方法相比较,更适用于要求较准确的论文复制检测.  相似文献   

12.
由于办公自动化和网络化的不断发展,在政府和企业内网中对涉密电子文档保护的重要性日益凸显。传统基于密码学的保护手段的缺陷也逐步显露,不能在解密后对文档进行保护,以及对内部犯罪问题的物理防范。将数字指纹作为文档保护的补充技术,增强信息可控性,在出现非法拷贝时能追踪违规者,使文档保护更加有效。本文将纠错码ECC运用到指纹编码中,编码下层使用传统编码方式,再对生成的指纹序列进行卷积编码,得到最终的用户指纹序列。用户指纹具有更好的鲁棒性,能减小误判率。  相似文献   

13.
为了提高PDF文档的安全性,提出了一种基于置乱技术的适用于PDF文档的文本数字水印算法.首先,将水印图像进行置乱变换;其次,将原PDF文档转换成PS文件.利用PS文件中字符间距值来嵌入水印图像信息,同时将水印位置信息嵌入特定位置;最后,将PS文件转换为含有水印的PDF文档.  相似文献   

14.
为进行文档碎片取证调查,提出了一个文档碎片取证分析模型.该模型扩展了现有的文档碎片取证过程,并将不同抽象层次的文档碎片数据引入该模型.同时将扩展的可信计算技术应用于该模型,解决了文档碎片取证过程中证据链保全机制.对该模型的取证能力进行了评价.通过案例分析,该模型具有较强的文档碎片取证能力并能够进行分布式取证分析.  相似文献   

15.
如何快速准确地发现剽窃文本是知识产权保护中的一个核心问题.该文利用KMP算法构建了一个中文文本复制检测系统,它大大减小了复杂度,提高了运行速度.  相似文献   

16.
一种新的基于二值图像的边缘检测算法   总被引:1,自引:0,他引:1  
边缘检测是数字图像处理中常用的一种技术,可以捕获图像中物体的重要特征.介绍了几种经典的边缘检测算子,提出了一种基于二值图像的边缘检测方法.该方法不用对图像求导,仅统计每个像素点的8邻域值的情况,即可确定该像素点是否为边缘点.实验表明,该方法用于二值图像时,检测效果较理想.  相似文献   

17.
首先分析当前比较流行的数字签名算法,着重介绍MD5与RSA算法,讨论如何对两者的优点加以利用,如何通过互补避免两者的缺点所带来的一系列问题,以及如何在利用两者的同时加入一些控制因素,加强数据在网上办公系统传输中的安全性.接着讨论数字签名在电子公文中的实现与应用,利用发送方与接受方之间比较严密的应答协议,克服了单纯利用数字签名带来的弊端,介绍了如何利用两者的优势互补再配合科学的封装机制,利用传送协议实现包含数字签名的公文在网上安全传输,并且提供了一种有效的认证机制,接着介绍电子公章在公文流转中的软件方案.通过对BMP图像数据位的读写分析,结合公文流转的特点以及MD5加密算法,实现用户对电子公文的加盖公章操作.对网上办公系统进行研究分析,创建了一套安全的网上公文流转方案,结合公文审批、申请等网上办公的方法,利用前面讨论的安全机制,完成了基于数据加密技术的网上办公系统.最后对这套网上办公系统的源文件的注册加密技术展开讨论,从而实现对文件的底层保护,避免程序文件被破解而产生的整个办公系统的安全问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号