首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全领域研究的热点。文档复制检测方法有两类:一是基于词频统计的方法,一是基于字符串匹配的方法。本文详尽分析了现有基于这两类方法的复制检测技术,并指出它们的优缺点,针对两类方法都存在的问题提出一些改进方案。最后总结了复制检测技术应满足的特性,讨论了检测方法的准确性和文档分解规则。  相似文献   

2.
论文抄袭一直是学术领域重点关注和研究的问题。为了有效的检测出抄袭的情况,本文结合模式匹配算法研究设计了论文抄袭检测方法。提出采用模式匹配中的基于字符串匹配的相似度算法,通过添加、删除、替换等操作还原文档,并计算文档间的相似距离,根据相似距离获得文档相似度,从而判断文档的抄袭比例。反抄袭算法的研究实现为遏制进一步恶化的抄袭现象,净化学术风气提供了有效的监控技术。  相似文献   

3.
提出了一种利用DTD的结构信息将XML文档映射到数据库中的的方法.在该方法中,不同DTD的XML文档可以保存在相同模式的关系表中,仅需两张表就能存储所有的DTD和XML文档.  相似文献   

4.
多数历史文档图像存在背景污渍、涂抹和字迹模糊等对比度较低的情况,从而给历史文档二值化增加了较大难度。前期研究发现,历史文档中文本内容通常与文档背景的亮度水平不同,利用文档背景估计值可以有效削弱退化区域并突出字符信息,根据这两个观点,本文提出了一种基于对比度归一化的历史文档图像二值化算法。所提出的方法包含三个步骤,首先采用图像修复算法和Niblack算法结果来粗略估计背景,然后使用文档背景对历史文档图像存在的不同退化类型进行归一化处理,并对归一化处理后的文档图像进行增强、二值化,将文档中的文本分割出来。采用DIBCO数据库和H-DIBCO数据库对所提出的算法进行测试,取得了较好的实验结果。  相似文献   

5.
基于文档指纹的中文复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。  相似文献   

6.
刘劼 《科技咨询导报》2009,(15):238-238
本文介绍了文挡页面的X—Y树表示方法,描述了一对树之间编辑距离的计算,该距离可以衡量两个文档页面之间的相似性,因此可用于实现文档图像检索系统中的页面聚类。对于数字图书馆中文档图像检索系统的设计,有一定的参考价值。  相似文献   

7.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

8.
研究并分析了对同一个文档生成系统产生的两个文档进行自动比对,并计算相似程度的系统,此系统是很多应用的关键;例如在测试学员对某种文档生成系统使用、掌握水平的测评系统中,必须对学员生成的文档与样板文档加以比对并且作出评估;分析了用于考察评判计算机操作技能(MS-OFFICE软件操作)的智能系统的构成,核心算法和实现细节.  相似文献   

9.
文字处理工作有两个要点,一个是对已有文档进行方便的调用查看和管理,另外就是对已有文档进行备份.  相似文献   

10.
丁赛君 《科技资讯》2013,(12):251-252
本文基于笔者从事卫星工程大总体的相关工作经验,在充分调研国内外工程大总体协调过程中涉及的文档体系的基础上,从管理文件体系和技术文件体系两个角度进行了分析归纳,相信对从事相关工作的同行能有所裨益。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号