首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对以往关系信息挖掘中存在的复杂XML文档相似度计算精度不高的问题,提出通过发现包含目标关系信息的最小公共祖先节点SCATR,以SCATR节点为根对复杂文档进行片段划分,并按片段的相似度进行聚类,目的在于改善已有模型对复杂XML文档的识别效果.实验结果表明,通过抽取包含目标关系的文档片段,去除文档片段中无关分枝,能够有效地帮助已有模型从复杂XML文档中识别和抽取出目标关系信息.  相似文献   

2.
针对科技文档间相似程度和影响力不同的问题,通过分析科技文档间非对称关系,提出一种新的度量方法.该方法将科技文档间非对称关系定义为文档覆盖度,并用公式覆盖度和文本覆盖度对其进行度量.公式覆盖度由改进的非对称因子计算,文本覆盖度通过利用文本的相对突出性调整特征向量的余弦夹角计算,公式覆盖度和文本覆盖度线性融合得到科技文档覆盖度.实验结果表明:与已有的2种科技文档关系度量方法相比,本文提出的非对称关系度量方法在聚类中的平均准确率分别提高了8%和4%.  相似文献   

3.
多数历史文档图像存在背景污渍、涂抹和字迹模糊等对比度较低的情况,从而给历史文档二值化增加了较大难度。前期研究发现,历史文档中文本内容通常与文档背景的亮度水平不同,利用文档背景估计值可以有效削弱退化区域并突出字符信息,根据这两个观点,本文提出了一种基于对比度归一化的历史文档图像二值化算法。所提出的方法包含三个步骤,首先采用图像修复算法和Niblack算法结果来粗略估计背景,然后使用文档背景对历史文档图像存在的不同退化类型进行归一化处理,并对归一化处理后的文档图像进行增强、二值化,将文档中的文本分割出来。采用DIBCO数据库和H-DIBCO数据库对所提出的算法进行测试,取得了较好的实验结果。  相似文献   

4.
XML在关系型数据库的存储实现   总被引:1,自引:0,他引:1  
从介绍XML和XML Schema出发,在分析已有的XML文档在关系型数据库存储方法上,给出一种新的XML文档在关系型数据库存储的模式.  相似文献   

5.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

6.
针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相应的词干集.然后,当用户输入多个检索词时,执行初始检索,并基于局部相关反馈思想提取出排名靠前的N个文档.接着,利用TF-IDF算法计算检索词与反馈文档之间的词频相似度,通过余弦距离计算文档之间的相似度,并以此对检索词进行两次加权.最后,根据加权后的检索词进行文档检索.实验结果表明:该方法能够准确地检索出用户所需的文档,并将其靠前排序.  相似文献   

7.
信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据文档分布特征阐述了Markov文档网络的构造算法,讨论了Top-k及其相关文档的重要性评分算法,修正初始检索的文档评分。通过这种方式,既保持了文档图的查询相关性,又丰富了文档内部关系,扩大了重排序范围。实验表明,在多个标准文档集上基于Markov网络的结果重排技术对检索性能有较大的稳定提升。  相似文献   

8.
唐江玲  吕露 《科技资讯》2012,(2):245-246
随着办公自动化和档案管理信息化的普及,越来越多的学者将目光投向高校文档一体化管理的研究。本文对近五年来高校文档一体化研究的几个主要问题进行了论述,主要包括文档一体化的理论基础,高校实行文档一体化管理存在的问题、必要性、可行性,以及高校实行文档一体化管理的对策和措施等。  相似文献   

9.
云计算环境中的组合文档模型及其访问控制方案   总被引:2,自引:0,他引:2  
针对云计算环境缺乏有效的组合文档模型及其元素分级安全保护的现状,结合多级安全思想和基于身份的加密(IBE)算法,提出了一种新的组合文档模型(ComDoc)及其访问控制方案(ICDAC)。ComDoc包含组合文档的密文部分和密钥映射部分:前者保存具有安全等级的文档元素的密文;后者保存由IBE加密的密钥映射记录密文。ICDAC依据授权用户的身份信息,利用IBE解密对应的记录后获得映射对,提取访问权限并解密授权的文档元素密文,实现组合文档元素分级安全保护的细粒度访问控制。实验结果表明:ComDoc满足云计算环境中组合文档的特征以及安全需求;在加密相同组合文档的前提下,ICDAC的密钥数量和计算开销明显优于已有方案。  相似文献   

10.
研究并分析了对同一个文档生成系统产生的两个文档进行自动比对,并计算相似程度的系统,此系统是很多应用的关键;例如在测试学员对某种文档生成系统使用、掌握水平的测评系统中,必须对学员生成的文档与样板文档加以比对并且作出评估;分析了用于考察评判计算机操作技能(MS-OFFICE软件操作)的智能系统的构成,核心算法和实现细节.  相似文献   

11.
研究了在B/S体系结构中进行文档报表处理的相关技术问题,并对已有的技术与实际应用中根据具体情况开发的技术进行了比较和分析,指出在实际应用中应根据具体问题采用相应的技术方案,从而最大限度地发挥系统的效能.  相似文献   

12.
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性.  相似文献   

13.
搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用.为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进摘要比较.将两个摘要分别与参照物进行比较,在较大的一个文档集合中找到与摘要相近的文档集合.用这些文档集合扩充短摘要的含义,以替代短摘要来衡量摘要相似度.实验结果表明,使用改进后的摘要比较算法,相关集合的DCG指标有了明显改进.  相似文献   

14.
尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这些特定词的特征.而利用LDA主题模型不存在输入限制,可以表示完整的语义信息的优点,将其引入联合增强模型,且对文档中的领域特定词及语义内涵进行学习表征,弥补了BERT模型的不足.为此提出RWT-BERT联合增强模型通过对BERT和LDA主题模型的表征构建交互网络,对查询语句和长文档进行更深层次的特征挖掘.实验结果表明:该模型在3个数据集的主要指标上都有不同程度的提升,尤其在Core17数据集上,与目前效果最好的句子级Ad-hoc文档检索模型Birch相比,nDCG@20指标提高了4.01%.  相似文献   

15.
基于语句-词条矩阵的聚簇式动态增长聚类算法   总被引:1,自引:0,他引:1  
Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.  相似文献   

16.
从Office文档分析技术、自动阅卷系统设计难点和解决方案三个方面探讨了自动阅卷系统的设计,系统使用面向对象技术开发,利用VBA技术与Office文档进行交互,来实现自动阅卷功能。重点对Word、Excel和PowerPoint三类文档的常见操作对象进行了分析,详细描述了通过VBA编程启动Office文档,解决执行阅卷代码、利用协议编辑并保存服务器文档和阅卷中段落定位等难点问题,设计达到预期目标,实现了在线测试和自动阅卷功能。  相似文献   

17.
为了方便扩展标记语言(XML)文档的结构化查询处理,快速判断任意两节点的祖孙、父子或兄弟关系,该文提出了一种新的动态XML文档标注方案.该方案借鉴了前缀组编码方案思想和自标签使用字母顺序编码方法,采用环形结构组织兄弟节点.改善了已有XML标注方案标注代价高和更新效率低的问题,实现了动态更新.无需重新标注已有节点编码,且能在常数时间内准确判断两节点间关系.实验结果证明,该方案的编码空间大小受XML树的扇出度和深度影响最小;对扇出度较大的文档,编码效果最好,能支持全面的动态更新;静态编码和动态更新效果良好.  相似文献   

18.
基于文档构件化技术的文档创作是提高文档生产率和文档质量的一条有效途径,可复用文档构件技术是使文档更加成熟的关键点.首先介绍了有关知识管理的相关知识,体现出对知识管理中显性知识———文档进行管理的充要性,并提出文档构造过程中存在的大量重复劳动的问题,提出了基于软件构件与复用理念的构造方式,接着,本文基于XML语言,对“文档构件化”过程中关键部分进行了定义、抽象、Schema设计、解析与组成分析,以及后期的构件存储分析,把文档构件归纳为3类主要构件,并对这3类构件的应用进行了设计.最后,以特殊领域文档为应用实例,设计出实现文档构件化与复用的文档构造模块.  相似文献   

19.
针对学术失范行为屡见不鲜的问题,研制的中文学术论文复制检测系统,不仅能在学术论文集数据库中锁定相似文档,还能对两个特定文档进行逐字逐句的比较,功能齐全,实用性强。改进的两个算法大大减小了复杂度,提高了运行速度。  相似文献   

20.
基于投影法的文档图像分割算法   总被引:1,自引:0,他引:1  
提出了一种基于投影法的中文文档图像分割算法,从文档图像的投影出发,根据文档图像水平投影的统计特性,进行灰度值累加,找到每行文字所在坐标;根据文字的竖直投影形状特征,进行竖直方向上的分割,通过对字符图像的分割,实现对整篇文档的分割;对各种字体的文档图像的灰度图进行了试验.结果表明,该算法能够准确地对文档图像进行分割.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号