首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
分析了Web文档的结构特征,并利用知识树快速高效等特征,设计了Web文档知识树;基于Web文档知识树结构,提出了构建Web文档知识树的构造算法、创建知识结点算法以及知识树访问算法.并对上述算法作了分析和评价,说明了这些算法对提高Web信息检索的准确率以及信息查找的速度是有益的.  相似文献   

2.
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。  相似文献   

3.
基于概念树的主题爬取技术研究   总被引:3,自引:1,他引:2  
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。  相似文献   

4.
基于关系表示的树数据结构的实现   总被引:1,自引:0,他引:1  
用关系数据库存储和表示的树数据结构能使信息系统准确地描述数据之间的关系,同时能以一致的方法表示和处理层次和关系数据,有利于信息系统构造以及实现更友善的用户接口.本文以关系数据集为基础定义了一种关系树,提出了树结构在关系数据集上的存储方案,讨论了关系树一般性计算的实现方法,如树的建立、结点访问、插入、删除和遍历等  相似文献   

5.
提出了一种新而实用的树的父母-子女环存贮结构.该结构明显优于传统树型存贮方法,充分利用了树中的空指针域,很好地体现了树的层次特性,使得遍历、查找父母及子女结点等基本操作简便快捷.在讨论了其定义、性质和基本操作之后,给出了一个三叉Hufman树算例.  相似文献   

6.
含有位置坐标树的Web页面分析和内容提取框架   总被引:6,自引:0,他引:6  
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率.  相似文献   

7.
根据一个数据序列构建AVL树,传统算法是从空树开始依次将结点进行插入,每插入一个结点后都要判断插入结点后的新树是否还是AVL树,如是则继续插入下一个结点,如不是则先要将之调整为AVL树再插入下一个结点,直至结束。这种方法的不足是很多时候需要对生成的中间树进行调整,耗时较多。针对这种情况,如果只是为了得到最终的AVL树,而不要求考虑原来数据插入的顺序,可以先将数据进行排序,然后采用递归思想进行构建:将中点数据作为AVL树的根,小于中点数据的数据用来构成AVL树的左子树,大于中点数据的数据用来构成AVL树的右子树。  相似文献   

8.
针对R*-树应用到逆向工程领域时遇到的适用性差等问题,提出了一种新的R*-树结点分裂算法.该算法将R*-树索引结点表示为轴向包围盒,依据轴向包围盒外接球间的重叠度计算结点相似度,并将其作为权值构建结点无向连通图,用来求解结点无向连通图的最小生成树.沿最大权值边将最小生成树分裂为2棵子树,并基于结点外接球体积对R*-树结构进行优化,从而实现了R*-树结点分裂.实例表明,R*-树结点分裂算法可处理各种复杂数据的结点分裂问题,能够有效地提高R*-树的构建效率及空间数据的查询效率.  相似文献   

9.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

10.
提出基于主干树的最小代价组播路由算法,该算法首先在网络中找出K个代价最小的结点,然后以这K个结点形成一棵树,并称这棵为主干树,然后将不在主干树上的成员结点加入到树上,最后剪去非成员的叶结点。该算法的时间复杂度O(n^3)。该算法所构造的组播树代价略低于MPH算法和KMB算法。  相似文献   

11.
时贵英 《科学技术与工程》2011,18(18):4223-4227
针对当前数据集成方法只能精确到属性级映射的缺陷,提出了基于数据元的数据集成方法。用数据元语义树对实体属性概念的内涵进行语义描述,使实体属性的语义能被计算机理解。然后通过语义计算实现精确到实例级的语义映射,从而完成数据集成。  相似文献   

12.
从web技术发展和网格技术演化融合的角度出发,介绍语义网格的产生根源、发展历程、体系结构和主要技术,详细分析web服务、语义web、语义web服务对网格发展的渗透及它们之间的关系,并展望普适计算与语义网格在未来的融合发展.  相似文献   

13.
提出了一种面向网络信息的层次过滤模型及其体系架构,该模型分为本体过滤层、需求过滤层和兴趣过滤层.本体过滤层中,利用本体为基础对信息内容进行语义描述,实现信息的计算机理解与过滤;在需求过滤层,模型通过理解用户所提出的需求中所包含的语义,进而更加准确地通过过滤规则进行信息流过滤;在兴趣过滤层,用户兴趣通过特定方式表达,并通过语义相似度计算实现第三过滤层.  相似文献   

14.
介绍了语义网的相关知识,针对数字图书馆信息检索效率不高的问题,在现有数字图书馆信息检索模型的基础上,提出一种新型的基于语义网的数字图书馆信息检索模型,详细论述了该模型的3个主要模块及其各自功能。通过采用语义网技术,解决了在传统的基于关键字的信息检索中只能从句法上对关键字进行分析,而无法根据信息资源中的语义关系进行检索的问题。  相似文献   

15.
基于语义Web的网页推荐模型   总被引:4,自引:1,他引:4  
如何使用语义 Web技术构建网页推荐模型是一个有着广泛应用前景的研究课题。语义 Web下的网页用本体标注 ,该模型自动采集被标注网页上的语义信息 ,利用网页中的标注信息和相应的本体概念对网页进行分类 ,将分类结果存放在数据库中。同时 ,在这个模型下 ,用户的兴趣存放在DAML (DARPA agent markup language)格式的文件中。通过用户兴趣和网页类别的匹配 ,就能够给用户推荐需要的网页 ,在推荐网页时 ,该模型还采用支持向量机用于分类用户。实验结果显示了该模型比传统的网页推荐模型准确率更高  相似文献   

16.
将文本语义分析领域中的概率潜语义分析(PLSA)模型和语义树模型进行融合, 设计一种新模型, 并将其应用在文本病历语义分析上, 较好地解决了文本病历语义分析过程中存在的“多词一义”情况, 降低了语义维度, 简化了窗口语义树的结构. 通过语义分解和语义检索实验证明了该模型在文本病历语义分析上的优势.  相似文献   

17.
基于语义Web实现有效Web信息检索的研究   总被引:22,自引:0,他引:22  
万维网上大量的异构、非结构化的数据使人们难以有效地发现自己所需的信息.作为网上通用的元数据描述工具,语义Web中的RDF(S)可以对网上信息建立规范化表述,语义检索系统的模型与专业垂直网站结合可以提高用户检索Web信息的效率.  相似文献   

18.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

19.
基于本体的信息检索系统模型   总被引:5,自引:0,他引:5  
针对基于关键字的传统查询方法存在的不足,提出一种面向语义查询的信息检索模型.该模型将信息检索方法与语义Web技术相结合,通过基于本体的知识库实现用户对文档库的语义查询;同时,综合考虑语义检索和关键字检索两种情况,提出一种相似度计算方法,有效地满足了用户对Web信息资源的要求,并为以后的语义检索研究奠定了理论基础.  相似文献   

20.
基于标记树的WEB页面净化技术研究   总被引:2,自引:0,他引:2  
根据Web页面标记建立标记树,通过分析,保留有用信息的标记子树,达到获取页面主要内容,净化页面的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号