首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
xml作为一种数据表示方式,越来越为人们所接受.最近,基于xml/半结构化数据的索引的查询引起了人们的广泛关注.有人提出来用结构索引来支持基于xml/半结构化数据的查询.由于xml/半结构化数据的结构不严格、不规则,结构索引会随着数据的增加或删除而变化,维护结构索引就成了首要问题.本文研究了在xml文档集合上增加多个文档和删除一个文档时结构索引的更新,提出了在这两种情况下的索引维护算法,这两种算法比现在已知的其它算法的性能要更优秀.  相似文献   

2.
对档案袋数据管理技术(APDM)体系结构的建立、层次文档的形成和管理关键性技术进行了研究,提出了针对这种半结构化文档的存储方法和索引策略.  相似文献   

3.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

4.
基于两级概念格的信息抽取的研究   总被引:1,自引:0,他引:1  
该文提出了结构关键词的概念,给出了结构概念格和内容概念格的形式化描述.结构概念格是对文档语义段的逻辑存储,内容概念格是对文档内容信息的逻辑存储.开发了一个基于文档的结构和内容构造两级概念格的信息抽取的实验系统.实验表明,该方法对减少信息抽取的时间和提高信息抽取的精度有显著的效果.  相似文献   

5.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

6.
XML数据由嵌套的标记元素组成,标记包含了对文档存储形式和逻辑的描述XML的嵌套标记使得它更适合描述Web上的半结构化的数据。XML不仅能够表示文档的内容,而且可以表示文档的结构。通常解析XML文档有两种方法:一种是文档对象模型DOM(Document Object Model),另外一种是XML简单接口SAX(Simple APIfor XML)。本文对这两种方法进行了介绍,并在VC6环境下实现了对XML文档的解析。  相似文献   

7.
基于XML的藏文图书检索系统的设计与研究   总被引:1,自引:0,他引:1  
通过设计一个藏文图书查询系统,并给出该系统的总体结构图,对基于XML的搜索引擎中涉及的关键技术进行了研究,提出对XML这种半结构化文档建立索引和查询时采用的数据结构和算法.它在不丢失文档中结构信息的情况下,能充分利用XML的标签所带来的上下文信息,能够大幅度提高查询的准确率.  相似文献   

8.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

9.
用户在搜索引擎上进行信息查询时,并不关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中反复筛选。智能搜索技术,采用了先进的"模式识别"方法,可以根据单词或词语的使用和出现频率来识别不同文本在上下文环境中自己产生的模式。通过判断一条非结构化信息中的一种模式优于另一种模式,可使计算机了解一篇文档与某个主题的相关度。利用这种方法,可以抽取文档中的文本要素,自动识别文本的概念然后对该文本进行自动操作。这种创新的高性能模式识别算法提供了精确的文本上下文分析和概念抽取,可对信息自动分类和相互链接,从而提高信息检索的效率。  相似文献   

10.
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取, 并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息, 输出最长频繁路径的集合, 以实现半结构化数据的提取。实验结果表明, 该算法能同时有效地处理分支及环路问题, 避免了死循环的出现。  相似文献   

11.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中.  相似文献   

12.
一种基于相似性的文档聚类算法   总被引:2,自引:0,他引:2  
针对常见信息检索技术的缺陷,提出一种基于相似性的文档聚类分析算法,将文档集合转化为向量集合,基于向量之间的余弦相似度,采取凝聚的层次聚类算法来获得聚类,给出了算法的详细描述的一个测试实例。  相似文献   

13.
当处理的半结构数据时,从中挖掘出其隐含的结构显得愈来愈重要了,不仅对于用户而且对于整个系统来说,其重要性也是不言而喻的.算法structure_discovery将聚类算法应用到半结构化数据的结构发现上,将描述同一类对象的共有结构按照相似度聚集到一起形成类,然后从类中发现满足用户兴趣度的结构.与同类算法比较,structure_discovery为增量式算法,同时,聚类技术的使用提高了结构发现效率.  相似文献   

14.
一种改进的凝聚层次聚类法   总被引:1,自引:0,他引:1  
以实例说明了选用以欧氏距离或明考斯基距离为距离度量的凝聚层次聚类法进行聚类时会出现的问题,并详细分析了用该算法出现问题的原因.结合模糊聚类思想,给出了一种改进算法,通过实例说明该改进算法的合理性和有效性.  相似文献   

15.
针对传统Mashup服务推荐在网络构建方式的成本和计算复杂性过高问题, 提出一种基于半监督层次聚类描述的Mashup服务推荐算法. 首先, 利用网爬工具收集ProgrammableWeb上的Mashup服务信息, 并采用后缀剥离算法把Mashup服务的标签信息修改为名词形式, 以此作为研究分析的数据集; 其次, 为提高聚类精度, 提出一种半监督层次描述聚类算法, 通过植入层次聚类算法顶层核心集方式, 有效解决了传统层次描述聚类因顶层分类集构造失败而影响Mashup服务推荐算法的准确度. 通过在聚类数据集和网爬Mashup服务数据库上的实验表明, 该算法的Mashup服务推荐准确率优于对比算法.  相似文献   

16.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

17.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

18.
自主式交通系统(autonomous transportation system, ATS)是为应对主动式智慧交通发展趋势而提出的新一代交通系统。为科学合理地构建ATS功能架构,提出了一种面向多属性文本的优化密度峰值聚类算法(density peaks clustering, DPC)。该算法结合交通系统功能架构的基本特征,通过改进的词频-逆向文档频率算法与文本向量空间模型,将多属性文本转化成空间维度坐标。再利用高斯函数和决策值优化DPC算法进行聚类,并结合轮廓系数对聚类结果进行评价。为了检验算法的合理性,在ATS道路自动驾驶场景下,基于道路载运工具运行服务域、交通基础设施管理服务域和交通安全管理服务域的功能数据集进行了算例分析,依据聚类结果绘制功能架构图。架构图由自主感知-自主学习-自主决策-自主响应4层构成,验证了ATS应用场景中功能架构优化算法的可行性和合理性。算例结果表明:该算法的构建具有鲁棒性,算例轮廓系数整体均值为0.84,与原算法相比解决了聚类过程中聚类中心难以划定的问题;与原智能交通系统中的各架构设计相比,该功能架构更具有层次性和逻辑性。该优化算法能够促进新一代交通系统...  相似文献   

19.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

20.
AC聚类方法与层次聚类方法的比较研究   总被引:1,自引:0,他引:1  
介绍了AC聚类算法原理,并通过比较AC聚类算法和层次聚类方法在算法假设、算法过程方面的差别,显示了AC聚类算法在复杂系统聚类方面的优越性,指出AC聚类算法是研究复杂问题的有效方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号