首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于语句-词条矩阵的聚簇式动态增长聚类算法   总被引:1,自引:0,他引:1  
Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.  相似文献   

2.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

3.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

4.
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

5.
为实现简捷的信息抽取和信息利用,提出一种采用树型结构实现Web数据到XML文档的转换算法.使用基于树型结构的类型定义和信息抽取方法,可有效将Web文档中的数据抽取出来并表示为XML格式的文档,形成可用的XML数据源,便于其他应用程序使用结果数据,为实现Web中的信息共享与数据交换提供便利条件.  相似文献   

6.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

7.
含有位置坐标树的Web页面分析和内容提取框架   总被引:6,自引:0,他引:6  
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率.  相似文献   

8.
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。  相似文献   

9.
识别和抽取XML文档中的关系信息及其出现模式   总被引:3,自引:0,他引:3  
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据.  相似文献   

10.
基于领域本体的自动化语义标注方法的研究   总被引:1,自引:0,他引:1  
介绍了语义网,本体以及语义标注的基本概念,对现有的语义标注方法以及技术进行了说明和分析.针对目前互联网上含有大量语义信息的HTML文档,提出了一种自动化的语义标注的方法.该方法对HTML文档进行结构分析,并参照词汇数据库Hownet和领域本体对文档进行语义分析,找出文档对应的语义分类树,给文档加上语义标签.以电子消费品领域的HTML文档为实验对象,实验结果证明了该方法具有一定的可行性.  相似文献   

11.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

12.
<正>In many decision making tasks,the features and decision are ordinal.Several ordinal classification learning algorithms have been developed in recent years,it is shown that these algorithms are sensitive to noisy samples and do not work in real-world applications.In this work,we propose a new measure of feature quality, called rank mutual information.Then,we design an ordinal decision tree(REOT) construction technique based on rank mutual information.The theoretic and experimental analysis shows that the proposed algorithm is effective.  相似文献   

13.
根据数据属性间存在的线性相关和非线性相关影响决策树性能的特点,提出了一种用拟合回归建立决策树的算法,并利用这种相关性来提高分类能力.该算法选择了一个较优的属性子集,对此子集中的属性进行加权组合,用于构造决策树的节点,采用二次多项式来拟合两个属性间可能存在的相关性,从而构造出分类能力更强的决策树.研究中用UCI标准数据集对各种算法进行测试及比较,实验结果及分析表明此决策树算法具有良好性能.  相似文献   

14.
基于粗集的混合变量决策树构造算法研究   总被引:1,自引:1,他引:1  
文章提出混合变量决策树结构,并在此基础上提出基于粗集理论的混合变量决策树构造算法RSH2,算法在每个结点选择尽可能少的属性明确划分尽可能多的实例,减小了决策树规模,且易于理解。将RSH2算法与ID3算法及基于粗集的单变量决策树算法HACRs进行实验比较,结果表明该算法有良好性能。  相似文献   

15.
由于现有断路器的开断策略过于复杂,算法设计者不能完全预测算法的执行结果,而将决策树算法应用到智能断路器中,利用C4.5算法对断路器采集的信息进行自动提取知识,根据获得的知识,以最大信息增益率来建立决策树,并进行了简化,能够满足对断路器实时性的要求。  相似文献   

16.
树型结构是一类非常重要的非线性结构,特别是完全二叉树结构本身的特点,在程序设计中有着广泛的应用.本文主要实现了二叉树的图形处理算法、无序表顺序查找改进算法及非递归建立二叉树算法等,并对算法进行了分析.  相似文献   

17.
基于DOM树及行文本统计去噪的网页文本抽取技术   总被引:1,自引:0,他引:1  
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。  相似文献   

18.
针对路由冲突下语义特征信息进行查准,一直存在查准率低的问题。提出一种新的语义特征信息查准算法,首先构建路由冲突下语义网的本体模型,提高语义网中数据的特征分类挖掘和检索能力;接着采用概念树三叉分割思想,实现路由冲突下的语义特征信息的分析;最后通过灰色关联度信息综合评价方法解决语义多属性决策问题,提高了路由冲突下语义特征信息查询的查准率。实验仿真结果证明,采用改进的查准算法在路由冲突下进行语义信息检索其查准率较高,语义特征提取结果准确,提高了语义搜索的准确度,应用价值较高。  相似文献   

19.
基于PageRank和HITS的Web结构挖掘算法研究   总被引:1,自引:0,他引:1  
在对Web结构挖掘的典型算法探讨的基础上,提出了一种PageRank算法和HITS算法相结合的改进算法,并对该算法进行了简要分析。  相似文献   

20.
Data aggregation from various web sources is very significant for web data analysis domain.In addition,the recognition of coherence micro cluster is one of the most interesting issues in the field of data aggregation.Until now,many algorithms have been proposed to work on this issue.However,the deficiency of these solutions is that they cannot recognize the micro-cluster data stream accurately.A semantic-based coherent micro-cluster recognition algorithm for hybrid web data stream is proposed.Firsdy,an objective function is proposed to recognize the coherence micro-cluster and then the coherence micro-cluster recognition algorithm for hybrid web data stream based on semantic is raised.Finally,the effectiveness and efficiency evaluation of the algorithm with extensive experiments is verified on real music data sets from Baidu inc.and Migu inc.The experimental results show that the proposed algorithm has better recall rate than the non-semantic micro cluster recognition algorithm and single source data flow micro cluster recognition algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号