首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
在分析不规范书写的Web网页的DOM树存在的树深度大、结点层次多、结点层次和子树间关系错误等问题的基础上,提出了一种容错的Web网页语义树构造方法,为文本分类与聚类、网络社区发现、Web主题信息的提取和基于主题的Web信息检索等技术的研究工作奠定了基础.  相似文献   

2.
The World Wide Web has become a global information service center with a vast amount of news, advertisements, product and service information, and disparate information from diversified sources. However, only a small portion of information is truly relevant and useful to the users who are seeking information on specific topics. In this paper, common relations among nodes are taken into consideration when constructing site style tree, and a new node type is introduced. Experimental results show that the proposed algorithm has higher precision and recall.   相似文献   

3.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

4.
霍滨焱 《应用科技》2009,36(7):37-40
提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率.设计并实现了一种最小节点信息树抽取规则的可视化实现方法.  相似文献   

5.
随着互联网用户的不断增多以及搜索引擎的广泛使用,用户间进行协同Web搜索的行为不断增多,然而目前的主流搜索引擎和Web浏览器均针对用户的单独搜索行为设计,不便于进行协同Web搜索。在回顾相关研究的基础上,通过对Web搜索引擎的发展分析,指出存在两种实现协同Web搜索的方式,提出了一种基于CBR(case-based reasoning)的协同Web搜索模型,并介绍了基于此模型实现的两套协同Web搜索原型系统。  相似文献   

6.
The fourth international conference on Web information systems and applications (WISA 2007) has received 409 submissions and has accepted 37 papers for publication in this issue. The papers cover broad research areas, including Web mining and data warehouse, Deep Web and Web integration, P2P networks, text processing and information retrieval, as well as Web Services and Web infrastructure. After briefly introducing the WISA conference, the survey outlines the current activities and future trends concerning Web information systems and applications based on the papers accepted for publication.  相似文献   

7.
为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度闽值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。  相似文献   

8.
A new method for Web users fuzzy clustering based on analysis of user interest characteristic is proposed in this article. The method first defines page fuzzy categories according to the links on the index page of the site. then computes fuzzy degree of cross page through aggregating on data of Web tog. After that, by using fuzzy comprehensive evaluation method, the method constructs user interest vectors according to page viewing times and frequency of hits. and derives the fuzzy similarity matrix from the interest vectors for the Web users. Finally. it gets the clustering result through the fuzzy clustering method. The experimental results show the effectiveness of the method.  相似文献   

9.
作为一种崭新的信息处理技术,Web挖掘受到了人们极大的关注。电子商务是一种新型的现代商务模式,如何将Web挖掘应用于电子商务,来有效地处理信息,成为企业共同关注的问题。Web挖掘是应用数据挖掘的方法通过对Web页面内容、页面之间的结构、用户访问的信息等各种数据进行分析和挖掘发现潜在的、有用的知识的过程,帮助决策者更加准确地获得商品的销售信息和客户信息,使客户在短时间内完成商品的浏览、搜索以及订购。本文着重阐述了Web挖掘技术及其在电子商务领域中的应用。  相似文献   

10.
基于决策树的知识表示模型及其应用   总被引:3,自引:2,他引:1       下载免费PDF全文
针对数据挖掘过程中的数据库精炼问题,在分析现行属性约简方法的特点和不足的基础上,结合决策树算法操作简单、分类速度快的特点,通过知识的规则化描述以及规则族之间的相似性比较,建立了一种基于决策树的属性约简方法(简记为BD-RED),讨论了规则族之间的相似性度量的可释化构建问题,给出了BD-RED的具体实施策略,并结合实例分析了BD-RED的性能。结果表明,BD-RED具有良好的结构特征和较强的可操作性,可以有效实现不同决策理念下的属性约简,适合不同类型的大规模数据库的属性约简。  相似文献   

11.
Web挖掘技术及其在网络教学评价中的应用   总被引:6,自引:0,他引:6  
结合Web日志挖掘技术和数据立方体技术应用于网络教学评价体系,以网络教学体系的Web服务端和客户端的日志作为数据源,使用数据挖掘技术采集有用的数据进行分析抽取,建立数据库,再应用数据立方体技术、OLAP进行分析处理,得到所需的评价结果.结果表明,此算法可以客观的评价网络教学结果.  相似文献   

12.
从事务数据、时间序列数据等数据库中挖掘频繁模式已在数据挖掘领域中得到了广泛地研究.针对目前已有的Apriori算法和频繁模式增长算法在时间和空间等方面的复杂性和低效性,提出了一种新的数据结构——事务模式树,用来存放待挖掘的事务信息,同时给出一种基于该数据结构的挖掘算法——事务模式树分层挖掘算法.最后,把该算法应用于保险业务.结果表明,该算法简单高效,值得推广.  相似文献   

13.
将Web文本分类技术和Web使用记录挖掘技术应用于网站信息管理中,实现了网站对站内Web文本的快速自动分类以及对站内不同用户显示个性化布局的功能,显著提高了网站管理中处理大量信息的效率,增强了网站的个性化特征.  相似文献   

14.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

15.
提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法——DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析“视觉属性”树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了比较,文中算法可以获得更高的准确性。  相似文献   

16.
一种新的模糊决策树模型及其应用   总被引:1,自引:0,他引:1  
模糊决策树是决策树在模糊环境下的一种推广,虽然其表示形式更符合人类的思维,但在构造时会增加预处理的工作量和创建树时的开销。基于这种情况,提出了一种混合算法,算法保留了较少属性值的Shannon熵,计算多属性和连续属性值模糊化后的模糊熵。将该算法应用于滑坡数据的挖掘中,得到了更易于理解的决策树和有效的规则,与传统算法的性能比较也证明了该算法的有效性。  相似文献   

17.
利用粗糙集约简的辨识矩阵,给出属性是核心元素的充要条件为该属性是辨识矩阵中单元素集.利用上近似与下近似给出了判断是否核心元素的两个充分条件,指出利用核心元素简化决策树比用熵函数ID3方法简化的决策树更简单.  相似文献   

18.
立体二叉树在排序中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了立体二叉树的数据结构,对立体二叉树的基本概念进行了讨论;对满立体二叉树结构的结点分布与结点编码之和问题进行了研究并给出了有关的公式;最后探讨了立体二叉树在排序中的应用,提出立体堆的排序方法,并对它的算法实现进行设计与分析,得出了立体堆排序方法在最坏情况下的时间复杂性,从而减少了堆排序方法的时间复杂性的常数因子.  相似文献   

19.
基于 DOM 的 Web 信息抽取规则的构造与实现   总被引:1,自引:0,他引:1  
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.  相似文献   

20.
基于URL语义分析的Web用户会话识别方法   总被引:1,自引:0,他引:1  
由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号