共查询到19条相似文献,搜索用时 70 毫秒
1.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识. 相似文献
2.
Web的半结构化数据模型和查询模型 总被引:4,自引:0,他引:4
徐贵红 《内蒙古大学学报(自然科学版)》1999,30(3):299-303
通过介绍半结构化数据的特点,说明了半结构化数据适合于描述Web上的数据,并讨论了Web的查询特点以及Web查询模型的研究情况 相似文献
3.
杨晓宇 《太原师范学院学报(自然科学版)》2003,2(3):36-39
Web数据存在方式的特殊性使Web数据控制变得十分复杂,把现有的Web页面转换成XML可以使那些熟悉Web最常用技术的开发人员能快速而便捷地获取他们所需的以Web方式发布的信息.描述了从目前存在的最大信息来源-万维网-抽取信息的方法和实现过程. 相似文献
4.
简要介绍了数据挖掘、Web数据挖掘及Web文本数据挖掘技术。从特征项提取、文本关联分析、文本分类、文本聚类等方面对Web文本数据挖掘技术在电子商务中的应用作了探讨,并略述了Web文本数据挖掘技术的应用现状及其发展趋势。 相似文献
5.
基于Web的数据挖掘研究 总被引:2,自引:0,他引:2
基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题.本文介绍了Web数据的特点及Web数据挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,并总结了Web日志挖掘的常用数据挖掘技术. 相似文献
6.
基于Web的数据挖掘研究 总被引:6,自引:0,他引:6
基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。本文介绍了Web数据的特点及Web数据挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,并总结了Web日志挖掘的常用数据挖掘技术。 相似文献
8.
本文讨论了Web挖掘的种类,其中的web文本挖掘是重要组成部分;并重点分析了文本特征提取、文本分类、文本聚类等Web文本挖掘中的关键技术。 相似文献
9.
1:Web上有大量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点,本文构建了基于Agent的Web文本挖掘模型,并详细阐述了该模型的结构和工作机理。 相似文献
10.
当前网络发展迅速,各种网站比比皆是。但在竞争日益激烈的网络经济中,作为一个网站的管理员或拥有者,只有知道网站哪些部分最为用户喜爱,哪些让用户感到厌烦,才能最终赢得竞争的优势,而基于Web数据挖掘技术正能满足这些需求。本文介绍了基于Web的数据挖掘的定义、分类以及XML在Web数据挖掘中的应用。 相似文献
11.
ChenEnhong LinLe WuGongqing 《高技术通讯(英文版)》2005,11(1):6-8
The paper studies the problem of incremental pattern mining from semi-structrued data. When a new dataset is added into the original dataset, it is difficult for existing pattern mining algorithms to incrementally update the mined results. To solve the problem, an incremental pattern mining algorithm based on the rightmost expansion technique is proposed here to improve the mining performance by utilizing the original mining results and information obtained in the previous mining process. To improve the efficiency, the algorithm adopts a pruning technique by using the frequent pattern expansion forest obtained in mining processes. Comparative experiments with different volume of initial datasets, incremental datasets and different minimum support thresholds demonstrate that the algorithm has a great improvement in the efficiency compared with that of non-incremental pattern mining algorithm. 相似文献
12.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的. 相似文献
13.
针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高. 相似文献
14.
介绍Web文本挖掘的定义,描述几种特征提取方法及特点,并在主成分分析的基础上提出了SVD方法,进一步提高了Web文本的处理效率,为文本的分类、聚类以及其它处理提供了简练的特征表示方法.实验证明,该处理方法有效降低了文本特征矢量的维数. 相似文献
15.
16.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。 相似文献
17.
Web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的必然结果。讨论Web数据挖掘技术中各种类型的Web数据挖掘的基本过程以及它们所使用的一些相关技术,分析Web数据挖掘的特点及面临的挑战. 相似文献
18.
CHEN Tao-lue HAN Ting-ting LU Jian 《武汉大学学报:自然科学英文版》2006,11(1):107-112
Tree logic, inherited from ambient logic, is introduced as the formal foundation of related programming language and type systems, In this paper, we introduce recursion into such logic system, which can describe the tree data more dearly and concisely. By making a distinction between proposition and predicate, a concise semantics interpretation for our modal logic is given. We also develop a model checking algorithm for the logic without △ operator. The correctness of the algorithm is shown. Such work can be seen as the basis of the semi-structured data processing language and more flexible type system. 相似文献
19.
日志挖掘是Web数据挖掘的一个重要研究领域.本文首先介绍了Web日志挖掘的方法,然后将Web日志挖掘方法运用于一个学校的网站中,结合Apriori算法对预处理之后的数据进行挖掘,获取页面之间的关联关系,对网站结构的优化提供一定的依据. 相似文献