首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

2.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。  相似文献   

3.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

4.
张筱丹 《科技信息》2009,(4):165-166
本文讨论了Web挖掘的种类,其中的web文本挖掘是重要组成部分;并重点分析了文本特征提取、文本分类、文本聚类等Web文本挖掘中的关键技术。  相似文献   

5.
目的结合中文信息处理技术,设计一个网络舆情监控系统;针对网络舆情挖掘研究中存在的问题,提出了一种K-means改进算法,实现Web挖掘基础上的文本聚类与主题发现。方法构建一个基于聚类分析的网络舆情监控系统,并详细介绍系统各个模块用到的关键技术;提出了一种K-means改进算法,对K-means算法中的关键环节(聚类初始值的选择和孤立点的剔除)进行了改进。结果设计的系统能通过对网页、论坛、博客、新闻评论等网络资源的精确采集,并结合网页净化、中文分词、向量模型建立、特征选择、降维处理,文本聚类等中文信息处理技术,实现对网络舆情的监测;改进算法的总体思路是要求用户输入簇的初始个数k和最大值kmax,由改进算法在计算过程中自动计算出聚类的结果数k。结论设计了一个基于聚类分析的网络舆情监控系统;提出了一种K-means改进算法。具体算法实施及将这些关键技术整合实现成一套自动化的网络舆情信息采集、分析、监测与预警系统,是网络舆情挖掘研究工作的下一步重点。  相似文献   

6.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

7.
简要介绍了数据挖掘、Web数据挖掘及Web文本数据挖掘技术。从特征项提取、文本关联分析、文本分类、文本聚类等方面对Web文本数据挖掘技术在电子商务中的应用作了探讨,并略述了Web文本数据挖掘技术的应用现状及其发展趋势。  相似文献   

8.
本文针对垃圾邮件包含较多干扰信息,导致文档相似度度量效果较差的问题,将Needleman-Wunsch算法引入到文本相似度计算中,并针对性地提出一种高效的聚类算法,为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术.与传统的仅基于知网、基于语义等聚类算法相比,本方法在算法效率和聚类质量上都有很大的改进.  相似文献   

9.
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。  相似文献   

10.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

11.
Web文本挖掘在人们的日常生活和决策分析过程中起到了越来越重要的作用。介绍了Web挖掘的概念和基本特征,在此基础上重点研究了Web文本挖掘方法,引出了Web文本挖掘的模型WebMiner。结合知识库概念,尝试对WebMiner模型进行改进,提出了基于知识库的Web文本挖掘模型K-WebMiner,希望可以提高Web内容挖掘的效果。  相似文献   

12.
基于Web的数据挖掘方法的研究及实现   总被引:3,自引:0,他引:3  
Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。  相似文献   

13.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

14.
Web上用户行为的挖掘是Web日志挖掘的重要内容,挖掘到的查找路径能够提供决策支持。分析频繁项集挖掘和路径挖掘的不同之处,提出了类Apriori算法,使之适用于路径挖掘,然后在VC++中针对预处理过的日志数据进行实验分析,获得了一些可信度高的关联页面,这些页面关联信息将有助于改进商业站点结构,提高站点的访问率。  相似文献   

15.
Web挖掘的体系研究   总被引:6,自引:0,他引:6  
互联网的出现极大地丰富了人们的信息,但也困扰人们从中获取有用的知识。Web挖掘的应用为解决此问题指明了方向。该文从Web内容挖掘、Web结构挖掘和使用记录挖掘3个方面论述了Web挖掘的内容及相关技术的研究现状和发展方向。Web内容挖掘包括信息提取和信息检索,Web信息提取的主要过程包括向量表示、特征提取、特征缩减和文本挖掘;对于信息检索,文章从搜索引擎的原理、分类以及最新的发展技术方面对其进行了论述;而对于结构挖掘和使用记录挖掘,文章主要论述了其算法和过程。  相似文献   

16.
结合实例对商务网站Web日志数据进行挖掘研究,介绍将Web数据转变为数据仓库数据的过程和数据挖掘的方法,文章的最后讲述了可视化数据挖掘技术在表现挖掘结果中的应用.  相似文献   

17.
Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和研究方向,首先介绍了Web日志挖掘的过程,然后介绍了关联规则及关联规则算法——FP-growth算法,最后将关联规则中的FP-growth算法应用在网上书店系统中,实现对客户数据的关联规则挖掘。  相似文献   

18.
文本挖掘综述   总被引:1,自引:0,他引:1  
杨霞  黄陈英 《科技信息》2009,(33):82-82,99
文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。  相似文献   

19.
Web挖掘是将数据挖掘和WWW两个领域中的多种技术和方法结合起来的热门研究课题.它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘.关联规则算法已成为数据挖掘算法中的重要课题.通过对关联规则挖掘算法进行分析,指出了该算法存在的一些问题,并提出了一种用户频繁访问模式结构.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号