期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点．Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识．本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高．最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中．相似文献

7.

文本挖掘研究进展 总被引：12，自引：0，他引：12

湛燕陈昊袁方王丽娟《河北大学学报(自然科学版)》2003,23(2):221-226

数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景. 相似文献

8.

Web文本挖掘中特征提取算法的分析及改进

下载免费PDF全文

张脂平林世平《福州大学学报(自然科学版)》2004,32(Z1):63-66

介绍Web文本挖掘的定义,描述几种特征提取方法及特点,并在主成分分析的基础上提出了SVD方法,进一步提高了Web文本的处理效率,为文本的分类、聚类以及其它处理提供了简练的特征表示方法.实验证明,该处理方法有效降低了文本特征矢量的维数. 相似文献

9.

文本挖掘技术研究 总被引：28，自引：0，他引：28

薛为民陆玉昌《北京联合大学学报(自然科学版)》2005,19(4):59-63

文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望. 相似文献

10.

Web文本挖掘技术在新闻主题检测中的应用研究

王志明沙莎《长沙大学学报》2007,21(5):58-60

随着Internet的大规模普及,互联网成为人们获取新闻的主要来源.如何从动态的海量网络信息中自动发现突发事件的新闻流主题,并跟踪突发事件的相关信息,从技术上实现对新闻专题进行组织和生成,对新闻事件进行探测与跟踪,一直是技术上的一个难题.Web文本挖掘的概念及关键技术,对其在新闻主题检测与主题追踪中的应用进行了一些探索性的工作. 相似文献

11.

现代远程教育个性化Web挖掘研究

张涛邓军《科学技术与工程》2007,7(5):742-746

从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。相似文献

12.

Web文本挖掘技术在网上购物中的应用

郑雅婷张鹰《牡丹江师范学院学报(自然科学版)》2008,(4)

为了使网上购物的用户能更快捷地搜索到满意的商品,对Web文本挖掘的概念及关键技术进行了阐述和分析,并对其在网上购物的应用做了探索性工作. 相似文献

13.

基于多Agent的Web文本挖掘模型

修雅慧邓文新《科技咨询导报》2008,(10):29-30

1：Web上有大量的数据信息，怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点,本文构建了基于Agent的Web文本挖掘模型，并详细阐述了该模型的结构和工作机理。相似文献

14.

Web文本信息抽取与挖掘方法 总被引：6，自引：0，他引：6

许建潮王颖楠胥桂仙《吉林工学院学报》2002,23(Z1):49-53

Web信息资源中蕴含着具有巨大潜在价值的知识。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。搜索引擎不能完全满足这一要求,为此需要开发比信息检索层次更高的新技术。文中以Web文本为研究对象,着眼于将数据挖掘技术应用于Web挖掘。兼顾中英文文本,提出了一套Web文本的特征表示、特征提取及Web页面的结构化转换方法,并将粗糙集理论应用于转换后的Web文本挖掘。相似文献

15.

基于Web内容挖掘的论坛发贴分类推荐技术 总被引：1，自引：0，他引：1

丁智斌杜念《华北科技学院学报》2011,8(1):54-59

随着Internet基础结构的不断扩大和其所含信息的持续增长,Internet用户感觉越来越容易在WWW服务中"资源迷向".目前提高用户使用效率的方法有页面预取技术、站点动态重构技术和Web个性化推荐技术等.因为网站的页面内容才是用户真正感兴趣的,本文应用了一种基于Web内容挖掘的文本分类技术来实现论坛中贴子的分类推荐... 相似文献

16.

基于Web内容挖掘技术的应用研究 总被引：1，自引：0，他引：1

赵跃余诗武《科技情报开发与经济》2008,18(36):122-123

针对不同类型的Web内容数据,提供了相应的挖掘技术,使用户能快速、高效地获取具有价值的情报信息,并对Web内容挖掘的技术发展、应用趋势做出了分析。相似文献

17.

基于非结构化数据挖掘结构模型的Web文本聚类算法

胡健杨炳儒宋泽锋钱榕《北京科技大学学报》2008,30(2):217-220

在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识. 相似文献

18.

分级与密度相结合的Web文本聚类算法

林国平《太原师范学院学报(自然科学版)》2008,7(3):45-48

考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性. 相似文献

19.

基于改进BoS的Web文本分类研究

彭俊杰陈丹敏《南京邮电大学学报(自然科学版)》2013,33(1):79-83

提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度.改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度.经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高. 相似文献

20.

基于聚类分析策略的Web文本挖掘方法

刘彦保王文发王文东《延安大学学报(自然科学版)》2007,26(4):22-25,29

在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同主题感兴趣概念向量。相似文献