首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 94 毫秒
1.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

2.
随着Internet/Web技术的快速普及和迅猛发展使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于web的应用.文章就web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细地阐述,在此基础上列举了Web挖掘中的难点,并简要介绍了一下Web挖掘技术在电子商务、网站设计等领域的应用.  相似文献   

3.
本文首先介绍文本挖掘的定义及一般处理过程,重点探讨了文本分类与分类聚类等文本挖掘的关健技术。  相似文献   

4.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

5.
文本挖掘技术综述   总被引:17,自引:0,他引:17  
文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程.对其进行深入的研究势必将极大地提高人们从海量的文本数据中提取信息的能力,具有很高的商业价值.首先介绍了文本数据挖掘的研究情况,然后给出了文本挖掘的框架,对文本挖掘中信息的抽取技术以及文本挖掘中使用的相关技术、评估方法等都作了详细的介绍,最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景.  相似文献   

6.
信息获取已成为药商经营活动的重要组成部分和市场判断依据,网络大量非结构化、半结构化信息的出现为药商个性化服务提供了技术空间和实证依据.文章通过对个性化服务中文本挖掘的关键技术进行设计,并应用了中药材信息网站文本挖掘流程,把文本挖掘技术应用于中药材信息网站的用户兴趣获取实例中,实现用户兴趣的自动获取功能.  相似文献   

7.
随着互联网中信息的日益增长,通过文本挖掘,快速、准确地检索信息和分类信息成为人们日益迫切的要求,具有广泛的应用前景和实用价值.依据信息论的思想,从文档信息量变化的角度,对文本数据从概率角度来研究文本数据的聚类分析,研究信息量在层次聚类过程中所呈现的规律性,进而提出一种基于信息量模型的聚类分析算法.  相似文献   

8.
简要介绍了数据挖掘、Web数据挖掘及Web文本数据挖掘技术。从特征项提取、文本关联分析、文本分类、文本聚类等方面对Web文本数据挖掘技术在电子商务中的应用作了探讨,并略述了Web文本数据挖掘技术的应用现状及其发展趋势。  相似文献   

9.
中文文本挖掘中最长频繁序列的发现算法   总被引:1,自引:0,他引:1  
本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来.  相似文献   

10.
为了使网上购物的用户能更快捷地搜索到满意的商品,对Web文本挖掘的概念及关键技术进行了阐述和分析,并对其在网上购物的应用做了探索性工作.  相似文献   

11.
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。  相似文献   

12.
一种改进的中文分词歧义消除算法研究   总被引:1,自引:1,他引:0  
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础.  相似文献   

13.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中.  相似文献   

14.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

15.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

16.
基于均值密度中心估计的k-means聚类文本挖掘方法   总被引:1,自引:1,他引:0  
文本挖掘作为数据挖掘的重要研究领域,是检索有用文本信息的重要手段。通过对K-means聚类挖掘方法的基本原理和实现步骤的分析,发现随机选择聚类中心迭代初值、奇异点问题是制约其发展的技术瓶颈,针对该方法的不足,提出了一种基于均值密度中心估计的K-means聚类文本挖掘方法,采用基于均值密度的聚类中心初值估算取代原有方法的随机选取模式,设计自适应的邻域形状选择机制,用均值密度配合阈值消除奇异点。实验结果表明,提出的方法提高了K-means聚类方法的文本挖掘性能,使得文本挖掘查准率得到很大的提高,不仅强于一般K-means均值聚类方法,且和新近流行的自组织神经网络聚类方法相比也具有一定的优势。  相似文献   

17.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

18.
文本挖掘中的特征表示及聚类方法   总被引:1,自引:0,他引:1  
文本挖掘中特征表示函数的选择影响到特征词表达文本的能力 ,文中设计的评判函数可以比较准确地表达特征词的重要程度。采用K邻近算法对文本集进行聚类 ,产生了较好的聚类效果  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号