期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

随着互联网中信息的日益增长,通过文本挖掘,快速、准确地检索信息和分类信息成为人们日益迫切的要求,具有广泛的应用前景和实用价值.依据信息论的思想,从文档信息量变化的角度,对文本数据从概率角度来研究文本数据的聚类分析,研究信息量在层次聚类过程中所呈现的规律性,进而提出一种基于信息量模型的聚类分析算法. 相似文献

7.

文本挖掘中的特征表示及聚类方法 总被引：1，自引：0，他引：1

胥桂仙许建潮连远锋李昱翠《吉林工学院学报》2002,23(3):12-15

文本挖掘中特征表示函数的选择影响到特征词表达文本的能力 ,文中设计的评判函数可以比较准确地表达特征词的重要程度。采用K邻近算法对文本集进行聚类 ,产生了较好的聚类效果相似文献

8.

基于Web的文本挖掘的研究

张晖张艳《科技信息》2007,(30):87-87

基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。相似文献

9.

基于DBSCAN聚类算法的Web文本挖掘

傅华忠茅剑《科技信息》2007,(1)

Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法．以及它在文本挖掘中的具体实现过程。相似文献

10.

文本挖掘技术研究 总被引：28，自引：0，他引：28

薛为民陆玉昌《北京联合大学学报(自然科学版)》2005,19(4):59-63

文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望. 相似文献

11.

一种组合型中文文本分类特征选择方法 总被引：1，自引：1，他引：1

刘海峰王元元刘守生《广西师范大学学报(自然科学版)》2007,25(4):208-211

根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。相似文献

12.

文本分类中的特征选取算法 总被引：3，自引：0，他引：3

王玉玲王娟《孝感学院学报》2003,23(6):35-37

分析了常用的几种特征选取方法，提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。相似文献

13.

中文文本分类特征选择的研究

李家兵《皖西学院学报》2009,25(2):22-25

文本分类特征选择是文本自动分类中首先要解决的重要问题。主要介绍了11种文本分类特征选择的方法,并选择其中的4种进行实验分析。实验结果说明：好的特征选择,对于提高文本分类的效率和效果至关重要。相似文献

14.

文本分类中特征降维方式的研究

伍建军康耀红《海南大学学报(自然科学版)》2007,25(1):62-66

首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数. 相似文献

15.

文本聚类中的特征选择方法

龚静曾建一《吉首大学学报(自然科学版)》2008,29(2):39-41

介绍了3种用于文本聚类的特征选择方法：文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果. 相似文献

16.

中文文本分类技术比较研究 总被引：2，自引：0，他引：2

胡龙茂《安庆师范学院学报(自然科学版)》2015,(2):49-53

文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。相似文献

17.

文本分类中特征选择方法的比较和改进 总被引：1，自引：1，他引：1

伍建军康耀红《郑州大学学报(理学版)》2007,39(2):110-113

考察了文档频率DF、互信息MI、CHI统计、CC统计四种不同的特征选择方法,并结合K近邻算法进行分类精度上的比较.为消除MI对低频词的倚重,提出一种DF与MI结合的特征评价函数,并验证了这种组合特征选择方法的有效性. 相似文献

18.

停用词的选取对文本分类效果的影响研究

崔彩霞《太原师范学院学报(自然科学版)》2008,7(4):91-93

考察了2种常用的基于统计方法的停用词选取方法，结合语言学知识，提出了一种统计和语言学结合的停用词选取的方法，以支持向量机作为分类器在复旦语料上做了实验，结果表明该方法在保证文本分类的准确率的基础上，可以大大地降低特征词的维数．相似文献

19.

基于同义词词林的文本特征选择方法

郑艳红张东站《厦门大学学报(自然科学版)》2012,51(2):200-203

特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度. 相似文献

20.

基于聚类分析策略的Web文本挖掘方法

刘彦保王文发王文东《延安大学学报(自然科学版)》2007,26(4):22-25,29

在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同主题感兴趣概念向量。相似文献