期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵鸿山范贵生虞慧群《华东理工大学学报(自然科学版)》2019,45(5)

特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更高的分类准确率和Macro-F1值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,有效提升文本的分类性能。相似文献

2.

采用特征分辨率和等价类相关矩阵的特征选择

符红霞黄成兵《科学技术与工程》2012,12(34):9234-9237,9242

特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先分析了词频和文档频并在此基础上对文档频进行优化。然后又以此为基础提出了特征分辨率并先用它初选文本特征。紧接着又把粗糙集引入进来并给出了一个基于等价类相关矩阵的属性约简算法,以此来进一步消除冗余特征。仿真结果表明上述方法无论是在精确度和召回率方面,还是时间性能及平均分类精度方面,都具有一定的优势。相似文献

3.

基于改进K最近邻算法的中文文本分类

下载免费PDF全文

黄超陈军华《上海师范大学学报(自然科学版)》2019,48(1):96-101

针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势. 相似文献

4.

基于贝叶斯粗糙集的文本特征选择方法 总被引：3，自引：1，他引：2

朱颢东钟勇《河南师范大学学报(自然科学版)》2009,37(4)

特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的. 相似文献

5.

文本分类中的类别信息特征选择方法 总被引：3，自引：0，他引：3

余俊英王明文盛俊《山东大学学报(理学版)》2006,41(3):10-13,59

随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要．特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类嚣的泛化能力,出现“过学习”的现象．因此,文档特征的选择和提取是文本分类的必要前提．提出一种基于类别信息的特征选择方法,谊方法在尽量保留文档信息的同时,考虑了文档的类别信息．实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高．相似文献

6.

文档分类之特征选择方法的实验比较 总被引：2，自引：1，他引：1

张建兵戴新宇陈家骏《广西师范大学学报(自然科学版)》2008,26(3)

在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一.其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用.然而,该分类方法的性能很大程度上取决于文本的特征空间表示.在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析.实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理. 相似文献

7.

中文文本分类中特征选择方法的比较研究

刘洋《科技信息》2007,(3):54-54

文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。相似文献

8.

基于信息熵的TFIDF文本分类特征选择算法研究

陈国松黄大荣《湖北民族学院学报(自然科学版)》2008,26(4)

特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度. 相似文献

9.

文本分类中基于综合度量的特征选择方法

杨杰明刘元宁曲朝阳刘志颖《吉林大学学报(理学版)》2013,51(5):887-893

针对传统特征选择算法的不足, 提出一种新的特征选择算法. 该算法能综合度量一个特征在类内和类间的重要性, 并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验. 实验结果表明, 该算法进一步降低了特征向量空间的维度, 并有效提高了分类器的分类性能. 相似文献

10.

文本分类中的类别信息特征选择方法 总被引：1，自引：0，他引：1

余俊英王明文盛俊《山东大学学报(理学版)》2006,41(3):144-148

随着网上电子文档的急剧增长，文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难，从而降低分类器的泛化能力，出现“过学习”的现象.因此，文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法，该方法在尽量保留文档信息的同时，考虑了文档的类别信息.实验表明，这种方法的分类性能比较好，特别是在微平均指标上，与OCFS以及卡方统计量相比有较大幅度的提高. 相似文献

11.

基于同义词词林的文本特征选择方法

郑艳红张东站《厦门大学学报(自然科学版)》2012,51(2):200-203

特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度. 相似文献

12.

带专业词库的特征选择

刘晓志黄厚宽尚文倩《北京交通大学学报(自然科学版)》2006,30(2):97-100

在经典特征选择算法的基础上,提出一种带专业词库的特征选择方法.在训练分类模型的时候,适当加重属于专业词汇的特征的权重.这种方法能够有效地避免特征选择时误删有用的低频词,因此,适合用于短文本的分类(电子邮件等).实验结果表明,本方法在抽取特征维数较少时,分类准确率提高约3%. 相似文献

13.

基于遗传算法和互信息公式结合的特征选择

涂昌慧葛红胡天亮《华南师范大学学报(自然科学版)》2014,46(6):28-32

提出了一种由遗传算法和改进互信息公式相结合的特征选择方法．将遗传算法中的特征评价函数换为改进互信息公式来对特征进行选择,结合了过滤式和封装式这2种特征选择方法的优点．实验部分采用另外2种特征选择算法与本文所提方法分别进行特征选择,将这3种方法所得到的特征子集用于概率神经网络、BP神经网络分类器上,通过比较对应的分类精度,检验各种特征选择方法的效果. 实验结果显示,所提出的特征选择方法能更为有效的实现特征选择,所取得的特征子集具有更好的泛化特性. 相似文献

14.

基于遗传算法的中文自动分类特征选择

吕彦红陈基漓阮百尧《山东理工大学学报：自然科学版》2009,23(1)

在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.在分析常用的一些特征选择的评价函数的基础上,提出了一种新的特征选择方法.在标准中文网页数据集上的分类实验表明,该方法提高了文本分类的准确率. 相似文献

15.

基于语义神经网络的文本特征选择方法的研究

邱烨刘培玉张立伟《山东科学》2009,22(1):21-25

文本自动分类的一项关键技术是特征选择。本文针对信息过滤的特点,对特征选择方法进行了改进,提出了一种基于语义神经网络的文本特征选择方法。首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心是关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明,该方法可以极大地降低文本的维数,提高文本过滤的质量。相似文献

16.

基于核覆盖算法的中文文本分类研究

杨丽玲《吉林师范大学学报(自然科学版)》2014,(4):133-135

文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法. 相似文献

17.

基于机器学习的高血压病历文本分类

胡婧刘伟马凯《科学技术与工程》2019,19(33):296-301

为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。相似文献

18.

文本聚类中的特征降维方法研究

毛嘉莉《西华师范大学学报(哲学社会科学版)》2009,(4):365-368

文本聚类的关键是对高维的特征集进行降维．本文对常用的一些特征选择、特征抽取等主流特征降维方法进行了介绍,分析了它们各自的特点及其适用范围．相似文献

19.

基于不完备信息系统的文本分类研究与应用

代劲胡峰王国胤《重庆邮电学院学报(自然科学版)》2006,18(3):397-401

在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的.在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法.实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率. 相似文献