首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更高的分类准确率和Macro-F1值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,有效提升文本的分类性能。  相似文献   

2.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

3.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

4.
文本标签作为一种文本关键词,能够简化科技政策中有效信息的挖掘。本文从科技政策类别角度,将标签类别分为科技投入、知识产权、农村科技和税收四类,针对传统SVM算法的缺点和标签数据不平衡的缺点,结合欧式距离思想,提出一种带有惩罚因子的ESVM科技政策文本标签分类方法。最后,对比SVM和ESVM两种分类方法,验证了本文方法在处理科技政策文本标签数据上的有效性。  相似文献   

5.
采用类别相似度聚合的关联文本分类方法   总被引:1,自引:0,他引:1  
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.  相似文献   

6.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

7.
自然语言的不确定性是影响文本分类性能的最重要因素。从降低自然语言中的不确定性出发,将主观信任云引入到文本分类中,提出了一种基于主观信任云信任决策的文本分类方法。该方法通过基于云的概念跃升计算出文本类别概念特征,采用主观信任特征向量作为待分类文本与类别概念之间的相似度判断标准完成分类。该方法有效减少了自然语言的不确定性影响,在不同文本分类方法的实验对比分析中,充分体现了其优异的分类性能。  相似文献   

8.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

9.
从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用,在特征选取中低DF值的词条可能更能代表文本的类别信息。针对以上两个问题,本文提出了基于类别核心词的特征选取方法。首先,从标题、摘要及关键词中提取类别核心词;然后。通过加权方式,强化它们在特征选取中的作用;最后在朴素贝叶斯分类方法上进行实验。实验结果表明,提出的方法能够有效提高中文文本的分类准确率。  相似文献   

10.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类。为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词;针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

11.
针对传统特征选择算法的不足, 提出一种新的特征选择算法. 该算法能综合度量一个特征在类内和类间的重要性, 并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验. 实验结果表明, 该算法进一步降低了特征向量空间的维度, 并有效提高了分类器的分类性能.  相似文献   

12.
A New Approach of Feature Selection for Text Categorization   总被引:1,自引:0,他引:1  
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups.  相似文献   

13.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

14.
基于蒙太古语义学(MS)和受控自然语言(CNL)的文献信息系统,兼具传统文献检索分类法的"符号化"和主题法的"规范词"的特点,并带有复杂的语法和语义功能;从而可以大大提高文献信息的检索和利用效率,还能自动生成规范的文献摘要,并完成不同语言之间的自动翻译.尝试实现这种文献信息系统的结构,其中包括构建语词的范畴分类和语句的函数表达式,以及自然语言-形式语言、中文-英文之间的映射(翻译)等;最后设计一个应用程序以验证该系统的若干功能.本研究表明:这种全新概念的信息组织和管理系统是可行的.  相似文献   

15.
将文档按照主题进行层次分类,利用Fisher线性判别式的思想来提取每一类的正特征词和负特征词,给出基于Fisher线性判别式的层次文档分类算法(HDCF)。HDCF不仅克服一般层次分类算法中假定特征词之间必须满足独立性的条件,而且能处理一个文档涉及多个类的分类问题。在实验中,采用召全率和准确率2个指标与其它算法进行比较,结果表明:HDCF的效果好于其它算法。  相似文献   

16.
基于文档/视图结构的应用程序,实现了数据管理及数据显示的分离,具有结构合理、扩充性好等优点.本文详细阐述了与文档/视图结构相关的MFC类及类间的关系,分析一些函数的流程,并解决编制MD I应用程序过程中的一些常见问题.  相似文献   

17.
基于GML的GIS空间要素描述与应用研究   总被引:9,自引:0,他引:9  
以房屋土地地理信息系统 (GIS)中的地籍图形数据为例 ,探讨了基于地理标识语言 (GML)规范的空间要素描述 ,包括其数据描述结构和GML文档 ,并基于JAVA语言、文档对象模型和XML语言接口协议 (SAX)实现了一个基于GML的地籍GIS查询系统 ,验证了提出的基于GML规范的GIS空间数据描述的可行性  相似文献   

18.
随着电子信息技术飞速发展,电子文件以其自身快速便捷的特点,逐步取代了纸质文件。分析了电子档案与传统档案的不同之处,对电子文件归档存在的问题和解决办法进行了探讨。  相似文献   

19.
单文档多视图的结构有很多的实现方式,大部分采用静态分割视图的方法来实现,但这种方式的缺点是在视图每次切换时都要重新创建视图且在切换之后再销毁视图,不利于视图从文档中提取显示.基于MFC的SDI多视图创建与隐藏的算法改进,是在视图切换时,原来的视图并不销毁而是隐藏起来,通过点击再现.由于创建过的视图当再次点击时只是从隐藏状态转换为显示状态,从而大大提高了应用程序的运行效率.  相似文献   

20.
针对传统聚类分析中,指标权重一般由专家直接给出,然后再在此基础上进行聚类分析的不足,提出了一种基于部分样本类别判定的聚类分析方法.首先对部分样本进行类别归属判定,然后利用类内聚类样本之间的距离应尽可能小的原理建立规划模型,通过"反推"的方式诱导出合理的权重信息,再据此进行样本聚类.该方法主要用于解决聚类样本较多,且聚类样本的指标权重难以显性确定情况下的聚类分析问题.最后给出的一个算例验证了所提方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号