首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
根据模式聚合理论提出了一种文本特征降维的新方法.结合动态Kohonen网络理论检验了文本分类效果.在网络训练阶段引入了监督机制,提高了网络的分类速度和精度.应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化了词条的作用,消减了原词条矩阵中包含的冗余模式,有效地降低了向量空间的维数,提高了文本分类的精度和速度,并通过实验证明了该方法的泛化能力.  相似文献   

2.
针对文本向量空间中特征项间的关联性及冗余性,提出了一种KNN算法运用于文本向量空间降维的方法,应用向量聚合理论和特征选择以降低特征空间维数,使得降维后的特征项更具有类别代表性.实验证明,KNN算法运用于文本降维方法中,有效地降低了向量空间的维数,提高了文本分类的精度.  相似文献   

3.
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

4.
基于LSI和Rough集的文本分类研究   总被引:2,自引:0,他引:2  
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

5.
基于Gabor变换的表情识别系统的设计   总被引:1,自引:0,他引:1  
针对Gabor特征维数和冗余度较高的缺点,对Gabor小波变换特征进行分块,提取了所有子块局部统计特征,然后使用PCA+LDA方法对这些特征进行选择,最后采用决策树分类法进行了人脸表情识别.实验结果表明:此方法在维数降低的同时,其识别性能比传统的方法更具优势.  相似文献   

6.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

7.
基于粗糙集和决策树的数据挖掘方法   总被引:10,自引:1,他引:9  
从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集和决策树相结合的数据挖掘新方法·以胶合板缺陷检测数据分析为应用对象,利用粗糙集理论对胶合板数据库中的特征信息进行缺陷识别·利用谱系聚类重心距离法对数据进行离散化处理,采用粗糙集进行属性约简,得到低维样本数据,最后用决策树方法产生决策规则·实验证明,这种数据挖掘方法保留了原始数据的内部特点,加快了获取知识的进程,提高了模型的分类准确率,增强了规则的可解释性,取得了满意的研究结果·  相似文献   

8.
针对文本特征选择中原始特征空间维数过高,提出一种基于类别相关性及遗传算法的文本特征选择方法.有效地降低了特征空间的维数,提高了分类准确率.实验验证了该方法的有效性.  相似文献   

9.
一种改进的朴素贝叶斯文本分类方法   总被引:1,自引:0,他引:1  
针对网络中所存在的大量以网页等非结构化形式存在的文本资源,提出一种改进的朴素贝叶斯分类方法.首先,通过卡方检验方法求文档特征并对文档降维,提高特征词区分性信息;然后,以文本特征来代替原始词条进行朴素贝叶斯对类.实验表明,该方法不仅理论上易于建立和更新,而且分类的精确率也得到提高.  相似文献   

10.
一种新型决策树属性选择标准   总被引:7,自引:0,他引:7  
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。  相似文献   

11.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

12.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选...  相似文献   

13.
用于文本分类的快速KNN算法   总被引:1,自引:0,他引:1  
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量.  相似文献   

14.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.在分析常用的一些特征选择的评价函数的基础上,提出了一种新的特征选择方法.在标准中文网页数据集上的分类实验表明,该方法提高了文本分类的准确率.  相似文献   

15.
为了在提高文本分类效率和提升分类速度间进行平衡,综合考虑SVM决策树的深度、均衡度、构造方式、类内样本数、类间相似度等对分类结果的影响,提出针对海量文本多分类问题的SVM决策树构建算法.在大规模语料库上的文本分类实验表明,该算法可在一定程度上提升分类效果,同时可以大幅减少训练和测试时间,方法可行且适应性强.  相似文献   

16.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

17.
基于人工标引的中文学术期刊文献自动分类算法   总被引:3,自引:0,他引:3  
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率  相似文献   

18.
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类. 在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验. 结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号