首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 625 毫秒
1.
庞雅丽 《科技信息》2008,(15):19-19
本文给出了一种基于目标迁移学习的文本分类方法,用于解决在分类目标发生变化时的训练集重复标注和分类模型重复训练的问题。该方法通过引入一个中间类别体系层作为桥接,首先在中间层类别和目标类别之间建立映射关系,分类时将文本分到中间层类别上,然后根据中间层和目标层的映射来确定目标类别。  相似文献   

2.
提出了超长方体与KNN相结合的分类算法.在训练阶段,该算法为训练集中的每一个类别构造多个超长方体,区域分离每一类训练样本.在测试阶段,该算法首先检查测试样本是否被某一个超长方体包围,如是则其类别被识别出,否则用KNN方法确定其类别.实验采用四个真实数据集进行测试.实验结果表明基于超长方体与KNN的分类算法在四个数据集全部优于两个基于多球覆盖的分类方法,是一种有效的分类方法.  相似文献   

3.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

4.
决策树分类算法研究   总被引:2,自引:0,他引:2  
决策树分类算法是数据挖掘研究中的一个以样本数据集为基础的归纳学习方法,它着眼于从一组无次序、无规则的样本数据集中推理出决策树表示形式的分类规则,提取描述样本数据集的数据模型。讨论了决策树分类算法的基本原理,给出了算法的特性并通过一个实例给出了具体的使用方法。  相似文献   

5.
应用分类贡献函数的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,分类属性选择的标准直接影响分类的效果。本文基于粗糙集的理论,提出了在核中应用分类贡献函数来选择分类属性的新方法。利用UCI提供的数据集对该算法和基于信息熵的算法C4.5,以及基于加权平均粗糙度的决策树生成算法相比较。实验证明:用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,复杂性低,且能有效提高分类效果。  相似文献   

6.
部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转移到的信念点的不确定性,选择熵较小且到当前信念点集距离大于一定阈值的信念点扩充信念点集合.实验结果表明,通过熵选择信念点的值迭代算法只需要在较少数量的信念点上进行值迭代操作就能得到预期的折扣报酬.  相似文献   

7.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

8.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

9.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

10.
现有基于置信规则库参数学习的分类系统存在着一些问题,如分类准确度受模糊子区间划分数量约束,成非严格正相关关系;参数学习方法需人为给定规则数量;推理过程未体现特征与分类结果关联度等.为解决这些问题,提出基于差分进化算法的置信规则库推理的分类方法,该方法包括置信规则库分类系统构建及参数训练.首先引入置信规则库分类系统构建策略确定规则数;然后使用置信推理方法作为分类查询推理机;最后结合差分进化算法建立训练模型.在实验分析中,首先通过与现有分类方法进行对比,验证该方法的有效性;再通过对比不同区间划分数的置信规则库分类系统,说明参数训练的合理性.实验结果表明,该方法合理有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号