首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
提出了一种分类算法---基于组织进化和信息熵的数据驱动分类算法(a data-driven classification algorithm based on organizational evolution and entropy,DDCAOEE),与已有进化算法的运行机制不同,它的进化操作直接作用于数据而不是规则,进化结束后再从各组织中提取规则,这样有利于避免在进化过程中产生无意义的规则。根据分类问题的特点,设计了信息系统的组织,提出了3种进化算子和一种组织选择机制,给出了基于信息熵的属性重要度的进化方式,并基于此定义了组织适应度函数,最后,将算法用于6个试验数据集,并与现有的2个分类方法(Ant-Miner和CN2)进行了比较,实验结果表明,该方法获得了更高的预测准确率,产生了更小的规则集。  相似文献   

2.
基于组织进化和信息熵的数据驱动分类算法   总被引:1,自引:0,他引:1  
提出了一种分类算法--基于组织进化和信息熵的数据驱动分类算法(a data-driven classification algorithm based on organizational evolution and entropy,DDCAOEE),与已有进化算法的运行机制不同,它的进化操作直接作用于数据而不是规则,进化结束后再从各组织中提取规则,这样有利于避免在进化过程中产生无意义的规则.根据分类问题的特点,设计了信息系统的组织,提出了3种进化算子和一种组织选择机制,给出了基于信息熵的属性重要度的进化方式,并基于此定义了组织适应度函数,最后,将算法用于6个试验数据集,并与现有的2个分类方法(Ant-Miner和CN2)进行了比较,实验结果表明,该方法获得了更高的预测准确率,产生了更小的规则集.  相似文献   

3.
在Ant-Miner算法基础上提出了一种利用蚁群算法解决分类规则挖掘的算法(ACR),设计了合理的蚂蚁选择属性及属性分区的概率公式,并对规则质量的衡量等策略进行改进,可以较好地挖掘分类规则.在标准数据集上通过与Ant-Miner算法和经典的基于决策树的C 4.5算法比较,ACR在挖掘分类规则的简单性、正确率上有较好的表现.  相似文献   

4.
针对生物医学文本挖掘中有效特征选择困难的问题,提出了一种新的基于膜粒子群优化和信息熵的文本特征选择方法.该方法以文本信息熵总和为目标函数,以膜系统的层次结构作为框架,以膜系统的消息传递机制作为进化方向,以粒子群优化进化作为进化规则.作为进化规则的粒子群优化算法,分别以局部搜索速率和全局搜索速率搜索得到文本信息熵最大的解,并在不同膜区域之间传递搜索结果,直到膜区域之间的消息传递结束或者达到限定的迭代次数.实验结果表明,利用提出的方法对医学文本特征进行选择后,对其进行分类,能使分类精确度和召回率分别提高2%和3%左右.  相似文献   

5.
介绍了一种基于模糊规则和遗传算法的分类算法.首先给出一种模糊规则提取方法,然后遗传算法对模糊规则进行优化选择,最后对不能识别的样本启动触发器.该算法可以在保证分类正确性高的前提下尽量减少规则数,并提高样本识别能力.用Iris数据对该分类系统进行仿真,结果表明该系统具有良好的分类能力和精简规则能力.  相似文献   

6.
Web文本分类是数据挖掘研究的一个热点问题.针对文本向量维度过高的特点,提出一种改进的模糊聚类RBF网络集成的文本分类方法,该方法利用模糊C均值聚类算法对文本特征向量进行简化、抽取,引入自适应遗传算法优化RBF神经网络的权值,构建RBF网络集成模型对文本进行分类.实验结果表明,该方法具有更高的分类效率和正确率.  相似文献   

7.
应用蚁群优化算法(Ant Colony Optimization,ACO)进行规则挖掘是一个新的研究热点。为解决指标变量与风险级别间非线性关系,提出一种基于蚁群规则挖掘算法(Ant-Miner)的洪灾风险区划模型。在GIS技术支持下,将该模型应用于北江流域洪灾风险区划实例中,结果表明:1 Ant-Miner模型可挖掘15条适合研究区的洪灾风险分类规则,这些规则以简单的条件语句形式表现,便于生成风险区划图;2 Ant-Miner模型测试精度(95.1%)高于相同条件下BP神经网络模型的精度(92.9%),表明其分类性能更好,对洪灾风险区划具有更好的适用性;3研究区高风险区主要集中于降雨量较大、地势平缓低洼、人口财产密集的地区,与历史洪灾风险情况较吻合,表明所构建的模型科学合理,可为流域洪灾风险评价提供了新思路。  相似文献   

8.
数据挖掘中分类问题一直是数据挖掘领域中研究的热点问题,先后提出了各种分类算法;其中遗传算法被认为是一种高效的分类算法.但是,传统的GA存在着易于陷入局部最优,致使得到的分类规则概括性不强的问题.提出了一种基于非随机初始种群的遗传算法分类规则挖掘算法.算法利用均匀种群方法生成非随机的初始种群,并通过均匀算子确保连续迭代过程中种群的多样性,从而达到防止GA早熟的目的.采用两个标准的公共领域的数据集验证了算法的有效性.实验结果表明,该算法能消除遗传算法在分类挖掘任务中收敛于局部最优的局限性,且能快速挖掘出易于理解的分类规则,提高对知识的理解力.  相似文献   

9.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

10.
基于人工鱼群算法的分类规则发现   总被引:3,自引:0,他引:3       下载免费PDF全文
人工鱼群算法(AFSA)是一种最新提出的新型仿生优化算法,具有良好的克服局部极值和获得全局极值的能力.利用鱼群算法进行分类规则挖掘,建立了相应的优化模型.通过对公用数据的实验和CN2算法的对比表明,本算法可得到预测准确率较高的分类规则,同时规则更为简单.  相似文献   

11.
文章设计了一种基于粗糙集理论的手写体汉字识别决策系统,依据并行遗传算法在处理大型数据库上的特有优势,将信息熵理论作为粗糙集不确定性的度量,给出一种约简冗余条件属性求解决策信息系统约简集的多群体并行遗传算法;并提出了一种基于规则置信度的手写体汉字识别规则融合算法,提高识别准确率,对SCUT_IRAC手写体汉字库中手写体汉字进行识别实验,结果证明,该系统具有较强的手写体汉字识别能力。  相似文献   

12.
基于基尼的模糊kNN分类器   总被引:2,自引:0,他引:2  
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。  相似文献   

13.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

14.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

15.
兼顾模糊系统精确性和解释性,提出1种基于遗传算法的模糊分类系统设计方法.该算法在考虑模糊分类系统解释性的前提下,基于数据样本构建完整的规则集,并采用密歇根编码方式优化规则集和隶属函数参数,在保证系统解释性的同时提高了系统的精确性,仿真实验结果验证了该方法的有效性.  相似文献   

16.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析   总被引:3,自引:0,他引:3  
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据.  相似文献   

17.
在AFS(axiomatic fuzzy set)理论框架下,提出了一种基于模糊概念相似性与模糊熵度量的分类算法.模糊分类规则的前件通过概念聚合得到,一种基于模糊概念相似性与模糊熵度量的概念选择函数指导聚合过程;然后,利用剪枝算法对得到的模糊规则集进行剪枝,得到最终的分类规则集.用8组来自UCI数据库的数据集作为实验数据对算法进行验证,并与7种经典分类方法进行比较.实验结果表明该算法能得到较高的分类精度,分类结果明显优于参照的分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号