首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
将基于单隐层前馈神经网络(SLFN)提出的极速学习机(ELM)算法和邻域粗糙集理论进行结合,提出基于邻域粗糙集的极速学习机算法,采用邻域粗糙集对样本集进行属性约简,去掉冗余属性,利用ELM对约简后的数据集进行学习,并对数据样本进行预测。实验表明ELM算法相比具有更高的训练精度和测试精度。  相似文献   

2.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.  相似文献   

3.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能.  相似文献   

4.
粗糙集理论是一种有效的属性约简方法,但不能直接处理实值数据。针对此问题,本文首先介绍了邻域和覆盖的概念,在此基础上构造了覆盖自约简和覆盖间约简(属性约简)算法;然后通过讨论邻域内各样本之间关系,提出了相斥元的定义,相斥元的存在可能导致决策正域计算错误,从而得到不符合数据表实际情况的属性依赖性,因此给出了分解相斥元的方法;最后在四个实值的基因表达数据库上进行了实验,结果表明该属性约简算法是有效的,并相对于现有其他算法具有较高的分类精度。  相似文献   

5.
针对核动力系统故障诊断过程中故障的特征参数难以提取的问题,提出了一种基于邻域粗糙集模型的特征参数筛选的新方法。该方法是通过改进经典粗糙集而来的,其既能够处理离散化的数据,也处理连续型的数据,因此可以减少诊断信息融合过程的复杂性,同时处理后的数据能够保持原始数据的属性性质。仿真实验表明:基于邻域粗糙集能有效的简化特征参数的筛选,提高了故障诊断的准确率,减少了诊断成本,相比于经典粗糙集方法更具有适用性。  相似文献   

6.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

7.
不确定性度量在属性约简中具有重要作用.通过逐步构建3种改进的单调不确定性度量,为属性约简提供重要依据.首先,通过2个阈值,构建邻域概率粗糙集模型,并提出3种具有非单调性的邻域概率不确定性度量;为此,将邻域概率粗糙集与邻域粗糙集结合,改进性地提出了具有单调性的3种改进的邻域概率不确定性度量;最后,通过UCI数据实验对以上...  相似文献   

8.
该文从多视角考虑粗糙近似逼近问题,讨论了邻域系统粗糙集模型的性质.将邻域系统粗糙集模型与两种重要的广义粗糙集模型,即可变精度粗糙集和多粒度粗糙集进行了对比分析,分别根据分类错误率和多粒度构建了不同的领域系统.该文研究结果证明了可变精度粗糙集模型和多粒度粗糙集模型是邻域系统粗糙集模型的特例,邻域系统粗糙集模型是一种更为广义的粗糙集表现形式.  相似文献   

9.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

10.
为了去除系统中的冗余属性,保持系统的分类能力,研究了连续值分布式数据的属性约简.给出了连续值分布式决策信息系统中邻域粗糙集的定义,讨论了分布式连续值决策信息系统中正域计算的可分解性.以保持分布式决策信息系统的正域不变为前提,探讨了分布式决策信息系统中属性的可约性,提出了分布式连续值决策信息系统的属性约简算法.为了验证该算法的有效性,在7份数据集上进行了3组实验.实验使用提出的算法对分布式数据进行属性约简,进而采用加权集成的方式进行分类测试.实验结果表明,该算法能够有效去除连续值分布式数据中的冗余属性,使得约简后的连续值分布式数据的集成分类能力与约简前相差不大.甚至更高.  相似文献   

11.
在许多实际应用领域,特征随时间逐个流进特征空间并需及时进行在线选择,称为在线流特征选择。现有基于邻域粗糙集的在线流特征选择算法,仅考虑条件属性子集正域中包含的信息,而忽视了边界区域中的信息。基于此,文章提出了一种联合邻域边界的在线流特征选择算法(Joint Neighborhood Boundary for Online Streaming Feature Selection,OFS-JNB)。设计了一种新的计算邻域粗糙依赖度方法,同时,定义在线依赖度分析、在线重要度分析和在线冗余度分析等三种策略选择具有辨别能力的在线候选特征。在8个数据集上的实验显示,该算法能够选择出一个较好的特征子集。同时,在KNN、CART和LSVM分类器下,OFS-JNB算法的平均预测精度都是最优的,且精度值相对稳定。  相似文献   

12.
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题. 基于发现的热点话题,文中提出了基于在线 LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态. 实验结果表明,HTOLDA 模型对各个时间片的论坛数据集的建模能力优于 OLDA 模型,并能够有效地对论坛中的热点话题进行演化跟踪.  相似文献   

13.
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。  相似文献   

14.
利用粗集理论,通过建模构造了数据集在约简前后的信息损失表达的灰色区域,将少数优先和多数优先的统计策略包含到灰色区域之中,并利用该区域,提出了一种灰色区域表征的σδ-近似约简方法,通过仿真实验,对提出的方法进行了验证。该方法按照人的要求调整阂值获得问题所需解的思想体现了人机结合以人为主的思想。  相似文献   

15.
针对LDA(Latent Dirichlet Allocation)主题模型生成的大量topic,很大部分topic内部词语相关度很低,可解释性差,对语言模型后的应用效果带来一定的影响.针对这一问题,该文提出了一种基于主题加权LDA模型的情感分类方法,该模型实现不同主题中内部相关的词语特征加权计算,能够消除不同主题内具有相关度词语的相互影响.实验结果表明,与传统LDA模型分类方法对比,该文提出的基于主题加权LDA模型的情感分类方法平均F1值提高了6.7%~8.1%,验证了该文提出的方法是有效的,提高了分类效果.  相似文献   

16.
基于贝叶斯粗糙集的文本特征选择方法   总被引:2,自引:1,他引:2  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的.  相似文献   

17.
通过研究邻域覆盖、覆盖导出的划分之间的内在关系,给出了一种新的转化方法.新方法证明了由一个覆盖可唯一导出一个划分、由覆盖与其覆盖约简导出的划分一致等结论,而且得出了由覆盖导出的等价关系的上、下近似算子更加细分等优良性质;提高了集合的近似程度,能更好地用于属性约简、核的求取和规则的生成等方面研究.  相似文献   

18.
基于邻域关系提出一种综合考虑正域和边界数据的属性约简方法.该方法利用邻域关系对数据进行离散化处理,通过定义基于邻域的正域属性重要度、边界属性重要度和邻域综合属性重要度概念,设计一种新的启发式属性简约算法.该算法从空约简集出发,利用邻域属性重要度启发式搜索属性空间以扩展约简属性集,理论分析和实验表明该算法有效可行.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号