首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。  相似文献   

2.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

3.
【目的】随着遥感技术迅猛发展,在影像解译过程中提取的信息越来越繁杂多样。为提高地物分类准确率,常加入更多的特征信息,而由此往往造成一定的信息冗余,导致分类效率甚至准确率降低。笔者利用随机森林(RF)和支持向量机(SVM)分类器,探索在遥感分类过程中保证分类精度的同时又能降低特征维度的方法。【方法】以吉林省安图县福兴林场部分区域为研究对象,利用2015年Landsat-8影像为数据源,提取光谱信息(红、绿、蓝、近红外和短波红外波段)、植被指数(NDVI、增强型植被指数、比值植被指数和裸土植被指数)、纹理(同质性、均值、二阶矩、方差、差异性、对比度、熵和相关性)和地形信息(坡度和坡向)共19个指标作为分类特征变量。以RF分类器估测的特征重要性进行特征选择为对照,分别以单个特征在RF和SVM两分类器中的分类准确率为依据进行特征选择,并对选取的特征进行主成分分析,与未做主成分分析的进行区分,再分别用RF和SVM分类器进行分类,评价分类精度,确定最优特征和分类器组合。【结果】①基于SVM单个特征分类准确率选取特征,对选取的特征进行主成分分析,再用RF进行分类,该方法与其他方法相比分类性能最好,当特征维度为5时,总体精度为0.86,Kappa系数为0.83; 与输入全部特征进行分类相比,不仅提高了分类精度,而且降低了特征维度,使分类效率得以提升。基于RF特征重要性选取特征的RF分类取得了较高的分类准确率,但特征维数小于7时,分类准确率波动较大; 在特征维数为4时分类准确率增至最大值(0.88),随后骤降为0.83,之后基本保持在此水平。而基于单个特征分类准确率选取特征,分类准确率变化较为平缓,如上所提最优分类性能方法的分类准确率波动范围基本在0.02。②基于单个特征在RF和SVM分类器中的分类准确率进行特征选择,在随后的分类过程中,SVM分类器分类精度总体高于RF。基于RF单个特征分类准确率选取特征的SVM分类,及基于SVM单个特征分类准确率选取特征并对选取特征进行主成分分析的RF分类,较仅利用SVM或RF单个分类器选取特征并分类的分类准确率更高。【结论】①基于单个特征分类准确率的特征选择方法,可在保证分类精度的同时降低特征维度,且在较低维度时,基于该方法选取特征的分类精度较基于特征重要性选取特征的分类精度更稳定。②基于单个特征分类准确率进行特征选择,不同分类器选取的特征有所差异,分类准确率也不同,利用多个分类器较单个分类器选取特征并分类的性能更好。③在中低维度时,RF分类器的分类准确率可能与特征输入顺序有关,对输入特征进行主成分分析有利于提高分类器的分类精度及稳定性。  相似文献   

4.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

5.
目前,卷积神经网络(Convolutional Neural Network,CNN)模型在处理图像数据时分类效果较差,人工水母搜索(Artificial Jellyfish Search,AJS)算法收敛速度慢,迭代次数多,特征选择的效果不理想.针对上述问题,提出一种基于CNN和AJS的图特征选择方法 .首先,使用CNN来提取特征,将生成的特征图进行图嵌入降维,再使用AJS算法进行特征选择,把得到的特征输入分类器,进行模型训练和评估;然后,在图嵌入阶段,将特征图进行随机游走,并通过添加特征权重计算节点的游走概率来增强权重大的节点的游走概率,提高分类精度;最后,在AJS算法中引入余弦公式对人工水母的位置进行更新,充分考虑特征向量之间的相似性,提高算法的收敛速度并减少迭代次数.在10个基准函数上进行实验,结果表明改进的AJS算法具有较好的优化性能.在四个数据集上,将提出的算法与其他算法进行对比实验,实验结果表明,提出的算法能提高分类精度,减少迭代次数.  相似文献   

6.
在3GPP LTE系统中,传统的初始小区搜索算法具有较大的运算复杂度,这就导致移动设备需要消耗更多的功率来完成搜索过程,同时也影响了小区搜索的可靠性。通过差分相关移除信道影响从而提高辅同步信号检测质量,以及运用量化后的互相关来简化辅同步检测算法。改进后的辅同步检测算法与传统算法相比,具有较低的运算复杂度。通过仿真分析比较传统算法和改进算法,表明改进算法的检测正确概率有所提升,可靠性得到了提高。  相似文献   

7.
在容迟网络(delay tolerant networks,DTNs)中,源节点和目的节点之间一般不存在端到端的路径,因此快速方便地获得信息是容迟网络的一个热点问题。文章将信息搜索过程拆分为查询和反馈2个阶段,并由此提出了一种基于平稳分布的信息搜索算法(information search algorithm based on stationary distribution,ISSD)。用半马尔科夫链模型中的平稳分布来构造函数,分别表示节点的查询和反馈能力;在查询阶段,选择查询概率比较大的节点作为查询节点,当查询节点到达目的社区后即进入反馈阶段,选择自己和邻居中反馈概率最大的节点作为反馈节点。真实跟踪数据上的实验结果表明,与现有算法相比,该文提出的算法能够提高查询率且减少网络资源消耗。  相似文献   

8.
为了提高模糊粗糙集特征选择算法的计算效率,在每次迭代过程中通过不断缩减样本和特征的搜索范围,提出了一种新的模糊粗糙集特征选择算法.为了减少样本的搜索范围,利用样本对决策类下近似隶属度的单调性,构建样本的筛选机制,用以筛除当前所选特征子集已保持决策类下近似隶属度的样本;为了缩减特征的搜索范围,采用特征冗余性概念,构建特征搜索机制,用以移除已被确定为冗余的特征;通过融合样本筛选机制和特征搜索准则,设计模糊粗糙集特征选择的高效算法.数值实验表明,所提算法具有高效性和有效性.  相似文献   

9.
本文主要探讨了一种路径搜索方法.主要探讨群,传递因子,群内路径的定义,和群间联系,群间可能,群间搜索方法等问题,以解决基于智能的路径搜索问题.  相似文献   

10.
面向新闻组的信息搜索方法   总被引:2,自引:1,他引:1  
刘海波  张国印  付岩 《应用科技》2002,29(11):49-51
介绍了Usenet、新闻组及新闻搜索引擎,分析了NNTP协议内容,用Petri网描述了新闻搜索的关键处理流程,给出了用VB6.0实现新闻搜索的方法。实现的新闻搜索功能可以方便地集成到各种专门用途的应用程序中。  相似文献   

11.
针对彩色物体的配准问题,提出一种面向RGB-D数据的初始配准方法.通过几何和颜色的邻域信息构建混合特征,并根据混合特征在源点云中获取物体的特征点;由归一化后的颜色值和混合特征构造特征描述符,通过该特征描述符搜索对应点;再由分块对齐策略,进一步剔除相似性较小的点对,将剩余特征点进行分块配准,选择最优的刚性变换.为了验证该初始配准方法的有效性,通过精确配准算法进一步细化配准结果.实验结果表明,基于混合特征的RGB-D数据初始配准方法对于两片部分重叠点云配准是有效的.  相似文献   

12.
对现行的Web信息资源搜索技术进行了分析,提出了基于Web的信息资源搜索的专业元搜索引擎分布式协作解决方案。  相似文献   

13.
本文通过对于科学共享背景下的术语数据详细的特征分析,引入一种建立在模糊集基础上的隶属度概念,在此基础上对于传统的搜索方法进行修改,辅之以用户爱好度这一指标作为拓展,使其更加适应对术语数据的处理。最后,文章也给出了一些该方法在其他方面的应用和改进方向。  相似文献   

14.
针对传统群智能方法在图像匹配应用中参数较多且调节复杂的问题,将布谷鸟搜索(cuckoo search,CS)机制引入到图像匹配过程.CS方法具有较少的模型参数、简单的调节方式,因此图像匹配效果获得了较大的提高.该方法首先将目标匹配过程转化为对组合优化问题的求解;然后通过提取图像块的方向梯度直方图(histogram of oriented gradient,HOG),实现目标的全局性特征匹配;最后通过仿真实验,证明了CS方法在图像匹配应用中的可行性和有效性.  相似文献   

15.
对电子商务环境下货源信息搜索问题进行了分析研究,并以Internet网络为信息源,采用信息检索和人工智能相关技术,提出了基于Hopfield神经网络的货源信息搜索方法.该方法将货源信息的特征保存在Hopfield神经网络的连接权中,根据用户输入的查询词,通过网络的运行,自动生成一组查询扩展词,利用这组查询扩展词在通用搜索引擎中进行扩展搜索,并分析排序搜索结果.此方法扩大了货源搜索范围,提高了搜索精度,为企业提供了有价值的相关货源信息.  相似文献   

16.
针对特征选择这一文本分类的核心问题,首先提出一个基于最小词频的文档频方法,然后引进粗糙集和Tabu搜索,分析了把Tabu搜索用于属性约简所存在的问题并给出了解决办法,并以此为基础详细设计了一个基于优化的Tabu搜索的属性约简方法,最后把上述两种方法结合起来提出了一个综合性特征选择方法.该方法利用基于最小词频的文档频方法提取初始特征,利用所给属性约简方法进行优选以消除冗余,从而获得较具代表性的特征子集.实验结果表明该综合方法优于IG,CHI和MI方法.  相似文献   

17.
软件缺陷对软件功能的实现具有不可预知的危险,是软件产品的固有成分,提高软件的可靠性,关键在于降低软件缺陷出现的概率,而如何利用已有缺陷数据构建预测系统框架是研究的重点.针对传统软件测试技术虽然能够有效发现软件缺陷,但需要消耗大量的时间和精力,制约软件开发效率的缺点,提出基于特征选择的软件缺陷预测方法,算法对软件缺陷模型的经验数据集进行多特征选择,进而克服数据集之间的冗余性移除无关特征,得到缺陷模型的分类,最终实现软件缺陷的精确预测.实验表明,基于特征选择的软件缺陷预测方法具有较好的预测效果和较高的应用价值.  相似文献   

18.
现有过滤式特征选择模型采用贪心策略结合互信息评价特征子集,容易陷入局部最优陷阱.考虑标签信息对冗余度的影响,利用一种改进的MIFS-U方法在给定标签的条件下衡量冗余度,采用基于分解的多目标优化框架结合引入多项式突变的差分进化算子进行全局搜索,避免搜索陷入局部最优.引入l1正则化项来保证特征子集的稀疏性,并提出了新的特征选择算法MOEA/D-DEFS.实验阶段使用knn-5分类器来验证学习效果,并在多组来自不同领域的数据集上进行测试.结果表明,将特征选择视为多目标问题采用全局搜索策略搜索可以在特征子集维度和分类准确性方面提供更好的性能.  相似文献   

19.
针对模式识别系统中有效特征的选择问题,采用支持向量机作为分类器,提出了基于均匀设计的特征选择方法.根据均匀设计表的结构及采用的数据集进行训练、测试,最后检验所选的特征子集.实验结果表明,该方法能够有效地去除数据集的冗余特征,取得比使用特征全集更好的分类性能.  相似文献   

20.
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择算法研究已经成为机器学习和数据挖掘等领域的研究热点.本文提出了基于遗传算法的特征子集选择算法,实验证明该算法是简单、正确、有效的,并具有良好的收敛性和稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号