首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

2.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

3.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

4.
针对分类数据,基于属性分组技术和多目标聚类质量函数,提出一种子空间聚类算法.该算法采用属性分组技术,将高相关属性划分到同属性组中,利用同组属性相关性度量属性权重值,构建属性软子空间;采用基于多目标的聚类质量函数,判断整体聚类效果,通过迭代优化簇集结构,达到最佳的数据划分状态.在人工合成数据集和UCI数据集上,实验验证了该算法的正确性、高效性和可靠性.  相似文献   

5.
RAKEL(random k-labelsets)算法是一种集成技术,能有效解决多标签分类问题.它将原始标签集随机选用一小部分标签子集构成的数据集来训练每个分类器,但由于RAKEL算法构造标签空间的随机性,并未充分考察到样本多个标签之间的相关性,从而造成分类精度不高,泛化性能受到一定影响.为此,提出了改进的LC-RAKEL算法.首先,通过标签聚类将原始标签集划分成标签簇,再从每个标签簇中各选择一个标签构成标签集,以此发现标签空间中重要且不频繁的映射关系;然后,利用出现次数较少的标签集合组成新的训练数据,训练相应的分类器.实验证明,改进的算法性能优于其他常用多标签分类算法.  相似文献   

6.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

7.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

8.
多标签分类是指数据可以同属于多个类的分类问题,其数据特征和标签间相关性对分类结果存在影响。因此,提出一种融合前述两种因素的多标签分类算法。将数据用核函数进行特征映射,根据训练数据的k-邻域计算得到每个标签的最大后验概率;并将其加入到对应的数据特征中。用加入最大后验概率的数据特征训练分类器。通过在经典的yeast、scene和emotion数据库上实验,证明了算法的有效性。  相似文献   

9.
针对大量有标签样本的数据驱动模型方法存在数据分布不完备问题,结合实际环境中通信信号样本差异大的特点,提出一种对抗域适应迁移算法.通过类判别器和域判别器对抗训练,使特征提取器能够提取到既具有类差异性又具有域不变性的特征.以无监督学习方式对目标域信号进行分类,以提升调制识别算法在实际环境中拟合存在分布差异数据集的自适应能力.对实际信号样本集中调制方式相近的9类调制信号在不同信噪比条件下进行测试,域适应迁移方法通过对抗训练有标签高信噪比的源域样本和无标签低信噪比的目标域样本,结果发现该算法的平均识别准确率较以往直接训练的平均识别准确率大幅提升.  相似文献   

10.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

11.
区间集是解决部分已知概念、近似不可定义或复杂概念的研究工具。概念格是机器学习、数据挖掘、知识发现和信息检索等领域的一种很有效的数据分析工具。区间集概念格是这两种方法的结合,是对于部分已知概念或不可定义概念信息系统进行机器学习、数据挖掘、知识发现和信息检索的一种有效的数据分析工具。区间集属性约简是揭示区间集概念格本质特征的一种方法。本文揭示了区间集属性约简的组成与结构:两个区间集相对必要属性不能在同一个区间集属性约简中出现;区间集约简与任何一个区间集相对必要属性等价类的交都不空;核心属性和每个区间集相对必要属性等价类中取一个属性组成的集合一定是区间集属性约简。  相似文献   

12.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

13.
支持向量机(SVM)是一种新的机器学习方法,已经广泛应用于模式识别和函数估计等问题中.针对现有的加权支持向量机(WSVM)和模糊支持向量机(FSVM)只考虑样本重要性而没有考虑属性重要性对分类结果的影响的缺陷,提出了基于样本属性重要度的支持向量机方法,该方法首先利用信息论中的信息增益技术计算各个样本特征属性对分类属性的重要度,然后对所有样本的同一特征属性的值分别用对应的属性重要度进行加权,最后所得数据集用于训练和测试SVM.数值实验的结果表明,该方法提高了分类器的分类精度.  相似文献   

14.
一种新的快速求核算法   总被引:2,自引:1,他引:2  
为了解决核影响属性约简算法的速度和效率等问题,提出了一种基于正区域的求核算法.采用基数排序思想计算正区域,分别得到决策属性正区域的条件属性集和除决策属性正区域的一个条件属性之外的条件属性集,并且计算这2种属性集的基数之差,以判断该条件属性是否是核属性,依次判断所有条件属性,从而快速获得所需要的核.基于正区域求核算法的时间复杂度为O(|C||U|).实验结果表明,利用该算法求核,所耗时间将随对象数的增加呈线性增长,且当对象数最大时,求核所耗时间仅为对比算法的0.6%,同时证明了该算法对各种数据集均有很好的适应性.  相似文献   

15.
随着社会经济的发展和城市化进程的加快,如何对公共场所人群行为进行监控,防止由于人群密度过高导致的重大伤亡事件发生是很有必要的。结合混合高斯模型和灰度共生矩阵提出一种监控人群行为的算法,将纹理特征通过灰度共生矩阵计算特征量,机器学习所有特征量来判断人群行为,并通过标准数据集和自行拍摄数据集验证算法的有效性。采用人群的整体特征来表征不同人群,通过机器学习来区分不同人群的行为情况,可用于安防监控、资源管理等领域。  相似文献   

16.
基于粗糙集理论的启发式算法,先求出决策表的核值,再量化数据属性的重要性,属性约简从核出发根据属性重要度的不同逐次选择重要度大的属性添加到核中去,直到满足要求为止。利用该算法从医疗信息系统中收集有用的患者属性数据,消去多余数据属性,并由此帮助医院进行决策,实施建立医院客户关系管理。  相似文献   

17.
This paper proposes a model to analyze the massive data of electricity.Feature subset is determined by the correla-tion-based feature selection and the data-driven methods.The attribute season can be classified successfully through five classi-fiers using the selected feature subset,and the best model can be determined further.The effects on analyzing electricity consump-tion of the other three attributes,including months,businesses,and meters,can be estimated using the chosen model.The data used for the project is provided by Beijing Power Supply Bureau.We use WEKA as the machine learning tool.The models we built are promising for electricity scheduling and power theft detection.  相似文献   

18.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

19.
针对高级持续性威胁的检测问题, 提出一种基于网络连接特征属性的检测方法. 通过数据采集、 特征提取、 异常检测和实时报警4个步骤, 选取网络连接的12种特征属性, 应用机器学习方法分析属性特征数据集, 建立高级持续性威胁攻击检测模型. 实验结果表明, 该方法对于高级持续性威胁攻击检测性能良好, 检测率较高, 误报率较低.  相似文献   

20.
现有过滤式特征选择模型采用贪心策略结合互信息评价特征子集,容易陷入局部最优陷阱.考虑标签信息对冗余度的影响,利用一种改进的MIFS-U方法在给定标签的条件下衡量冗余度,采用基于分解的多目标优化框架结合引入多项式突变的差分进化算子进行全局搜索,避免搜索陷入局部最优.引入l1正则化项来保证特征子集的稀疏性,并提出了新的特征选择算法MOEA/D-DEFS.实验阶段使用knn-5分类器来验证学习效果,并在多组来自不同领域的数据集上进行测试.结果表明,将特征选择视为多目标问题采用全局搜索策略搜索可以在特征子集维度和分类准确性方面提供更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号