首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对常用的降维算法只能可视化高维数据某一方面或某几方面特征的不足,运用参数嵌入算法在低维空间可视化其所有的特征。首先假设数据的类别在嵌入空间服从高斯分布,通过支持向量机分类算法获得训练数据在高维空间类别属性的后验概率,然后运用参数嵌入算法得到测试数据在嵌入空间的坐标和类别属性,从而实现高维数据分类的可视化.在Usps,YaleB,Mini Newsgroups数据集上的实验结果表明,该方法不仅能在低维空间表示高维数据与所属类别的联系,而且能正确揭示出数据集内部和类别集内部的关系,有利于深入研究高维数据分类的性质,参数嵌入算法的可视化效果优于直接应用PCA,ISOMAP等算法得到的低维图形,并且计算复杂度仅是数据类别和相应个数的乘积,非常适合于数据量大,类别数较少的数据分类可视化。  相似文献   

2.
为了提高数据挖掘的聚类准确度,提出了一种基于菌群优化的K均值(K-means)聚类算法.采用K均值算法建立数据聚类模型.根据聚类类别数设定多个聚类中心坐标.设定所属类别距离阈值,然后计算待聚类点和所有中心点距离来划分该聚类点的类别.根据参与聚类各节点和各自中心点的距离值建立适应度函数.引入菌群优化算法对K均值聚类过程进...  相似文献   

3.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

4.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

5.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

6.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

7.
一种基于粗糙集的文本分类规则抽取方法   总被引:10,自引:0,他引:10  
随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。  相似文献   

8.
朴素贝叶斯分类是一种简单高效的方法.但是当属性独立性假设不成立时,有可能导致待测样本类别判断错误;且当待测样本到各类别的概率相同时,无法判断该样本类别,从而影响了它的分类准确率.本文提出基于属性值贡献率的朴素贝叶斯改进算法,利用待测样本的各个属性值在各类别的总贡献率判别该样本的类别.在蘑菇数据实验结果表明,该算法能有效提高分类的准确率.  相似文献   

9.
针对目前离散化信息量度无法准确表征数据离散后有效分类信息量的问题,提出了一种基于有效信息比率的离散化算法.在构建离散化方案相依表的基础上,分析了离散区间内类属性分布与分类信息蕴含量间的关系,并根据类属性分布信息引入有效信息比率,用于表征各离散区间内有效分类信息量.然后,依据离散化方案的离散区间数及其有效信息比率,设计出表征离散化方案划分质量的离散化评价指标,从而提高了数据的离散化效果.仿真实验和实际应用的结果表明,该算法离散化后在有效分类信息量和分类预测精度上高于主流基于信息论的离散化算法.  相似文献   

10.
针对传统无需测距的无线传感器网络定位算法(DV-Hop算法)在估算距离时因存在较大误差而导致定位精度不高的问题,文中提出了基于估距方式分类的无线传感器网络定位算法.该算法引入最优辅助估距锚点,未知节点每次在估算距离时,首先依据所需估算的距离寻找最优辅助估距锚点,再按其估距所属类型进行估距计算,以提高距离估算的精度.为进一步提高定位精度,文中算法在三边定位法中引入"非线性-跳数"加权因子,通过它获得未知节点最终估计坐标的期望.仿真实验结果表明,在适当增加通信开销的条件下,文中算法的定位精度显著提高.  相似文献   

11.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

12.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

13.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

14.
提出了连续属性的一种离散化方法,指出与其他离散化方法的不同之处:离散化算法应是与挖掘目标息息相关的.研究和探讨了分类问题中的属性离散化方法,以分类精度和正域的势来评估每一步离散化过程,并将评估结果进行反馈,直至所有属性的属性值判断完为止.通过UCI机器学习数据库的实验表明,属性值个数的减少会提高在数据集上运行数据挖掘算法的效率,离散化后的分类正确率保持不变或有一定的提高.  相似文献   

15.
对传统ID3算法的信息熵作近似变换达到简化计算的目的,并针对ID3算法倾向于选择取值较多的属性和排斥属性值分布均匀的属性两个缺点,引入贡献因子来改进ID3算法,使属性选择方法平衡的选择划分属性.实验表明,优化后的属性选择方法降低了分类时间,优化了分类结果并能很好地反映实际情况.  相似文献   

16.
针对ID3算法偏向于选择取值较多的属性作为测试属性的缺点,引入OneR算法选择属性的相关子集进行分类,降低无关属性和重复属性对分类的影响。实验结果表明,与ID3算法相比优化后的方案提高了ID3算法的分类准确率,降低了分类时间,同时克服了ID3算法的取值偏置问题,优化了分类结果。  相似文献   

17.
用户属性在个性化服务中具有重要的作用,利用手机数据进行用户属性预测逐渐成为新方向.利用手机应用类别均使用时长和应用类别个数,提出了基本属性与辅助属性的概念.首先对所有未标注样本的辅助属性离散化,将辅助属性基于类别的海灵格距离作为基本属性的特征权重,将基本属性与权重的乘积作为特征训练集成分类器中的各个基分类器,并引入随机森林中的带外样本准确率作为基分类器的权重,得到最终的分类结果.实验结果表明,本文所给出的集成分类器框架能够提高用户属性预测的效果.  相似文献   

18.
文根据一种基于粗糙集理论的数据挖掘方法,以市场调查数据为研究对象,通过适当的约简算法,得出简化的决策集,分析私家车潜在消费者群体特征。提出了一种启发式的约简算法,在属性约简之前,首先定义了一种条件属性分类能力强度,根据各属性分类能力强度对决策表进行排序,然后采用逐行扫描的方法逐条判断属性是否为不必要属性,解决了属性约简可能出现多个约简结果需要靠人为选取满意结果的问题。  相似文献   

19.
基于相关系数的加权朴素贝叶斯分类算法   总被引:7,自引:0,他引:7  
朴素贝叶斯分类算法的条件独立性假设在很少情况下能够满足,为了克服该问题,提出了一种基于相关系数的加权朴素贝叶斯分类模型.通过计算条件属性和决策属性之间的相关系数,对不同的条件属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能.首先给出了基于相关系数的属性权值求解方法,然后描述了相应的算法,并对算法原理进行了分析与证明.通过在中医小儿肺炎病例数据集和UCI数据集上的仿真实验,验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号