排序方式: 共有19条查询结果,搜索用时 46 毫秒
11.
在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化.由于正态分布的广泛性,本文提出一种基于正态分布的近似等频离散化方法.该方法实现简单,关于数据集大小具有线性时间复杂度,适用于大规模数据集.在许多数据集上与文献中多个离散化方法进行了对比测试,实验结果表明,提出的无指导的离散化方法是有效、可行的. 相似文献
12.
对于混合属性相关度的计算,现有方法的做法是将连续属性离散化后,用基于频率的计算方法来计算.而连续属性离散化可能会丢失部分信息,为属性评估带来不确定因素.在此提出一种直接计算混合属性相关度的方法:将一个连续属性中的所有数据,根据一个离散属性的属性值分组,以分组连续属性前后数据方差的关系确定两个属性的相关度.在两个真实数据集及常用机器学习数据集上的实验结果表明:该方法可以有效度量混合属性数据之间的相关程度. 相似文献
13.
针对现有客户流失预测模型预测准确率低下的问题,本文结合基于统计学习的客户聚类分析和分类预测技术来构建客户流失预测模型。根据模型计算结果,可以辨别出客户类别及流失倾向,并在此基础上提出了预防客户流失的保持措施,从而为电信企业运营商的客户关系管理提供决策依据。 相似文献
14.
基于聚类的垃圾邮件识别技术研究 总被引:1,自引:0,他引:1
随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。 相似文献
15.
基于引力的入侵检测方法 总被引:6,自引:2,他引:4
将万有引力的思想引入聚类分析,提出一种基于引力的聚类方法和度量聚类异常程度的引力因子概念,同时给出了一种计算聚类闽值的简单而有效的方法,在此基础上提出一种新的入侵检测方法GBID,GBID关于数据库的大小、属性个数具有近似线性时间复杂度,这使得GBID具有好的扩展性。在KDDCUP99数据集上的测试结果表明,GBID在准确性方面优于文献中已有无指导入侵检测方法,且对新的入侵有一定的检测能力。 相似文献
16.
一种基于名词短语的检索结果多层聚类方法 总被引:2,自引:0,他引:2
为了对检索结果获取高质量的聚类效果,提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与NEC,STC和Lingo算法的对比实验表明:该方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。 相似文献
17.
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义.结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用. 相似文献
18.
基于热传导或物质扩散理论的推荐算法首先利用网络结构得到对象间推荐关系,然后根据对象间关系预测用户喜欢的对象,而忽略了用户偏好。为了弥补这个缺陷,根据用户已选择对象的标签,利用TF-IDF方法构建用户偏好模型,以用户在预测对象标签上的平均偏好作为对该对象的偏好程度,采用加权方法与现有基于网络推荐算法混合运算。经在基准数据集MovieLens上测试表明,通过与目前效果最好的几种基于网络推荐算法进行加权混合运算,推荐结果在推荐精度、个性化、多样化等多种评价指标方面均比原有算法有明显提高。 相似文献
19.
蒋盛益 《长沙水电师院学报》2001,16(4):8-10
给出了Chebyshev多项式与幂函数互化的系数计算递推公式,并由此得到了类似杨辉三角的系数计算和Chebyshev多项式与一般多项式的互化算法,进一步得到了多项式精简的算法。 相似文献