首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
针对电信行业客户流失问题,使用随机森林方法建立了初步的预测模型,对比电信行业原用的各种预测模型,其准确率有明显改善;针对模型特征维数众多的特点,进一步提出基于随机森林和转导推理的特征提取方法,对数据集进行降维,并引入单类支持向量机(support vector machine,SVM)算法得到最终的预测模型.实验表明,流失预测模型具有更高的预测准确率以及针对预测结果的部分可解释性.  相似文献   

2.
电信客户流失预测是电信运营商客户关系管理系统的一个重要问题,其目的是预测具有较高流失风险的客户.电信客户流失预测模型的构建过程包括数据预处理、不均衡处理、特征选择和分类器的训练与评估.针对电信数据集中存在的特征维度过高问题,结合过滤式特征选择和嵌入式特征选择方法的优点,提出了一种基于Fisher比率和预测风险准则的分步特征提取方法.结合真实数据集的实验结果表明,该方法能够减少特征维度,提高分类器的预测效果.  相似文献   

3.
针对电信行业客户流失的问题,设计基于决策树C5.0、BP神经网络及 Logistic 回归算法的组合预测模型,并对某电信企业进行客户流失预测.预测结果表明:与单一客户流失预测模型相比,组合预测模型命中准确率高,预测效果好,更能直观地显示出流失客户的基本特征.  相似文献   

4.
高价值移动通信用户预测是电信客户关系管理中的一项重要内容。针对建立预测模型时遇到的高维、大规模、类不平衡等数据处理问题,提出了一种基于有效特征选择的预测方法。利用欠采样方式从初始不平衡数据集提取多个平衡训练集,使用结合Pearson相关性分析和随机森林特征重要性评估的特征选择策略,在集成学习方法中嵌入加权和投票机制获得最优的特征子集,最后采用随机森林算法建立预测模型。实验结果表明,该预测模型可以有效降低特征集的维度并提升对高价值移动通信用户的预测性能。  相似文献   

5.
针对电信行业客户流失预测问题的复杂性,本文将能够处理大规模数据、容噪性能较好的组合分类器算法——随机森林方法应用于电信行业的客户流失预测中.针对影响组合分类器性能的关键指标——差异度,提出了一种新的基于随机森林相似度矩阵的差异度测度,并在此基础上提出了一种改进的组合剪枝技术,对随机森林的基分类器进行剪枝,得到规模较小但泛化性能更优的基于剪枝随机森林的客户流失预测模型.实验结果表明,与其他方法相比,新的差异度测度方法更好地描述单个分类器之间的差异度,本文提出的基于剪枝随机森林的客户流失预测模型具有更高的预测准确率、更小的组合分类器规模和更好的效率,有望成为该领域一种可行且有效的方案.  相似文献   

6.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

7.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

8.
针对电信企业客户流失的不规律性,提出以粗糙集(RS)_RBF神经网络作为电信企业客户流失的预测模型.首先利用粗糙集理论对客户属性约简,简化了网络结构.其次提出以约简后的决策表的规则支持度作为径向基函数的响应宽度基准,此种赋值方法相比传统方法更具合理性和科学性.最后利用正交最小二乘法(OLS)求得对网络输出贡献度较大的条件属性集和网络权值.把本模型与其它RBF预测模型应用于电信企业客户流失预测并且进行效果比较,实验结果证明了本模型的有效性和高效性.  相似文献   

9.
为解决企业客户价值体现问题, 提出一种TFA客户细分改进模型, 以客户发展空间T、 购买频次F和平均购买额A为指标, 充分体现客户的价值和发展空间. 首先, 引入局部密度值ρ和信息熵H, 改进K-means聚类算法, 以优化传统K-means聚类方法初始聚类中心的选取问题;其次, 通过搭建机器学习框架, 对选取人工数据集及真实数据集进行聚类实验, 验证模型的有效性. 实验结果表明, 该模型能有效分类客户, 充分反映客户价值及其发展空间, 并通过改进聚类算法提升了算法效率.  相似文献   

10.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

11.
为精准有效地预测电商客户粘性,提升经济效果,研究数据挖掘技术在电商客户粘性预测中的应用。利用可变网格的K-means聚类算法,聚类获取电商客户粘性预测相关数据;通过有效性指标优化可变网格K-means聚类算法的聚类数,确定最佳聚类数,提升数据聚类效果;采用技术接受模型,依据聚类获取的数据,建立电商客户粘性预测指标体系;通过模糊层次分析法,结合指标体系,建立电商客户粘性预测模型,获取预测分值。实验结果表明,该模型可有效确定最优聚类数,精准聚类电商客户粘性预测相关数据;所建立的预测指标体系的指标相关性较低,结构较稀疏、较全面。总体说明,该模型可有效预测电商客户粘性。  相似文献   

12.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

13.
电信客户信用风险等级评估是对电信客户的信用风险进行等级分类. 针对建立客户信用风险等级分类模型时,大量带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度. 通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了信用专家评估数据的工作量.  相似文献   

14.
针对电信客户"亲友通话圈"定价决策的需要,提出一种基于有向图的蚁群聚类算法对电信客户进行聚类.该算法在构造客户通话有向图的基础上,利用蚂蚁在搜索过程中不断积累信息素,更新有向图,并通过划分强连通分量得到亲友通话圈.通过对真实数据集的测试,算法可以有效、快速地形成聚类,合理地划分亲友通话圈.算法可以针对若干不同的阈值产生不同的聚类结果,选取其中成本最小者,从而获得最大利润,有效解决了通话圈定价的问题.  相似文献   

15.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

16.
针对现有客户流失预测模型预测准确率低下的问题,本文结合基于统计学习的客户聚类分析和分类预测技术来构建客户流失预测模型。根据模型计算结果,可以辨别出客户类别及流失倾向,并在此基础上提出了预防客户流失的保持措施,从而为电信企业运营商的客户关系管理提供决策依据。  相似文献   

17.
针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类产生的均匀效应,提升了在非平衡数据集上的聚类纯度.  相似文献   

18.
随着电信市场竞争的不断加剧,电信企业传统的营销模式正在向主动、精确营销模式转变.因此,客户划分显得至关重要.采用数据挖掘中聚类的方法对电信业的客户进行划分,在比较了现有聚类算法计算复杂度普遍较高的的基础上,采用了一种基于空间定位的方法,将客户数据对象映射到特征空间中,并利用空间立方体的某些特殊顶点定位任意数据,通过计算数据点与空间立方体顶点群的距离差异,完成聚类过程.为了适合电信业客户的特殊性质,改进对客户属性数据的处理过程.通过电信客户的数据实验结果表明,算法的时间复杂度降至 O(N) 级别.  相似文献   

19.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

20.
结合K-means的分类方法在电信客户流失中的应用   总被引:1,自引:0,他引:1  
通过对电信业客户流失预测的国内外研究成果的分析,我们发现造成电信业客户流失原因种类比较多、难以用一种通用的划分标准对流失客户的流失特征进行刻画,因此本文提出了将K-means算法与传统的分类算法相结合的方法进行客户流失分析,并进行了应用实验.该实验以中国联通湖南某地区X分公司的客户数据为基础,利用数据挖掘软件Clementine8.1建立了客户流失分类预测模型,模型的应用结果表明:新方法对客户流失预测的命中率高于传统的分类预测算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号