首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 93 毫秒
1.
基于GMDH的“一步式”客户流失预测集成建模   总被引:1,自引:1,他引:0  
在客户流失预测问题中, 客户数据的特征往往会影响模型的预测效果.分析了常用的“两步式”客户流失 预测方法的不足,提出了基于数据分组处理(GMDH)技术的“一步式”客户流失预测集成研究框架.该框架一方面 将数据预处理和客户流失预测建模过程进行集成,另一方面用多分类器集成策略进行客户流失预测建模.以客户数据类别分布不平衡的客户流失预测问题为例,构建了与数据特征相适应的“一步式”集成模型. 实证结果表明,该方法能够更有效地进行客户流失预测.  相似文献   

2.
SVM方法及其在客户流失预测中的应用研究   总被引:8,自引:1,他引:8  
客户流失分析与预测是客户关系管理的重要内容.针对客户流失问题,建立了支持向量机预测模型.针对实际客户流失数据中正负样本数量不平衡而且数据量大的特点,提出带有不同类权重参数的支持向量机算法CW-SVM,通过调整类权重参数改变分类面位置,提高算法分类准确性;将标准支持向量机训练问题转化为运算效率更高的核向量机问题,提出处理不平衡海量数据集的CWC-SVM算法.通过实际银行信贷客户数据集测试,该算法与传统预测算法比较,更适合解决大数据集和不平衡数据,取得较好的客户流失预测效果.  相似文献   

3.
基于多分类器动态集成的电信客户流失预测   总被引:1,自引:0,他引:1  
本文提出了一种新的基于多分类器动态选择与优化集成的电信客户流失预测集成模型.首先使用K均值聚类算法对训练集样本进行分区;然后分别使用Naive-Bayes算法、多层感知机算法和J48算法构建各分区客户流失预测子分类器;最后对各分区子分类器进行线性集成,并使用人工蜂群算法优化其集成权重.当测试样本由聚类算法判断出其归属区域后,再分别使用分区子分类器进行预测,最后使用优化权重进行线性集成.实验结果表明:动态集成模型优于单模型;基于人工蜂群算法优化集成模型优于其它集成模型.  相似文献   

4.
基于SMC-RS-LSSVM的电子商务客户流失预测模型   总被引:4,自引:3,他引:1  
为提高个体层次上客户流失预测的精度,建立了基于SMC-粗糙集-最小二乘支持向量机的电子商务客户流失预测模型.该模型首先利用SMC模型计算出客户活跃度,以0.5为阈值判断出客户流失状态,识别出正判客户和错判客户;其次应用粗糙集理论约简出重要的客户流失预测指标体系,然后将训练样本送入最小二乘支持向量机进行学习和训练,进而对测试样本的客户流失状态进行判别.利用某网上商场的2525名客户样本进行电子商务客户流失预测实证研究,结果表明:与SMC模型、BP神经网络模型、最小二乘支持向量机模型相比,该模型对测试样本预测精度更高,是一种更为有效和实用的客户流失预测方法.  相似文献   

5.
融入个体活跃度的电子商务客户流失预测模型   总被引:1,自引:1,他引:0  
为提高个体层次上客户流失预测的精确度, 建立了融入个体活跃度的电子商务客户流失预测模型H-ULSSVM. 该模型首先利用融入地域因素的启发式算法计算出最优阈值, 并求出个体的活跃度, 识别出正判客户和错判客户; 在此基础上, 考虑电子商务客户流失预测影响因素众多, 提出了一种粗糙等价类属性约简方法提取出重要的客户流失预测指标, 然后将降维后的正判客户样本送到非平衡最小二乘支持向量机进行学习和训练, 进而利用得到的分类器对错判客户样本的客户流失状态进行判别. 在某B2C电子商务平台客户样本的实证研究表明, 该模型与其他方法相比, 具有更好的效率和精确度.  相似文献   

6.
针对不平衡数据集的客户流失预测算法   总被引:1,自引:0,他引:1  
针对客户关系管理中的客户流失预测问题进行探讨,通过对客户流失数据特点的分析,以及现有预测算法的比较,将数据挖掘方法中的随机森林算法引入客户流失预测,建立预测模型,并在实际的银行业贷款客户数据集上进行实验,得到了较好的效果.  相似文献   

7.
自训练多项式光滑的半监督支持向量机   总被引:1,自引:0,他引:1  
为了处理自训练半监督支持向量机算法中每次循环都需要求解二次规划因此效率低的问题,采用直接求解支持向量机的原始优化问题,由此得到一个不光滑的无约束优化问题.将正号函数展开为无穷多项式级数,由此得到了一族光滑函数,用多项式光滑函数对无约束优化问题进行逼近,并用共轭梯度算法求解模型.在人工数据和UCI数据集上的实验结果显示,给出的算法效率高,能保证标记样本很少时的分类精度并且不因标记样本的增多而明显提高分类精度.  相似文献   

8.
基于SMOTEBoost的非均衡数据集SVM分类器   总被引:1,自引:0,他引:1  
在对实际问题进行数据挖掘时面临的多数是非均衡数据集,即各种类型的数据分布并不均匀,且关注的类型常是少数类.运用含有少量少数类型事例的数据集训练后的模型进行预测时,通常对多数类的预测精度很高,而少数类的预测精确性却很差.提出了一种集成方法SMOTEBoostSVM,通过SMOTE技术人工生成增加少数类样本量,以具有较强分类性能和泛化性能的SVM作为弱分类器,并以AdaBoost算法构建集成分类器.实验结果表明,SMOTEBoostSVM集成分类器比单纯运用SMOTE技术、AdaBoost算法以及SVM等的分类器,在非均衡数据集的分类预测中具有更好的效果.  相似文献   

9.
常规的分类与回归树算法(classification and regression tree, CART)只能通过重新训练来增加对新类别的认知, 导致样本类别数量较多时训练成本大幅增加。针对这一问题, 提出一种轻量化的增量式集成学习算法: 当新的类别进入到训练集中, 只需在原有集成学习算法中添加具有开集识别能力的CART基分类器, 就可以实现对新类别样本的分类, 而不需要重新训练, 从而降低计算复杂度, 简化学习过程。以辐射源分类为背景的仿真实验表明, 该算法在信噪比大于等于-4 dB的环境中, 可以保持90%以上的分类准确率; 在类别数量较多的情况下, 相比常规CART, 该算法可以大幅度降低新增分类类别所需的训练成本。  相似文献   

10.
针对信用分类数据集中常见的高维性特征,本文基于特征袋装法和关联规则挖掘算法,构建了新的赋权特征选择集成模型AR-WSAB.该模型能根据频繁项集的支持度和置信度,对各特征的重要度进行测度,进而选择出各特征子集,训练子分类器,再通过集成得到最终结果.通过在贷款违约预测数据集上进行实证分析,结果表明该模型分类正确率相对于Bagging集成模型和PCA算法都有显著优势,所提方法能够有效处理高维性特征,并且在各分类算法上都具有普适性.  相似文献   

11.
对合作博弈(N,v)和交流图(N,L)所产生的交流局面(N,v,L),现有的分配法则都是重新定义一个特征函数,再归结为新特征函数的Shapley值.为了避免定义新特征函数时的失真(从而使得计算Shapley值出现一定偏差),本文提出一个新的分配法则.设原博弈(N,v)的Shapley值为Sh(N,v)=(S_1,S_2,…,s_n),其中s_i可视为参与者i的实力.类似于Google的网络搜索算法,对连通的交流图L和表示参与者相互合作程度的转移矩阵P,定义参与者的PageRank (参与者的级别或地位),记为(r_1,r_2,…,r_n),其中r_i表示参与者i在合作交流中的地位.新的分配法则,称为Page-Shapley值:其中参与者i所得为c_Nr_is_iv(N),而C_N取为1/Σ_(j∈N)r_jS_j以便保证值的有效性.当L不连通时,其Page-Shapley值由各分支的Page-Shapley值拼接而成.  相似文献   

12.
含时变时滞函数的GM(1,1|τ_i)模型及其应用   总被引:1,自引:0,他引:1  
针对带有时滞效应的小样本数据序列的预测建模问题,现有模型通常假设时滞期为固定值,忽略了时滞值动态变化对模型效果的影响.为了克服这一局限性,本文考虑系统时滞的动态变化效应,将GM(1,1|τ,r)模型的静态时滞参数推广为时变时滞函数,设计出非整数时滞取值区间对应的时变时滞参数表达式.提出以灰关联理论为基础的时变时滞函数的参数优化方法,推导出GM(1,1|τ_i)模型参数估计值以及预测序列的时间响应式.该方法不仅提高了模型对所分析序列的拟合度,还可充分利用时滞参数函数的数学性质,进一步研究时滞因素对系统发展趋势的影响.最后,将GM(1,1|τ_i)模型应用于福建省全省沿海港口货物吞吐量预测,并将建模预测结果与经典的GM(1,1)模型和GM(1,1,τ)模型进行比较.结果表明当原始序列具有时滞效应时,GM(1,1|τ_i)模型具有更高的建模精度,能够反映出更为复杂的系统时滞变化情况,扩展了含时滞参数灰色预测模型的适用范围.  相似文献   

13.
一个n-部竞赛图是n-部完全图的一个定向.令V1,V2,…,Vnn-部有向图D的部集.如果D中存在两个不相交的圈CC'使得对于每一个i∈{1,2,…,n}都有Vi(V(C)∪V(C'))≠ƒ,则称CC'是D的一对分量共轭圈.针对多部竞赛图的共轭圈问题,提出了分量共轭圈的定义,同时证明了每一个至少有6个顶点的部集具有相等基数的局部几乎正则多部竞赛图的分量共轭圈的存在性问题.  相似文献   

14.
为根据已有的经验提炼出对系统可靠性评判的决策准则,基于汪培庄的因素空间理论与笔者提出的空间事故树理论思想,构造了一套从决策经验中提取决策准则的方法.该方法适用于条件属性为域值的多因素影响系统.首先数据归一化构建基础信息决策表Ψ(T).计算x_i与x_j关于属性a_q的相似度S(x_i,x_j,a_q),形成相似性表Θ(U,C,S).根据相似性阈值f将Θ(U,C,S)化简得Θ′(U,C′,S).根据模糊度θ,将Θ′(U,C′,S)改造为模糊二项相似表Ω(Θ′,θ),从而构建区分矩阵Γ(Ω).对U进行决策组划分,形成决策项,组成决策归纳表L(T).利用L(T)和Ψ(T)得到了切合实际使用的决策语义表L(T).从方法处理实际问题的结果看,在只利用条件属性集合与对象集合的条件下,即可判断经验决策的合理性.经过一系列的数据处理最终得到的决策语义表L(T),它可以判断系统工作状态属于哪种系统可靠性的决策,并确定了这种决策的置信度.  相似文献   

15.
Because most ensemble learning algorithms use the centralized model, and the training instances must be centralized on a single station, it is difficult to centralize the training data on a station. A distributed ensemble learning algorithm is proposed which has two kinds of weight genes of instances that denote the global distribution and the local distribution. Instead of the repeated sampling method in the standard ensemble learning, non-balance sampling from each station is used to train the base classifier set of each station. The concept of the effective nearby region for local integration classifier is proposed, and is used for the dynamic integration method of multiple classifiers in distributed environment. The experiments show that the ensemble learning algorithm in distributed environment proposed could reduce the time of training the base classifiers effectively, and ensure the classify performance is as same as the centralized learning method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号