首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
一种基于混合策略的孤立点检测方法   总被引:1,自引:0,他引:1  
孤立点检测面临数据不平衡和代价敏感两个问题。利用改进的一类支持向量机对数据集进行重构,并结合代价敏感支持向量机提出了一种混合策略检测方法。首先在传统的一类支持向量机优化过程中设定不同权重,通过刻画超平面消除部分正常样本进而平衡数据集;重构过程保留了孤立点信息,同时能克服数据混叠现象。通过代价敏感支持向量机对样本进行训练,利用受试者工作特征分析作为评判依据搜索最优参数,进而调节阈值获得孤立点检测模型。仿真实验结果表明,本文方法能提高检测精度,同时有效降低总的误分类代价。  相似文献   

2.
基于自调节分类面SVM的平衡不平衡数据分类   总被引:1,自引:0,他引:1  
标准支持向量机(SVM)对不平衡数据集进行分类时,会出现不平衡现象;传统不平衡数据集分类方法只能对不平衡数据集分类,且在分类过程中存在人工因素的参与.提出一种平衡不平衡数据集统一分类方法--自调节分类面支持向量机(self-adjusting classification-plane SVM,SCSVM),设计自适应的分类面调节方法,根据训练错分情况对分类面进行调整,控制正负类样本的错分率使其达到均衡,平衡或不平衡数据集都可采用相同的方法进行分类而不需预知数据集种类.实验表明该方法可对平衡或不平衡数据集进行有效的分类.  相似文献   

3.
在单类支持向量数据描述算法的基础上, 提出了一种基于局部支持向量数据描述的稀有类分析算法: LSVDD, 能够处理存在类重叠的类不平衡问题. 该算法利用支持向量数据描述算法对各类样本分别进行单类学习, 从而获得单类模型; 然后对单类模型的概念重叠区域使用属性选择进一步进行局部单类学习, 最后得到综合分类模型. 在仿真数据集和UCI数据集上的实验结果表明, LSVDD能够有效和稳定地提高稀有类分析精度.  相似文献   

4.
不平衡最小二乘支持向量机   总被引:1,自引:0,他引:1  
针对标准的最小二乘支持向量机(LSSVM)没有考虑样本分布不平衡的问题提出一种称为不平衡最小二乘支持向量机的算法.首先用标准的最小二乘支持向量机对原始数据进行初步训练,产生一个分离超平面的法向量.然后把高雏样本投影到该法向量上得到一维数据.最后由该一维数据的标准差以及样本数量差异所提供的信息,给出两类数据惩罚因子比例,再用标准的最小二乘支持向量机进行第二次训练,对分离超平面进行调整.该方法克服传统方法只考虑数量的不平衡的不足,将原有样本集中具有的分类信息充分提取出来,提高了最小二乘支持向量机的泛化能力.实验结果表明,所提方法可以有效提高不平衡数据的分类性能.  相似文献   

5.
融入个体活跃度的电子商务客户流失预测模型   总被引:1,自引:1,他引:0  
为提高个体层次上客户流失预测的精确度, 建立了融入个体活跃度的电子商务客户流失预测模型H-ULSSVM. 该模型首先利用融入地域因素的启发式算法计算出最优阈值, 并求出个体的活跃度, 识别出正判客户和错判客户; 在此基础上, 考虑电子商务客户流失预测影响因素众多, 提出了一种粗糙等价类属性约简方法提取出重要的客户流失预测指标, 然后将降维后的正判客户样本送到非平衡最小二乘支持向量机进行学习和训练, 进而利用得到的分类器对错判客户样本的客户流失状态进行判别. 在某B2C电子商务平台客户样本的实证研究表明, 该模型与其他方法相比, 具有更好的效率和精确度.  相似文献   

6.
针对支持向量机(support vector machine, SVM)预测过程中影响因素选择、输入特征集优化、核函数选择及参数优化方面存在的问题,提出了一种全过程优化方法。首先使用频繁模式增长关联规则分析和模糊贝叶斯网络组合模型来解决影响因素选择中存在的主观性问题,然后使用在异常值处理和类内距离与类间距离方面进行改进的模糊C均值聚类算法优化输入特征集,减小支持向量机预测模型冗余度及训练样本集过修正度,通过比较各核函数的特点选择径向基核函数作为SVC的核函数,改进了粒子群优化算法中微粒速度和位置函数及惯性权重值算法,使用该方法优化SVM参数并建立预测模型。最后,通过案例运算和分析,证明该文方法具有更高的预测精度。  相似文献   

7.
一类快速模糊支持向量机   总被引:3,自引:0,他引:3  
由H.P.Huang、C.F.Lin等人和T.Inoue,S.Abe等人提出的两类模糊支持向量机是两种类型的改进支持向量机,分别克服了过学习问题和减少了多类问题分类时存在的不可分区域。如何处理异常数据和加速训练大规模数据集是支持向量机中的急需解决的两个问题。针对这两个问题,提出了一类将两类模糊支持向量机集成的快速模糊支持向量机。训练时,根据每类数据与其类中心的距离,定义隶属函数,以加大对容易被错分样本的惩罚,利用合适的参数λ选取了每类数据中隶属度值较大的边缘数据构造模糊支持向量机,测试时,利用1-a-1和模糊支持向量机的决策函数判定未知样本的类别。含有异常数据的两类问题和机器学习数据集中手写数字识别的多类问题的实验结果,验证了提出的快速模糊支持向量机减少了训练时间同时提高了学习机的推广能力。  相似文献   

8.
基于模糊C-均值聚类与支持向量机的PMV指标预测系统   总被引:1,自引:0,他引:1  
为了更好地预测室内热舒适度PMV指标,在分析模糊C-均值聚类方法与支持向量机方法的优势和互补性后,探讨了二者的结合方法,提出了一种基于模糊C-均值聚类预处理的支持向量机PMV指标预测系统.该方法把复杂的数据集看作多个群体的混合,每个群体采用单一的回归模型进行描述,使得大规模数据集的回归估计问题变成了一个多模型估计问题.将该系统应用于PMV指标预测中,与标准支持向量机方法相比, 得到了较高的预测精度,从而说明了基于模糊C-均值聚类方法作为信息预处理的支持向量机学习系统的优越性.  相似文献   

9.
为提高支持向量机在大规模数据集上的训练效率,提出一种基于自适应协同聚类的支持向量预选算法。该方法通过对两类样本进行自适应协同聚类,寻找少量具有协同关系的类中心对,替代支持向量进行训练,从而减少参训样本数量。其中,中心对数量由算法自动确定。与其他支持向量预选算法的对比实验结果表明,自适应协同聚类算法能够在不影响分类性能的情况下,有效提高训练速度,是一种行之有效的快速支持向量预选算法。  相似文献   

10.
基于SMC-RS-LSSVM的电子商务客户流失预测模型   总被引:4,自引:3,他引:1  
为提高个体层次上客户流失预测的精度,建立了基于SMC-粗糙集-最小二乘支持向量机的电子商务客户流失预测模型.该模型首先利用SMC模型计算出客户活跃度,以0.5为阈值判断出客户流失状态,识别出正判客户和错判客户;其次应用粗糙集理论约简出重要的客户流失预测指标体系,然后将训练样本送入最小二乘支持向量机进行学习和训练,进而对测试样本的客户流失状态进行判别.利用某网上商场的2525名客户样本进行电子商务客户流失预测实证研究,结果表明:与SMC模型、BP神经网络模型、最小二乘支持向量机模型相比,该模型对测试样本预测精度更高,是一种更为有效和实用的客户流失预测方法.  相似文献   

11.
基于GMDH的“一步式”客户流失预测集成建模   总被引:1,自引:1,他引:0  
在客户流失预测问题中, 客户数据的特征往往会影响模型的预测效果.分析了常用的“两步式”客户流失 预测方法的不足,提出了基于数据分组处理(GMDH)技术的“一步式”客户流失预测集成研究框架.该框架一方面 将数据预处理和客户流失预测建模过程进行集成,另一方面用多分类器集成策略进行客户流失预测建模.以客户数据类别分布不平衡的客户流失预测问题为例,构建了与数据特征相适应的“一步式”集成模型. 实证结果表明,该方法能够更有效地进行客户流失预测.  相似文献   

12.
客户流失预测是企业客户关系管理的重要内容.在现实的很多客户流失预测建模过程中,由于数据类别的高度不平衡现象的存在,使得模型的分类性能低下,不能很好地进行分类预测.同时由于现实情况中只有少量有类别标签的样本,更多的是无类别标签数据的存在,造成了大量有用信息的浪费.为了解决以上两个问题,本研究将元代价敏感学习,半监督学习和Bagging集成等技术结合,提出了代价敏感的客户流失预测半监督集成模型(semi-supervised ensemble based on metacost,SSEM).该模型主要包括三个阶段:1)用Metacost方法修改初始有标签训练集L的类别标签,得到新的训练集Lm,并将其随机的分为模型训练集Ltr和模型验证集Va;2)使用Va挑选分类精度最高的三个基分类器,并用其选择性标记无类别标签U中的样本,并将它们添加到Ltr中;3)用新的模型训练集Ltr训练N个基本分类模型,并对测试集样本进行分类,进一步将分类结果进行集成.在两个客户流失预测数据集上进行实证分析,将SSEM模型与常用的监督式集成模型以及半监督式集成模型相比,结果表明,SSEM具有更好的客户流失预测性能.  相似文献   

13.
客户关系管理中客户知识发现的一种分析方法   总被引:2,自引:0,他引:2  
研究了客户关系管理(CRM)中的客户知识发现问题。在分析了客户知识发现的含义和客户知识分类的基础上,提出了一种客户知识发现的分析方法。依据该方法,通过采用模糊聚类方法可确定影响CRM效果的关键属性集,进而可归纳发现客户知识的分类规则,并得到有价值的客户知识。最后给出了一个实例分析。  相似文献   

14.
基于支持向量机的分布数据挖掘模型DSVM   总被引:1,自引:1,他引:0  
针对分布环境的数据挖掘要求,提出了基于支持向量机的分布数据挖掘模型DSVM.定义了DSVM中特征多叉树的概念,描述了基于移动Agent访问分布数据集来构建特征多叉树的方法,阐述了通过特征多叉树来反映分布环境各数据集属性总体特征的思想,并利用该数据结构和支持向量机的特点,提出了基于壳向量的分布式支持向量机增量算法来修正和完善特征多叉树,最终实现分布环境下全局的数据挖掘.实验结果表明,该模型有效地解决原有分布环境下其他挖掘算法存储开销大、执行效率差、安全性和隐私性低等问题.  相似文献   

15.
移动资费套餐是电信企业通过移动资费产品的多样化来满足市场中不同顾客需求的一种有效手段.在移动资费套餐的设计过程中,如何合理设计套餐的数量和定位细分市场,并选择套餐分档的属性值,是电信企业管理部门的一项重要任务,也是一项复杂的管理决策问题. 文中提出了一种基于顾客选择行为分析的移动资费套餐优化模型,在模型中首次引入了新产品定位中的顾客选择行为分析的思路和方法,并采用多项式分对数规则来模拟顾客的选择购买行为.同时,在优化模型中考虑了移动资费套餐的收入长期性、未来收益和资金折现率的 影响,强调以最大化顾客终身价值为目标来进行移动资费套餐方案的优化选择.最后给出了某电信公司套餐的一个实例,对所提的模型和方 法进行了计算和验证.  相似文献   

16.
结合现阶段民航企业的特点,重点研究如何利用忠诚度预测模型提高企业的服务水平方法,在此基础上,建立提高旅客忠诚度的决策服务体系.通过建立符合民航的旅客忠诚度模型,运用PLS-SEM方法量化忠诚度指标;由于调查数据量的限制,研究在小样本集下的偏最小二乘法预测方法,制定提高忠诚度指标策略.对实际采集数据的分析试验也验证了该方法有助于细化分析航空公司服务水平,操作性强,效率高,可为民航企业改进服务提供决策支持.  相似文献   

17.
受到重工业发展规模、北温带季风气候、秋冬季燃煤取暖、机动车拥堵状况以及微观气象条件等各种因素影响,沈阳地区PM2.5浓度变化具有趋势性、周期性及随机性特征。针对上述三种特征,论文构建了一种集成双向长短期记忆网络的神经网络预测模型DLENN(Double-LSTM Ensemble Neural Network),内含的两个方向LSTM分别刻画PM2.5浓度变化趋势性和周期性,然后采用线性回归杂合神经网络来捕捉PM2.5浓度变化的随机性。基于沈阳地区11个监测站2016至2017年空气质量和气象条件数据,本文将DLENN模型分别与自回归移动平均ARIMA模型、支持向量机SVM模型、随机森林RF模型和梯度提升树GBDT集成学习方法进行对比实验,结果表明DLENN预测模型稳定优于其他方法,其预测误差RMSE相对于ARIMA、SVM和集成模型分别下降了9.23%、3.83%、5.49%.  相似文献   

18.
针对不平衡数据集的客户流失预测算法   总被引:1,自引:0,他引:1  
针对客户关系管理中的客户流失预测问题进行探讨,通过对客户流失数据特点的分析,以及现有预测算法的比较,将数据挖掘方法中的随机森林算法引入客户流失预测,建立预测模型,并在实际的银行业贷款客户数据集上进行实验,得到了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号