共查询到20条相似文献,搜索用时 31 毫秒
1.
《厦门大学学报(自然科学版)》2017,(2)
我国专利数据来源众多、指标关系复杂,针对现有专利价值评估过程依赖人为主观判断,缺乏客观、合理评估方法等问题,提出了一种基于分类回归树(classification and regression tree,CART)模型的属性选择方法,用于构建专利价值评估的指标体系.实验结果表明相较于基于随机森林的属性选择方法,该方法不仅能有效地降低指标体系的规模,并且能提高评估建模的效率,在兼顾评估模型可解释性的基础上更好地提高专利价值评估的准确性.进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系的可解释性和现实意义. 相似文献
2.
主要针对广受关注的P2P网贷信用评估问题,利用机器学习方法提高申请人网贷违约预测准确率,研究出基于Stacking特征增强多粒度联级Logistic方法及其应用.所提分类器是一种混合模型,结合了Stacking集成学习和联级Logistic学习的思想.首先,通过网格搜索技术分别建立XGBoost, Catboost, LightGBM,AdaBoost以及Gradient Boosting模型,并筛选出适合的基评估器作为Stacking集成的初级学习器,logistic模型作为次级学习器,构建基于Stacking的多粒度扫描器,生成预测结果作为元特征,拼接成新特征数据.其次,通过新特征数据以及元特征在每级Logistic上的特征增强建立联级Logistic Regression模型,并且与现有的单一集成学习器和各基评估器在3个不同的P2P网贷信用评估数据集上进行对比.实验结果表明,通过AUC、准确率等指标对其进行评价,相比于各基评估器以及其他单一集成分类器,基于Stacking增强多粒度联级Logistic模型有较高的准确率,预测效果更优. 相似文献
3.
Logistic回归健康评估模型是一种重要的健康状况评估模型,其参数选择对模型的质量有着重大影响。本文提出了一种混沌自适应粒子群算法求解Logistic回归健康评估模型参数。该算法引入惯性权重自适应策略和混沌优化策略加强算法的局部搜索能力、采用适应度方差来解决算法的早熟问题。为了验证所提出算法,本文建立了基于心率、体温、血压等健康评价指标的Logistic回归流行性感冒评估模型。仿真实验表明,本文算法能获得较优的Logistic回归流行性感冒评估模型的参数;采用该参数的Logistic回归流行性感冒评估模型的评估准确率为83.09%,能起到较好的辅助评估作用。 相似文献
4.
在携号转网的背景下,为了提升顾客满意度,减少客户流失,通过对中国移动齐齐哈尔市顾客满意度进行问卷调查,对问卷调查结果数据采用因子分析和Logistic回归分析联合的方法进行调查分析,结合中国移动齐齐哈尔分公司的实际情况,给出该公司在提升顾客满意度方面存在的问题,提出相应的对策建议,使提高顾客满意度的对策有针对性和可操作性,为该公司有效提高顾客满意度提供了有力的保障。 相似文献
5.
基于LSVM(Lagrangian Support Vector Machine)分类算法分析,设计了通用的银行个人信用特征数据,研究了LSVM在个人信用评估中的应用,实证结果表明,LSVM具有较好的分类预测能力。 相似文献
6.
逐步线性回归能较好地克服多重共线性现象的发生,因此逐步回归分析是探索多变量关系的最常用的分析方法,智能算法是现代数据分析的主要方法。本文通过一个实例进行了对比研究,预测结果显示:在预测的精度上,在隐含层数目相同时,RBF径向神经网络BP神经网络逐步线性回归ELM极限学习机。通过对比分析,发现神经网络方法较回归分析预测效果更好,误差相对较小。 相似文献
7.
多分类有序反应变量Logistic回归及其应用 总被引:2,自引:0,他引:2
对近年发展起来的多分类有序反应变量Logistic回归进行了补充和完善 ,设计出对样本数据的应用条件做 χ2 检验的方法 ,证明了比数比在分析自变量作用中的实际意义 .随机抽取 2 0 0 2年国家执业医师资格临床实践技能考试 30岁以下本科毕业考生 5 0 0 0人 ,以考生的考试成绩 (3分类有序变量 )为反应变量 ,以考生的性别、工作单位级别、考试评分方法、考官回避制度、考题重复次数、考试合格率控制措施等 9个影响因素为自变量 ,进行多分类有序反应变量逐步Logistic回归分析 .研究结果已为卫生部改革和完善国家医师资格考试方法、措施提供了重要的科学依据 相似文献
8.
《宝鸡文理学院学报(自然科学版)》2020,(2)
目的研究不同正则项(L1正则项、L2正则项、L1-L2正则项和Huber正则项)下的Logistic回归问题。方法利用子问题线性化的方法为标准ADMM(Alternating Direction Method of Multiplier)算法提供一组初始可行解,并将初始可行解代入ADMM算法。结果与结论数值实验表明本文提出的改进算法在一定程度上缩短了标准ADMM算法的计算时间,提高了标准ADMM算法的计算效率。 相似文献
9.
蔡俊娟 《长春师范学院学报》2013,32(2)
回归是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学分析方法.而Logistic回归是概率非线性回归模型,是研究分类观察结果与一些影响因素之间关系的一种多变量分析方法.本文对Logistic回归模型进行推导,得到其概率密度函数,并对其性质进行分析,得到单调性、对称性等性质.并通过推导,可以计算出其优比,即成功胜率.最后通过某医院得到的数据,对于急性心肌梗死(AMI)患者能否成功的危险因素调查病历进行Logistic回归分析,得到了一些结论. 相似文献
10.
Logistic回归模型分析应用 总被引:1,自引:0,他引:1
蔡俊娟 《长春师范学院学报》2013,(4):8-10
回归是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学分析方法。而Logistic回归是概率非线性回归模型,是研究分类观察结果与一些影响因素之间关系的一种多变量分析方法。本文对Logistic回归模型进行推导,得到其概率密度函数,并对其性质进行分析,得到单调性、对称性等性质。并通过推导,可以计算出其优比,即成功胜率。最后通过某医院得到的数据,对于急性心肌梗死(AMI)患者能否成功的危险因素调查病历进行Logistic回归分析,得到了一些结论。 相似文献
11.
《齐齐哈尔大学学报(自然科学版)》2021,(1)
对流行病的分类进行定量约束,为了确定某感染病是否为大流行病,分别搜集了以H1N1为代表的大流行病重灾区样本和以SARS为代表的流行病重灾区样本,并定义每次流行病的重灾区。其次分别选取感染率、病死率、医疗条件、人口密度等指标作为解释变量建立二分类Logistic模型,通过得到的被解释变量的预测值(即该病是否为大流行病的概率)来判断该病是否为大流行病。最后,由于疾病流行性问题的复杂性,在模型中依次引入平方项重新回归,通过定义不同的训练集和测试集,得到最优的回归方程,最终得到将病死率的平方项引入回归模型中,模型分类的准确率更高。 相似文献
12.
试卷评价是教育评价的重要部分,现有的试卷评价系统利用统计方法求解出预定指标项的值,并用直方图表示考生总分的分布情况,以此对试卷有一个全面宏观的了解。然而,这些指标缺乏对具体考题进行质量评价,难以作出进一步的分析和评价。文章结合KDD领域中的有关技术,提出一种数据表示形式,在此基础上求解出一系列针对考题及考题集的评价指标,以便更深入地反映试卷的具体情况,这一求解结果也有助于试题库的维护。 相似文献
13.
度量学习是机器学习中的重要研究问题之一,针对实际应用中的噪声数据,如何建立一个鲁棒的度量仍是一个挑战.本文将稀疏表示、特征学习与分类模型相结合提出了一种新的基于鲁棒回归度量学习(RRML)的算法并将其应用于图像分类.算法对最优特征子空间和稀疏表示进行联合学习,在更具判别性的低维表征空间中,通过稀疏表示有效地编码数据的局部结构信息,进而更好地揭示数据的内在鉴别信息,并以此指导该模型学习到最优的投影矩阵;同时对噪声矩阵和投影矩阵的行稀疏约束,可以极大降低噪声的影响.实验结果表明所提算法在图像分类准确率和鲁棒性方面均优于其他对比算法. 相似文献
14.
基于逻辑回归的中文在线评论有效性检测模型 总被引:1,自引:0,他引:1
为了实现电子商务和社交网络中文在线评论有效性的自动化检测,提出了一种单一主题环境下基于逻辑回归的垃圾评论检测模型.中文在线评论有效性的检测可以归结为分类问题,结合中文在线评论的特点提取了9个特征以构建分类模型;为获取核心特征主题的相关度,采用基于关联规则的评论名词模式优化了ICTCLAS中文分词系统的主题识别,进而利用交叉语言模型获取在线评论主题相关度.实验中采取了人为标定的1 000条评论作为样本,把支持向量机分类模型作为对比进行试验,利用数据挖掘工具Weka进行计算.结果表明,采用优化评论名词模式下基于逻辑回归的垃圾评论检测模型结果的准确率达到83.54%,比支持向量机分类模型计算得到的准确率高2.10%. 相似文献
15.
用聚类法将大量人体样本尺寸数据进行体型分类,是目前较先进的一种人体体型分类方法.但分类后若根据个体尺寸数据反向判断其所属的聚类体型则较为困难.本文经过多个设计方案,对实际测量的人体数据进行分析计算和对比,得出一种效果好,计算量小的实用反向判断方法. 相似文献
16.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高. 相似文献
17.
基于投影寻踪回归文本自动分类的模型 总被引:2,自引:0,他引:2
文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的.投影寻踪正是一种稳健的、非参数化的维数约简方法.提出了一种基于投影寻踪回归的文本自动分类模型.应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究.采用标准文档集Reuters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验.实验结果表明,该模型对文本自动分类具有较高的召回率和准确率. 相似文献
18.
通过分析同类数据点在空间中的几何形态,从数据点集所构成几何形态的凹凸性着手,提出边界提取算法并对高维数据进行分类。针对现实生活中的高维数据,利用局部线性嵌入将数据进行降维处理,得到低维特征数据。在此基础上,对于单分类数据集,用数据集表面的点的近邻样本与过该点的切平面之间的关系寻找边界点;对于多分类数据集,利用贝叶斯后验概率来寻找边界重复的点,以此更快达到提取边界点的目的。由此可以粗略筛选出边界点。为去除不重要的边界点,降低分类误差,通过构造最优超平面和支持向量机对边界点赋予权重,并设置阈值去除不重要的边界点,由此达到用较少的边界点准确分类数据的目的。通过100个测试样本进行分类测试并计算其分类准确率,验证了此分类方法的可行性。 相似文献
19.
为了能方便、快捷、可靠地对失真语音进行语音清晰度性能评价,提出了一种基于语音分类的加权巴克谱失真语音清晰度客观评价算法SC-WBSD.该算法提出在巴克域中对清音帧、浊音帧及过渡音帧巴克带谱失真进行加权来求失真语音的客观失真测度.通过分析 3类语音的巴克谱失真测度与DRT分的相关程度,提出一组以相关系数的幂次方为权重的有效SC-WBSD权重矢量.实验结果表明,SC-WBSD方法和DRT分的相关度达到了0.924 73,与巴克谱失真测度算法相比提高了4%. 相似文献
20.
分类算法是数据挖掘中最重要的研究领域之一。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,给出了每种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 相似文献