首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
提出了一种基于分类算法的潜在好友推荐系统. 该系统采用两步特征方法处理原始数据集,去除不相关特征项和冗余特征项,为分类器提供精简的特征集合;把学者潜在好友推荐问题转化为二分类问题,对比4个常用分类器在两步特征选择方法上的分类效果,并找出推荐效果最佳的分类器(决策树分类器),同时得出学术社交网络中区分度最大的6个用户特征信息. 使用来自学术社交网络学者网(SCHOLAT)的社交网络信息作为实验原始数据集进行测试,实验结果显示,相比传统方法,基于分类的推荐方法在准确率和F1值均有显著提升,体现了基于分类算法的潜在好友推荐系统的准确性和实用价值.  相似文献   

2.
为了提高宫颈细胞识别速度,以最少的特征数量获得最高的识别准确率,运用分类与回归树算法(Classification and Regression Trees,CART)进行特征的选择,并采用粒子群算法(Particle Swarm Optimization,PSO)对分类器支持向量机(Support Vector Machine,SVM)进行优化,形成了PSO-SVM分类算法对细胞进行分类.使用Herlev数据集对文中提出的算法进行验证.通过CART特征选择方法,成功地从20个特征中提取出9个更具代表性的特征,并且二分类和七分类的准确率均达到99%以上.并引入其他几种宫颈癌细胞的分类识别算法进行仿真比较,结果表明,本文算法在特征数目较少的情况下识别准确率依然具有明显优势,从而验证了该算法的有效性.所述方法有效降低了人工特征选择的难度,在减少了识别用时的情况下,依然保证了细胞的识别准确率与之前几乎无异,为宫颈癌疾病诊断提供了一套有效的方法框架.  相似文献   

3.
针对人工镜检分类白细胞准确率和效率低的问题,基于深度学习和机器学习算法,提出了一种基于迁移学习和支持向量机的白细胞分类方法.首先对迁移模型进行微调训练,其次用微调训练后的迁移模型进行特征提取,然后将特征输入至神经网络和支持向量机中进行训练,最后通过神经网络和支持向量机的组合分类器对白细胞进行分类.实验结果表明,白细胞分类准确率由最初微调训练的83.26%,随着迁移模型的优化提升为90.43%,最后通过组合分类器再次提升为93.52%,可以在临床实践中帮助医生提高诊断的准确率和效率.  相似文献   

4.
融合卷积神经网络(convolutional neural network,CNN)和双向长短期记忆网络(Bi-directional long short-term memory,BiLSTM)的情感分析模型(CNN_BiLSTM)是一个流行的模型,其学习文本的局部特征和全局特征实现情感分类,但是忽略了特征对分类结果的重要程度,且没充分利用词语间的特征,导致分类准确率不高.提出一种集成基于多卷积核的卷积神经网络和注意力双向长短期记忆网络特征的文本情感分类方法(MCNN_Att-BiLSTM),其集成局部和全局的重要特征作为文本语义特征,该特征进而用于训练文本情感分类器XGBoost(eXtreme gradient Boosting).该方法基于注意力机制的BiLSTM提取对分类影响大的全局关键特征,基于多卷积核的CNN获得更全面的词语间特征,为集成分类器准备了有效分类的特征.实验结果表明,该模型具有更好的情感分类准确率,与CNN_BiLSTM模型相比,在IMDB数据集上准确率提升了1.75%,在txt-sentoken数据集上准确率提升了1.67%,在谭松波-酒店评论数据集上准确率提升了3.81%.  相似文献   

5.
为提高铸坯质量预测的准确率,本文提出了一种基于最大信息系数(MIC)和主成分分析(PCA)的两阶段特征降维方法。采集某钢厂铸坯生产过程数据,根据冶金原理得到铸坯夹杂类质量缺陷的影响因素,构造原始特征集。第一阶段进行特征选择,使用随机森林分类器的分类准确率来评价ReliefF、IG和MIC三种算法的特征选择效果,结果显示,基于MIC度量指标选出的特征维度更低、分类准确率更高。第二阶段使用PCA方法对特征选择后的特征集进行降维,并将其与原始特征集、MIC、PCA算法的分类准确率进行比较,结果表明,本文提出的基于MIC和PCA的两阶段降维方法优于其他算法,能有效降低原始特征集的维度并提高对铸坯夹杂类质量缺陷的预测精度。  相似文献   

6.
使用残差神经网络(residual neural network,RNN)算法对斯隆数字巡天(Sloan digital sky survey,SDSS)提供的天体伪彩色图片进行分类,直接从图像中获得特征.使用带有光谱信息的星系与恒星图片作为训练集和测试集.经过训练,在测试集上的准确率达到98.23%,召回率达到98.80%。这表明:RNN可以实现对星系和恒星图像的精确分类,分类器给出的恒星-星系概率是有效的,可用于分类可靠度评估;还可以尝试将此分类器应用到未来巡天中,进一步测试其性能.   相似文献   

7.
提出以乳腺癌数据进行挖掘数据的有效分类方法.针对兰州市某医院乳腺癌数据,通过数据挖掘技术中3种不同的特征提取方法,对乳腺癌数据集的属性进行选择,特征选择后减少的属性代替原来较多的属性,再对其用贝叶斯网络、属性选择分类器、J48、逻辑回归模型、One-R 5种方法进行分类.结果表明,得到的子集再经过分类时所花费时间明显减少,利用贝叶斯网络算法进行分类的准确率和各项性能指标高于其他算法,用逻辑回归模型算法进行特征选择后准确率明显提高.  相似文献   

8.
用于微阵列数据癌症分类的演化硬件多分类器   总被引:1,自引:0,他引:1  
针对单分类器识别率低、稳定性差的问题,提出了一种用于微阵列数据分类的演化硬件多分类器选择性集成方法.首先把经过预处理的原始训练集随机划分为训练集和验证集;然后通过对训练集的学习获得基于演化硬件的基分类器;再用验证集评价基分类器的性能,选择其中一部分较好的基分类器组成最终的分类系统;最后用独立的测试集验证系统的性能.试验结果表明,对急性白血病和结肠癌数据集的识别率分别为95.42%、88.33%,与其他的模式识别方法具有可比性;同时在识别率相当的情况下,该方法的硬件代价远低于全集成的演化硬件多分类器.  相似文献   

9.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

10.
将遗传模糊系统引入分类器融合,并且提出了一种快速的遗传模糊系统设计方法,在该方法中对传统的产生初始群体的方法和交叉操作进行了改进.本文方法在从ELENA数据集和UCI数据集中选择的3个大样本数据集上进行了测试,与当前有代表性的分类器融合方法进行了比较实验.实验结果表明,该方法在缩短训练时间以后仍然能够得到模糊规则数少,分类精度高的分类器融合系统.  相似文献   

11.
通过对朴素贝叶斯分类器的讨论, 提出将贝叶斯方法应用于医学图像分割后的图像分类思想. 给出一种基于朴素贝叶斯分类器的图像分类方法, 对从尿沉渣图像中识别出的微粒进行正确分割及特征提取与选择, 并利用朴素贝叶斯分类器进行分类. 实验结果表明, 所提出的方法用于解决图像分类有效.  相似文献   

12.
现有过滤式特征选择模型采用贪心策略结合互信息评价特征子集,容易陷入局部最优陷阱.考虑标签信息对冗余度的影响,利用一种改进的MIFS-U方法在给定标签的条件下衡量冗余度,采用基于分解的多目标优化框架结合引入多项式突变的差分进化算子进行全局搜索,避免搜索陷入局部最优.引入l1正则化项来保证特征子集的稀疏性,并提出了新的特征选择算法MOEA/D-DEFS.实验阶段使用knn-5分类器来验证学习效果,并在多组来自不同领域的数据集上进行测试.结果表明,将特征选择视为多目标问题采用全局搜索策略搜索可以在特征子集维度和分类准确性方面提供更好的性能.  相似文献   

13.
一种新的 SVM 决策树   总被引:3,自引:0,他引:3       下载免费PDF全文
SVM在小训练样本、高维情况下具有很好的泛化性能,但它不适用于多类分类.本文分析基本的SVM和多类SVM分类器,重点讨论了SVM决策树,提出了一种结点分类器类集合划分方案来构造SVM决策树.实验结果表明,以这种方法构造的SVM决策树分类器分类性能较好.  相似文献   

14.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

15.
特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,目前主要采用离散化方法或特征分类能力的"相关性"评估进行特征选择.引入区间数相似度的概念,提出一种连续型特征选择方法.该方法以区间数相似度为基础,定义每个特征的属性相似度,以此作为特征选择的启发信息,对特征全集进行排序,选择特征子集,实现特征选择.相关实验表明了该方法的有效性.  相似文献   

16.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

17.
由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文讨论了目前基于所有特征以及词袋和词序列袋的特征选择方法,提出了采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。实验证明,此方法能够有效地选择分类特征,从而提升问题分类的效率和精度。  相似文献   

18.
针对Ada Boost算法训练分类器的特征具有大量冗余问题,提出了一种融合特征选择的Ada Boost集成算法.首先,使用一种特征选取方法,选择图像特征之间冗余度最小的特征,构造最优训练集;其次,采用Ada Boost算法训练分类器,构建分类模型;最后,使用分类模型实现待标注图像的自动标注.实验使用华盛顿大学用于图像自动标注的数据集,结果验证算法的有效性,并且相比其他传统算法,该算法具有更高的分类精度.  相似文献   

19.
按照MEPG-7的音频特征规范,设计了帧层次和段层次上的音频特征提取算法.在深入分析足球比赛中各类音频信息的不同特点的基础上,通过有针对性地选取特征,构造特征向量,设计并实现了一种基于决策树的层次化分类算法.该算法可以自动将足球比赛中的音频信息分为噪音、解说员语音、哨音、欢呼声和带背景音的解说员语音等5个类别.实验表明:该算法提取的特征有效,分类效果良好.  相似文献   

20.
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号