共查询到20条相似文献,搜索用时 15 毫秒
1.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的. 相似文献
2.
《黑龙江大学自然科学学报》2016,(4)
PageRank(网页排名)是一种网络排序算法,每个网页都可以根据PageRank算法得出网页的PageRank值,但仅根据PageRank值的大小不能够准确找到符合主题的网页,会造成主题的漂移。为了使检索到的主题准确,针对目前通用排序算法对林业主题信息查准率较低的不足,根据需要的林业主题建立特定的爬虫算法。定义了林业主题文本库,分析文本库特征值,通过改进的TF-IDF算法计算主题权重,对PageRank算法进行优化,提出了基于林业主题的PageRank算法,有效地提高了林业主题抓取的准确率。 相似文献
3.
《湖南师范大学自然科学学报》2015,(5)
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响.在真实数据集与人工数据集上分别进行实验,仿真实验结果表明,本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果. 相似文献
4.
集成学习是一种受到广泛认可和使用的机器学习算法.为此提出一种新的多类集成学习算法,即AdaBoost belief.此算法改进多类集成学习算法AdaBoost·SAMME,使每个基分类器对于每个类别都有权重信息.这种类别上的权重被称为类别信念,可通过计算每次迭代中各个类别的正确率得到.将所提出的算法与原有的AdaBoost·SAMME算法从预测准确率、泛化能力以及理论支持等方面进行比较发现:在高斯数据集、多种UCI数据集以及基于日志的多类别入侵检测应用中,该算法不但具有更高的预测准确率和泛化能力,而且当类别数目增加,即类别更难以预测时,其分类错误率较原有AdaBoost·SAMME算法上升得更缓慢. 相似文献
5.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法. 相似文献
6.
为了提高银行客户分类的正确率,使银行的收益最大化,提出一种基于改进K均值聚类的银行客户分类算法.算法定义了类间最大相似度均值(AMS),并根据该定义确定最佳聚类数.当计算出的当下AMS值比前一次的AMS值小时,根据距离原则选择初始聚类中心;当计算出的当下AMS值比前一次的AMS值大时,把该最小AMS值相匹配的聚类中心看作初始聚类中心.利用最佳聚类数和初始聚类中心实现银行客户的细分.仿真结果表明,提出的算法能够跳出局部最优,并提高客户分类的正确率. 相似文献
7.
针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统的检测方法进行对比.实验结果证明了提出方法的有效性和准确性. 相似文献
8.
《哈尔滨师范大学自然科学学报》2017,(2)
针对KNN算法在中文文本分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出改进的基于中心向量KNN算法.算法首先引入基于密度的思想对训练样本进行调整,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.实验结果表明,该算法在不损失精确度的情况下,提高了分类实时性. 相似文献
9.
《应用科学学报》2019,(3)
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 相似文献
10.
11.
《哈尔滨师范大学自然科学学报》2018,(6)
评分预测是推荐系统的重要环节,现在大部分的评分预测是利用用户的历史评分记录来推断该用户将给某个项目打多少分.该方法利用了用户历史评分记录,没有充分利用用户或者项目属性,平均绝对误差较大.针对以上问题,构造一种基于用户自画像的评分预测协同过滤推荐算法.该算法通过计算用户之间历史评分记录的相似度和用户自画像之间的相似度,然后计算出两种相似度的权重,把两种相似度乘以各自的权重进行组合.实验结果表明,构造的评分预测算法较好的减少预测评分和实际评分之间的平均绝对误差,提高了评分预测的准确性. 相似文献
12.
13.
提出一种样本之间相似系数确定的方法,用相似度矩阵替代传统的相似矩阵,近而确定初始聚类中心.在FCM法中引入了指标权重,并给出了迭代公式和相应算法.将改进后的FCM法应用到煤炭城市分类的实例中去,聚类结果对处在经济转型时期的煤炭城市相互借鉴发展有一定的参考价值. 相似文献
14.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。 相似文献
15.
17.
为了解决关键帧提取算法性能因特征选取单一而受视频类型多样性限制等问题,提出了一种基于多特征的关键帧提取方法 .该方法在检测到的每个镜头内,采用颜色特征、小波统计特征和SIFT局部特征计算视频帧间综合相似度矩阵.然后采用一个改进的谱聚类算法将镜头帧分组,每一组的中心帧被选择作为关键帧,其中关键帧的数目通过计算聚类不稳定性的极小值进行估计.通过实验利用F1分数、保真度和镜头重构度等评估标准验证了该方法的有效性. 相似文献
18.
19.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化. 相似文献
20.