首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

2.
PageRank(网页排名)是一种网络排序算法,每个网页都可以根据PageRank算法得出网页的PageRank值,但仅根据PageRank值的大小不能够准确找到符合主题的网页,会造成主题的漂移。为了使检索到的主题准确,针对目前通用排序算法对林业主题信息查准率较低的不足,根据需要的林业主题建立特定的爬虫算法。定义了林业主题文本库,分析文本库特征值,通过改进的TF-IDF算法计算主题权重,对PageRank算法进行优化,提出了基于林业主题的PageRank算法,有效地提高了林业主题抓取的准确率。  相似文献   

3.
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响.在真实数据集与人工数据集上分别进行实验,仿真实验结果表明,本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果.  相似文献   

4.
集成学习是一种受到广泛认可和使用的机器学习算法.为此提出一种新的多类集成学习算法,即AdaBoost belief.此算法改进多类集成学习算法AdaBoost·SAMME,使每个基分类器对于每个类别都有权重信息.这种类别上的权重被称为类别信念,可通过计算每次迭代中各个类别的正确率得到.将所提出的算法与原有的AdaBoost·SAMME算法从预测准确率、泛化能力以及理论支持等方面进行比较发现:在高斯数据集、多种UCI数据集以及基于日志的多类别入侵检测应用中,该算法不但具有更高的预测准确率和泛化能力,而且当类别数目增加,即类别更难以预测时,其分类错误率较原有AdaBoost·SAMME算法上升得更缓慢.  相似文献   

5.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法.  相似文献   

6.
为了提高银行客户分类的正确率,使银行的收益最大化,提出一种基于改进K均值聚类的银行客户分类算法.算法定义了类间最大相似度均值(AMS),并根据该定义确定最佳聚类数.当计算出的当下AMS值比前一次的AMS值小时,根据距离原则选择初始聚类中心;当计算出的当下AMS值比前一次的AMS值大时,把该最小AMS值相匹配的聚类中心看作初始聚类中心.利用最佳聚类数和初始聚类中心实现银行客户的细分.仿真结果表明,提出的算法能够跳出局部最优,并提高客户分类的正确率.  相似文献   

7.
针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统的检测方法进行对比.实验结果证明了提出方法的有效性和准确性.  相似文献   

8.
针对KNN算法在中文文本分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出改进的基于中心向量KNN算法.算法首先引入基于密度的思想对训练样本进行调整,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.实验结果表明,该算法在不损失精确度的情况下,提高了分类实时性.  相似文献   

9.
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.  相似文献   

10.
随着Internet的迅速发展,人们面对信息爆炸的现实。因此,需要根据用户的查询意图进行推荐。基于此,提出一种计算查询词相似度的方法,利用K-means对查询词进行聚类并计算聚类簇中心,当用户输入查询词后计算该查询词与每个聚类簇中心的相似度并降序排列,选取相似度最大的两个聚类簇对其进行查询推荐。  相似文献   

11.
评分预测是推荐系统的重要环节,现在大部分的评分预测是利用用户的历史评分记录来推断该用户将给某个项目打多少分.该方法利用了用户历史评分记录,没有充分利用用户或者项目属性,平均绝对误差较大.针对以上问题,构造一种基于用户自画像的评分预测协同过滤推荐算法.该算法通过计算用户之间历史评分记录的相似度和用户自画像之间的相似度,然后计算出两种相似度的权重,把两种相似度乘以各自的权重进行组合.实验结果表明,构造的评分预测算法较好的减少预测评分和实际评分之间的平均绝对误差,提高了评分预测的准确性.  相似文献   

12.
首先对当前文本文档相似度计算方法的优缺点及适用范围进行了分析.由于越长的词语表达的意思一般越完整,基于这一思想,对不同长度的词语赋予不同的权值,把长度为n的公共序列引入到相似度的计算中,构造了一文本相似度计算公式,对其中相似度计算公式的合理性给予了理论证明.最后,通过实验证明该方法是有效的.  相似文献   

13.
提出一种样本之间相似系数确定的方法,用相似度矩阵替代传统的相似矩阵,近而确定初始聚类中心.在FCM法中引入了指标权重,并给出了迭代公式和相应算法.将改进后的FCM法应用到煤炭城市分类的实例中去,聚类结果对处在经济转型时期的煤炭城市相互借鉴发展有一定的参考价值.  相似文献   

14.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。  相似文献   

15.
为了提高中文地名字段匹配的准确度,提出中文地名的相似重复检测与清洗策略和矩阵相似重复匹配方法. 该清洗策略采用矩阵相似重复匹配方法,通过矩阵运算计算中文地名数据之间相同字符或者词语出现的频率,利用频率计算两者之间的语义相似度和结构相似度,然后将语义和结构相似性有机结合,作为相似性判断和重复数据清洗的依据. 实验验证了该方法的可行性和有效性. 结果表明,该方法对于中文地名字段匹配在查准率和召回率方面优于已有的其他算法.  相似文献   

16.
17.
为了解决关键帧提取算法性能因特征选取单一而受视频类型多样性限制等问题,提出了一种基于多特征的关键帧提取方法 .该方法在检测到的每个镜头内,采用颜色特征、小波统计特征和SIFT局部特征计算视频帧间综合相似度矩阵.然后采用一个改进的谱聚类算法将镜头帧分组,每一组的中心帧被选择作为关键帧,其中关键帧的数目通过计算聚类不稳定性的极小值进行估计.通过实验利用F1分数、保真度和镜头重构度等评估标准验证了该方法的有效性.  相似文献   

18.
提出了一种基于二元结构特征提取的人脸识别算法. 该算法将所有类进行两两组合,以两类分类器为基础,为每个两两组合类间的识别挑选最适合分类的特征构成特征选取空间. 对未知样本进行测试时,在特征选取空间中计算测试样本与所有训练类的相似度,将未知样本判断为与之相似度最大的类. 运用AT&T和AR人脸数据库对该算法进行性能测试,与其他算法相比,该算法能在较小的特征维数下获得更高的识别率.  相似文献   

19.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

20.
图形聚类算法的代谢网络模块化分析   总被引:1,自引:0,他引:1  
代谢网络的研究是当今生物学研究中的新热点,使用图形聚类算法对代谢网络进行分析研究是一个有力的手段.文中提出了用图形聚类方法挖掘复杂代谢网络中蕴含的功能信息并进行模块相似性分析的方法,从系统生物学角度揭示光合作用的进化.介绍了马尔可夫聚类算法和模拟退火聚类算法两种图形聚类方法;给出了两种方法对叶绿体和蓝细菌的代谢网络进行聚类的结果;定义了模块相似度评价指标,挖掘叶绿体和蓝细菌间保守的功能模块,并对其网络结构进行了比较分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号