首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。  相似文献   

2.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

3.
实现了模糊算法并进行了检索实验,实验结果表明了模糊检索算法的合理性。将模糊技术应用到W eb数据检索中能得到比纯频率检索更好的性能,更能接近使用者的真实想法。  相似文献   

4.
简述了搜索引擎的概念,对其工作原理、性能指标等做了简要介绍。在现有搜索引擎工作机制的基础上,提出将文本分类和特征抽取技术应用到搜索引擎系统中以提高检索质量,并对该系统的设计思想、关键技术及可行性进行了讨论。  相似文献   

5.
粒子群算法惯性权重的研究   总被引:1,自引:0,他引:1  
粒子群算法惯性权重ω的设置其极重要,直接影响算法性能.本文利用云发生器对惯性权重进行调整,对其取值范嗣做了进一步的研究,并应用于粒子群算法的改进.以高维函数优化为实例,实验仿真结果表明,新算法的全局搜索能力、收敛速度,精度和稳定性均有了显著提高.  相似文献   

6.
针对现有KNN算法识别率低的问题,提出了一种并行权重自适应k-邻域算法。该方法首先结合多线程技术,并采用分类组合的多个KNN单元进行识别以提高执行效率;其次在分类组合KNN算法中采用深度学习模型对各个类别进行了系数权重自适应设定,进而降低传统KNN和分类组合KNN,由于单纯类别个数的多少进行决策或者通过人为设定类别比例进行决策而引起的分类误差。通过在Fashion MNIST手写数据集进行实验,结果表明:该算法将传统的KNN算法分类正确率提高到97%左右,对实际应用具有一定的价值。  相似文献   

7.
中文文本分类技术比较研究   总被引:2,自引:0,他引:2  
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

8.
Boosting算法在文本自动分类中的应用   总被引:7,自引:0,他引:7       下载免费PDF全文
随着网络信息的迅猛发展,如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的,并且优于目前的大多数分类算法。  相似文献   

9.
刘冬雪 《科技资讯》2010,(18):11-11
本文研究的内容是信息检索领域里的文本分类问题。文本分类可以在较大程度上解决信息杂乱的现象,同时它也为信息检索提供了更高效的搜索策略和更有效的搜索结果。  相似文献   

10.
为了解决传统TF-IDF函数由于忽略特征项之间的联系带来的诸多问题,对TF-IDF函数在文本分类中的应用进行了研究.结合信息论相关知识,找出了类间分布度和类内分布度表征特征项之间的潜在关系,进而提出改进的TF-IDF函数用于文本分类.实验表明,改进后的TF-IDF函数是有效可行的,而且较好的弥补了传统方法所丢失的特征项之间的关联信息,提高了文本分类的准确率.  相似文献   

11.
文本分类实现技术   总被引:9,自引:2,他引:9  
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展.  相似文献   

12.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

13.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

14.
探讨了独立样本情形下U-统计量的分布的渐近展开,在较一般的条件下证明其Edgeworth展开的余项之误差可达到o(n^-1/2),并构造精度为o(n^-1/2)的随机加权逼近。  相似文献   

15.
特征加权是一种依据特征在分类中起到的作用为特征赋予相应权重的过程,是为了提高分类性能而为特征标记权重的策略.基于类空间密度提出了两个新的特征加权算法:tf* ICSDF和ICSDF-based.实验中,在RCV1-4和20 Newsgroups数据集上,采用支持向量机分类器将提出的方法进行了验证.实验结果显示,该方法相比传统的特征加权方法(prob-based、tf*icf和icf-based)可以有效地提升文本分类性能.  相似文献   

16.
研究不可微规划Bundle方法中加权函数的构造,利用f(x)的二阶信息,改进加权函数,给出了下降方向的计算,并证明f(x)在最优点的近似最优性条件。  相似文献   

17.
以时间作为独立变量的高阶微分方程系统,它的齐次系统的解称为矩阵多项式特征问题.本文将其伴随矩阵代数展开产生一组代数方程来确定特征值.特征向量也可相应确定.这种新方法通过利用计算机比传统的伴随矩阵方法更具优势.  相似文献   

18.
提出了一种基于信息提取和信息裁减的转换方法,将HTM L/XHTM L语言转换为WM L语言,从而使一般网页的内容,可以在手机上浏览.本文对方法中每一具体步骤的实现进行了详细的分析和说明.  相似文献   

19.
本文给出一种自相关函数估值的快速算法,与直接计算的方法相比,该算法的乘法运算次数减少将近一半,而且该算法所依据的数学原理浅显,易于编程,是一种简单而十分有效的算法。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号