首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
K-最近邻分类技术的新发展与技术改进   总被引:1,自引:0,他引:1  
K-最近邻算法是数据挖掘分类方法中最常用的算法之一.在很多实际问题上都有应用.本文对近年来基于K-最近邻算法的各种改进技术进行了分析.从速度提高和准确度提高两个方面给予了归纳.  相似文献   

2.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

3.
网页分类技术   总被引:17,自引:0,他引:17  
网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.  相似文献   

4.
针对中文网页分类问题,提出一种基于KM和CV的KNN改进算法——KNC算法.基于该方法的网页分类实验结果表明,KNC算法在保持分类质量的情况下,较大地提高了分类的速度.  相似文献   

5.
随着海量网页信息的出现,网页分类已经成为数据挖掘领域的一个重要研究方向,网页分类是一种快速有效利用海量网页信息的重要技术.为了克服支持向量机进行网页分类时存在训练收敛较慢和分类精度不高的缺点,将改进的量子粒子群优化算法与支持向量机相结合,提出了一种融合改进量子粒子群算法和支持向量机的网页分类方法.首先引入柯西分布改进量子粒子群优化算法,其次利用改进的量子粒子群算法优化支持向量机的参数选择,然后利用支持向量机进行网页分类.实验结果表明,该方法具有较高的准确率、召回率和F1测试值,网页分类效率也得到了一定程度的提高.  相似文献   

6.
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.  相似文献   

7.
为了提高经典K-近邻算法的效率,引入量子计算理论,将Grover算法中的Oracle算子以及相位估计算法嵌入经典K-近邻算法,提出一种量子K-近邻算法.该算法首先将样本点和待分类点的向量信息制备成量子叠加态,采用可逆的量子控制交换门并行计算待分类点和样本点的相似度,然后利用相位估计算法将相似度信息存储到量子比特中,最后使用Grover算法一次性搜索出最相似的k个点.对嵌入的量子计算部分的理论分析结果表明,量子K-近邻算法可以明显降低经典计算复杂度,且提出的算法在已有算法计算复杂度O(RkM)的基础上,再次带来了k值的二次加速O(RkM),其中R为Oracle算子的执行次数,M为样本全局个数.  相似文献   

8.
文章针对传统K-近邻分类方法学习效率低下的问题,提出一种基于并行计算的加速K-近邻分类方法(K-nearest neighbor classification method based on parallel computing,PKNN),即并行K-近邻分类.该方法首先将所需要分类的样本划分为不同的工作子集,然后在每个子集上进行并行的K-近邻分类.由于划分后每个工作子集的规模均远小于整个数据集的规模,因此降低了分类算法的复杂度,可有效处理大规模数据的分类问题.实验结果表明,PK-NN方法能提高分类效率.  相似文献   

9.
随着Internet技术的不断发展,Web信息不断的变化和增长.为有效查找用户所需要的信息,需将传统的信息检索向Web信息检索方向发展.如果预先对网页文本进行分类,则面对用户的检索需求就可以在相应的类别中进行查找,这样大大提高了检索的效率.文章通过对网页进行预处理,中文分词,特征提取,再使用KNN分类算法对网页进行智能分类,并采用了PSO算法快速寻找K近邻.实验结果表明:该方法不仅减少了网页分类时间,准确率、召回率和F1标准也明显提高,有效地提高了网页智能分类的效率.  相似文献   

10.
随着互联网的迅速发展,人们在浏览网页的时候容易受到网页恶意代码的攻击.针对这些问题,提出了一种基于多策略的网页恶意代码检测方法.对恶意网页代码特征进行分析,通过运用词频统计的方法对网页代码进行特征挖掘,获取关键特征值后,分别利用支持向量机算法、朴素贝叶斯算法、神经网络算法和多策略的算法建立分类模型,设计实验对4种分类模...  相似文献   

11.
分析分布式实时网络行为监控系统中Web网页安全性挖掘问题,设计实现一个基于Web挖掘的自动分类器,并构造一个实验环境来检测分类器的性能.该自动分类器利用特征提取算法实现对每个样本的特征向量提取和待分类文本的特征向量提取,利用基于k个"最近邻"(KNN)分类算法实现对网页的分类,能够提取出带有不安全信息的网页,分类效果良好.  相似文献   

12.
网页分类需要使用标记网页对分类算法进行训练,然而,对网页进行标记的过程既费时又费力.随着web的快速发展,获得未标记网页已经变得相对容易.为了有效地利用未标记网页来提高网页分类的性能,提出了一种基于集成学习的网页分类算法,迭代运行支持向量机、中心分类器和朴素贝叶斯分类器,并对各分类器的预测进行集成,不断地从未标记集中对网页进行标记后用于训练.实验结果表明.提出的算法有效地提高了网页分类的性能.  相似文献   

13.
K-均值算法是一种传统的聚类分析方法,具有思想与算法简单的特点,因此成为聚类分析的常用方法之一。但K-均值算法的分类结果过分依赖于初始聚类中心的选择,对于某些初始值,该算法有可能收敛于一般次优解,在分析K-均值算法和粒子群算法的基础上,提出了一种基于邻域影响的改进的粒子群算法的聚类算法,通过对粒子群算法的改进来优化与K-均值结合的聚类算法。该算法将局部搜索能力强的K-均值算法和全局搜索能力强的粒子群算法结合,提高了K-均值算法的局部搜索能力、加快收敛速度,有效阻止了早熟现象的发生,达到那些离群的孤立点。实验表明该聚类算法有更好的收敛效果,一方面聚类所用的时间更短,另一方面聚类的准确率更高。  相似文献   

14.
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的...  相似文献   

15.
设计并实现一个网页分类系统,采用相同的特征权值计算方法,特征选择算法以及分类算法,进行基于分词的网页分类系统和基于N-G ram的网页分类系统的对比实验,分析两者的分类效果。结果表明,基于N-G ram的网页分类系统能达到并在一定程度上高于基于分词的网页分类系统的效果。  相似文献   

16.
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.  相似文献   

17.
刘雅正 《科学技术与工程》2012,12(31):8447-8450,8464
随着信息技术不断的发展,海量数据的处理效率成为不可逃避的问题。传统的网页分类算法在分类效果上已经相对成熟,所以在这样的背景下从传统网页分类算法中特征值权重算法的效率和代价出发,分析并提出了基于简化MD5的特征值权重算法。有效减少了特征值提取时的比对和最后一次排序的效率,从而提高了整个网页分类的效率。  相似文献   

18.
通过对现有个性化搜索引擎排序算法的研究,提出了一个新的排序算法.该算法首先在不同粒度上多次使用SVD技术和k-means聚类技术,将用户浏览历史及其所包含的词在不同层次上进行文档聚类和词聚类,创建两棵加权兴趣树:文档类树和词类树.其中,树中每个节点的权值表示用户对该类文档或该类词的感兴趣程度.接着,利用朴素贝叶斯分类器对搜索引擎得到的网页进行文档分类和词分类,并根据分类结果进行网页评分.最后,将网页根据文档得分降序排列.实验表明该方法能为用户提供更为精确的个性化排序.  相似文献   

19.
文章提出了一种基于用户兴趣的网页预分类的PageRank算法,改进后的算法是根据用户对某一类别网页的兴趣,将网页进行预分类.经验证,改进后的算法可以提高搜索引擎的查准率.  相似文献   

20.
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号