首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

2.
随着互联网的迅速发展,人们在浏览网页的时候容易受到网页恶意代码的攻击.针对这些问题,提出了一种基于多策略的网页恶意代码检测方法.对恶意网页代码特征进行分析,通过运用词频统计的方法对网页代码进行特征挖掘,获取关键特征值后,分别利用支持向量机算法、朴素贝叶斯算法、神经网络算法和多策略的算法建立分类模型,设计实验对4种分类模...  相似文献   

3.
随着Internet技术的不断发展,Web信息不断的变化和增长.为有效查找用户所需要的信息,需将传统的信息检索向Web信息检索方向发展.如果预先对网页文本进行分类,则面对用户的检索需求就可以在相应的类别中进行查找,这样大大提高了检索的效率.文章通过对网页进行预处理,中文分词,特征提取,再使用KNN分类算法对网页进行智能分类,并采用了PSO算法快速寻找K近邻.实验结果表明:该方法不仅减少了网页分类时间,准确率、召回率和F1标准也明显提高,有效地提高了网页智能分类的效率.  相似文献   

4.
鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法。 该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤。 该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性。 通过游戏领域网页的测试,准确率和召回率均在98%以上, 语义分析游戏相关网页的平均时间为1~2 s, 对用户浏览网页速度的影响较小, 效果令人满意。   相似文献   

5.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

6.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

7.
随着海量网页信息的出现,网页分类已经成为数据挖掘领域的一个重要研究方向,网页分类是一种快速有效利用海量网页信息的重要技术.为了克服支持向量机进行网页分类时存在训练收敛较慢和分类精度不高的缺点,将改进的量子粒子群优化算法与支持向量机相结合,提出了一种融合改进量子粒子群算法和支持向量机的网页分类方法.首先引入柯西分布改进量子粒子群优化算法,其次利用改进的量子粒子群算法优化支持向量机的参数选择,然后利用支持向量机进行网页分类.实验结果表明,该方法具有较高的准确率、召回率和F1测试值,网页分类效率也得到了一定程度的提高.  相似文献   

8.
针对现有KNN算法识别率低的问题,提出了一种并行权重自适应k-邻域算法。该方法首先结合多线程技术,并采用分类组合的多个KNN单元进行识别以提高执行效率;其次在分类组合KNN算法中采用深度学习模型对各个类别进行了系数权重自适应设定,进而降低传统KNN和分类组合KNN,由于单纯类别个数的多少进行决策或者通过人为设定类别比例进行决策而引起的分类误差。通过在Fashion MNIST手写数据集进行实验,结果表明:该算法将传统的KNN算法分类正确率提高到97%左右,对实际应用具有一定的价值。  相似文献   

9.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

10.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

11.
提出了推荐模型中的关联规则挖掘方法的改进,给出了自定义的页面权值的定义,并改进了基于关联图的关联规则挖掘算法,将页面权值应用于关联规则的挖掘中。此算法是利用Web日志中经过预处理后得到的数据进行规则挖掘,将处理后的数据应用正态分布函数来得到页面权值。用页面权值重新计算支持度,最后将得到的支持度应用于改进的规则挖掘算法中,形成一种基于权值的关联图的关联规则算法。  相似文献   

12.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

13.
提出一种基于向量空间模型的多层网页分类方法.该方法用主题词、修正主题词和主题概念从3个层次构建网页表示向量,从而在概念层次上更贴近网页的语义,且向量维数低于传统的特征向量.实验结果表明,该方法降低了分类时的计算量,提高了网页分类速度和分类精度.  相似文献   

14.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

15.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

16.
PageRank-Pro: 一种改进的网页排序算法   总被引:9,自引:1,他引:8  
根据网页点击信息改进了原有的PageRank算法, 利用Seidel迭代算法加快了迭代收敛 过程. 实验结果表明, 改进后的迭代算法效率提高23%左右.  相似文献   

17.
随着移动计算的发展,通过手持设备存取Web将越来越普遍。手持设备的限制和多样性要求同一Web页面具有不同的表现形式,因此需要对Web页面进行选择、拆分等自适应操作以满足手持设备能力的限制。为了提高自适应页面的质量,提出一个两阶段页面拆分算法。该算法在保证自适应页面正确性的基础上,提出量化评估函数以保证每个小页面的语义连贯性和最优的资源利用率,从而增加页面的可用性。该算法已应用于多个样本页面,结果表明拆分结果具有较好的可用性。  相似文献   

18.
SVM-KNN分类器在网页分类中的应用   总被引:1,自引:1,他引:0  
为了提高中文网页自动分类的分类精度,将SVM-KNN方法用于中文网页分类.提出了一种中文网页的表示方法,在将下载的网页全部表示为向量空间的向量后,用SVM构造了一个多类分类器.在分类时通过在特征空间计算网页所表示的向量和分界面的距离决定采用SVM方法还是KNN方法对其分类.实验证明该方法是一种有效的方法,对网页分类的各类,使用该方法均比使用SVM方法具有更高的分类精度,同时能缓解SVM训练时对核参数的选择困难问题.  相似文献   

19.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析   总被引:3,自引:0,他引:3  
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据.  相似文献   

20.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号