共查询到18条相似文献,搜索用时 109 毫秒
1.
SVM-KNN分类器在网页分类中的应用 总被引:1,自引:1,他引:0
为了提高中文网页自动分类的分类精度,将SVM-KNN方法用于中文网页分类.提出了一种中文网页的表示方法,在将下载的网页全部表示为向量空间的向量后,用SVM构造了一个多类分类器.在分类时通过在特征空间计算网页所表示的向量和分界面的距离决定采用SVM方法还是KNN方法对其分类.实验证明该方法是一种有效的方法,对网页分类的各类,使用该方法均比使用SVM方法具有更高的分类精度,同时能缓解SVM训练时对核参数的选择困难问题. 相似文献
2.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果. 相似文献
3.
陆新根 《浙江万里学院学报》2007,20(2):45-49
文章提出了一个新的新闻网页分类方法(WPCM),采用主成分(PCA)和熵值相结合的特征选取支持向量机(SVM)的分类方法.首先把网页用特征项权重予以表示,使用主成分方法抽取最相关的一些特征,然后从每一类中选择在该类具有代表性的词并计算这些词的熵,把两种方法提取的特征合并之后作为支持向量机分类器的输入,实验结果显示,该网页分类方法在体育类新闻中取得了良好的效果。 相似文献
4.
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。 相似文献
5.
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。 相似文献
6.
传统的支持向量机(SVM)已被广泛应用.但在实际应用中,高维的特征向量影响了分类的速度,同时特征的选择影响了的分类的精度.为了提高SVM的分类速度和精度,提出使用粗糙集进行降维,使用遗传算法进行特征选择.将应用了此方法的SVM用于网络入侵检测中,实验表明该方法有效地改善了支持向量机的分类性能. 相似文献
7.
《福建师范大学学报(自然科学版)》2016,(6)
使用ASD Field3在武夷山实测的9种鲜茶叶数据,该数据经过预处理后,计算24种光谱指数,用于对9种茶叶的分类,用SVM-RFE对光谱反射率数据和光谱指数数据进行特征选择,最后用线性SVM和随机森林分类.检验SVM分类器的性能和SVM-RFE选择特征的适用性,其中SVM分类器在4个数据集中都达到了95%以上的分类精度.随机森林分类器在其中3个数据集达到90%以上的精度,一个70%的精度.研究表明SVM-RFE是一个稳定有效的特征选择算法,并且SVM的性能优于随机森林. 相似文献
8.
9.
10.
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器. 相似文献
11.
Web文本分类是Web文本挖掘的一项重要技术,它是一种基于主题分类的指导,能够使用户在快速地找到想要的资源和知识。文本分类过程中,首先采用向量空间模型对Web文本进行特征提取,然后将得到的数据集分成样本数据集和测试数据集,将样本数据集输入BP神经元网络进行分类,网络经过训练后,输入测试数据集进行验证。实验结果证明BP神经元网络在文本分类领域有着较好的实用价值。 相似文献
12.
根据Web文档分类与人工神经网络理论,设计了一个Web分类挖掘系统。针对BP网络分类器的不足,提出了用径向基函数神经网络对Web页面中的文本信息进行分类的方法。实验初步证明,用径向基函数进行分类比BP算法构造的神经网络更具准确性,有效地提高了分类的正确率。 相似文献
13.
基于特征相关学习的网页信息提取方法 总被引:1,自引:0,他引:1
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率. 相似文献
14.
15.
多接口非限制下组件化手机的Web前端容易遭遇会话劫持攻击。当前会话劫持攻击检测方法需建一个含有全部攻击特征的检测模型,不易实现,且检测结果不可靠。提出一种新型组件化手机Web前端会话劫持攻击检测方法,分析多接口非限制下组件化手机Web前端会话劫持攻击,预处理RTT历史数据,以降低多接口非限制下组件化手机Web前端奇异数据对正常数据RTT特征提取的影响。采用滑动数据窗和最小二乘平滑结合的方法对组件化手机Web前端正常数据的RTT特征进行提取,依据RTT特征提取结果,通过滑动窗口平均方法对会话劫持攻击进行检测。实验结果表明,所提方法具有很高的攻击检测精度和效率。 相似文献
16.
一种有效的Web使用挖掘体系结构 总被引:1,自引:1,他引:1
潘钧 《扬州大学学报(自然科学版)》2005,8(2):40-44
对Web挖掘的特征、分类及与其相关的技术和工具进行了分析,针对现有的Web使用挖掘研究中缺乏统一而有效的结构模型的问题,提出了一种有效的Web使用挖掘的体系结构,并详细地分析了利用该结构模型处理Web使用挖掘的过程,最后,利用某大学网站的Web日志数据验证了该结构的有效性. 相似文献
17.
谭龙江 《四川理工学院学报(自然科学版)》2011,24(1):58-61
历史信息、即时信息以及流言往往冲淡网站中的主题思想,导致信息隐藏等问题。为解决上述问题,提出了网站信息抽取系统的结构模型、数据结构和处理流程;该模型采用信息抽取技术,从相关网页中抽取出带有主观倾向的主题信息;采用贝叶斯网络对客户需求进行决策与预测分析。仿真测试与客户应用证明,该模型能较准确的抽取网站中的客户倾向、有较好的及时性。 相似文献
18.
一种新的Web事务模糊聚类算法的研究 总被引:11,自引:1,他引:11
提出了一种新的Web事务模糊聚类算法。首先,在Web日志预处理后建立Web站点用户访问矩阵,矩阵元素为用户访问离散化时间,在此基础上进行Web事务群体的模糊聚类,最后对在线的活动Web事务进行类别归属。经实验证明,该算法比已有的算法准确性高,运行时间少,扩展性好,它可以广泛地应用于电子商务领域,如个性化Web和Web推荐系统等。 相似文献