首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
提出一种基于向量空间模型的多层网页分类方法.该方法用主题词、修正主题词和主题概念从3个层次构建网页表示向量,从而在概念层次上更贴近网页的语义,且向量维数低于传统的特征向量.实验结果表明,该方法降低了分类时的计算量,提高了网页分类速度和分类精度.  相似文献   

2.
研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.  相似文献   

3.
为进一步利用高光谱图像在同一区域内像素点的相似特性完成地物分类,提出了一种基于核方法协同表示与绝对距离融合的分类算法。通过核函数将原始数据投影到高维核空间,在特征空间中用全部训练样本表示待测样本,再计算吉洪诺夫正则化下待测像元的重构残差和每个类别表示系数绝对值向量,使用不同权重予以融合作为分类依据。在实验中使用Indian Pines和Pavia University两种高光谱图像数据对该方法进行实验验证,实验结果表明:与原协同表示(CRC)及支持向量机(SVM)相比,改进后分类算法总体分类精度和平均分类精度都有更好的表现,均达到94%以上,具有较好的鲁棒性。  相似文献   

4.
基于FOA-SVM的中文文本分类方法研究   总被引:2,自引:0,他引:2  
中文文本分类方法直接影响分类性能,支持向量机(SVM)在处理文本分类这种高维问题上有明显的优势.SVM的分类精度取决于核函数的核参数和惩罚参数,本文提出了一种用果蝇优化算法(FOA)获取SVM参数的FOA-SVM方法.将FOA-SVM用于中文文本分类,实验结果表明,FOA-SVM能得到较高的分类准确率,在文本分类上表现较强的鲁棒性.  相似文献   

5.
随着互联网的迅速发展,对网页正确分类显得越来越重要。网页分类的一个难点就是特征空间的维数比较大,支持向量机(SVM)分类方法显示出比其它分类方法更好的性能,但是训练样本时却花费了比其它算法更多的时间。本文提出了一种基于选择最确信的词来预测一个文本的类别的特征提取方法,通过中文文本实验,结果表明在不降低分类准确性的前提下,缩短了训练时间。  相似文献   

6.
面向循证医学网络文献的SVM分类方法   总被引:1,自引:1,他引:1  
支持向量机(support vector machine,SVM)是在统计学习理论基础上发展起来的一种新的机器学习方法,是一种高效的分类识别方法.首先分析支持向量机原理,然后提出一种使用Bagging组合学习方法改进SVM算法的网页分类方法.基于循证医学网络文献分类的实验表明,该方法使训练数据规模大大减小,且比传统的SVM算法分类性能更好,具有较好的精确率和召回率.  相似文献   

7.
文章提出了一个新的新闻网页分类方法(WPCM),采用主成分(PCA)和熵值相结合的特征选取支持向量机(SVM)的分类方法.首先把网页用特征项权重予以表示,使用主成分方法抽取最相关的一些特征,然后从每一类中选择在该类具有代表性的词并计算这些词的熵,把两种方法提取的特征合并之后作为支持向量机分类器的输入,实验结果显示,该网页分类方法在体育类新闻中取得了良好的效果。  相似文献   

8.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

9.
传统的支持向量机(SVM)已被广泛应用.但在实际应用中,高维的特征向量影响了分类的速度,同时特征的选择影响了的分类的精度.为了提高SVM的分类速度和精度,提出使用粗糙集进行降维,使用遗传算法进行特征选择.将应用了此方法的SVM用于网络入侵检测中,实验表明该方法有效地改善了支持向量机的分类性能.  相似文献   

10.
随着海量网页信息的出现,网页分类已经成为数据挖掘领域的一个重要研究方向,网页分类是一种快速有效利用海量网页信息的重要技术.为了克服支持向量机进行网页分类时存在训练收敛较慢和分类精度不高的缺点,将改进的量子粒子群优化算法与支持向量机相结合,提出了一种融合改进量子粒子群算法和支持向量机的网页分类方法.首先引入柯西分布改进量子粒子群优化算法,其次利用改进的量子粒子群算法优化支持向量机的参数选择,然后利用支持向量机进行网页分类.实验结果表明,该方法具有较高的准确率、召回率和F1测试值,网页分类效率也得到了一定程度的提高.  相似文献   

11.
基于语义Web的网页推荐模型   总被引:4,自引:1,他引:4  
如何使用语义 Web技术构建网页推荐模型是一个有着广泛应用前景的研究课题。语义 Web下的网页用本体标注 ,该模型自动采集被标注网页上的语义信息 ,利用网页中的标注信息和相应的本体概念对网页进行分类 ,将分类结果存放在数据库中。同时 ,在这个模型下 ,用户的兴趣存放在DAML (DARPA agent markup language)格式的文件中。通过用户兴趣和网页类别的匹配 ,就能够给用户推荐需要的网页 ,在推荐网页时 ,该模型还采用支持向量机用于分类用户。实验结果显示了该模型比传统的网页推荐模型准确率更高  相似文献   

12.
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.  相似文献   

13.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

14.
网页分类是使用机器学习算法实现网页类别的自动标注。提出了一种基于SVM的日文网页分类方法,针对日文的特点,设计日文词素词典与规则库,并以此为基础进行日文分词和特征表示,然后使用互信息度进行特征选择,最后应用SVM来构造分类超平面,对日文网页进行分类。最后通过实验进行了验证。  相似文献   

15.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

16.
为使用户在手持设备上提取用户兴趣是重要基础,提出一种基于用户隐式反馈的方法。该方法从网页中提取兴趣块(用户感兴趣的网页内容),假设用户的浏览行为如在块上的停留时间、滚动次数、滚动速度、进入链接的次数等与用户是否对块感兴趣相关。从手持设备上的浏览行为中提取了34种隐式反馈特征,通过分析18个用户在608个网页的9474个块上的浏览行为,验证了其中29种特征与兴趣块的相关性,并且这种相关性能用于跨用户、跨网站的兴趣块提取。该文的研究成果可用于建立个性化的用户偏好模型,应用在手持设备上的自适应网页浏览中。  相似文献   

17.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析   总被引:3,自引:0,他引:3  
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据.  相似文献   

18.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号