首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.  相似文献   

2.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

3.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

4.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

5.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

6.
网页分类技术   总被引:17,自引:0,他引:17  
网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.  相似文献   

7.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

8.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

9.
由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。  相似文献   

10.
针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区域的网页结构和内容上的多个特征分类网页DOM节点,定义节点的扩展、整合规则获得正文候选块,引入密度值和影响因子从各候选块中甄别正文块;利用发布时间与标题、正文之间的位置关系,通过正则表达式实现发布时间的提取。对国内新闻网站、博客、论坛及贴吧进行抽取试验,结果表明该方法具有较好的效果。  相似文献   

11.
提出使用粗糙集分类(RSC)算法进行智能化的网络入侵检测.该方法可以在生成检测规则之前完成特征排序,且不需要多次重复迭代计算,提高了入侵检测系统的效率;同时,生成的检测规则是"if-then"格式的产生式,易于解释.仿真实验表明,RSC对Probe和DoS攻击具有比支持向量机(SVM)略好的高检测率,但是训练时间比SVM更长,采用混杂遗传算法求解粗糙集约简可进一步减少RSC的训练时间.  相似文献   

12.
支持向量机是一种新型通用的机器学习方法,已成为数据挖掘的一种强有力的工具.通过研究线性和非线性支持向量机的模型,给出若干常用的训练算法.  相似文献   

13.
支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的机器学习方法.具有泛化能力强,全局最优等特点.我们针对于传统的支持向量机算法忽略了当采取的训练集中有噪声干扰的情况,通过改造原有的经验风险和调节核函数中的参数,达到抑制或者减弱随机噪声干扰的目的,并具体地给出了抗高斯白噪声的支持向量机模型.  相似文献   

14.
针对传统线性支持向量机在训练数据集时均等对待每一维输入特征,以及在原始空间直接分类造成预测准确率低的问题,提出低阶多项式数据映射和特征加权相结合的方法,来提高线性支持向量机的分类性能。该方法首先将每个样本映射到多项式核对应的2 阶显式特征空间,从而增加样本的隐性信息,然后使用模糊熵特征加权算法计算每一维特征的权重,通过权重衡量特征对分类结果的贡献大小。从不同数据库选取7个数据集进行测试,在训练时间和预测准确率2个方面将该方法与核支持向量机、线性支持向量机的其他改进算法进行比较。结果显示,随着数据集规模的扩大,训练时间降低一个数量级,预测准确率在一些数据集上取得与核支持向量机相接近的效果。结果表明:所提方法可以有效提高线性支持向量机的整体性能。  相似文献   

15.
并行支持向量机算法及其应用   总被引:5,自引:0,他引:5  
针对当前支持向量机计算效率的不足,提出了改进的并行支持向量机技术.该算法能有效使内积运算、向量数据更新、矩阵向量实现并行计算,并且数据之间的通信时间能和向量更新时间重叠,从而提高了计算效率,并能保证泛化能力.数据仿真结果表明,与改进前的算法相比,2 500个样本下能节省时间30%左右,样本量增大时,效果更为明显.  相似文献   

16.
GA优化支持向量机用于混沌时间序列预测   总被引:11,自引:1,他引:11  
介绍了利用支持向量机与重构相空间理论预测混沌时间序列的方法,并以股价时间序列为样本,比较了几种常用核函数的预测能力,实验表明高斯核的预测能力明显好于其它核.使用遗传算法优化了高斯核支持向量机的参数,优化后其预测能力较经验定参方法有明显提高,且好于传统的预测方法.  相似文献   

17.
李玉景  李琳  李京 《科技信息》2007,(29):232-233
基于支持向量机(Support Vector Machine,SVM)理论和不变矩(Invariant Moments)理论,提出一种船舰目标识别方法。首先,对图像进行预处理,将彩色图像转化为灰度图像;然后利用Hu不变矩来提取图像的七个不变矩特征;最后,选用支持向量机作为分类器,并将计算出的图像的七个矩特征作为支持向量机的输入对支持向量机进行训练和测试。实验证明,将不变矩特征提取方法与SVM相结合用于模式识别,可以得到很高的分类效率和准确率。  相似文献   

18.
支持向量训练算法研究   总被引:2,自引:2,他引:2  
支持向量机(support vector machine,SVM)是在统计学习理论基础上发展起来的一种新的数据挖掘方法,并已广泛应用于模式识别与回归分析。针对一些主要的SVM训练方法,比较了它们的优缺点并重点阐述了其中最有代表性的序贯最小优化(SM0)算法及其多种改进算法,最后指出了进一步研究和应用亟待解决的一些问题。  相似文献   

19.
针对当前电力电子整流装置使用的故障诊断方法在应用过程中表现出的缺陷,提出了一种基于小波包分析与支持向量机的电力电子整流装置故障诊断方法:首先使用小波包分析方法对故障信号波形进行分解,提取故障特征向量,然后使用支持向量机理论构造多分类故障分类器对提取的故障特征向量进行分类.仿真实验结果表明,该方法能够有效地完成对电力电子整流装置的故障诊断,具有很好的工程应用价值.  相似文献   

20.
支持向量机在物理实验中的应用   总被引:2,自引:1,他引:1  
回归型支持向量机方法SVR具有很好的学习性能。本文结合两个物理实验提出了利用SVR方法对实验数据进行曲线拟合,并与最小二乘法的方法进行了比较。实验表明其在精度上优于最小二乘法的方法,在对复杂曲线拟合时效果尤为明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号