首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

2.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

3.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

4.
本体驱动的面向主题的网页关系识别   总被引:1,自引:0,他引:1  
将本体与万维网内容挖掘相结合,提出了基于本体的网页关系识别规则的自动生成和优化算法.在网页分类的基础上,对网页之间的关系进行自动识别,为Web资源语义化奠定了基础.  相似文献   

5.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析   总被引:3,自引:0,他引:3  
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据.  相似文献   

6.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

7.
提出一种新颖的基于决策树方法的电能质量扰动自动分类方法.该方法首先对采集到的扰动信号进行小波多分辨率分解,扰动信号在每个小波分解尺度的能量分布构成一个特征向量;然后利用CART决策树算法从这些特征向量构成的训练样本中自动提取相应的分类规则,得到决策树分类模型,并将该模型应用到电能质量扰动测试数据中.仿真结果表明所提电能质量扰动数据分类挖掘方法的有效性和鲁棒性.  相似文献   

8.
讨论了对分类规则的挖掘采用基于关联的分类方法.关联分类规则挖掘方法主要包括两大处理步骤:第一步利用分类关联规则挖掘算法挖掘出有关的分类关联规则;第二步就是基于所挖掘出的分类关联规则构造一个分类器.详细介绍了该方法的实现算法和部分数据结构.  相似文献   

9.
网页分类需要使用标记网页对分类算法进行训练,然而,对网页进行标记的过程既费时又费力.随着web的快速发展,获得未标记网页已经变得相对容易.为了有效地利用未标记网页来提高网页分类的性能,提出了一种基于集成学习的网页分类算法,迭代运行支持向量机、中心分类器和朴素贝叶斯分类器,并对各分类器的预测进行集成,不断地从未标记集中对网页进行标记后用于训练.实验结果表明.提出的算法有效地提高了网页分类的性能.  相似文献   

10.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

11.
针对双树复小波变换(DT-CWT)用于图像的纹理特征提取时,不具有旋转和尺度不变性的局限,提出了一种基于DT-CWT和SVD的纹理分类算法.该算法首先利用DT-CWT从图像中提取出纹理特征,然后对纹理特征进行奇异值分解获得具有旋转和尺度不变性的特征向量,采用BP神经网络作为分类器,并提出改进的BP算法训练网络,使得网络很快找到全局最优解.将本方法与其他的分类算法进行比较,实验结果表明,本算法具有较高的分类正确率.  相似文献   

12.
一种有效的聚束式合成孔径雷达图像特征提取算法   总被引:1,自引:1,他引:0  
提出一种聚束式合成孔径雷达图像特征提取的有效算法.通过小波变换图像去噪法提高信噪比;利用Canny算子完成边缘检测;根据雷达图像的特点提出边缘检测后不做曲线闭合,而直接进行阈值处理的图像分割.图像预处理后提取具有旋转、尺度、平移不变性的Hu矩作为特征矢量并归一化,在训练阶段引入聚类分析.以MSTAR实测数据为样本,用最近邻分类器和BP神经网络分类器对该特征提取算法进行识别能力测试,算法的有效性得到了验证.  相似文献   

13.
海面背景红外目标的识别算法   总被引:2,自引:0,他引:2  
为了实现多角度状态的舰船目标识别,针对低信噪比下海面背景的目标红外图像,提出了一种基于分段拟合的稳定提取海天线信息的算法。在此基础上对经过目标分割后得到的感兴趣区域统计提取舰船目标的形状特征、位置特征等,考虑海面的干扰目标,设计综合分类器,通过对提取的各目标特征进行概率融合的方法实现目标判断。进行了仿真平台软件的试验测试。结果表明,使用该算法可以实现在不同环境和未知海天线的情况下对海面舰船目标多角度状态的可靠识别。  相似文献   

14.
摘要: 针对核电压力容器中J型坡口焊缝的自动化焊接,应用图像处理技术,结合支持向量机(SVM)分类器,研究了核电压力容器封头与圆管相贯线检测算法. 以颜色矩特征和灰度共生矩阵特征组合作为特征向量,利用SVM对图像进行分类,结合滑块机制和投票机制可以生成相贯线区域高亮的二值图像,利用二次曲线对二值图像中最大轮廓进行拟合,获取相贯线的准确位置. 结果表明:算法具有较高的鲁棒性和实时性,SVM分类器准确率达到95.6%,每幅图像处理时间在170 ms以内.  相似文献   

15.
Automatic recognition of skin micro-image symptom is important in skin diagnosis and treatment. Feature selection is to improve the classification performance of skin micro-image symptom.This paper proposes a hybrid approach based on the support vector machine (SVM) technique and genetic algorithm (GA) to select an optimum feature subset from the feature group extracted from the skin micro-images. An adaptive GA is introduced for maintaining the convergence rate. With the proposed method, the average cross validation accuracy is increased from 88.25% using all features to 96.92 % using only selected features provided by a classifier for classification of 5 classes of skin symptoms. The experimental results are satisfactory.  相似文献   

16.
提出一种基于多重假设检验的特征加权朴素贝叶斯分类算法, 该算法通过特征选择方法得到多个特征词集合, 再按多重假设检验错误率为每个特征词集合配以不同的权重系数并参与到分类器的构建中. 该方法已经应用到市长公开电话的文本分类中, 通过构建的3个特征加权朴素贝叶斯分类器实现了投诉文本的计算机自动分类, 且相对传统方法提高了分类器的效率和精度.  相似文献   

17.
一种网络入侵检测特征提取方法   总被引:2,自引:0,他引:2  
为了去除冗余特征,降低系统存储和运算负担,提高网络入侵检测分类器的性能,文中提出了一种基于Fisher分和支持向量机的网络入侵检测特征提取方法.针对KDD′99网络入侵检测数据集,应用该方法得到了混合攻击和4种单一攻击模式下的特征重要度排序,选取重要特征建立支持向量机入侵检测分类器.结果表明,该分类器精度与使用全部特征构建的支持向量机分类器相当,训练和测试时间则显著降低.  相似文献   

18.
在网络入侵检测中,样本数据的特征维数较高,而冗余特征的存在使系统的存储负担加重,分类器性能降低。本文提出一种基于Fisher Score和SVM的特征重要性度量和提取方法,针对KDD'99网络入侵检测数据集,应用该方法得到了混合攻击和单一攻击模式下的特征重要度排序,选取重要特征建立SVM入侵检测分类器,结果表明分类器精度与使用全部特征构建的SVM分类器相当,训练和测试时间有显著降低。  相似文献   

19.
利用FOIL(一阶规则学习)算法提取文档对应的一阶规则,并用之于Web中文文档的分类.同时,对FOIL分类器进行改进,如:控制每个类别的规则数量;对规则前提进行剪枝;对无法识别的文档生成缺省规则;充分利用Web文档的半结构性等.仿真实验结果表明,本文所作的改进使分类器的各项性能均得到了很大程度的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号