共查询到20条相似文献,搜索用时 328 毫秒
1.
基于VSM的中文文本分类系统的设计与实现 总被引:25,自引:0,他引:25
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。 相似文献
2.
一种基于VSM文本分类系统的设计与实现 总被引:10,自引:0,他引:10
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % . 相似文献
3.
文本分类系统的设计和实现 总被引:1,自引:0,他引:1
陈庆伟 《科技情报开发与经济》2007,17(27):200-202
介绍了文本分类的基本过程及其关键技术,提出了一个文本分类系统的结构模型,并对该模型进行了测试。 相似文献
4.
为了方便海洋领域知识的应用和管理,提出海洋领域知识多维多层次分类体系;将文本分类技术应用于海洋领域知识,阐述了多维多层次文本分类系统的设计与实现.对文本分类系统的系统结构、预处理、特征提取、训练算法、多维多层次分类等进行了详细介绍.实验测试结果表明: 分类系统的查全率和准确率约为90%左右.系统的建立对于推进中国"数字海洋"信息基础建设提供了必要的支持. 相似文献
5.
6.
KNN文本分类算法中的特征选取方法研究 总被引:1,自引:0,他引:1
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果. 相似文献
7.
文本分类技术在搜索引擎中有很重要的用途,本文简要分析了文本分类的评估方法,应用于搜索引擎的分类过程,重点介绍了现行的文本自动分类方法,包括经典算法和新算法以及未来的发展趋势。 相似文献
8.
9.
基于领域知识的文本分类 总被引:3,自引:0,他引:3
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能. 相似文献
10.
11.
提出了工艺规划系统中动态模式分类(pattern classification)的概念,介绍了模式分类判定树和动态模式分类的基本原理,并对动态模式分类的聚类质量标准进行了研究。动态模式分类是基于实例归纳(case based reasoning,CBR)的自动分类过程,具有自学习和自完善的功能。 相似文献
12.
探讨了层次混合专家(HME)模型在说话人辨认中的应用。对于一个多路分类问题,提出了一个推广的贝努利概率分布密度函数,取代早先用于HME中的多项式概率分布密度函数。利用提出的概率分布密度函数和HME模型,用EM学习算法对模块网络进行训练所得到的说话人辨认系统不仅具有良好的性能,而且具有非常快的训练速度 相似文献
13.
基于朴素贝叶斯的垃圾邮件分类系统的设计 总被引:1,自引:0,他引:1
徐治国 《盐城工学院学报(自然科学版)》2008,21(2):47-50
结合垃圾邮件分类系统的具体要求,在传统规则分类方法的基础上引入机器学习的知识,给出了系统体系结构和特征提取算法,试验了一种对新邮件计算所属类别后验概率的方法,并详细讨论了一个基于朴素贝叶斯方法的个性化垃圾邮件分类系统的设计。提出的分TFIDF特征子集提取算法和朴素贝叶斯方法对邮件进行分类具有较好的分类精度,应用朴素贝叶斯方法在新邮件到达的同时对其进行分类,具有较好的分类速度。 相似文献
14.
马洋 《太原科技大学学报》2011,32(4):269-273
针对恒星光谱数据的处理需求,采用约束概念格作为恒星自动分类手段,利用Visual C++6.0和Oracle10g作为系统开发的工具,设计并实现了恒星光谱数据的自动分类系统,在介绍系统的功能模块和体系结构的基础上,详细描述了系统的关键技术。系统的运行结果表明,利用约束概念格来实现恒星光谱数据的自动分类,是可行的和有价值... 相似文献
15.
针对互联网信息内容缺乏有效的管理手段,设计和实现了一种符合我国国情的互联网内容安全管理系统原型,通过分析相关的W3C组织(www.w3c.org)的互联网内容选择平台(PICS)设计思想,采用分级标签方法对互联网信息内容进行管理,并设计了具有层次化结构的标签安全性保护措施,分析了分级管理构架中若干关键技术及标签的安全性技术,该系统在互联网内容泛滥的今天有一定的使用价值。 相似文献
16.
软件复用技术是提高软件开发质量,缩短软件开发周期的重要方法之一。文中从编码结构模型、构件-构架的开发模式、分类方法设计、半层次化体系结构模型。以及构件的变点及其实现机制等方面,给出在信息分类编码系统的开发过程中所采用的面向软件复用的若干关键技术,并讨论相关问题。 相似文献
17.
农用地分等定级与估价工作是土地资源调查与评价的一项重要内容,广东省农用地分等汇总成果数据量达10GB,如何高效地管理并应用这些数据成果,成为农用地分等汇总工作中必须攻克的一道难题.传统的图纸管理方法已不能满足现代应用的要求,为有效利用农用地分等汇总的成果,建立稳定、高效、强大的农用地分等汇总管理地理信息系统具有重要的意义.文章介绍广东省农用地分等汇总成果数据的基本情况,基于组件G IS开发方法建立广东省农用地分等汇总信息管理系统,从架构与功能实现上对广东省分等汇总成果进行无缝集成管理. 相似文献
18.
随着图像处理和人工智能的发展,智能交通系统将会广泛的应用于现实生活中,而对智能交通系统中车型的自动分类方法将越来越繁多。本文结合支持向量机方法,提出一种基于图像处理的自动车型分类系统。并通过matlab实验平台设计了分类器,对所提供的车型图像实现自动分类,取得了较为满意的实验结果。 相似文献
19.
据泛系方法论中的半等价理论,本文建立了半等价分类系统,并将半等价分类的数量分类方法与等价分类的数量方法作了比较 相似文献
20.
谭炳华 《福建师范大学学报(自然科学版)》1995,11(4):100-105
本文不福建省梅花山自然保护区32个土壤剖面,按照传统的地理发生学分类和新兴的诊断学体系-中国土壤系统分类进行对比,通过分析确定了该区土壤在系统分类中的归属,同时对某些诊断指标提出建议。 相似文献