首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

2.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

3.
中文网页自动分类新算法   总被引:8,自引:0,他引:8  
为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率  相似文献   

4.
基于类别层次结构的多层文本分类样本扩展策略   总被引:1,自引:0,他引:1  
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题, 提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略, 即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系, 从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上, 基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139, 在10个参赛系统中位列第二。  相似文献   

5.
文本分类是机器学习重要任务之一,如何对文本信息进行有效分类组织,对用户查找并获取有用信息具有重要作用.针对新闻文本分析,提出了一种基于集合运算特征提取及Stacking策略的新闻多分类方法,该方法基于集合运算的方法来提取文本特征,采用Stacking策略,使用SVM以及贝叶斯方法来对文本进行分类.与典型同类方法对比,在...  相似文献   

6.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.  相似文献   

7.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

8.
针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考.  相似文献   

9.
基于人工标引的中文学术期刊文献自动分类算法   总被引:3,自引:0,他引:3  
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率  相似文献   

10.
提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.  相似文献   

11.
比较分析了等级列举式分类法、分面组配式分类法的结构原理、体系结构、类号组合、检索效率、功能作用、主要特点等方面, 从而得出分面组配法是现代分类法的发展方向。  相似文献   

12.
通过对体育教学方法体系的演变过程进行回顾与分析,依照教学方法在体育教学活动中的实际情况,将体育教学方法分为3个层次:作为教学指导思想的教学方法;作为教学程序和操作步骤的教学方法;作为教学方式、手段的教学方法.并对其层次关系进行了解析,提出体育教学方法的应用原则并对其进行分类.  相似文献   

13.
文中提出的分类法根据全球大气环流形势及其季节变化把全球气候划分为 5个气候带 :热带、副热带、温带、副极地带和极地带 ;除了极地带外的每一个气候带再划分为 4个气候型 :海洋性气候、过渡性气候、大陆性气候和高地气候 ;每一个气候型由若干个气候副型组成 .极地带根据其最暖月气温划分为两个气候型 .最后设计湿润指数 I =P/ ( EP.S)和第三个字母进行第三级划分  相似文献   

14.
均匀分类DHNN的分类对称性   总被引:1,自引:0,他引:1  
用对称性的观点,对均匀分类网络的分类表进行深入地研究,提出把吸引子间的Hamming距离转换成欧几里德空间两个点的距离的方法,并由此建立了一个能够描述网络的吸收子间相互关系的几何图一网络的吸引子图;借助网络吸引子图的对称性可以寻找能同时存储在一个均匀分类网络中且具有相同吸引域的模式矢量集。  相似文献   

15.
随着数据存储规模的海量增长,降低存储系统的总拥有成本,提高数据访问效率是海量数据分级存储系统的关键.在分析了两种典型的数据分级算法后,结合两种算法的优点对算法进行了改良,提出了基于数据访问频率和数据设备依赖度的自动分级算法,实验结果验证了算法的有效性和数据分级算法具有较高的准确率.  相似文献   

16.
在自然科学版学报的编辑出版实践中,学报编辑对目次的编排采取不了同的处理方式,根据我们对不同性质、不同层次的学报所进行的抽查,可知目前我国自然科学版学报的目次编排主要有这样几种形式:一是整个目次没有任何标识,从第一篇文章一直排到最后一篇文章;甚至有的学报还有未能按学科将文章进行大致的集中而出现学科混杂的现象,这种目次编排的学报虽然数量不多,但是也非个别现象.一是整个目次没有任何文字标识.它或是按照不同的学科,将同一学科的论文排列在一起,用空白的间隔以进行某种区分;或是按照不同的学科,将同一学科的论文排列在一起,用黑线以进行划分,这种目次编排的学报占有一定的比例.一是整个目次页只有一个文字标识栏目,它或是将一些学科的论文不分类别地按学科集中排列在一起,然后以"研究简报"相标识,这大多是综合大学学报的编排法;或是将一些学科的论文不分类别地按学科集中排列在一起,然后再以"教育研究"相标识,这多是师范院校学报的编排法;这种目次编排的学报也占有一定的比例.一是按照一级学科的划分标准,以学科名进行标识,如"数学研究"、"物理学研究"、"化学研究"等,这种目次编排的学报所占的比例也不小.这些不同的编排方式,从编辑角度来看,表明了学报编辑在目次标识上存在着不同的认识,体现了不同的学报编辑对目次标识能力的差异(对文稿进行准确的、概括性分类标识是一项复杂的工作);从学报角度来看,这些编排不仅影响到学报功能的发挥,而且还会影响到读者的阅读兴趣.这是因为学报目次页的标识编排是学报编排的重要组成部分,它具有如下三种功能:  相似文献   

17.
基于一类分类方法的多类分类及其应用   总被引:1,自引:0,他引:1  
在分析一种非线性数据处理新方法的核心概念基础上,研究了基于一类分类方法的多类分类基本原理,提出了应用于多类分类的可信度函数,使聚类与分类的结果更具有可信度.最后,以某企业对供应商关系的调查数据为例,将这种方法应用于企业商业关系网络分析中.结果表明了该方法的有效性.  相似文献   

18.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

19.
基于区域特征的图像分类技术   总被引:3,自引:0,他引:3  
为解决自然图像的对象分类问题,提出了一种新的区域特征提取和表示方法. 该方法采用六边形近似区域边界,使用六边形的边长比和角度表示区域的形状特征,并采用简化的SIFT描述子描述区域的外貌特征. 将这种区域特征矢量量化后形成码书,用于基于特征包的识别模型,完成分类任务. 用PASCAL2007视觉竞赛数据集作为测试数据集,获得了较好的分类效果,结果表明,该区域特征表示法综合了外貌特征和形状特征,具有较高的分辨性能,同时还具有描述简洁、通用性强的特点.  相似文献   

20.
在定义了L-拓扑空间同胚映射的基础上,给出了L-区间的定义,并进行了分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号