首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

2.
中文新闻信息分类的类别数量大,难以一次性获取均衡的分类性能。针对这一问题,提出了一种基于差错网络的文本分类反馈校正方法。首先对文本进行一次分类,^根据分类结果生成有向差错网络,得到标注类别与真实类别的候选映射规则。然后计算差错网络的类别关联度参数,再对候选映射规则进行筛选,得到标注类别与真实类别的映射规则。最后根据映射规则进行二次分类,实现分类反馈校正。实验表明,差错网络清晰地反映了类 别的相关度。通过映射关系进行反馈校正,比普通文本分类的F值提高了6.2%。在NLP&CC2014评测中,基于差错网络的方法平均正确率达到73% ,证明了该方法的有效性。  相似文献   

3.
庞雅丽 《科技信息》2008,(15):19-19
本文给出了一种基于目标迁移学习的文本分类方法,用于解决在分类目标发生变化时的训练集重复标注和分类模型重复训练的问题。该方法通过引入一个中间类别体系层作为桥接,首先在中间层类别和目标类别之间建立映射关系,分类时将文本分到中间层类别上,然后根据中间层和目标层的映射来确定目标类别。  相似文献   

4.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能.  相似文献   

5.
零样本学习是一类特殊的图像分类问题,是指测试数据的类别在训练数据中没有出现的情况.为了更好地描述语义特征空间中图像特征和语义特征的距离关系,本文将距离度量学习引入零样本学习任务.具体而言,首先利用典型相关分析将样本的图像特征和相应类别的语义特征映射至公共特征空间;然后,利用距离度量学习衡量图像特征和语义特征之间的距离;最后,使用最近邻分类器进行分类.通过在流行的Aw A和CUB数据集中的实验,证明了所提方法的有效性和鲁棒性.  相似文献   

6.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

7.
类别不平衡数据的分类问题是数据挖掘及机器学习过程中的一个研究热点,基于代价敏感学习方法通常用于解决类别不平衡数据分类问题,然而,它在实际应用过程中通常因样本的误分类成本未知而受到限制.针对此问题,文中采用群体智能算法优化样本的误分类代价.果蝇优化算法(Fruit fly optimization algorithm,FOA)是一种全局优化群智能算法,该算法具有原理简单、调节参数较少、收敛速度较高等优点.本研究首先提出了一种基于动态调整寻优步长的果蝇优化算法;其次,利用此果蝇优化算法良好的全局和局部搜索性能,对类别不平衡数据中样本的误分类代价进行了优化;最后,将改进果蝇优化算法学习样本误分类代价的策略应用到乳腺组织数据集的分类研究中.实验结果表明,本算法对类别不平衡数据的分类结果较好,能够有效的识别正、负两类样,解决了因误分类成本的先验信息无法直接获取而使基于代价敏感的不平衡数据分类方法使用受限的问题.  相似文献   

8.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

9.
基于监督学习的核拉普拉斯特征映射分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种监督学习的核拉普拉斯特征映射方法(supervised kernel Laplacian eigenmap,SKLE),通过非线性核映射将样本数据投影到高维核特征空间,然后将流形结构和样本类别信息进行有效的结合后,提取嵌入在高维数据中的低维流形特征用于分类.实验表明,该方法对新样本具有泛化性,并且能有效提高分类的效能.  相似文献   

10.
为了消除传统机器学习中分类方法的限制,提出一种基于主题模型与迁移学习的文本分类方法。将文本集合成由共同主题和特定主题所联合起来的混合模型;然后,通过这两类主题相关性推断出不同领域之间主题的映射关系;最后,融合共同主题以及映射后的特定主题形成一个新的特征空间,并在此特征空间中完成文本的分类。实验结果表明,相较于其他分类方法,本方法在国外的20newsgroups数据以及自建的中国专利数据集上能更加高效准确地预测未标记文本的类别,为文本挖掘领域相关方向的研究提供新的视角。  相似文献   

11.
判定树在基于知识的专家系统中非常有用,同时在数据挖掘中也是一种重要的方法.但是目前的判定树判定方法并不能准确、清晰地处理与人类思想和感觉的知识.通过自映射空间模型作为知识表达和处理不确定性的方法以达到改进目前方法的目的.与传统的分类方法相比,自映射空间方法更好地集成了模糊性和随机性.提出了基于自映射空间模型的判定树方法,该方法处理人类思维更加自然.在实际的分类问题过程中,自映射空间方法更加有效、灵活.  相似文献   

12.
一种基于主动贝叶斯分类技术的垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
目前,将机器学习、文本分类与信息过滤技术相结合的过滤方法成为研究热点.对实际邮件过滤时往往会遇到训练样本中包含大量未带类别标注的邮件,应用传统分类方法存在耗时且过滤性能差等问题,文章提出采用主动贝叶斯分类方法RANB对训练样本进行预处理,以标识其多类别;实验表明,这种方法可有效地提高训练样本质量,提高过滤器性能,在各项评价指标上具备优越性.  相似文献   

13.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

14.
在基于脑电(EEG)的脑一机接口技术中,使用可生长自组织映射(SOM)神经网络进行了5类意识任务分类的研究.结果表明:①可生长SOM能够根据数据内部结构自适应地调整确定其映射网络的拓扑形状,在一定程度上反应了数据的分布特征;②可生长SOM更关注那些表达误差比较大的映射单元,从而整体上减小了映射网络的表达误差,提高了对数据模式的表达能力,有利于模式的分类处理;③可生长SOM侧重于表达类别之间的边界信息,这对于分类问题有着积极的作用.与传统SOM相比,使用可生长SOM进行5类分类处理得到的分类精度提高了10%左右,分类正确率可以超过80%,说明可生长SOM在脑-机接口系统中有着很大的潜在应用性.  相似文献   

15.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

16.
在对用户价值认知的基础上,电信运营商对用户进行正确分类是其了解用户的重要手段。电信运营商可以将用户分为不同的类别,并以此制定差别化服务政策,从而进行差异化营销来提高企业效益。本文首先对异网电信用户进行了细分研究,为提高分类的准确率,在传统自组织映射神经网络基础上,对学习速度和权重向量初始值的确定进行了改进,提出了改进的自组织映射神经网络;同时采用改进的自组织映射神经网络对某省电信运营商提供的用户数据进行仿真。仿真结果表明:改进的自组织映射神经网络在兼顾稳定性的同时,很好地解决了自组织过慢问题,提高了用户分类的准确率,大幅度减小误差。最后根据分类结果为电信运营商实施差异化营销提供了基本规则。  相似文献   

17.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

18.
对纹理映射的算法进行分类,从二维纹理映射和三维纹理映射两个大类分别进行阐述.二维纹理映射包括纹理的获取方法和映射方法两部分,映射方法中涵盖了参数化曲面、非参数化曲面和基于小变形的纹理映射方法的介绍.三维纹理映射介绍了基于三维纹理函数的映射,包括三维纹理的定义和映射方法研究;由于在虚拟世界的建造中对真实物体计算机重建的需要,就用于实物计算机三维重建中实物三维表面纹理的提取和映射算法等进行了研究和探讨.  相似文献   

19.
基于分类的纹理映射方法综述   总被引:1,自引:0,他引:1  
对纹理映射的算法进行分类,从二维纹理映射和三维纹理映射两个大类分别进行阐述.二维纹理映射包括纹理的获取方法和映射方法两部分,映射方法中涵盖了参数化曲面、非参数化曲面和基于小变形的纹理映射方法的介绍.三维纹理映射介绍了基于三维纹理函数的映射,包括三维纹理的定义和映射方法研究;由于在虚拟世界的建造中对真实物体计算机重建的需要,就用于实物计算机三维重建中实物三维表面纹理的提取和映射算法等进行了研究和探讨.  相似文献   

20.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号