首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
基于投影寻踪回归文本自动分类的模型   总被引:2,自引:0,他引:2  
文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的.投影寻踪正是一种稳健的、非参数化的维数约简方法.提出了一种基于投影寻踪回归的文本自动分类模型.应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究.采用标准文档集Reuters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验.实验结果表明,该模型对文本自动分类具有较高的召回率和准确率.  相似文献   

2.
免疫进化的投影寻踪模型在文本分类中的应用   总被引:1,自引:0,他引:1  
投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的.针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维.投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能...  相似文献   

3.
针对文本分类问题及投影寻踪降维的特点,对投影寻踪模型中投影指标进行改进,给出了新的投影指标.对不同的投影指标进行相应的对比实验,实验结果表明:改进的指标不仅充分利用投影寻踪降到超低维的特点,而且对文本分类的性能有了较大地提高.  相似文献   

4.
kNN算法在文本分类中的改进   总被引:4,自引:0,他引:4  
kNN算法用已归类的数据训练分类器,它是一种基于实例研究(instance_based learning)文本分类算法,本文在研究kNN算法的基础上,结合k邻近法和最近特征线法的思想,提出了新的分类方法,k最近特征线法(k nearest feature line,kNFL),将其运用于文本分类中,汲取了kNN算法和NFL算法的优点,降低了偶然误差,提高了算法适应性和分类精度。  相似文献   

5.
一种改进的kNN方法及其在文本分类中的应用   总被引:25,自引:0,他引:25  
介绍了基于kNN的文本分类方法,分析了kNN方法实质,指出了该方法的不足,然后指出了一种改进方法。改进方法是基于文本属性关系和概念共现等基础上提出来的。它实质上是强化了文本中语义链属性因子的作用,修正了次要因素的噪声影响,使文本分类结果更加理想,已有的测试结果证明了这一点,尤其在测试文本与训练文本集中的某些文本直观上较相似时,结果更佳。  相似文献   

6.
针对目前输电线路覆冰灾害风险评估模型存在忽略地形因子、权重取值人为主观因素较大等缺陷,以保证所考虑风险因子完整性为前提,综合考虑坡度、粗糙度、高程、气温、相对湿度、风速、实测覆冰厚度值、覆冰比值、冰区量级9个风险因子,通过组合投影方式,将多维数据投影到低维空间,并结合进化策略对投影寻踪指标函数求最优解,以256条线路2个冰期样本数据为例,得出输电线路覆冰灾害风险目标5级评价标准。结果表明:当进化代数达到311代时,目标函数值达到最优0.513 4;同时,Ⅳ风险等级及其以上线路占总线路的30.5%;最后以220 kV石上线为例,验证了所建立输电线路覆冰灾害风险评价模型结果的适用性以及准确性。本文方法能够有效地对输电线路覆冰风险进行评价,对实现输电线路防冰管控工作的精益化提升具有重要意义。  相似文献   

7.
投影寻踪分类模型作为一种多因素影响问题的综合评价方法,已经被研究者广泛应用在各个领域并取得了良好的效果.然而模型本身还存在密度窗宽不确定以及模型无分类规则等尚需解决的问题.针对这些问题,提出一个基于K-Means动态分类的投影寻踪分类模型,定义了一个新的投影指标.实证分析说明了该模型的可靠性和可操作性.  相似文献   

8.
基于基尼的模糊kNN分类器   总被引:2,自引:0,他引:2  
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。  相似文献   

9.
分析了一般投影寻踪方法存在的局限和核方法在处理非线性方面所具有的优势,在此基础上结合支持向量机的最新研究成果,提出了基于核的投影寻踪方法,并将其应用到滚动轴承的质量分类中,取得了较为理想的效果。  相似文献   

10.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

11.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

12.
在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的。在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法。实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率。  相似文献   

13.
为寻找出对水稻产量具有突出贡献的因子,采用投影寻踪技术,选择产量构成因素作为评价指标,提出了水稻产量构成因素投影寻踪评价方法,并用该方法对黑龙江6个试验站2004~2006年试验数据进行了分析.分析结果表明,常规灌溉条件下对水稻产量影响较大的产量构成因素是穗粒数和结实率,控制灌溉条件下则为穗粒数和单位面积成穗数.  相似文献   

14.
在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的.在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法.实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率.  相似文献   

15.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

16.
投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够有效地进行投诉文本分类.  相似文献   

17.
基于文本内容的超链接分类研究   总被引:1,自引:1,他引:0  
针对目前网页分类以及相关研究的问题,提出了基于文本内容的超链接分类思想,为下一步进行信息抽取、话题追踪等互联网信息应用研究做了更好的准备.通过对特定领域内应用两种分类方法对其进行对比研究,取得了较好的效果.  相似文献   

18.
提出了一种基于双向长短期记忆网络和标签嵌入的文本分类模型。首先利用BERT模型提取句子特征,然后通过BiLSTM和注意力机制得到融合重要上、下文信息的文本表示,最后将标签和词在联合空间学习,利用标签与词之间的兼容性得分对标签和句子表示加权,实现标签信息的双重嵌入,分类器根据给定标签信息对句子进行分类。在5个权威数据集上的实验表明,该方法能有效地提高文本分类性能,具有更好的实用性。  相似文献   

19.
基于连接函数的相依度量,提出了一种探索连续型随机向量之间相关关系的方法.通过连接函数构造的投影指标函数可以给出高维随机向量的投影寻踪主成分分析,并且可以证明这样得到的最优样本投影方向具有强相合性.此外,又给出了两个以上随机向量之间的典型相关分析.结果表明所提出的方法具有优良的理论性和实用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号