首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在介绍本分类的背景及传统基于向量空间模型特征选择不足之处的同时.提出了不同特征选择方法相结合的本分类模型.该模型首先对本进行分析.把本表示成向量空间的形式.本在经过预处理后.按一定规则提取关键词.关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.  相似文献   

2.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

3.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

4.
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。  相似文献   

5.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

6.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

7.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

8.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

9.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

10.
为提高计算机对古典诗歌自动分类的准确性,提出一种基于特征项聚合的分类方法.首先从文本中提取特征项并用向量表示,向量的每一分量表示该特征项在不同类别中的比重;然后通过聚类算法把相似的特征项聚合为一组,从而形成特征项聚合的诗歌模型;最后利用分类器对诗歌进行分类.《全唐诗》语料库的实验结果表明,利用该模型及算法可明显提高诗歌分类的准确率.  相似文献   

11.
本文从非决定论的Fokker-Planck方程和Master方程入手,讨论了无序材料在外场下的输运理论,得到在平衡态下的F-P方程解和近平衡态下的F-P方程的形成.  相似文献   

12.
新油轮市场需求的交互式逐步逼近建模及预测   总被引:2,自引:0,他引:2  
基于组合模型的建模思想,提出了一种有效拟合时间序列数据的交互式逐步逼近建模方法,识别并拟合出了全球巨型油轮(VLCC)新船市场需求长期趋势和潜周期波动因素,通过所建立的时间序列组合模型预测了VLCC新船市场未来10年的发展趋势,计算结果表明,该方法不但可以化繁为简,降低计算难度,而且拟合效果优于根据理论分析推测建立复杂模型的一次性拟合方法,可广泛应用于各种时间序列数据的建模拟合与趋势预测。  相似文献   

13.
加权整体最小二乘法(WTLS)是估计errors-in-variables(EIV)模型参数严密的方法,当面临大数据集时,其计算效率有限.针对EIV模型中设计矩阵呈现出的结构性特征,在最小二乘准则的约束条件下,通过仅给设计矩阵的随机列赋予权重,推证了适用于EIV模型参数估计的部分加权整体最小二乘法(PWTLS).PWT...  相似文献   

14.
一种制备多糖凝胶纳米微粒的有效方法   总被引:2,自引:1,他引:2  
在不使用有机溶剂和乳化剂情况下,利用反应条件温和且无毒的多价反离子对阳离子多糖的凝胶化诱导作用,制得可用于治疗药物输送的可生物降解亲水性纳米载体。通过优化反应参数,可使所得多糖凝胶微粒平均粒径介于20—100nm之间。  相似文献   

15.
错排问题的一种有效解法   总被引:1,自引:0,他引:1  
首先给出真假值行列式的概念、性质和计算方法,然后剃用真假值行列式给出了错排问题的一种有效解法。这种解法比较简单易行,无需对问题进行分类,省却了分类的麻烦。最后给出一个实例。  相似文献   

16.
从多年的教学实践出发,提出一种基于编程切入点的MFC教学方法,该方法从MFC应用程序的运行机理出发,对应用程序结构进行了深入剖析,并给出各类程序的编程切入点.该方法可以引导学生快速入门学习MFC.  相似文献   

17.
为了提高电脑实验教学的效率和质量,以实例说明,在一个常规50人左右的班级中,老师可以通过独立的演示系统,手把手地教学生一步一步地操作电脑,学生跟随操作的正确率可达95.67%,是一种经济实惠的方法,各学校或培训单位,都比较容易实现。  相似文献   

18.
通过在Novell局域网上添加特定的考试用户,实现随堂机试,自动回收,并且最大程度地限制了考试用户的作弊。  相似文献   

19.
一种有效降低扫描结构测试功耗的方法   总被引:1,自引:0,他引:1  
提出了一种有效降低扫描测试功耗的设计方案.通过增加逻辑门结构来控制测试向量移入阶段扫描链上触发器翻转向组合逻辑电路的传播.同时,设计了时序优化算法以保持电路其他性能不发生大的改变.实验结果显示:通过采用ISCAS89基准测试程序进行分析,优化前无用动态功耗值约占总功耗的19.84%,优化后整体测试功耗降低约23%,有效地降低了无用动态功耗,并且此方案容易在已有的设计流程里实现.  相似文献   

20.
模拟产生伽玛随机变量,在统计理论和应用上都有很重要的意义.现有产生伽玛随机变量的方法,或需要借助比较复杂的优化函数,或依赖于中间参量的取值,方法上都有一定的局限性,这一点尤其体现在形参α∈(0,1)情形中.论文分析了伽玛随机变量形状参数在模拟过程中所起的作用,及“拒绝方法”在模拟过程中的局限性,利用截尾伽玛分布,成功模拟出形参α∈(0,1)的伽玛随机变量.模拟结果完全通过检验,效率较高,效果理想.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号