首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

2.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

3.
为提高核Fisher算法(KFDA)的分类性能,对KFDA算法增加了基因选择步骤.提出了新型的杂交式基因选择算法并用于KFDA分类研究,所提出的方法用于3个基因芯片的数据分类,得到较好的分类效果.  相似文献   

4.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

5.
为了消除与分类无关和冗余基因,以提高基因的分类精度和效率,提出一种文化算法框架下混合群智能算法的肿瘤信息基因选择方法.首先采用ReliefF算法初选基因子集,然后利用文化算法框架下混合群智能算法选择最优的信息基因,最后在3个标准肿瘤信息基因数据集对其性能进行测试.仿真结果表明,文化算法框架下混合群智能算法可以有效去掉无用的噪声基因,降低计算复杂度,分类精度均可以达到100%,具有较好的实际应用价值.  相似文献   

6.
为了提高检索结果的时间相关性,将文本特征抽取和多标签分类算法应用于文献检索的潜在时间意图分类研究之中.从检索潜在时间意图分类的角度出发,提出一种基于文本时间信息抽取和Labeled LDA(标签主题模型)的文献潜在时间意图自动分类算法.首先,在获取的文献时间信息基础上,将文献检索潜在时间意图映射至具体时间类别.其次,为了减少时间信息的稀疏性对分类特征学习过程的影响,利用交叉学科中时间短语分布特征优化Labeled LDA分类模型的标签选择过程.最后,将所提算法与其他多标签分类算法进行对比实验,分析和评估文献检索潜在时间意图自动分类的准确率.结果表明,所提算法的AUC的值达到79.6%,较同类基准算法ECC(整体分类链)提高约10.9%,且针对不同学科均取得了较好的分类效果,是一种有效的文献检索潜在时间意图学习方法.  相似文献   

7.
特征选择是文本分类中一个重要的课题.首先给出了一个新型文档频,然后把属性依赖度引入ID3并提出了一个基于优化ID3的属性约简算法,紧接着以此为基础,提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果证明该特征选择方法是有效的.  相似文献   

8.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

9.
针对Ada Boost算法训练分类器的特征具有大量冗余问题,提出了一种融合特征选择的Ada Boost集成算法.首先,使用一种特征选取方法,选择图像特征之间冗余度最小的特征,构造最优训练集;其次,采用Ada Boost算法训练分类器,构建分类模型;最后,使用分类模型实现待标注图像的自动标注.实验使用华盛顿大学用于图像自动标注的数据集,结果验证算法的有效性,并且相比其他传统算法,该算法具有更高的分类精度.  相似文献   

10.
为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息.  相似文献   

11.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

12.
提出一种基于语义核函数的问题分类算法,该算法基于问题的语法结构构建支持向量机(SVM)核函数.首先,将给定的问题解析为语法树结构,用语法树的子树表示该问题;然后,从词法、语法、语义三个层面提取问题的特征,构成更加丰富的特征空间;接着,基于问题的语法树构建核函数;最后,使用潜在语义索引方法并结合问题的词法、语法以及语义特征,通过语义核函数将特征空间映射到更有效的空间中进行问题分类.TREC数据集上的实验结果表明,通过词法、语法以及语义增强的问题特征空间可以提高分类准确率.  相似文献   

13.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

14.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

15.
将知识库增量引文推荐(cumulative citation recommendation, CCR)任务分解为3个基本的关键问题:针对知识库某一实体名的查询扩展;针对文档和实体的特征提取;基于线性和非线性相结合的分类模型。提出了基于语义词典(DBpedia)与词向量(word embedding)相结合的方法进行查询扩展,以及利用LDA和ESA两种算法对文档进行特征提取,最终通过线性逻辑回归与非线性随机森林相融合的分类算法实现CCR算法。与基线系统相比,该方法在TREC KBA2014评测数据上的试验结果的F1平均提升了14.7%,表明本文设计的方法能够较好地解决引文推荐问题。  相似文献   

16.
符红霞  黄成兵 《科学技术与工程》2012,12(34):9234-9237,9242
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先分析了词频和文档频并在此基础上对文档频进行优化。然后又以此为基础提出了特征分辨率并先用它初选文本特征。紧接着又把粗糙集引入进来并给出了一个基于等价类相关矩阵的属性约简算法,以此来进一步消除冗余特征。仿真结果表明上述方法无论是在精确度和召回率方面,还是时间性能及平均分类精度方面,都具有一定的优势。  相似文献   

17.
针对高分辨率极化SAR数据特征分布不再符合同质区域假设, 进而导致基于统计分布的极化SAR影像非监督分类方法精度下降的问题, 将具有广泛适用性的KummerU分布嵌入粒子群寻优聚类算法, 提出了新的极化SAR影像非监督分类算法(PSO-KummerU方法):首先基于极化SAR统计特征对数据进行初分类, 然后采用极化SAR统计特征与粒子群优化算法进一步进行聚类中心求解, 分类准则部分采用KummerU距离改进代替传统的Wishart距离度量准则; 采用3种非监督分类方法(H/α-Wishart、PSO-Wishart、PSO-KummerU方法)进行分类对比实验.实验结果表明:基于KummerU分布的PSO-KummerU方法与采用Wishart距离的聚类方法相比, 目视效果明显改进, 整体分类精度提高14%以上.  相似文献   

18.
To eliminate the mismatch between words of relevant documents and user's query and more serious negative effects it has on the performance of information retrieval,a method of query expansion on the basis of new terms co-occurrence representation was put forward by analyzing the process of producing query. The expansion terms were selected according to their correlation to the whole query. At the same time, the position information between terms were considered. The experimental result on test retrieval conference (TREC) data collection shows that the method proposed in the paper has made an improvement of 5%~19% all the time than the language modeling method without expansion. Compared to the popular approach of query expansion, pseudo feedback, the precision of the proposed method is competitive.  相似文献   

19.
近年来,稳态视觉诱发电位(steady-state visual evoked potential, SSVEP)范式脑机接口(Brain-computer interface, BCI)得到了日益广泛的研究。如何选择不同的分类特征,对于提高频率识别的准确率,改善SSVEP-BCI系统至关重要。针对少目标刺激范式的SSVEP-BCI系统,本文提出小波包变换(wavelet packet transform, WPT)同多变量同步指数(multivariate synchronization index,MSI)相结合的方法,对10名被试者的400组SSVEP数据进行特征提取并分类。在分类过程中,讨论了在导联数量和数据长度两个参数对改进算法的影响。实验结果表明:在数据长度为1.5 s,导联7导的条件下,基于WPT-MSI的SSVEP算法的分类准确率达到98.94%,信息传输率为76.24 bit/min。明显优于典型的MSI算法和其他改进算法,具有显著提高的频率识别正确率。  相似文献   

20.
为获得改进的分类算法BP_Adaboost,利用思维进化算法(MEA)和列文伯格-马夸尔特算法(LM)结合改进的BP神经网络作为弱分类器,由改进的弱分类器集成得到MEA-LM-BP_Adaboost算法.提出了基于MEA-LM-BP_Adaboost算法的首轮融资时总票房分类预测方法,该方法包括变量选取及操作化处理、网络参数优化、MEA改进弱分类器、LM算法改进弱分类器、MEA-LM-BP_Adaboost算法的流程设计、待预测电影验证6个部分.选用2013~2018年的245部国产电影作为样本验证该预测方法和模型,测试集分类准确率可达73.3%.最后在模型准确率、稳定性、K折交叉验证3方面进行模型整体性能比较,结果表明本文提出的模型整体性能最好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号