首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

2.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

3.
按照兵马俑各部位对碎片进行分类是兵马俑文物碎片拼接的重要步骤,能有效缩减自动拼接算法的搜索空间,提高拼接的准确率。由于人工的碎片分类方法工作量大,通过计算机辅助文物碎片自动分类,可以减少人工分类产生的繁重工作量。该文提出了一种基于多特征和支持向量机(SVM)的文物碎片分类方法。首先,利用尺度不变特征变换(SIFT)算法提取碎片纹理特征,在此基础上构建每幅碎片图像的词袋模型(Bo W)。其次,利用Hu不变矩提取碎片形状特征,最后,将纹理特征和形状特征结合并通过SVM进行训练,得到相应的文物碎片分类模型。实验结果表明,该方法显著提高了碎片分类的准确率。  相似文献   

4.
传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。  相似文献   

5.
提出将语义理解与统计学方法相结合的机器学习算法来进行文本情感分类。首先提取文本中的情感词汇作为特征,利用统计学方法得到特征的初始权重,然后通过分析文本语义结构修改特征权重,最后利用Bayesian算法和以Bayesian作为基本分类算法的Boosting算法进行分类。实验表明,基于语义理解的Bayesian分类算法的分类准确率高于仅基于统计学的Bayesian分类算法,基于语义理解的Bayesian-Boosting算法的分类准确率最高,达到了90%。  相似文献   

6.
为提高计算机对古典诗歌自动分类的准确性,提出一种基于特征项聚合的分类方法.首先从文本中提取特征项并用向量表示,向量的每一分量表示该特征项在不同类别中的比重;然后通过聚类算法把相似的特征项聚合为一组,从而形成特征项聚合的诗歌模型;最后利用分类器对诗歌进行分类.《全唐诗》语料库的实验结果表明,利用该模型及算法可明显提高诗歌分类的准确率.  相似文献   

7.
针对单一k近邻算法(KNN)和最小二乘支持向量机(LSSVM)存在的缺陷, 提出一种基于KNN LSSVM的Android恶意行为识别模型. 先采集Android用户行为样本, 并提取相应特征组成特征向量; 再将训练集输入LSSVM中进行学习, 计算测试样本与最优分类平面间的距离, 如果该距离小于阈值, 则直接采用LSSVM恶意行为识别, 否则采用KNN算法进行恶意行为识别; 最后采用仿真实验测试KNN LSSVM的性能. 实验结果表明, 相对于单一KNN算法和LSSVM, KNN LSSVM提高了Android恶意行为的识别正确率,可以满足Android[KG*6]恶意行为的在线识别要求.  相似文献   

8.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

9.
针对目前遥感图像分类算法存在精度低、 速度慢等问题, 提出一种基于量子粒子群算法的遥感图像分类算法, 以提高遥感图像的分类效果. 首先分析目前遥感图像分类算法存在的不足及其原因; 然后提取多种类型的遥感图像原始特征, 采用量子粒子群算法对特征进行筛选, 以提取对遥感图像分类结果较重要的特征; 最后采用最小二乘支持向量机(LSSVM)建立遥感图像分类器, 实现遥感图像分类和识别, 并进行遥感图像分类的仿真对比实验. 实验结果表明, 该算法克服了当前遥感图像分类算 法存在的局限性, 大幅度提高了遥感图像的分类精度, 有效减少了图像分类误差, 提高了图像分类效率.  相似文献   

10.
针对文本中关键信息被忽略以及分类准确率不高的问题,提出一种加权word2vec的卷积神经网络(CNN)与ATT-BiGRU混合神经网络情感分析模型.由于word2vec生成的词向量无法突出文本关键词的作用,因此引入词频-逆文档频率(TF-IDF)算法计算词汇权重值.然后,将加权运算后的词向量输入CNN与ATT-BiGRU混合模型提取隐含特征.该模型通过卷积神经网络(CNN)和基于注意力机制的双向门限循环单元(ATT-BiGRU)分别提取文本特征,以此来提高文本的表示能力.多组实验对比结果表明,与其他算法相比较,该模型的分类准确率最高且耗费时间代价小.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号