首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
随着互联网的广泛应用,聚集了海量的文本数据,内含丰富的时空信息。面向文本的时空信息挖掘成为当前地理信息科学(Geographical Information Science, GIS)的研究热点,不断涌现出各种以自然语言处理(Natural Language Processing, NLP)技术为基础的挖掘方法。面向政务文本数据,对其进行事件级的时空模型建模,目的实现政务文本数据在事件级的简单分类、构建文本数据的结构化表达模型、探究事件级中时间空间的关系。实验证明,该模型对比之前的事件模型能更好地概括政务文本中的关键信息,针对于政务文本的结构化表达效果理想。  相似文献   

2.
针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。  相似文献   

3.
传统线上文本挖掘方法在克服相似性干扰时,需要加入大量约束条件,降低了挖掘准确率。为此,本文提出基于LDA模型和语义网络的线上文本挖掘方法。采用滤波处理法对线上文本信息进行滤波处理,获得线上文本的抗干扰向量,提取线上文本信息的频谱特征。利用语义网络构建线上文本的语义网络挖掘模型,计算线上文本挖掘信息的相似度。基于LDA模型对获取的线上文本阈值进行分类,得到线上文本挖掘权值,将挖掘到的关系词带入到概念属性内,实现线上文本的挖掘。实验结果表明,基于LDA模型和语义网络的线上文本挖掘方法不仅可以提高挖掘精度,还具有更强的收敛性。  相似文献   

4.
互联网的电商中存在着大量的评论信息,这些带有主观情感色彩的评论信息不仅反应了客户对产品的满意程度,而且暗含了市场产品的流行趋势。针对评论信息中所蕴涵的相关主题词,提出了将文本分类和主题词挖掘相结合的方法。该方法首先使用SVM对情感进行分类,再通过LDA模型进行建模对分类后的评论信息挖掘主题词。真实数据集上的实验结果验证了本文方法的有效性,获得了良好的分类结果,能够准确地挖掘出主题词。  相似文献   

5.
随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。  相似文献   

6.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

7.
大数据时代,各行各业均产生海量信息,面临大量的信息,如何准确而高效地获取数据中的潜在规律和蕴含价值成为企业信息化的重点。为提升煤矿企业对安全监测数据的理解和监控能力,改善隐患排查治理工作水平,本文提出基于类别关键词权重的短文本分类模型,有效缓解了文本分类中特征稀疏的问题。该方法首先基于朴素贝叶斯算法,对不符合规范的非法数据进行筛选,然后构建基于关键词权重的短文本分类模型,利用中文分词技术、卡方检验方法构建关键词库,最后建立得分模型实现对隐患数据的分类。结果表明,该模型能较为准确地对矿业安全隐患数据进行有效的评级分类,进一步地改善隐患排查和治理的针对性和有效性。  相似文献   

8.
为了在提高文本分类效率和提升分类速度间进行平衡,综合考虑SVM决策树的深度、均衡度、构造方式、类内样本数、类间相似度等对分类结果的影响,提出针对海量文本多分类问题的SVM决策树构建算法.在大规模语料库上的文本分类实验表明,该算法可在一定程度上提升分类效果,同时可以大幅减少训练和测试时间,方法可行且适应性强.  相似文献   

9.
针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BERT-BiLSTM模型实现服务文本分类;最后,针对数据集的类别数量不均衡和分类难易不均衡问题,在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能,在互联网获取的真实数据集上进行了大量对比试验,实验结果表明:WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比,WBBI模型具有更快的收敛速度和更好的分类效果。  相似文献   

10.
互联网的电商中存在着大量的评论信息,这些带有主观情感色彩的评论信息不仅反应了客户对产品的满意程度,而且暗含了市场产品的流行趋势。针对评论信息中所蕴涵的相关主题词,提出了将文本分类和主题词挖掘相结合的方法。该方法首先使用SVM对情感进行分类,再通过 LDA 模型进行建模对分类后的评论信息挖掘主题词。真实数据集上的实验结果验证了本文方法的有效性,获得了良好的分类结果,能够准确地挖掘出主题词。
  相似文献   

11.
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性.  相似文献   

12.
针对基于正则表达式和传统机器学习的分类方法分别存在模式手工提取困难和性能瓶颈的问题,提出一种基于深度学习的问题帖分类方法,采用深度文本挖掘模型TextCNN和融合注意力机制的TextRNN构建分类模型.实验结果表明,基于深度学习的方法在多数问题目的类别上的分类性能优于已有基准方法,且使用的Adam优化器优于SGD优化器...  相似文献   

13.
一种改进的特征选择方法在文本分类系统中的应用   总被引:1,自引:0,他引:1  
在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.关键词,  相似文献   

14.
为了对现实中的大规模数据集进行分类挖掘,提出了一个基于关联的自适应分类规则挖掘模型,研究了该模型在预处理、多层分类规则的挖掘、算法的可扩展性、效率和输入参数的自适应等方面的技术和方法.  相似文献   

15.
为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行有效裁剪优化,实现样本分布均衡,然后对经过样本均衡处理的数据样本执行传统k最邻近算法,根据权重获得分类结果,最后对不同k值的k最邻近算法进行实例仿真。结果表明,在相同的数据样本环境中,相比于其他分类算法,采用改进的k最邻近算法的分类准确度和分类效率更高。  相似文献   

16.
针对短文本具有稀疏性强和文本长度较小等特性, 为更好地处理短文本分类问题, 提出一个基于集成神经网络的短文本分类模型. 首先, 使用扩展词向量作为模型的输入, 从而使数值词向量可有效描述短文本中形态、 句法及语义特征; 其次, 利用递归神经网络(RNN)对短文本语义进行建模, 捕获短文本内部结构的依赖关系; 最后, 在训练模型过程中, 利用正则化项选取经验风险和模型复杂度同时最小的模型. 通过对语料库进行短文本分类实验, 验证了所提出模型有较好的分类效果, 且该分类模型可处理变长的短文本输入, 具有良好的鲁棒性.  相似文献   

17.
针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练的词对,进行医疗评论主题挖掘,基于主题一致性TC值和JS散度对比改进的COA-BTM主题模型与传统的BTM主题模型和LDA主题模型在医疗评论主题挖掘中的效果。实验结果表明改进的COA-BTM模型在主题一致性和主题质量上均具有更好的效果,证明了其在在线医疗评论挖掘领域的有效性。基于改进算法在医疗评论主题挖掘中的应用和SERVQUAL模型,更全面地识别了医疗服务质量影响因素。  相似文献   

18.
贝页斯数学模型在文本分类计算中得到广泛应用。过滤模型原理简单、运算效率高,保证了文本分类准确,但同时也产生一定偏差。利用贝页斯数学模型[1],针对测试样本集合的变化,分析研究贝页斯过滤规则的变化规律。为设计一种过滤方案提供理论依据。  相似文献   

19.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

20.
多变量时间序列(multivariate time series, MTS)分类任务旨在确定多变量时间序列样本的标签。多变量时间序列数据存在时序关系和样本相似性关系等丰富的关系信息,然而现有的算法未能充分利用关系信息导致分类性能难以提升。基于此,文章提出一种基于图卷积网络(graph convolutional network, GCN)的多变量时间序列分类方法,通过挖掘样本间的潜在关系来提高分类性能。为了有效表示样本关系,设计基于样本相似度的构图规则,对样本数据进行建模从而将样本的时序特征和潜在关系信息映射到图空间中,提出基于图卷积的分类模型,通过聚合样本特征来捕获有利于分类的潜在样本关系,更新到样本自身特征向量以提升分类精度。在11个公共数据集上的大量实验结果表明,该文所提算法优于12种对比算法,可见通过挖掘时间序列数据之间潜在的关系用于分类对分类结果具有重要影响,从而为处理时间序列分类问题提供一种新的途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号