首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 76 毫秒
1.
中文文本挖掘的特征导航机制   总被引:9,自引:0,他引:9  
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制,按概念层次和上下文环境展现用户所关心的内容  相似文献   

2.
文本分类是根据文本内容自动确定文本类型的过程。介绍现有特征抽取和分类算法,提出用模糊聚类算法FCM确定文本类标签,Boosting算法构造分类器的方法,使文本分类具有更好的分类精度和时效性,以及对未知类标签语料库中文本的自适应性。  相似文献   

3.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率.  相似文献   

4.
面向中文专利SAO结构抽取的文本特征比较研究   总被引:1,自引:0,他引:1  
针对中文专利文本中SAO结构实体关系抽取问题, 使用支持向量机的机器学习方法进行关系抽取实验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明, 基本的词法信息能够明显提高关系抽取性能, 而句法信息没有显著提高关系抽取效果。此外, 也验证了词向量在SAO结构关系抽取中的可行性。  相似文献   

5.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

6.
用于文本挖掘的特征选择方法TFIDF及其改进   总被引:11,自引:0,他引:11  
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.  相似文献   

7.
为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标F_(β=1)达到了88.7%,执行时间为353 s,能够有效提高文本分类精度与执行效率。  相似文献   

8.
面向微博短文本的细粒度情感特征抽取方法   总被引:1,自引:0,他引:1  
结合TF-IDF方法与方差统计方法, 提出一种实现多分类特征抽取的计算方法。采用先极性判断, 后细粒度情感判断的处理方法, 构建细粒度情感分析与判断流程, 并将其应用于微博短文本的细粒度情感判断。通过NLP&CC2013评测所提供的训练语料对该方法有效性进行验证, 结果表明该方法具有较好的抽取效果。  相似文献   

9.
采用基因集的形式对传统遗传算法的编码方式进行改进,再引入模拟退火的思想,提出一种基于基因集编码的遗传退火算法的文本特征抽取方法(GSGAA),并与遗传算法(GA)和模拟退火GA算法(SA-GA)进行比较实验。结果表明,GSGAA算法用于文本分类的特征抽取所得出结果的正确率和执行时间都比采用单基因进行编码的GA算法和GA-SA算法好,具有一定的应用价值。  相似文献   

10.
以小学生数学学习障碍的问题领域为研究对象,通过领域本体的应用,从搜索到的文档中抽取重要句子形成摘要.利用领域本体能够描述特定知识领域内相关的概念和关系这种特性,提出了一个改进的以多个关键词来评判文档段落重要性的方法,用此方法的查询结果更符合学习者需要.  相似文献   

11.
在对文本分类领域发展现状进行研究的基础上,提出了一种面向文本分类的深度置信网络特征提取方法,通过引入词向量模型和深度置信网络解决传统文本分类方法在文本表示及特征提取方面存在的语义缺失问题,实验结果表明,该方法在文本分类中有更高的准确率。  相似文献   

12.
文本挖掘技术的研究   总被引:3,自引:0,他引:3  
本文对文本挖掘的过程极其关键技术进行了系统的分析,并探讨了其应用趋势。  相似文献   

13.
A New Approach of Feature Selection for Text Categorization   总被引:1,自引:0,他引:1  
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups.  相似文献   

14.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

15.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

16.
文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持。在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度。  相似文献   

17.
提出一种基于多种子点提取三角网格特征的算法,根据曲率大小和法向矢量检测特征轮廓存在区域并用不同颜色凸显;在适当位置指定种子点并计算种子点的相关属性;构建节点评估函数模型来选择路径节点;最后将提取的特征轮廓线进行光顺处理。通过实例表明,该算法不仅对封闭特征和锐利边缘提取有效,还对开口特征和特征变化平缓的区域有效,甚至对相同特征分叉时提取的准确性更高。  相似文献   

18.
为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量,使用DPCNN模型和改进门控模型(RGRU)对词向量进行特征提取和融合,得到含有深层结构和局部信息的特征词向量,将句子向量与特征词向量融合在一起得到新向量。最后,新向量经过softmax激活层后,输出结果。在实验结果中,以F1值、准确率、召回率为评价标准,在THUCNews长文本中,这些指标分别达到了98.41%,98.44%,98.41%。同时,该模型在短文本分类中也取得了很好的成绩。  相似文献   

19.
在研究传统的径向贯穿特征码提取的基础上,提出了一种改进的极坐标原点可变算法提取径向贯穿特征.经软件实现,该算法对字符6,9,P,B,E比较有效.使用此算法得到了预期的结果.①  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号