共查询到19条相似文献,搜索用时 76 毫秒
1.
中文文本挖掘的特征导航机制 总被引:9,自引:0,他引:9
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制,按概念层次和上下文环境展现用户所关心的内容 相似文献
2.
3.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率. 相似文献
4.
面向中文专利SAO结构抽取的文本特征比较研究 总被引:1,自引:0,他引:1
针对中文专利文本中SAO结构实体关系抽取问题, 使用支持向量机的机器学习方法进行关系抽取实验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明, 基本的词法信息能够明显提高关系抽取性能, 而句法信息没有显著提高关系抽取效果。此外, 也验证了词向量在SAO结构关系抽取中的可行性。 相似文献
5.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。 相似文献
6.
用于文本挖掘的特征选择方法TFIDF及其改进 总被引:11,自引:0,他引:11
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法. 相似文献
7.
《河南科技大学学报(自然科学版)》2015,(6)
为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标F_(β=1)达到了88.7%,执行时间为353 s,能够有效提高文本分类精度与执行效率。 相似文献
8.
面向微博短文本的细粒度情感特征抽取方法 总被引:1,自引:0,他引:1
结合TF-IDF方法与方差统计方法, 提出一种实现多分类特征抽取的计算方法。采用先极性判断, 后细粒度情感判断的处理方法, 构建细粒度情感分析与判断流程, 并将其应用于微博短文本的细粒度情感判断。通过NLP&CC2013评测所提供的训练语料对该方法有效性进行验证, 结果表明该方法具有较好的抽取效果。 相似文献
9.
采用基因集的形式对传统遗传算法的编码方式进行改进,再引入模拟退火的思想,提出一种基于基因集编码的遗传退火算法的文本特征抽取方法(GSGAA),并与遗传算法(GA)和模拟退火GA算法(SA-GA)进行比较实验。结果表明,GSGAA算法用于文本分类的特征抽取所得出结果的正确率和执行时间都比采用单基因进行编码的GA算法和GA-SA算法好,具有一定的应用价值。 相似文献
10.
以小学生数学学习障碍的问题领域为研究对象,通过领域本体的应用,从搜索到的文档中抽取重要句子形成摘要.利用领域本体能够描述特定知识领域内相关的概念和关系这种特性,提出了一个改进的以多个关键词来评判文档段落重要性的方法,用此方法的查询结果更符合学习者需要. 相似文献
11.
在对文本分类领域发展现状进行研究的基础上,提出了一种面向文本分类的深度置信网络特征提取方法,通过引入词向量模型和深度置信网络解决传统文本分类方法在文本表示及特征提取方面存在的语义缺失问题,实验结果表明,该方法在文本分类中有更高的准确率。 相似文献
12.
13.
A New Approach of Feature Selection for Text Categorization 总被引:1,自引:0,他引:1
CUI Zifeng XU Baowen ZHANG Weifeng XU Junling 《武汉大学学报:自然科学英文版》2006,11(5):1335-1339
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups. 相似文献
14.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率. 相似文献
15.
XU Junling XU Baowen ZHANG Weifeng CUI Zifeng ZHANG Wei 《武汉大学学报:自然科学英文版》2007,12(5):912-916
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method. 相似文献
16.
17.
提出一种基于多种子点提取三角网格特征的算法,根据曲率大小和法向矢量检测特征轮廓存在区域并用不同颜色凸显;在适当位置指定种子点并计算种子点的相关属性;构建节点评估函数模型来选择路径节点;最后将提取的特征轮廓线进行光顺处理。通过实例表明,该算法不仅对封闭特征和锐利边缘提取有效,还对开口特征和特征变化平缓的区域有效,甚至对相同特征分叉时提取的准确性更高。 相似文献
18.
为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量,使用DPCNN模型和改进门控模型(RGRU)对词向量进行特征提取和融合,得到含有深层结构和局部信息的特征词向量,将句子向量与特征词向量融合在一起得到新向量。最后,新向量经过softmax激活层后,输出结果。在实验结果中,以F1值、准确率、召回率为评价标准,在THUCNews长文本中,这些指标分别达到了98.41%,98.44%,98.41%。同时,该模型在短文本分类中也取得了很好的成绩。 相似文献