期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

免费	0篇
国内免费	1篇

专业分类

综合类

1篇

出版年

2018年

1篇

排序方式： 共有1条查询结果，搜索用时 0 毫秒

基于Word2vector的文本特征化表示方法

周顺先蒋励林霜巧龚德良王鲁达《重庆邮电大学学报(自然科学版)》2018,30(2):272-279

针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型（semantic frequency-inverse document frequency,SF-IDF）,用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科（extensible markup language,XML）数据为文本数据集,采用神经网络语言模型（neural network language model,NNLM）算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF（semantic frequency-inverse document frequency,SF-IDF）向量与现有技术中词频-逆向文件频率（term frequency-inverse document frequency,TF-IDF）向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。相似文献