首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。  相似文献   

2.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

3.
一种不需分词的中文文本分类方法   总被引:2,自引:1,他引:1  
提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%.  相似文献   

4.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

5.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法. 该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示. 在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

6.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

7.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选...  相似文献   

8.
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方...  相似文献   

9.
基于核方法的潜在语义文本分类模型   总被引:4,自引:0,他引:4  
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能.  相似文献   

10.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

11.
翻译是一个以译入语再现原语内容的过程。由于两种语言的文化差异,势必在表达上存在不同。拟运用英汉对比的方式,从语篇定义入手,通过语篇特征分析,研究英汉语语篇结构的差异,探讨合适的语篇翻译策略,提高语篇翻译质量。  相似文献   

12.
就语篇、语篇翻译和语篇翻译教学进行探讨,认为翻译应该以语篇为基本单位,这样才能对原语有整体把握。在翻译教学中要培养学生的语篇意识及其翻译能力。  相似文献   

13.
针对目前短文本词汇量少、 表达形式多样, 导致同种类文本聚类方法无效的问题, 提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法, 以解决短文本包含信息少、 词汇表达形式多样的不足. 实验结果表明, 该算法可有效提升短文本的聚类效果.  相似文献   

14.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.  相似文献   

15.
对VB中打印的实现方法进行了分析,并提出了利用VB的Printer对象实现适合于事务处理的长本打印算法和本段落分解算法。最后给出实现例程。  相似文献   

16.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

17.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

18.
文本挖掘技术的研究   总被引:3,自引:0,他引:3  
本文对文本挖掘的过程极其关键技术进行了系统的分析,并探讨了其应用趋势。  相似文献   

19.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

20.
语篇是一个具有完整意义的语义单位,也是最有效的交际单位。中西方思维方式的差异造成英汉语篇在谋篇布局、叙述表达上的不同。语篇翻译是历年考研英语的必备题型。现以2010年考研英语英汉翻译真题为例,以语篇性为切入口,探求翻译的有效途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号