首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架. 实验结果表明:该模型在各项目中的故障定位准确率均高于83%.  相似文献   

2.
为能够向广大读者精准推荐所需图书,达到节省搜寻精力和时间的目的,在传统图书推荐方法的基础上,将读者评论中的情感因素考虑在内,提出了一种基于情感分析和Word2Vec的图书推荐方法:抓取豆瓣网上的图书数据,构建专有特征数据集;针对情感词典设计了相应的情感计算规则,利用训练好的Word2Vec模型扩充情感词汇;通过情感词典完成对读者评论的情感分析,并将提取到的情感特征加入特征集内;采用随机森林算法对其进行口碑分类.研究发现,该方法优于基于原始特征集的方法,实验准确率和F值均有一定提升,是向读者实现图书精准推荐的有效途径,具有一定的实用价值和应用前景.  相似文献   

3.
根据不良信息的特点对潜在语义分析(Latent Semantic Analysis LSA)进行了简化,并设计了基于简化的潜在语义分析(Latent Semantic Analysis Of a Simplified LSAS)的藏文Web不良信息检索算法.该检索算法能够对具有关于某个主题的特定倾向的文本进行过滤.该系统充分利用了领域知识,采用了潜在语义模式分析等技术.实验表明该系统具有查全率和查准率高,速度较快的特点.  相似文献   

4.
在藏文文档排版中,实现文章统一化排版的关键技术在于格式的调整.目前,在Word2010办公软件中进行藏文排版时出现左右边界无法对齐的现象,导致藏文文档板式不符合传统藏文行文规范,给办公编辑、古籍整理等工作带来一定的局限性.文章以Word软件为开发平台,采用Word VBA技术,结合VBA编程,实现了对藏文文档进行合理的排列调整并符合藏文版式的书写规范系统.对藏文文档排版的规范化有重要的意义.  相似文献   

5.
基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果.选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2:1:1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类.在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果.  相似文献   

6.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

7.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

8.
藏文框架语义知识语义关系分析的关键就是建立句子中各词语之间的语义关联关系,实现各框架间知识的共享,获取更多的信息.文章引出了藏文框架语义知识、框架及框架元素并结合实例分析了以藏语句子为主,组成该句子的词语或短语间的语义关系及框架形式表示该句子的语义为结构化.  相似文献   

9.
语义词典是人工智能、语义网与知识工程等研究领域的热点,它可以支持机器学习、自然语义理解、数据挖掘及机器翻译等技术。文章在藏语独特的文法理论研究基础上,利用对比英文和藏文词之间的语义关系、构建双语大型数据库和制定映射过程中词汇空缺等方法,构建了基于半自动匹配的藏文语义词典。本语义词典既兼容了国际通用的英文WordNet,又保留了藏语的特点,为藏文信息处理提供了重要的数据资源。  相似文献   

10.
着眼于因特网的内容安全,在分析传统语义倾向性判别的类型及不足的基础上,本文提出一种改进的语义倾向性分析模型.该模型以词组为单元,同时引入几种常见的句式结构.通过对这些句式结构的判别,确定出每句话语义倾向的侧重点,再参照JRBPO准则予以定性.最后,利用各单句与上下文逻辑间的关联性,得出整个文本的语义倾向.随机抽取的测试样本表明,本方法对不良文本检测具有较高的处理速率和检测准确率.  相似文献   

11.
Sentiment analysis is now more and more important in modern natural language processing,and the sentiment classification is the one of the most popular applications.The crucial part of sentiment classification is feature extraction.In this paper,two methods for feature extraction,feature selection and feature embedding,are compared.Then Word2Vec is used as an embedding method.In this experiment,Chinese document is used as the corpus,and tree methods are used to get the features of a document:average word vectors,Doc2Vec and weighted average word vectors.After that,these samples are fed to three machine learning algorithms to do the classification,and support vector machine(SVM) has the best result.Finally,the parameters of random forest are analyzed.  相似文献   

12.
为解决弱情感倾向语料影响文本情感分类的问题,提出基于全局语义学习的文本情感增强方法。首先设计语料划分方法,将语料划分为强情感倾向语料与弱情感倾向语料,然后,从文本处理全过程及整体语义学习的角度出发,构造均值抽取与最大值抽取的语义提取方式及文档信息向量,改进基于循环神经网络的变分自编码器的语义学习过程,并用于学习强情感倾向语料中文本的词语序列特征与语义特征。基于此,对弱情感倾向语料进行重构,实现情感增强目标,最后,将经过情感增强的语料替换掉原来的弱情感倾向语料,再进行情感分类模型的训练与测试。结果表明:提出的文本情感增强方法能够提升情感分类效果,并使得Bert分类器对IMDb影评数据集的情感分类精确率达到了93.03%。  相似文献   

13.
文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持。在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度。  相似文献   

14.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

15.
目前,音乐歌词情感分类大多以二标签极性情感为主,多情感标签分类却很少,并且对于情感性不确定的歌词来说,得到的分类性能并不高。为了解决多情感标签研究分类的不足以及提高分类准确性,本文提出了一种利用Word2Vec词嵌入技术,并使用多核卷积神经网络作为分类器的音乐歌词多情感分类方法。该方法首先结合音乐歌词文本,进行数据预处理和可视化分析。其次利用Word2Vec词嵌入提取歌词局部特征,构建特征情感向量,挖掘歌词中情感信息,将歌词转化为更利于分类器模型输入的词向量。最后在分类器中,选用卷积神经网络模型,并在此基础上采用不同高度卷积核的方式构建新模型以此得到多情感分类。实验结果表明,音乐歌词多情感分类的结果达到94.26%,与传统CNN相比,分类精确率提高了6.86%,取得了良好性能。  相似文献   

16.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号