首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

2.
针对在线医疗评论文本具有行业专业性强、差异性大、不够规范等特点,提出一种基于特征加权词向量的在线医疗评论情感分析方法.利用Word2vec方法构建词向量模型,抽取情感词集合完善医疗服务领域情感词典,根据句法关系识别主题词与情感词的依存关系,引入期望交叉熵因子,建立特征加权词向量模型,分析在线医疗评论的情感倾向.实验结果表明扩充的医疗服务情感词典在分析性能上的准确率、召回率以及F1值均高于基础情感词典,引入期望交叉熵因子后,基于特征加权词向量的情感分析方法在SVM分类上表现出更好的效果,体现了其在在线医疗评论挖掘领域的良好效用.   相似文献   

3.
由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。  相似文献   

4.
本体构建的重点在于概念的抽取,针对甲骨文卜辞特有的特征和已有的领域概念抽取算法的缺陷,提出了一种基于上下文语义的甲骨文领域概念抽取算法。该算法针对传统的基于DR+DC的概念抽取算法的缺点进行改进,提出了基于上下文的概念间的相似度的计算方法,并给出了基于语义的领域概念筛选算法。实验数据表明,该方法在准确率和召回率以及困惑度衰减比率都有较大的提高。  相似文献   

5.
针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。  相似文献   

6.
提出了一种专项新闻语义框架以及借助该框架识别来自动检索、分类客户负面新闻的方法.与传统基于词的语义框架不同,负面新闻事件语义框架针对每个单一语境负面新闻事件子类来定义语义框架.通过构建框架知识库、领域词汇本体库及与框架关联的样本句子库,融合利用依存语法、词性标记技术和植入任务型代价的对数线性分类建模技术,实现了负面事件语义框架的自动识别.测试表明,该方法实用、高效,对知识库中已预定义的负面事件新闻类识别,在准确率、召回率和处理效率上都有很好的表现.  相似文献   

7.
在具有多个真实搜索引擎的联邦检索环境下,基于小文档的资源选择算法由于难以估计每个搜索引擎的真实网页数量,因此准确率较低.针对这个问题,文中提出了基于主题模型的资源库描述方法,利用LDA主体模型获取每个资源库的描述词;在此基础上提出新的资源选择算法,结合垂直领域权重和词向量计算资源库和查询请求之间的相关度,并根据相关度大小获取最终资源选择结果.实验结果表明,基于主题模型的资源选择算法能很好地提高资源选择效果,可有效应用于分布式搜索引擎的联邦检索环境.  相似文献   

8.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

9.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

10.
时间作为电子病历中的一类重要实体,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用。电子病历文本中的时间可分为独立时间和基于事件的时间,针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入了中文症状知识库作为词典特征,有效地提高了条件随机场识别结果的准确率、召回率和F1值。实验结果表明,该方法在独立时间和基于事件的时间识别上的F1值分别达到了92.57%和93.98%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号