首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
研究第五届中文倾向性分析评测的任务3和任务4,即微博的倾向性分析和评价对象识别.网络新词多,句子格式不规范,语言简短且包含的情感内容多都是微博分析的难点.针对此问题,提出对中文微博的过滤算法.在词语倾向性识别中,构建基础观点词和网络观点词等词典,然后利用知网识别所有词语的倾向性.在评价对象的抽取方面,提出一种面向微博的基于统计和规则相结合的评价对象抽取方法,特别是提出利用句法分析和评价词、评价对象互信息的联合抽取算法.实验表明,该算法可以提升评价对象抽取的效果.  相似文献   

2.
为了克服高考阅读理解观点类问题中仅仅利用关键词进行答案句抽取的不足,通过对单篇文章建立LDA(latent dirichlet allocation)模型,计算阅读材料中每一句话与问题的主题分布相似度.利用SVM(support vector machine)分类器,对主题分布相似度高的句子进行分类,用于获取具有观点特征的候选观点句,最后将其与问题观点进行相似度计算并排序,选取排名前α个句子作为题目的答案句.该方法在标注好的高考观点类问题的答案句识别中,总体正确率达到了47.8%,并能将答案句的排序提前.实验结果表明,散文阅读理解题中采用多主题方法比单主题时具有更好的效果.  相似文献   

3.
为从海量微博中高效地获取不同话题下的关键信息,微博观点摘要成为自然语言处理领域近期研究的热点之一。基线方法基于TF-IDF算法抽取微博句中的关键词,并据此计算微博的重要性分数,直接筛选出观点摘要;朴素改进方法在基线方法的基础上,增加了情感分类步骤,并利用微博句之间的语义距离,将摘要句候选集中语义重复、重要度较小的句子去除,生成观点摘要;基于语义图优化算法的方法在朴素改进方法的基础上,利用微博句的重要性分数及微博句之间的语义距离构建语义图结构,并通过图优化算法筛选出观点摘要。朴素改进方法在COAE2016评测任务一测试数据集上,10个话题的平均ROUGE-1值达到26.39%,平均ROUGE-2值达到0.68%,平均ROUGE-SU4值达到5.69%,且评测官方公布结果显示,该方法在9项评价指标中获得6项最佳性能。基于语义图优化算法的方法在评测样例数据集上进行了实验,结果显示,该方法比朴素改进方法在ROUGE-1,ROUGE-2,ROUGE-SU4值上分别提升了0.63%, 1.51%, 2.69%。  相似文献   

4.
针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵并抽取话题词,生成话题向量空间模型,通过话题向量空间模型在离散时间序列模型下的话题词序列比对,实现话题的漂移检测.通过实验发现,基于VSM和LDA模型相结合的微博话题漂移检测是一套行之有效的方法.  相似文献   

5.
对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础上划分类簇实现摘要句的提取.基于类簇H指数选出高频词作为标准摘要词集,考察了生成摘要与标准摘要词集中共现词的词频分布,实现对自动摘要效果的评测.实验结果表明,本文提出的方法有助于提升微博短文本集的摘要生成效果.  相似文献   

6.
提出一种结合LDA及语义相似度的商品评论情感分类方法。该方法首先使用LDA对商品语料库建模,获取文档-主题矩阵;人工选择k对褒义词、贬义词,基于HowNet语义相似度计算主题(评价对象+观点内容)与各个褒义词和贬义词的相似度,达到对观点词极性判断,计算文本观点词情感极性的加权和作为文本的情感极性。实验表明,与基于向量空间的SVM分类方法相比,该情感分类方法在分类指标上表现更好。  相似文献   

7.
根据微博文本中句子的依存关系和情感词在依存关系中的位置来提取特征,将特征应用于最大熵模型来预测句子的情感倾向(褒义、贬义或中性)。并在此基础上,将词、词性和词在句法结构中的成分作为特征,训练条件随机场统计模型以此预测评价对象。实验结果表明,将句法依存关系作为特征应用到中文微博观点句识别中能够取得不错的效果,明显提高了中文微博观点句的识别率。  相似文献   

8.
提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而得到自动摘要.在NLPCC2015面向微博中文新闻自动摘要评测数据集上进行对比实验,取得了良好效果,证明该方法的有效性.  相似文献   

9.
情感倾向性分析是近年来中文信息处理领域的热点问题.通过对新浪微博进行情感的分析与研究,提出了一种基于主体句和句法依赖关系的微博情感倾向性分析方法.首先利用自定义规则和条件随机场模型进行主体句及主体评价对象的抽取;然后使用句法分析器对主体句进行依赖关系分析,可以准确的获得修饰评价对象的评价词;最后利用情感词典计算出句子的情感倾向.实验结果表明在精确获取评价对象的基础上再进行情感倾向性判别效果要优于对微博直接进行情感倾向性分析.  相似文献   

10.
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.  相似文献   

11.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

12.
基于主题词权重和句子特征的自动文摘   总被引:1,自引:1,他引:0  
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.  相似文献   

13.
针对中文微博句子倾向性分类问题,在充分降低由于情感词典的扩充工作带来系统开销的基础上,抽取了中文微博句子中标点符号、情感词权重、词汇级和句法级等新型平面和结构化特征,探索了有效的特征选择方法.在基准COAE和NLP&CC中文微博语料上进行双向交叉和独立实验,并研究了有效的不平衡性语料的处理方法.实验结果表明:采用该文提出的特征后,中文微博句子倾向性分类的性能得到显著提升.  相似文献   

14.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

15.
微博观点句识别对于情感分类、舆情调查等具有重要的作用,为了尽量减少训练语料的标注工作,文章提出一种主观强度Bootstrapping优化的方法来识别微博观点句。首先,采用优势率和独立主观表达能力计算主观性特征的主观强度,再结合其在测试集微博句子中的权重信息计算微博句子的主观强度并进行排序;然后,进行Bootstrapping优化,以训练集中主客观句子特征分布的相对熵作为阈值将排序序列中置信度高的主客观句子分别加入到训练集中,重新训练主观性特征的主观强度,迭代进行直至不再有新句子加入。实验结果表明,本方法具有一定的可行性和有效性,Bootstrapping过程的引入可以极大优化观点句识别的结果。  相似文献   

16.
在对标准潜在狄利克雷分布(LDA)模型进行改进的基础上,提出了一个主题情感混合最大熵LDA模型对在线评论进行细粒度观点挖掘.首先,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;然后,在主题层和单词层之间加入情感层,将传统的LDA三层模型扩展成四层;最后,进行情感极性分析,同时获取整篇评论和每个主题的情感极性,生成细粒度的主题情感摘要.实验验证了所提模型和理论的有效性.  相似文献   

17.
多文档自动摘要研究是自然语言处理领域的关键问题之一,为使抽取的摘要更能体现多文档主题,本文在子主题划分的基础上,提出了一种融合句义特征的句子优化选择方法.该方法基于句义结构模型,提取句义结构中的话题、谓词等特征,并融合统计特征构造特征向量计算句子权重,最后采用综合加权选取法和最大边缘相关相结合的方法抽取摘要.选取不同主题的文本集进行实验和评价,在摘要压缩比为15%情况下,系统摘要平均准确率达到66.7%,平均召回率达到65.5%.实验结果表明句义特征的引入可以有效提升多文档摘要的效果.   相似文献   

18.
针对微博观点句识别及情感极性分类任务,提出了基于增强字向量的微博观点句情感极性分类方法.使用单字作为句子表示的基本单元,同时在单字中嵌入了该字所在的词信息以及该词的词性信息,以此训练得到字向量替代传统的词向量融合的句子表示方法.使用基于K-means的方法对向量化的句子进行情感判别,仅需要对文本进行分词和词性标注,无需额外的语言学资源.在COAE2015任务2的微博句子数据集上进行测试,取得了较好的结果.  相似文献   

19.
鲁琳  朱艳辉  杜锐  邓程  梁韬 《科学技术与工程》2014,14(12):229-232,261
微博作为当前互联网信息快速传播与分享的新平台,具有信息量庞大、评论多样等特点。针对微博评论信息中的评价对象抽取,采用组块分析和词语位置特征对训练集中3 000条微博观点句的评价对象序列标注,利用条件随机场学习并识别评价对象的名称、属性及其他辅助信息,通过修改相关参数达到最优识别效果,并提出针对复杂观点句评价对象的提取算法。实验结果表明,对测试集中7 000条微博观点句进行评价对象的名称和属性的抽取,效果较好。  相似文献   

20.
针对中文的语料,采用基于条件随机场的方法,在词、词性特征的基础上结合最近名词、句法依赖关系和句子倾向性等特征,分析不同特征对于评价对象抽取的影响.实验结果表明,结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号