首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
以情感依存元组(EDT)作为中文情感表达的基本结构,把新闻文本主题情感倾向性判别任务分成主题识别、情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对TF-IDF方法进行改进,再结合基于交叉熵方法提取主题特征词,同时考虑了新闻文章标题的主题表征作用,将标题词纳入主题特征集;然后基于空间向量模型计算句子与主题特征向量的相似度,在此基础上考虑句子位置、长度及句子与标题的相似度,计算句子的主题相关度以抽取主题句;最后建立情感依存元组判别模型计算主题句的情感,采用主、客观分类规则筛选出新闻倾向关键句。本方法在COAE 2014评测中各项指标皆逼近最好成绩,表明基于情感依存元组的分类方法具有较高的分类性能。  相似文献   

2.
事件触发词识别是事件抽取技术中核心任务之一,在面向微博的突发事件触发词识别中,提出一种基于扩展触发词表和多值分类模型(P-Multi模型)相融合的触发词识别方法,进行事件触发词识别。以多值分类模型以扩展触发词为基础,结合基于模式规则匹配,对文本进行潜在语义分析,进一步挖掘触发词语义信息,将模式匹配和语义分析融合在微博突发事件触发词识别之中。实验结果在触发词识别准确率、召回率上均有所提升,证明了该方法的有效性。  相似文献   

3.
研究第五届中文倾向性分析评测的任务3和任务4,即微博的倾向性分析和评价对象识别.网络新词多,句子格式不规范,语言简短且包含的情感内容多都是微博分析的难点.针对此问题,提出对中文微博的过滤算法.在词语倾向性识别中,构建基础观点词和网络观点词等词典,然后利用知网识别所有词语的倾向性.在评价对象的抽取方面,提出一种面向微博的基于统计和规则相结合的评价对象抽取方法,特别是提出利用句法分析和评价词、评价对象互信息的联合抽取算法.实验表明,该算法可以提升评价对象抽取的效果.  相似文献   

4.
藏语自动分词技术是藏语自然语言处理的基础。文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。文章中的藏语数词识别思想为:在自动分词过程中,通过判断待切分的词(w)i和已切分的词(wi-1)来重新组合。经对小学一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试后,数词的识别准确率达97.7%。  相似文献   

5.
提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.  相似文献   

6.
为有效地分类出多个热门主题兴趣的作者群体,提出了一种基于综合特征和最大二元组的文本分类框架,该分类框架针对DBLP数据集.分类框架的核心是构建双边图和对标题进行准确分类.第一阶段从DBLP数据集中提取标题,为保证提取的标题和主题的正确映射,采用综合特征进行分类,即辨识特征和语义特征的结合;第二阶段构建双边图,生成多个"主题—作者"的最大二元组聚类,获得作者集合.与其他类似方法相比,本文的分类框架在准确率、召回率和F1测度方面具有更好的优势,能以较高精度识别出相似热门主题的最大聚类.  相似文献   

7.
针对微博话题观点摘要问题,提出一种基于LDA与评价对象相结合的微博观点摘要方法.首先,利用LDA模型得到话题的词分布矩阵和文档的话题分布矩阵,把两个矩阵的乘积作为各个词在句子中的权重分布矩阵,再利用词频与词权重分布矩阵的乘积作为词的重要度;然后,通过词的词性标注规则从句子中选择候选评价对象,再计算句子中候选评价对象的稳定性;最后,把句子中所有词的重要度与句子中所有候选评价对象的稳定性的总和作为句子权重,并从大到小排序,再进行观点句识别,并去除相似性较大的句子,抽取前20个句子作为话题观点摘要.实验结果表明,此方法可以有效地抽取微博观点摘要.  相似文献   

8.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

9.
针对短文本的文本特点,提出一种基于词模型索引的短文本在线过滤方法.采用词模型索引存储已知类别的短文本.在线训练时,把新增加的语料增量更新到索引结构中;在线分类时,通过短文本中的词汇查询索引结构,检索出那些和当前短文本最相关的标注语料,用它们快速训练出的分类模型预测当前短文本.在真实手机短信过滤上的实验结果,说明本方法能够增强训练集的内容内聚性,使模型更加精细;集成多个精细模型的分类结果能够提高过滤性能.  相似文献   

10.
针对微博观点句识别及情感极性分类任务,提出了基于增强字向量的微博观点句情感极性分类方法.使用单字作为句子表示的基本单元,同时在单字中嵌入了该字所在的词信息以及该词的词性信息,以此训练得到字向量替代传统的词向量融合的句子表示方法.使用基于K-means的方法对向量化的句子进行情感判别,仅需要对文本进行分词和词性标注,无需额外的语言学资源.在COAE2015任务2的微博句子数据集上进行测试,取得了较好的结果.  相似文献   

11.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

12.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

13.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

14.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

15.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

16.
针对传统用户意图识别主要使用基于模板匹配或人工特征集合方法导致成本高、扩展性低的问题,提出了一种基于BERT词向量和BiGRU-Attention的混合神经网络意图识别模型。首先使用BERT预训练的词向量作为输入,通过BiGRU对问句进行特征提取,再引入Attention机制提取对句子含义有重要影响力的词的信息以及分配相应的权重,获得融合了词级权重的句子向量,并输入到softmax分类器,实现意图分类。爬取语料实验结果表明,BERT-BiGRU-Attention方法性能均优于传统的模板匹配、SVM和目前效果较好的CNN-LSTM深度学习组合模型。提出的新方法能有效提升意图识别模型的性能,提高在线健康信息服务质量、为在线健康社区问答系统提供技术支撑。  相似文献   

17.
一种面向科技文献引言的信息抽取方法   总被引:1,自引:0,他引:1  
分析了引言部分写作模型,将文本按照句子级别划分为背景知识、问题分析、工作描述三个类别。统计每个部分句子的引导词、句型表达、线索词、所处位置的特征,并构建相应规则库。在分词和词性标注基础上,利用规则匹配每个句子得出所属的类别,从而抽取出三个部分的信息。以石油勘探开发类科技文献和数据挖掘类科技文献为例,进行人工判别和本文方法抽取试验,结果表明本文方法能准确获取相应信息。  相似文献   

18.
针对目前各种基于长短期记忆网络LSTM的句子情感分类方法没有考虑词的词性信息这一问题,将词性与自注意力机制相结合,提出一种面向句子情感分类的神经网络模型PALSTM(Pos and Attention-based LSTM).首先,结合预训练词向量和词性标注工具分别给出句子中词的语义词向量和词性词向量表示,并作为LSTM的输入用于学习词在内容和词性方面的长期依赖关系,有效地弥补了一般LSTM单纯依赖预训练词向量中词的共现信息的不足;接着,利用自注意力机制学习句子中词的位置信息和权重向量,并构造句子的最终语义表示;最后由多层感知器进行分类和输出.实验结果表明,PALSTM在公开语料库Movie Reviews、Internet Movie Database和Stanford Sentiment Treebank二元分类及五元情感上的准确率均比一般的LSTM和注意力LSTM模型有一定的提升.  相似文献   

19.
提出了一种基于监督学习的目标词自动识别方法,分析并检验了多种区分目标词、框架元素和非实义词的分类特征,并在此基础上,联合使用监督学习与规则匹配方法,形成了兼顾扩展性和精确性的目标词识别系统。在FrameNet语料集的实验结果显示,融合方法的目标词识别获得了3.86%的性能提升。  相似文献   

20.
基于逻辑回归的中文在线评论有效性检测模型   总被引:1,自引:0,他引:1  
为了实现电子商务和社交网络中文在线评论有效性的自动化检测,提出了一种单一主题环境下基于逻辑回归的垃圾评论检测模型.中文在线评论有效性的检测可以归结为分类问题,结合中文在线评论的特点提取了9个特征以构建分类模型;为获取核心特征主题的相关度,采用基于关联规则的评论名词模式优化了ICTCLAS中文分词系统的主题识别,进而利用交叉语言模型获取在线评论主题相关度.实验中采取了人为标定的1 000条评论作为样本,把支持向量机分类模型作为对比进行试验,利用数据挖掘工具Weka进行计算.结果表明,采用优化评论名词模式下基于逻辑回归的垃圾评论检测模型结果的准确率达到83.54%,比支持向量机分类模型计算得到的准确率高2.10%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号