首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出一种结合AB-SMOTE和C-SVM的中文倾向性句子识别算法.该算法先利用AB-SMOTE方法合成新样本,降低不平衡程度的同时也使数据具有更好的代表性,再对不同类别赋予不同的惩罚系数形成代价敏感的C-SVM分类器,充分结合了数据层和学习算法层方法的优点.实验结果表明,对酒店、笔记本电脑和书籍3个不平衡语料处理时,本算法能较有效解决不平衡问题,提高倾向性句子的识别精度.  相似文献   

2.
中文句子倾向性分析   总被引:1,自引:0,他引:1       下载免费PDF全文
针对句子的倾向性进行判断,采用SentiWordNet构建中文倾向性词表,通过剔除停用词等降低句子向量的维数,以此来提高句子向量化速度,然后利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序.实验结果表明,构建的识别系统在一定程度上能有效识别倾向性句子.  相似文献   

3.
遮挡一直是人耳识别的典型难题,严重阻碍该生物特征识别技术的快速发展.非负矩阵因子NMF(non-negative matrix factorization)是一种线性子空间特征提取方法,近年来在识别中获得了比较成功的应用.将NMF的两种方法NMFSE(NMF square error)和NMFDIV(NMF with divergence)以及在此基础上进行改进的LNMF(local NMF)、NNSC(non-negative sparse coding)、SNMF(sparse NMF)和NMFSC(NMF with sparseness constraints)等方法应用于遮挡情况下的人耳识别,并通过实验验证了NMF方法在遮挡条件下人耳识别的可行性与有效性.  相似文献   

4.
基于NMF的潜在语义模型在文本检索中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
提出基于NMF潜在语义模型的中文文本信息检索方法。此方法利用NMF提取潜在语义,然后将文本表示成潜在语义的组合,并通过反馈得到的同义词、多义词进行查询扩展,提高检索查准率和查全率,从而解决了简单匹配方法中词的同义与多义带来的问题。与基于SVD潜在语义模型的中文文本信息检索方法相比,NMF方法具有查准率和查全率高、存储开销少、计算速度快、可解释性强等特点。  相似文献   

5.
针对中文微博句子倾向性分类问题,在充分降低由于情感词典的扩充工作带来系统开销的基础上,抽取了中文微博句子中标点符号、情感词权重、词汇级和句法级等新型平面和结构化特征,探索了有效的特征选择方法.在基准COAE和NLP&CC中文微博语料上进行双向交叉和独立实验,并研究了有效的不平衡性语料的处理方法.实验结果表明:采用该文提出的特征后,中文微博句子倾向性分类的性能得到显著提升.  相似文献   

6.
针对中文的语料,采用基于条件随机场的方法,在词、词性特征的基础上结合最近名词、句法依赖关系和句子倾向性等特征,分析不同特征对于评价对象抽取的影响.实验结果表明,结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效.  相似文献   

7.
研究第五届中文倾向性分析评测的任务3和任务4,即微博的倾向性分析和评价对象识别.网络新词多,句子格式不规范,语言简短且包含的情感内容多都是微博分析的难点.针对此问题,提出对中文微博的过滤算法.在词语倾向性识别中,构建基础观点词和网络观点词等词典,然后利用知网识别所有词语的倾向性.在评价对象的抽取方面,提出一种面向微博的基于统计和规则相结合的评价对象抽取方法,特别是提出利用句法分析和评价词、评价对象互信息的联合抽取算法.实验表明,该算法可以提升评价对象抽取的效果.  相似文献   

8.
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。  相似文献   

9.
在普通非负矩阵分解(NMF)方法基础上提出了3个二进制约束非负矩阵分解(3bNMF)算法,对分解矩阵和恢复矩阵元素增加了二进制数的约束,从而更适合对二进制数据进行处理.分别给出了3bNMF算法在数字矩阵分解和有噪声情况下汉字偏旁部首提取中的应用实例,并与普通NMF方法所处理的结果进行了比较.  相似文献   

10.
语义相似计算是自然语言处理领域一个常见问题,现有的基于深度学习的语义相似计算模型大多数是通过卷积网络或者长短时记忆模型来提取语义特征,但是这种语义特征的提取方式存在语义信息丢失的问题。提出两点改进传统深度学习模型在提取语义特征时的语义丢失现象。首先是改进注意力相互加权模型。基于相互加权方式做出改进,使用多个加权权重矩阵加权语义,同时提出新的正则项计算方法。其次在语义相似计算模型中引入强化学习的方法对文本进行自动分组处理,在语义相似计算领域最常用的Siamese Network模型上使用强化学习算法,改善长短时记忆模型在提取句子的语义时所面临的语义丢失现象。通过实验验证,改进的方法处理中文句子有不错的效果。  相似文献   

11.
基于非负矩阵分解的隐含语义图像检索   总被引:1,自引:0,他引:1  
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的.  相似文献   

12.
提出一种结合LDA及语义相似度的商品评论情感分类方法。该方法首先使用LDA对商品语料库建模,获取文档-主题矩阵;人工选择k对褒义词、贬义词,基于HowNet语义相似度计算主题(评价对象+观点内容)与各个褒义词和贬义词的相似度,达到对观点词极性判断,计算文本观点词情感极性的加权和作为文本的情感极性。实验表明,与基于向量空间的SVM分类方法相比,该情感分类方法在分类指标上表现更好。  相似文献   

13.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

14.
Nonnegative matrix factorization (NMF) is a method to get parts based features of information and form the typical profiles. But the basis vectors NMF gets are not orthogonal so that parts-based features of information are usually redundancy. In this paper, we propose two different approaches based on localized non negative matrix factorization (LNMF) to obtain the typical user session profiles and typical semantic profiles of junk mails, The LNMF get basis vectors as orthogonal as possible so that it can get accurate profiles. The experiments show that the approach based on LNMF can obtain better profiles than the approach based on NMF.  相似文献   

15.
为了更好地保留源图像边缘信息、提高抗噪能力,提出一种基于SUSAN和加权非负矩阵分解的图像融合方法.运用SUSAN对像素点进行分类,根据分类结果构建加权矩阵,最后运用加权非负矩阵分解方法实现图像融合.实验证明,该方法能有效地保留边缘信息且抗噪性较好.  相似文献   

16.
提出与评价对象抽取相关的7类语义特征: 评价触发词、评价消解词、评价对象绝缘词、后指动词、前指动词、心理动词和指向定语的评价名词, 以及与极性判定相关的5类语义特征: 褒义性名词、贬义性名词、语义偏移型名词、度量衡形容词和语义构式。从引入语义特征的必要性以及如何使用这些特征两方面进行阐述。实验证明, 语义特征的引入有助于提高评价对象抽取及极性判断的准确率。  相似文献   

17.
本文结合网络虚拟社会中舆情检索的实际需求,提出了一种面向博客群的主题倾向性分析模型.针对博客主题评论篇幅长短不一的结构特点,模型采用不同的文本倾向性处理方法:对于较长篇幅评论文本,分别统计目标评论中赞同、反对字符的倾向字符权重及其分布密度;对于拥有少量文字的主题评论,通过计算评论中字符倾向权重之和,实现评论倾向性评估.实验中通过构建面向“网络文化”的博客主题测试集,对模型的主题评论倾向性计算方法以及语义检索能力进行验证评估.实验结果表明模型具有较好的文本倾向性识别能力.  相似文献   

18.
借鉴流行病学仓室建模的思想,根据人们对负面舆情了解情况和态度,将人们划为4类:易感类、潜伏类、感染类、移出类.通过对负面舆情的传播的分析,确定了4者之间的转移关系,建立微分方程模型,同时提出了易感类转移为感染类的概率应该随着时间由大变小,而感染类转化为移出类的概率应该随着时间由小变大,确定其概率函数,并由此得出了负面舆情的控制策略.  相似文献   

19.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

20.
本文对广义向量空间模型进行了改进,并利用《知网》义原提出了一种基于义原空间的文本相似度计算方法。此方法根据TF-IDF权重,将文中特征项转化为义原空间中的向量,通过求义原向量之间的夹角余弦值的方式,实现文本相似度的计算。最后进行文本聚类对比实验,结果表明,该方法可以很好地解决舆情分析中的语义漂移问题,使得网络舆情分析的效果有了较大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号