首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对向量空间模型特征项正交的假设和缺乏语义的缺点,本文在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。  相似文献   

2.
词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%.  相似文献   

3.
本文对广义向量空间模型进行了改进,并利用《知网》义原提出了一种基于义原空间的文本相似度计算方法。此方法根据TF-IDF权重,将文中特征项转化为义原空间中的向量,通过求义原向量之间的夹角余弦值的方式,实现文本相似度的计算。最后进行文本聚类对比实验,结果表明,该方法可以很好地解决舆情分析中的语义漂移问题,使得网络舆情分析的效果有了较大提高。  相似文献   

4.
基于《知网》的词语相似度计算研究   总被引:2,自引:0,他引:2  
词语之间相似度的计算通常有基于统计和基于世界知识2种方法.中文词语相似度的计算,可以通过计算义原的相似度进而计算词语的相似度,在此基础之上深入分析《知网》的义原层次体系,提出了一种将义原在层次体系树上的深度和区域密度2个因素添加到义原相似度计算中的方法.通过实验发现,考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这2个因素得到结果更符合实际.  相似文献   

5.
词语之间相似度的计算广泛应用于信息检索、文本主题抽取、文本分类、机器翻译等研究领域.词语之间的相似度的计算通常有两方法,基于统计的方法和基于世界知识的方法.对于中文的词语相似度计算,有人提出一种利用《知网》计算词语相似度的方法,该方法通过计算《知网》义原的相似度进而计算词语的相似度,但是该方法在计算义原相似度时没有考虑义原在层次体系树上的深度以及区域密度.在此基础之上深入研究《知网》的义原层次体系,将义原在层次体系树上的深度和区域密度两个因素添加到义原相似度计算中.最后,实现了该计算方法并得到实验结果,将实验结果与改进前的计算方法的结果比较,发现考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这两个因素得到结果更符合实际.  相似文献   

6.
在模糊集合论框架下探索基于词语情感隶属度的情感极性分类特征表示方法。以TF-IDF为权重分别构建情感特征词语的正向、负向极性隶属度, 并以隶属度对数比作为分类特征值构建基于支持向量机的情感极性分类系统。在产品评论、NLPCC2014情感分类评测数据和IMDB英文影评等数据上的实验结果表明, 基于情感隶属度特征的系统优于基于布尔、频度和词向量等特征表示的系统, 验证了所提出的基于情感隶属度特征表示的有效性。  相似文献   

7.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

8.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

9.
提出了一种利用传统向量空间模型VSM(Vector Space Model)和词共现概念共同表示文档特征的新方法,并将该方法应用于基于平面划分的中文文本聚类中.通过实验,表明基于传统VSM和词共现概念的文本聚类方法与传统的单纯基于  相似文献   

10.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选...  相似文献   

11.
一种基于义原重合度的词语相似度计算   总被引:1,自引:0,他引:1  
通过分析知网中的义原关系,认为在同一棵树中两个相等距离的义原,公共节点对相似度大小起着决定性作用;距离根节点越远,分类越细致,描述的信息越详细;它们的相似度也就越大.提出了一种基于知网的相似度的计算方法,定义了知网义原间的相似度公式.实验表明,利用本文方法计算词语相似度,所得结果在一定程度上更加与人的直观相符.  相似文献   

12.
一种改进的词汇语义极性分析算法*   总被引:1,自引:1,他引:0  
词汇极性分析在自然语言处理等多个领域发挥着重要的作用。针对现有汉语词汇极性分析对词汇的义原考虑的不够全面,使得极性分析存在不准确的问题,提出一种更有效的词汇语义倾向性计算方法。首先找准一组褒贬中性词库,进而提取出待测词与词库中基准词词汇的极性义原、词性、其他义原,计算相应的相似度;并分别给出合适的权重值。由此计算出待测词与基准词的相似度,最后判断待测词的语义极性。实验表明该算法可以进一步的提高语义极性倾向判别准确率。  相似文献   

13.
提出一种基于词模式的上下位关系分类方法, 可以有效地缓解传统的基于模式的分类方法存在的稀疏问题, 提高了关系分类的召回率。进一步地, 通过词模式嵌入, 将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性, 标注一个包含12000个汉语词语对的数据集。实验结果表明, 该词模式嵌入方法是有效的, F1值可以达到95.36%。  相似文献   

14.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

15.
构建一种基于融合条目词嵌入和注意力机制的深度学习模型, 可以充分利用电子病案中的多种非结构化文本数据, 对病案首页的主要诊断进行自动ICD编码。该模型首先对含有病案条目的文本进行融合条目的词嵌入, 并通过关键词注意力来丰富词级别的类别表示; 然后利用词语注意力来突出重点词语的作用, 增强文本表示; 最后通过全连接神经网络分类器进行分类, 输出ICD编码。通过在中文电子病案数据集上的消融实验, 验证了融合条目词嵌入、关键词注意力和词语注意力的有效性; 与多个基准模型相比, 所建模型在对81 种疾病的分类中取得最好的分类效果, 可以有效地提高自动ICD编码的质量。  相似文献   

16.
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性.  相似文献   

17.
以提高洪水资源利用率为目标,研究利用实时水雨工情及短期雨洪预报等综合信息的汛期库水位实时动态控制方法,即改进的预蓄预泄法.应用实例表明,在不降低水库上下游防洪标准的前提条件下,可使桓仁水库及梯级库群的发电效益明显增加.该综合信息的汛期库水位实时动态控制方法,对北方水资源短缺地区调节性能较高的大型水库(水电站)汛期实时调度,有较好的借鉴意义.  相似文献   

18.
针对当前中文词嵌入模型无法较好地建模汉字字形结构的语义信息,提出了一种改进的中文词嵌入模型.该模型基于词、字和部件(五笔编码)等粒度进行联合学习,通过结合部件、字和词来构造词嵌入,使得该模型可以有效学习汉字字形结构所蕴含的语义信息,在一定程度上提升了中文词嵌入的质量.  相似文献   

19.
提出一个基于表示学习的文本情感分析模型C&W-SP。首先基于C&W模型的词表示改进训练模型, 实现在词表示训练过程中融入情感信息和词性信息的不同模型设计; 然后利用NLP&CC’2013中的评测数据集, 进行多种模型的实验对比。实验结果表明, 融入情感信息和词性信息的C&W-SP模型性能效果最优, 验证了所提方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号