首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 390 毫秒
1.
基于语义相似度的文本表示降维方法   总被引:2,自引:1,他引:1  
数据降维是文本表示中不可或缺的一个环节,有效的数据降维方法不仅能够减少计算量,同时有助于文本处理精度的提高.不同于传统的利用统计信息进行降维的方法,本文提出了一种基于词汇的语义相似度的文本表示的降维方法,该方法结合自然语言处理的知识,在降维环节考虑了特征词的语义信息和词性信息.实验结果表明:该方法能够有效地降低文本表示的维数,并在降维后的空间获得较高的文本处理精度,基于语义相似度的降维方法是一种适合文本处理的降维方法.  相似文献   

2.
针对文本表示模型中语义信息提取不充分的问题,提出基于点互信息的CLSVSM (Co-occurrence Latent Semantic Vector Space Model)和语义增强的CLSVSM.首先利用点互信息计算关键词间的语义相似性,建立基于点互信息的CLSVSM;其次,通过潜在语义分析对关键词权重的修正,构...  相似文献   

3.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

4.
文本表示是自然语言研究的基础问题,也是帮助我们高效处理网络上文本信息的关键.针对当前基于词或短语的文本表示模型容易丢失语义信息的问题,采用图结构的思想构造一种面向事件的文本表示模型-事件语义网络,该模型用事件触发词代替事件作为节点,以事件之间的语义关系作为边,把文本表示为节点和边构成的图.基于该模型实现了自动摘要应用,...  相似文献   

5.
在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能, 提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明, 篇章语义单元自动切分的F值能达到89.1%, 当篇章语义结构树的高度不超过6层时, 篇章语义关系标注的F值为63%。  相似文献   

6.
将文本语义分析领域中的概率潜语义分析(PLSA)模型和语义树模型进行融合, 设计一种新模型, 并将其应用在文本病历语义分析上, 较好地解决了文本病历语义分析过程中存在的“多词一义”情况, 降低了语义维度, 简化了窗口语义树的结构. 通过语义分解和语义检索实验证明了该模型在文本病历语义分析上的优势.  相似文献   

7.
一种基于加权语义相似度模型的自动问答系统   总被引:26,自引:0,他引:26  
在对比传统词频相似度模型的基础上,提出并实现了一种基于加权语义相似度模型的自动问答系统.首先,利用语义树中词语间的距离和语义树的高度来计算词语间的语义相似度,然后利用词语间的语义相似度和词语的权重进一步计算用户问题与答案库中问题间的语义相似度.基于此模型的自动问答系统能够接受用自然语言描述的问题,通过语义相似度的计算,自动地返回相关答案.实验表明,本文提出的基于语义树的加权语义相似度模型与传统的词频相似度模型相比,准确率有明显提高.  相似文献   

8.
基于HowNet构造语义场的方法   总被引:2,自引:0,他引:2  
为了能尽量消除传统语义场研究中的主观随意性,提出一种基于HowNet构造语义场的新方法,并充分利用语义场的空间特性,将词语相似度计算引入语义场用于划分语义场结构.计算实例表明 提出的构造语义场、划分语义场结构的方法,有利于计算机自动获得语义场,具有客观性和可计算性的特点,有效排除了以往构造语义场的主观随意性,可应用到各种基于语义的文本处理方法中.  相似文献   

9.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

10.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

11.
A novel image auto-annotation method is presented based on probabilistic latent semantic analysis (PLSA) model and multiple Markov random fields (MRF).A PLSA model with asymmetric modalities is first constructed to estimate the joint probability between images and semantic concepts,then a subgraph is extracted served as the corresponding structure of Markov random fields and inference over it is performed by the iterative conditional modes so as to capture the final annotation for the image.The novelty of our method mainly lies in two aspects:exploiting PLSA to estimate the joint probability between images and semantic concepts as well as multiple MRF to further explore the semantic context among keywords for accurate image annotation.To demonstrate the effectiveness of this approach,an experiment on the Corel5k dataset is conducted and its results are compared favorably with the current state-of-the-art approaches.  相似文献   

12.
基于领域本体的自动化语义标注方法的研究   总被引:1,自引:0,他引:1  
介绍了语义网,本体以及语义标注的基本概念,对现有的语义标注方法以及技术进行了说明和分析.针对目前互联网上含有大量语义信息的HTML文档,提出了一种自动化的语义标注的方法.该方法对HTML文档进行结构分析,并参照词汇数据库Hownet和领域本体对文档进行语义分析,找出文档对应的语义分类树,给文档加上语义标签.以电子消费品领域的HTML文档为实验对象,实验结果证明了该方法具有一定的可行性.  相似文献   

13.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.  相似文献   

14.
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价.  相似文献   

15.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

16.
基于排序学习的文本概念标注方法研究   总被引:1,自引:0,他引:1  
提出一种基于排序学习的方法CRM (concept ranking model), 来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注, 建立训练集合, 然后利用排序学习算法在多项特征上得到对概念排序的模型, 利用这个概念的排序模型对任意文档进行概念标注。实验表明, 相对于传统的文档概念标注方法, 此方法在各类指标上都有相当大的提高, 标注结果更加接近人类的概念标注。  相似文献   

17.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

18.
In recent years, multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas, especially for automatic image annotation, whose purpose is to provide an efficient and effective searching environment for users to query their images more easily.In this paper, a semi-supervised learning based probabilistic latent semantic analysis ( PL-SA) model for automatic image annotation is presenred.Since it' s often hard to obtain or create la-beled images in large quantities while unlabeled ones are easier to collect, a transductive support vector machine ( TSVM) is exploited to enhance the quality of the training image data.Then, differ-ent image features with different magnitudes will result in different performance for automatic image annotation.To this end, a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible.Finally, a PLSA model with asymmetric mo-dalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores.Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PL-SA for the task of automatic image annotation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号