首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于OpenMP技术提出并行置信传播算法,在多核服务器上通过共享内存的方式快速推断潜在狄利克雷分布(LDA)主题模型的参数,建立文本中不同主题与文本表面单词之间的联系.利用Enron和Wikipedia数据集,通过3组实验对比了传统吉布斯算法和并行置信传播算法的运行效果.结果表明,并行置信传播算法能够快速推断LDA模型参数,高效处理大规模数据,比传统吉布斯采样算法具有更高的精度.  相似文献   

2.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

3.
主题模型可以学习用户和推荐项目的潜在主题分布。提出了一种基于双向主题模型的协同过滤算法,分别学习用户和推荐项目的潜在主题分布用于推荐服务。在真实的数据集上实验验证,该算法的性能均优于几个经典的协同过滤算法。  相似文献   

4.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

5.
通过分析自动驾驶技术领域专利的引用信息和文本信息,结合社区发现、LDA(latent Dirichlet allocation)主题建模、主路径分析方法,针对自动驾驶专利数据集的特点建立分析框架进行自动驾驶技术演化分析。应用上述方法可以有效识别自动驾驶技术领域的主题分布,弥补传统单一方法不能反映技术全貌的缺陷。我国需重点突破多源传感器融合感知、复杂环境智能决策控制、车路协同、人机交互等关键技术;在测试和自动泊车技术上处于技术领先;在定位、高精度地图、执行机构、运动控制、硬件计算平台技术上处于技术跟随。  相似文献   

6.
针对传统邮件分类模型中较少对邮件主题进行描述和分析的问题,提出一种代价敏感多主题学习的邮件分类算法,用以实现垃圾邮件过滤.首先,基于LDA(潜在狄利克雷分布)对邮件的多个主题进行提取,对邮件语义进行描述;其次,利用CS-SVM(代价敏感支持向量机)对邮件进行代价敏感学习,实现对不同类别邮件的惩罚;最后,结合MI-SVM(多示例支持向量机)进行代价敏感的多主题学习,实现邮件分类.实验采用四组ling-spam处理数据集.实验结果证明:该分类算法较比传统邮件分类算法,可以取得更高的准确性、特异性与敏感性.  相似文献   

7.
自动文摘的目的是借由计算机技术自动从原始文献中提取文摘,针对这一问题,提出了一种新的基于潜在语义分析(Latent Semantic Analysis,LSA)的中文自动摘要方法,该方法利用奇异值分解(Singular Value Decomposition,SVD)来获得文章的语义结构,以句子和全文的相似度为依据抽取一组句子作为文章的摘要,提升了自动摘要的效率和精度,并重点介绍了该方法的基本思想、特点以及实现方法。实验结果表明,该方法在实践中取得了预期的效果。  相似文献   

8.
随着互联网的快速发展,网络舆情对社会的影响与日俱增.对互联网上网民产生的海量文本内容进行快速准确的分析,以及在此基础上捕捉网络舆情,并对其发展趋势进行预测,对社会经济发展无疑具有重要意义.为此,本文研究了论坛中帖子的热度预测问题,针对现有算法在度量帖子内容相似性时仅仅考虑字面上的相似性,未涉及语义层面,并且未考虑发帖人的特定喜好等不足,提出了LDA(潜在狄利克雷分配)与KNN(K近邻)相结合的热度预测算法,该算法利用LDA挖掘帖子表面文本隐藏的主题信息和用户感兴趣的主题信息,在概念层面上度量帖子之间的相似性,在此基础上基于KNN算法对帖子的热度进行预测.在两组数据集的实验结果表明,所提出的算法在预测准确率方面明显优于相关工作中的方法,平均准确率分别提高了4.34%和2.52%.  相似文献   

9.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

10.
一种基于潜在语义结构的文本分类模型   总被引:19,自引:1,他引:19  
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构.  相似文献   

11.
基于本体的文档语义标注改进方法   总被引:2,自引:0,他引:2  
在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签一文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.卖验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.  相似文献   

12.
一种基于加权语义相似度模型的自动问答系统   总被引:26,自引:0,他引:26  
在对比传统词频相似度模型的基础上,提出并实现了一种基于加权语义相似度模型的自动问答系统.首先,利用语义树中词语间的距离和语义树的高度来计算词语间的语义相似度,然后利用词语间的语义相似度和词语的权重进一步计算用户问题与答案库中问题间的语义相似度.基于此模型的自动问答系统能够接受用自然语言描述的问题,通过语义相似度的计算,自动地返回相关答案.实验表明,本文提出的基于语义树的加权语义相似度模型与传统的词频相似度模型相比,准确率有明显提高.  相似文献   

13.
In recent years, multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas, especially for automatic image annotation, whose purpose is to provide an efficient and effective searching environment for users to query their images more easily.In this paper, a semi-supervised learning based probabilistic latent semantic analysis ( PL-SA) model for automatic image annotation is presenred.Since it' s often hard to obtain or create la-beled images in large quantities while unlabeled ones are easier to collect, a transductive support vector machine ( TSVM) is exploited to enhance the quality of the training image data.Then, differ-ent image features with different magnitudes will result in different performance for automatic image annotation.To this end, a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible.Finally, a PLSA model with asymmetric mo-dalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores.Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PL-SA for the task of automatic image annotation.  相似文献   

14.
基于隐Markov模型的汉语词类自动标注的实验研究   总被引:3,自引:0,他引:3  
汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。  相似文献   

15.
A novel image auto-annotation method is presented based on probabilistic latent semantic analysis (PLSA) model and multiple Markov random fields (MRF).A PLSA model with asymmetric modalities is first constructed to estimate the joint probability between images and semantic concepts,then a subgraph is extracted served as the corresponding structure of Markov random fields and inference over it is performed by the iterative conditional modes so as to capture the final annotation for the image.The novelty of our method mainly lies in two aspects:exploiting PLSA to estimate the joint probability between images and semantic concepts as well as multiple MRF to further explore the semantic context among keywords for accurate image annotation.To demonstrate the effectiveness of this approach,an experiment on the Corel5k dataset is conducted and its results are compared favorably with the current state-of-the-art approaches.  相似文献   

16.
This paper presents a new method for refining image annotation by integrating probabilistic latent semantic analysis(PLSA) with conditional random field(CRF).First a PLSA model with asymmetric modalities is constructed to predict a candidate set of annotations with confidence scores,and then model semantic relationship among the candidate annotations by leveraging conditional random field.In CRF,the confidence scores generated by the PLSA model and the Flickr distance between pairwise candidate annotations are considered as local evidences and contextual potentials respectively.The novelty of our method mainly lies in two aspects:exploiting PLSA to predict a candidate set of annotations with confidence scores as well as CRF to further explore the semantic context among candidate annotations for precise image annotation.To demonstrate the effectiveness of the method proposed in this paper,an experiment is conducted on the standard Corel dataset and its results are compared favorably with several state-of-the-art approaches.  相似文献   

17.
为了对微环境监测平台上的传感器所捕获的异构、大量、连续的数据流进行语义注释,从而及时地根据语义上下文推理出新的或隐含的知识,以实现微环境监测平台的实时监测,对SASML映射语言和SDRM算法进行了研究和改进,设计了S-SASML映射语言和SDS2R算法,用于将传感器原始数据流转换为符合SOSA/SSN本体的RDF数据流;并利用线程池技术实现方法的高并发处理,提高了方法的实时性能。改进后的映射语言和算法实现了微环境监测平台对连续、大量的数据流的实时语义注释,不仅解决了动态传感器数据流语义注释的问题,而且避免了高频数据流导致的系统过载现象,具有稳定高效的处理能力,基本满足了微环境监测平台的需求,具有一定的应用价值。  相似文献   

18.
利用语法树和算符优先法构造的自动计算系统   总被引:5,自引:0,他引:5  
针对编程过程中常见的公式更改及扩充情况,设计了一种基于语法树和算符优先法的计算系统,可提供公式输入、界面维护以及动态计算的完整功能.  相似文献   

19.
时间识别是自然语言处理中极其重要的课题。事件中与主题相关的时间信息体现了事件在时间维度的主题特征。当前面向事件的时间识别大多是基于句子或短语的,并采用静态时间值机制。本文提出了一个面向主题事件的时间识别模型。该模型采用参考时间动态选择机制对时间表达式规范化。结合事件抽取和浅层语义分析,将浅层语义分析结果和时间表达式进行映射,将基于句子或短语的时间识别转化为基于篇章的时间识别,从而识别主题事件片段的时间。实验表明所提出的方法使主题事件片段的时间识别的性能提高了9.6%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号