首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 264 毫秒
1.
刘炜  李明  杨合立 《甘肃科技》2011,27(22):42-45
基于前人在TDT中对语义矢量的相似性计算研究,以及本体和语法结构在文本相似性研究方面的应用成果,提出了以词频分析作为辅助手段,将新闻中的关键要素归纳为时间、空间、参与事件的主客体、行为等几个语义类;借助WordNet与本体技术计算文档特征词的相似度,并且结合文本的语法结构特点,共同应用于文本的相似度计算,并以此作为新事件检测中相似度计算的基础,提高新事件检测的准确性。  相似文献   

2.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

3.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

4.
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.  相似文献   

5.
分析了最好优先搜索策略中遇到的隧道问题,设计并实现了一种基于本体的主题爬虫系统。  相似文献   

6.
语义Web中描述逻辑和本体论日益受到关注,成为学术界的一个研究热点.首先给出了与OWL DL等价的描述逻辑SHOIN(D)的语法和语义,以及OWL DL本体知识库各模型元素的描述形式.然后介绍了OWL-API、Pellet-API、Jena-API推理机的工作原理和推理编程的核心技术,提出一种基于Pellet和Jena的叠加推理机框架.最后开发了一个OWL DL本体推理机原型,实现了本体知识库一致性、分类和可实现性推理服务.  相似文献   

7.
一种本体学习模型的设计与实现   总被引:3,自引:0,他引:3  
提出一种本体学习模型,分析了模型实现中的关键步骤.采用机器学习技术半自动地构建本体,用Bisecting K-means算法和标准的K-means算法对模型进行了测试.实验结果表明,Bisecting K-means算法产生的本体概念的层次更加精炼,时间复杂度较小,特别适合用于处理大型数据集.  相似文献   

8.
本文将知识工程中的本体论思想引入到DBS(数据库系统)教学系统的知识库建模,分析了本体结构的数学表达.我们采用protégé编写有关DBS本体,提高了概念的共享,重用模型便于机器理解,在本体应用中尝试将其应用到基于本体知识库的e-learning(电子教学)中.  相似文献   

9.
将本体表示语言OWL Lite中相关词条图形化, 以图形化结构表示本体模型, 设计并实现了一种图形化本体建模工具GOM. GOM以图形化结构表示本体, 能够把图形化结构的本体模型转换成OWL Lite语言表示形式; 也可读取OWL Lite表示的本体, 生成本体模型的图形化结构. GOM实现了图形化结构的本体模型和OWL Lite表示的本体模型间的相互转换, 提高了本体模型的可读性, 降低了本体建模的工作强度.  相似文献   

10.
 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。  相似文献   

11.
基于Web知识本体的Topic Maps研究   总被引:1,自引:0,他引:1  
针对复杂产品设计行业信息系统应用集成中存在的Web知识的检索、共享、集成和重用问题,研究了复杂产品设计行业中异构设计本体和异构应用本体的抽象特征,提出了一种基于知识本体与Web服务的主题图(Topic Maps)概念,构建了复杂产品设计行业知识本体的主题图,以复杂产品设计中的若干知识为例说明用主题图构建复杂产品知识本体库的方法.利用主题图对复杂产品设计领域的知识进行知识类型描述、信息抽取与表示,建立了复杂产品设计的本体库,实现了对知识的快速高效检索和对异构、分散知识的共享和重用.  相似文献   

12.
Design and Implementation of On-Line Hot Topic Discovery Model   总被引:1,自引:0,他引:1  
0 IntroductionStoemrees tto opviecrs tiin m nee hwasv eon g rIenatte rin metp atchta to nar ree aglr osowciinegtyi.n iWne-alsofindthat messages or topics on BBSalso haveinfluence onour real life in some way. But picking out these influencingnews and topics on the web manually should be a dauntingtask and also unreliable. Henceit would be helpful if there isanintelligent systemthat canautomatically andeffectively dis-cover hot topics embedded on the web within a period,sayweekly.Most of today…  相似文献   

13.
给出了一种针对大量新闻数据的话题检测方法.首先通过LDA(latent dirichlet allocation)模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理地体现新闻主题特征.然后改进OPTICS(ordering point to identify the cluster structure)密度聚类算法,基于新闻话题的时间延续性给出了T-OPTICS算法.该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响.改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性.基于TDT4数据集的实验表明,该方法能够快速有效地发现新闻中的话题.  相似文献   

14.
引进文本相关度这一影响因子,提出了一种基于蚁群聚类算法的突发话题检测算法,该算法结合蚁群聚类算法的优势,综合考虑文本聚类和文本相关度的影响,得到对网络突发话题检测的最优聚类效果,并对近年来网络突发话题进行实验,达到了很好的聚类速度和聚类效果,验证了算法对突发话题检测的准确性和即时性.  相似文献   

15.
基于本体粗糙集的程序代码相似度度量方法   总被引:2,自引:0,他引:2  
结合本体粗糙集理论,融合粗糙集理论分类处理能力与本体论数据描述能力,提出了一种基于本体粗糙集的个体相似度计算方法,并将其应用于程序代码相似度上。实验结果显示该方法在程序代码相似度度量上具备较好的实际效果,同时也揭示了属性度量和结构度量方法应用上的关系。  相似文献   

16.
在P2P网络结构中,提出一种基于主题划分的搜索策略(TONS),该策略基于主题将网络中的节点层次化、形成叠加网络.具体查询算法包括基于DHT的非结构化P2P网络和基于主题划分的叠加网络搜索索引结构.实验结果表明:包含相似主题的节点联系在一起,这样就能够确保将搜索局限在仅与查询主题相关的节点子集中.该策略为基于分布式哈希表的P2P系统提供了一种可满足复杂查询条件、部分匹配搜索数据要求的有效途径.  相似文献   

17.
提出了一种有关EXCEL操作题自动出题的设计方法以及实现过程,主要包括出题系统的窗体设计、功能实现策略、知识点分类设计、出题操作正确性检测以及题目文字信息自动生成策略等方面的内容.  相似文献   

18.
Aiming at the problem of merging heterogeneous semantic taxonomy emerged in Web information integration, a method of building Web classification ontology (WCO) has been proposed. A WCO that is logically consistent with the suggested upper merged ontology (SUMO) is defined, together with axioms needed to classify Web pages. WCO can be used as a foundation of merging heterogeneous semantic taxonomy, and could be used to support Web information integration and classification based Web information retrieval.  相似文献   

19.
构造领域本体所需的信息源选取方法的研究对解决本体的构造质量、构造效率等问题,以及推广与发展领域本体有着重要意义.传统的信息源文档选取方法只考虑概念因素,不能很好地解决该问题.因此,首先利用抽象方法分析了领域本体所需信息源具有的概念性、关系性和预测性等特点.然后,针对这些特点分别采用改进的VSM方法、基于本体关系距离的方法以及神经网络方法计算文档权值.最后,通过编写的软件OnMaker产生模拟数据得到概念、关系和预测3个权值,从而计算出每个文档权值,并使用与"湿地保护"相关的真实文档验证该模型,达到了较好排序选取的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号