首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
文本内容主题的识别方法   总被引:4,自引:2,他引:4  
提出了一种基于知识的内容主题识别方法,其中采用基于统计和规则的技术进行主题特征识别,利用集聚公式进行主题特征集聚分析·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·实验结果显示主题识别平均正确率为70%·  相似文献   

2.
新兴主题识别是科技研究领域识别新兴技术的重要方式,高效精准地识别新兴主题是早期辨识新兴技术研究方向的前提.提出一种基于LDA模型的新兴主题识别与趋势预测方法,通过LDA模型提取科技文献中的研究主题,构建主题强度、主题新颖度和复合主题关注度的指标体系识别新兴主题,采用Prophet模型预测新兴主题的主题强度,探测未来发展趋势.以智慧农业领域最近14年的科研文献为数据集,对提出的识别和探测方法进行验证,识别出了5个新兴主题,并预测了未来3年的发展趋势,同时验证所提方法的有效性.  相似文献   

3.
时间识别是自然语言处理中极其重要的课题。事件中与主题相关的时间信息体现了事件在时间维度的主题特征。当前面向事件的时间识别大多是基于句子或短语的,并采用静态时间值机制。本文提出了一个面向主题事件的时间识别模型。该模型采用参考时间动态选择机制对时间表达式规范化。结合事件抽取和浅层语义分析,将浅层语义分析结果和时间表达式进行映射,将基于句子或短语的时间识别转化为基于篇章的时间识别,从而识别主题事件片段的时间。实验表明所提出的方法使主题事件片段的时间识别的性能提高了9.6%。  相似文献   

4.
为了解决OLDA模型中的主题混合和新主题不能及时发现的问题,基于OLDA模型提出一种改进的在线LDA模型(improved online LDA,IOLDA)。该模型根据主题强度为每个主题设置不同的遗传度,提出一种新的主题强度度量方法,根据文档-主题分布的集中程度为文档设置不同的权值,该方法可以有效降低宽泛主题的强度得分;利用模型主题对齐的特点,采用Jensen-Shannon距离横向计算话题间的关联。实验结果表明:本文提出的方法能够有效地在线分析主题的演化。  相似文献   

5.
郑国忠 《科技信息》2008,(30):73-74
随着互连网快速发展,内容检索是一块重要的资源,也是互连网发展的重要一项技术,如何设计出高质量的信息内容识别和检索机制是我们研究的重要方向。本文主要通过内容主题、事件主题、信息粒度、识别方法和模型构建等多个方面进行论述。  相似文献   

6.
一种基于主题的文档检索模型   总被引:2,自引:1,他引:1  
现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度.  相似文献   

7.
基于工业机器人专利数据中的德温特手工代码,从频次强度与概念强度两方面构建高频词关联矩阵,结合社会网络分析方法,分析其各个时期阶段的技术主题结构演化。结果发现:工业机器人领域技术主题可以划分为3个阶段时期,其结构显现出分散到集聚再到分散的变化;3个阶段时期的技术主题产生了变化但仍存在较大相似性,其中有6个完整德温特手工代码所表征的技术主题是3个阶段时期的共性技术主题,应时刻引起关注。  相似文献   

8.
如何通过有效的数据挖掘对互联网教育平台中的课程主题进行挖掘、聚类是当前互联网教育亟待解决的问题之一。实验基于文本信息对某互联网教育平台的1 472门课程体系的主题分布及类别进行了分析。采集了某平台1 472门课程的描述信息,进而通过自建词典和停用词库对文本进行切词分词,并通过TF-IDF对词频权重进行处理。利用LDA主题模型对课程的主题分布进行识别,发现了230个主题,并得到了每门课程在这230个主题下的文档–主题分布以及主题–词分布。进一步基于分布相似性函数对课程进行层次聚类,发现基于不同抽象层次主题的课程相互关联。最后将16个主题信息进行了可视化,这些主题分别从内容和数量两个角度反映出了课程的主题特征以及课程的聚合分布情况。  相似文献   

9.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

10.
刘劼 《科技咨询导报》2009,(15):193-193
数字图书馆中的文档检索主要包括三个主要部分,文档存储。查询格式以及相似性计算。现存检索方法的主要差别即在于相似性计算。本文简要介绍了基于识别的检索技术和不基于识别的检索技术,对数字图书馆中文挡图像检索系统的建设具有一定的意义。  相似文献   

11.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

12.
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings.  相似文献   

13.
针对基于元数据或传统主题图的知识组织模式没有实现知识的多层次多粒度表示,以及知识融合过程中相似性算法准确性不高而影响融合质量的问题,结合全信息理论与扩展主题图结构特点及语义信息,提出了面向多源知识融合的扩展主题图相似性算法(ETMSC)和阈值选取的相关性、层次对应和实验确定三原则.该算法综合了语法、语义和语用的相似性,扩展了主题图元素间组成结构上的相似性,同时充分考虑了涵义及所处语境的相似性.主题图相似性的判别准则与阈值有关,阈值的确定与数据集相关.实验结果表明,ETMSC算法与单纯基于语法或语义的相似性算法相比,准确性提高了9.2%~11.1%.  相似文献   

14.
京津冀协同发展是当前各学科领域共同关注的热点话题。为深入了解京津冀协同发展话题的研究趋势,以2009~2019年中国知网收录的14 235篇与京津冀协同发展相关的期刊论文为研究对象,采用概率主题模型方法,提出以困惑度、主题平均相似度为指标确定最优主题数,结合文献发表时间挖掘期刊论文潜在主题,从主题强度和主题相似度等多个角度分析主题演化趋势。通过数据分析,挖掘10个潜在主题,生成主题强度年度变化趋势,构建主题内容演化路径,分析主题演化规律。以期为深刻认识京津冀协同发展和科学决策提供理论依据。  相似文献   

15.
层次化话题发现与跟踪方法及系统实现   总被引:2,自引:0,他引:2  
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。  相似文献   

16.
Design and Implementation of On-Line Hot Topic Discovery Model   总被引:1,自引:0,他引:1  
0 IntroductionStoemrees tto opviecrs tiin m nee hwasv eon g rIenatte rin metp atchta to nar ree aglr osowciinegtyi.n iWne-alsofindthat messages or topics on BBSalso haveinfluence onour real life in some way. But picking out these influencingnews and topics on the web manually should be a dauntingtask and also unreliable. Henceit would be helpful if there isanintelligent systemthat canautomatically andeffectively dis-cover hot topics embedded on the web within a period,sayweekly.Most of today…  相似文献   

17.
一种基于扩展主题图的分布式知识融合   总被引:2,自引:0,他引:2  
针对知识融合的效率问题, 扩展了传统主题图的组织结构, 并在此基础上构建一种基于扩展主题图的分布式知识融合体系结构, 提出一种基于全信息的主题图相似度算法, 设计了扩展主题图融合的规则和算法, 充分考虑了比较元素的涵义和所处语境, 提高了相似度算法的准确性, 实现了分布式环境下知识的有效融合.  相似文献   

18.
基于LDA话题关联的话题演化   总被引:2,自引:0,他引:2  
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.  相似文献   

19.
基于实体识别的在线主题检测方法   总被引:2,自引:0,他引:2  
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号