首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 12 毫秒
1.
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。  相似文献   

2.
为揭示并对比统计学领域CSSCI期刊创办至今的刊文发展趋势与热门主题,该研究收集从1985-2020年CNKI数据库收录的统计学CSSCI期刊41 495篇文献作为研究对象,运用LDA主题模型及共现网络模型对热门主题及主流研究方法等指标进行热门主题与知识图谱分析,并绘制相关知识图谱.研究表明,近5年来在研究方法上大量采用结构方程模型和分位数回归法,而大数据则成为近年来新增的高频词.LDA模型能够较为精确地挖掘统计学领域的热门主题和研究方法,为科研人员和决策者开展前沿科学活动提供重要支持.  相似文献   

3.
在构建中文基础教育知识图谱过程中,使用远程监督的方法能够有效解决训练语料匮乏的问题,同时使用神经网络模型能够提升构建过程中关系抽取的准确率.为了缓解远程监督中引入的错误标签带来的影响,模型通过双向门限循环单元(bidirectional gated recurrent unit)获取双向上下文中的语义信息,同时引入句子...  相似文献   

4.
为实现电力变压器运维知识的有效沉淀,以运维文本为研究对象,提出一种融合规则的电力变压器运维知识图谱深度构建框架.首先根据专家指导自顶向下构建知识图谱概念层;然后融合规则和深度神经网络模型抽取知识,构建知识图谱的数据层.针对运维文本中的实体界限模糊和上下文信息利用不充分问题,提出一种通过扩展上下文信息和BERT(bidirectional encoder representations from transformers)获取扩展Span标签的方法,用于实体和关系抽取.算例分析表明,该方法在电力变压器运维数据集中知识抽取效果良好.  相似文献   

5.
知识图谱也被称为科学知识图谱,可以揭示复杂知识领域的动态发展规律.基于自然语言处理技术从海量Web数据中抽取命名实体及命名实体关系,从而构建企业知识图谱.设计并实现了一种基于知识图谱的可视化分析方法,在网络图中融入集合可视化,从全局和细节两个层次进行可视分析,构建了企业知识图谱可视化分析平台.通过案例分析表明,该可视化研究方法满足用户对相关数据的可视化分析.  相似文献   

6.
提出基于知识图谱和数据驱动的电影分类推荐方法;首先基于数据驱动爬取互联网中的电影数据并进行去重及清洗,然后采用知识图谱将电影数据与用户情感偏好数据进行关联,对海量的数据信息进行中心聚类,并在数据聚类的过程中计算投影向量得到相似度矩阵,最后查询相似度值并计算分类推荐指标权重得到最终的电影推荐清单.  相似文献   

7.
针对现有突发事件演化关系抽取方法仅利用了句子本身的信息而忽略了背景知识的问题,引入概念图谱进行特征拓展,以获得更多的语义信息来改善演化关系抽取效果。首先根据概念图谱构建突发事件语义网络,通过特征迭代选择算法获得演化因子的概念特征,然后联合概念特征与突发事件文本作为双向门控循环单元(BiGRU)模型的输入进行特征学习,并利用注意力(Attention)机制对输出的特征信息序列实施加权变换,最后将学习到的特征序列输入到分类器进行演化关系分类。实验结果表明,所提出的基于概念图谱与BiGRU-Att模型的方法相比于现有方法,在准确率、召回率和F_1值等评价指标上均有提升。  相似文献   

8.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

9.
为解决在线学习平台中知识表现离散、系统性不高和知识模型适用性差等问题,提出基于知识图谱的知识模型构建,再利用 FP-Growth 数据挖掘算法进行关联规则挖掘,实现知识模型的动态更新。通过实践证明,知识图谱可有效改善知识模型的系统性,FP-Growth 算法充分考虑了学生因素对知识模型的影响,提高了模型的适用性。  相似文献   

10.
11.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

12.
随着Web 2.0技术的发展,社会网络为人们进行交流和协作提供了新的便捷平台。面对网络信息过载问题,在海量的信息中找到自己感兴趣并信任的领域专家,参考专家意见做抉择,变得十分困难。本文提出一种基于信任的LDA(latent Dirichlet allocation)主题模型社会网络中领域专家推荐方法,实现了基于用户信任的领域专家个性化推荐。该方法以LDA主题模型为基础,综合考虑社会网络结构、用户间的信任关系及社会影响力,弥补了传统专家推荐方法只考虑专家特征,导致专家推荐精度不高及推荐结果模式化的不足。最后通过实验验证了该方法的可行性和有效性。  相似文献   

13.
企业知识图谱是针对金融领域为描述企业间商业往来关系而构建的一类垂直领域知识库.尽管垂直领域知识图谱在领域覆盖的广度上不如开放知识图谱,但是它对知识准确率的要求却远远高于开放知识图谱,因此虽然近些年开放知识图谱取得了很大的进展,但在垂直领域中却并未得到深入应用,尤其是商业领域,其对企业知识图谱提出了很大的需求.针对企业知识图谱目前在关系抽取效果上的局限性,在分析了实体关系抽取研究现状的基础上,提出了一种基于分类的中文实体关系抽取方法.该方法使用最大熵模型,通过对上市公司公报数据进行实验分析,从而寻找到该关系抽取的最优特征模板,并使在企业公报这一数据集上的准确率普遍达到85%以上.  相似文献   

14.
利用知识图谱技术整合历史文化资源,对历史文化的传承和保护具有现实意义.针对现存历史文化领域问答系统构建中存在用户问句识别精准度不高、深层语义匹配不准确的问题,提出了一种知识嵌入的语言表示模型(K-ERNIE-LSTM).该模型先通过构建历史文化领域知识图谱,将其中三元组作为领域知识注入到句子中;而后利用ERNIE预训练模型获取文本的语义信息,再用LSTM提取文本特征;最后使用softmax函数获得最终的标签分类结果.实验结果表明,该模型在文化领域数据集上具有80.20%的准确率、82.68%的召回率和81.42%的F1得分,性能较其他方法得到明显提升.  相似文献   

15.
以产科专业叙词表、临床路径和诊疗规范等为数据来源构建了中文产科知识图谱(Chinese obstetric knowledge graph, COKG)。以产科疾病为核心,依据术语标准及已有主题词表,确立了概念分类体系及关系描述体系,形成了COKG模式层;在Bi-LSTM-CRF和PCNN模型的基础上,通过医学专家的指导对多来源的200余万字非结构化文本进行人工校对,并对多源数据进行知识融合,形成了COKG数据层。所构建的COKG包括2 343种疾病、15 249个实体关系,可以为医疗问答系统和智能辅助诊疗等应用提供结构化的知识支持。  相似文献   

16.
17.
铁路信号设备是保障行车安全、提高运输效率的核心装备,加强信号设备智能运维是降低铁路运行风险的必要基础保障。目前,针对我国基于建筑信息模型(BIM)的智能运维平台存在不能精准映射各设备的行为规律和相互之间互馈作用的机理,须同时依靠经验知识进行推断等问题。首先构建了铁路设备运维文本知识图谱;其次构建卷积神经网络(CNN)-团组图卷积神经网络(cgGCN)模型对BIM图像模态数据进行处理,完成对20种铁路信号设备零件图信息的标注,实验结果表明模型准确率达到95.38%,精确率和召回率的调和平均值F1达到95.58%;最后将BIM图像信息以视觉模态嵌入运维文本知识图谱,利用Neo4j图数据库实现多模态知识图谱可视化展示,从而精准映射各信号设备相互之间互馈作用的机理,为后续现场铁路运维人员实施安全管理和运维决策提供在线服务和指导。  相似文献   

18.
提出了基于LDA(Latent Dirichlet Allocation)主题模型的Web文本分类方法,利用MCMC方法中的Gibbs抽样获得模型参数从而获取词汇的概率分布,使隐藏于WEB文本内的不同主题与WEB文本字词建立关系。将LDA算法应用于WEB文本分类识别领域,在实验中与k均值聚类和贝叶斯网络方法进行了对比,其结果表明LDA与其他同类算法相比具有一定的优势。  相似文献   

19.
本文以茂名市旅游产品为对象采集了样本数据,并运用TF-IDF算法和LDA主题模型求得样本数据的样本相似度,进行文本分类和数据预处理;运用TextRank算法提取了微信公众号等平台有关旅游产品的数据;采用关联性规则Apriori算法对提取的数据进行关联度分析,进而明确旅游产品之间的联系。  相似文献   

20.
针对数控装备数据采集效率低、结构不完善、格式不统一的问题,提出了一种基于知识图谱的数控装备信息模型的建模方法.首先确定建模范围并获取数据源,其次对非结构化数据进行信息抽取形成领域元模型,再将元模型与第三方知识进行数据融合形成领域模型,然后对其进行知识加工生成知识图谱,最后通过映射与抽象生成信息模型并实例化生成JSON文件.搭建具有身份认证和访问控制功能的数控装备工业互联通信协议(NC-Link)客户端和服务器,对信息模型、数据的传输效率和安全性进行测试,实验结果证明该信息模型能够完成多源异构数据毫秒级的采集,且提高了数据采集的安全性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号