首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

2.
文本挖掘技术综述   总被引:17,自引:0,他引:17  
文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程.对其进行深入的研究势必将极大地提高人们从海量的文本数据中提取信息的能力,具有很高的商业价值.首先介绍了文本数据挖掘的研究情况,然后给出了文本挖掘的框架,对文本挖掘中信息的抽取技术以及文本挖掘中使用的相关技术、评估方法等都作了详细的介绍,最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景.  相似文献   

3.
文章总结了数据挖掘的基本方法、文本数据挖掘的关键技术,讨论了文本挖掘的定义和文本分类的一些形式,并对文本数据的数据挖掘算法以及发展趋势进行了研究。  相似文献   

4.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。  相似文献   

5.
简要介绍了数据挖掘、Web数据挖掘及Web文本数据挖掘技术。从特征项提取、文本关联分析、文本分类、文本聚类等方面对Web文本数据挖掘技术在电子商务中的应用作了探讨,并略述了Web文本数据挖掘技术的应用现状及其发展趋势。  相似文献   

6.
文本分类是自然语言处理与理解当中重要的一个研究内容,在文本信息处理过程中有关键作用.目前深度学习已经在图像识别、机器翻译等领域取得了突破性的进展,而且它也被证明在自然语言处理任务中拥有着提取句子或文本更高层次表示的能力,也备受自然语言处理研究人员的关注.文章以基于深度学习的文本分类技术为研究背景,介绍了几种基于深度学习神经网络模型的文本分类方法,并对其进行分析.  相似文献   

7.
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。  相似文献   

8.
为了研究p53基因与其下游/靶基因的关联性,以了解p53基因表达调控网络,采用文本数据挖取方法,利用自编的Perl 5.10程序,对PubMed文献数据库中p53基因相关文献及人类基因本体数据库进行数据挖掘,并利用连锁聚类法构建p53基因表达调控网络图.结果发现,目标基因的频率分布同文本中所有基因本体的频率分布存在一定的关联性,低频基因的文本挖掘比例明显低于高频基因的文本挖掘比例.从而说明,p53基因表达调控网络中各基因的分布情况与基因频率有较大关系,而文本数据量对文本数据挖掘的准确率也有重要影响.  相似文献   

9.
本论述对低保数据的挖掘中,使用了两种挖掘算法,另外配合SQL Server 2010提供的数据挖掘功能对低保数据进行了全面的分析,介绍了OLAP技术和数据挖掘在低保数据分析中的应用.主要内容包括:分析了数据挖掘技术在低保数据分析中的应用意义;研究了关联规则、决策树算法、聚类分析在低保数据分析中的应用.这也是低保信息化工作今后重要的研究目标和发展方向.  相似文献   

10.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

11.
信息时代使得存贮大量的数据变得容易。在万维网、内联网、新闻专线以及其他地方可以利用的文件的增长趋势是压倒一切的。尽管我们可以利用的数据的数量在持续地增加,但是我们吸收和处理这些信息的能力并未能同步增加,而搜索引擎只要通过几个按键就可以获得越来越多的信息,越来越多的文件则进一步加剧了这个矛盾。文本挖掘是一个新的激动人心的领域,通过利用源自数据挖掘、机器学习、自然语言处理、信息检索以及知识管理等技术来试图解决信息超负荷的问题。文本挖掘涉及了文件收集的预处理(文本分类、信息析取、术语析取)、中间表示的存贮、分析这些中间表示的技术(例如:分布分析、集群、趋势分析、关联规则以及结果的可视化)。  相似文献   

12.
针对目前Web挖掘的传统算法执行效率低、挖掘结果相关度低的缺陷,从Web挖掘的内容方面入手,在分析基于Web语义化文本数据挖掘关联规则结构的基础上,改进传统的Apriori算法,提出面向语义化的隐含文本数据挖掘算法,仿真结果表明改进后的算法具有较高的执行效率及较好的挖掘相关度,对于面向文本的Web挖掘算法研究具有一定的借鉴意义。  相似文献   

13.
基于均值密度中心估计的k-means聚类文本挖掘方法   总被引:1,自引:1,他引:0  
文本挖掘作为数据挖掘的重要研究领域,是检索有用文本信息的重要手段。通过对K-means聚类挖掘方法的基本原理和实现步骤的分析,发现随机选择聚类中心迭代初值、奇异点问题是制约其发展的技术瓶颈,针对该方法的不足,提出了一种基于均值密度中心估计的K-means聚类文本挖掘方法,采用基于均值密度的聚类中心初值估算取代原有方法的随机选取模式,设计自适应的邻域形状选择机制,用均值密度配合阈值消除奇异点。实验结果表明,提出的方法提高了K-means聚类方法的文本挖掘性能,使得文本挖掘查准率得到很大的提高,不仅强于一般K-means均值聚类方法,且和新近流行的自组织神经网络聚类方法相比也具有一定的优势。  相似文献   

14.
隐私保护是当前数据挖掘领域中一个十分重要的研究方向,其目的是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.为了提高对隐私数据的保护程度和挖掘结果的准确性,研究了一种基于向量点积的分布式关联规则挖掘算法.此算法在分布式环境下,利用保持隐私数据挖掘的基本方法和安全两方计算协议,可以在不泄露任何隐私的基础上有效地对垂直型数据分布进行挖掘.  相似文献   

15.
网络教育资源Web挖掘研究   总被引:1,自引:0,他引:1  
针对网络教育资源建设中存在的问题,着重对网络教育资源的获取、分类和标准化描述模型进行了研究.在分析Web挖掘技术和任务分类的基础上,提出了网络教育资源的Web文本挖掘、模型及其相关算法,将数据挖掘技术应用到网络教育领域,有助于在网络上获取高品质的网络教育资源,一定程度上解决了网络教育资源获取缺乏智能的问题.  相似文献   

16.
杨斌  纪东升 《甘肃科技》2012,28(18):23-26
随着网络技术和数据库技术的成熟和发展,全球传统商务正经历一次重大变革,向电子商务全速挺进。就此学习研究了数据挖掘和商务智能的相关知识,分析了目前针对电子商务网站数据挖掘的主要研究方向Web日志挖掘,针对基于Web日志处理来获取访客行为数据所存在的不足,对数据挖掘技术在智能商务中的应用进行了分析,将实时在线挖掘与定期人工挖掘相补充的商务客户行为分析技术进行了研究。  相似文献   

17.
在建筑工程项目中,高效的对施工安全进行管理是十分重要的。工程安全事故通告记录了实际施工过程中发生事故的相关信息。但是从业人员对这种非结构化文本进行总结和分析是比较困难的。随着自然语言过程(NLP)技术的快速发展,为了有效地对这一类文本进行处理,许多研究人员已经取得了一些不错的成果。但是现阶段的一个关键问题是深度神经网络的训练需要大规模的训练数据集。并且建筑工程行业中数据来源非常有限,所以数据集对建筑工程行业来说是一个巨大的挑战。本文提出了一个基于自然语言处理的小样本训练方法。首先通过一种基于交叉组合的文本数据增广算法扩大数据集,然后以“字符”为检测单元进行汉字语义编码,使用BiLSTM-CRF模型作为检测核心对文本进行处理。最后,本文以安全事故通告为对象进行分析处理,为施工的安全管理提供了理论指导。  相似文献   

18.
陈晓金  王兵 《甘肃科技》2008,24(7):59-61
信息挖掘技术已成为WEB信息发现研究的一个重要内容,文中对数据挖掘、WEB内容挖掘和日志挖掘进行了全面系统的分析研究,这对情报信息技术的检索具有十分重要的指导意义.  相似文献   

19.
关联规则是数据挖掘领域中最重要的研究内容,能够在数据库中发现频繁模式和关联知识。对关联规则及其相关挖掘算法Apriori进行了分析,指出了Apriori算法存在的缺点。通过基于预处理的改进Apriori算法在高校教学评价中的应用,说明数据挖掘过程,分析挖掘结果,最后指出了未来的研究方向。  相似文献   

20.
Web挖掘是将数据挖掘和WWW两个领域中的多种技术和方法结合起来的热门研究课题.它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘.关联规则算法已成为数据挖掘算法中的重要课题.通过对关联规则挖掘算法进行分析,指出了该算法存在的一些问题,并提出了一种用户频繁访问模式结构.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号