共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
陈波 《大众科学.科学研究与实践》2007,(17)
文章总结了数据挖掘的基本方法、文本数据挖掘的关键技术,讨论了文本挖掘的定义和文本分类的一些形式,并对文本数据的数据挖掘算法以及发展趋势进行了研究。 相似文献
4.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。 相似文献
5.
简要介绍了数据挖掘、Web数据挖掘及Web文本数据挖掘技术。从特征项提取、文本关联分析、文本分类、文本聚类等方面对Web文本数据挖掘技术在电子商务中的应用作了探讨,并略述了Web文本数据挖掘技术的应用现状及其发展趋势。 相似文献
6.
文本分类是自然语言处理与理解当中重要的一个研究内容,在文本信息处理过程中有关键作用.目前深度学习已经在图像识别、机器翻译等领域取得了突破性的进展,而且它也被证明在自然语言处理任务中拥有着提取句子或文本更高层次表示的能力,也备受自然语言处理研究人员的关注.文章以基于深度学习的文本分类技术为研究背景,介绍了几种基于深度学习神经网络模型的文本分类方法,并对其进行分析. 相似文献
7.
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。 相似文献
8.
为了研究p53基因与其下游/靶基因的关联性,以了解p53基因表达调控网络,采用文本数据挖取方法,利用自编的Perl 5.10程序,对PubMed文献数据库中p53基因相关文献及人类基因本体数据库进行数据挖掘,并利用连锁聚类法构建p53基因表达调控网络图.结果发现,目标基因的频率分布同文本中所有基因本体的频率分布存在一定的关联性,低频基因的文本挖掘比例明显低于高频基因的文本挖掘比例.从而说明,p53基因表达调控网络中各基因的分布情况与基因频率有较大关系,而文本数据量对文本数据挖掘的准确率也有重要影响. 相似文献
9.
本论述对低保数据的挖掘中,使用了两种挖掘算法,另外配合SQL Server 2010提供的数据挖掘功能对低保数据进行了全面的分析,介绍了OLAP技术和数据挖掘在低保数据分析中的应用.主要内容包括:分析了数据挖掘技术在低保数据分析中的应用意义;研究了关联规则、决策树算法、聚类分析在低保数据分析中的应用.这也是低保信息化工作今后重要的研究目标和发展方向. 相似文献
10.
11.
胡光华 《国外科技新书评介》2008,(3):14
信息时代使得存贮大量的数据变得容易。在万维网、内联网、新闻专线以及其他地方可以利用的文件的增长趋势是压倒一切的。尽管我们可以利用的数据的数量在持续地增加,但是我们吸收和处理这些信息的能力并未能同步增加,而搜索引擎只要通过几个按键就可以获得越来越多的信息,越来越多的文件则进一步加剧了这个矛盾。文本挖掘是一个新的激动人心的领域,通过利用源自数据挖掘、机器学习、自然语言处理、信息检索以及知识管理等技术来试图解决信息超负荷的问题。文本挖掘涉及了文件收集的预处理(文本分类、信息析取、术语析取)、中间表示的存贮、分析这些中间表示的技术(例如:分布分析、集群、趋势分析、关联规则以及结果的可视化)。 相似文献
12.
针对目前Web挖掘的传统算法执行效率低、挖掘结果相关度低的缺陷,从Web挖掘的内容方面入手,在分析基于Web语义化文本数据挖掘关联规则结构的基础上,改进传统的Apriori算法,提出面向语义化的隐含文本数据挖掘算法,仿真结果表明改进后的算法具有较高的执行效率及较好的挖掘相关度,对于面向文本的Web挖掘算法研究具有一定的借鉴意义。 相似文献
13.
基于均值密度中心估计的k-means聚类文本挖掘方法 总被引:1,自引:1,他引:0
文本挖掘作为数据挖掘的重要研究领域,是检索有用文本信息的重要手段。通过对K-means聚类挖掘方法的基本原理和实现步骤的分析,发现随机选择聚类中心迭代初值、奇异点问题是制约其发展的技术瓶颈,针对该方法的不足,提出了一种基于均值密度中心估计的K-means聚类文本挖掘方法,采用基于均值密度的聚类中心初值估算取代原有方法的随机选取模式,设计自适应的邻域形状选择机制,用均值密度配合阈值消除奇异点。实验结果表明,提出的方法提高了K-means聚类方法的文本挖掘性能,使得文本挖掘查准率得到很大的提高,不仅强于一般K-means均值聚类方法,且和新近流行的自组织神经网络聚类方法相比也具有一定的优势。 相似文献
14.
15.
网络教育资源Web挖掘研究 总被引:1,自引:0,他引:1
针对网络教育资源建设中存在的问题,着重对网络教育资源的获取、分类和标准化描述模型进行了研究.在分析Web挖掘技术和任务分类的基础上,提出了网络教育资源的Web文本挖掘、模型及其相关算法,将数据挖掘技术应用到网络教育领域,有助于在网络上获取高品质的网络教育资源,一定程度上解决了网络教育资源获取缺乏智能的问题. 相似文献
16.
随着网络技术和数据库技术的成熟和发展,全球传统商务正经历一次重大变革,向电子商务全速挺进。就此学习研究了数据挖掘和商务智能的相关知识,分析了目前针对电子商务网站数据挖掘的主要研究方向Web日志挖掘,针对基于Web日志处理来获取访客行为数据所存在的不足,对数据挖掘技术在智能商务中的应用进行了分析,将实时在线挖掘与定期人工挖掘相补充的商务客户行为分析技术进行了研究。 相似文献
17.
在建筑工程项目中,高效的对施工安全进行管理是十分重要的。工程安全事故通告记录了实际施工过程中发生事故的相关信息。但是从业人员对这种非结构化文本进行总结和分析是比较困难的。随着自然语言过程(NLP)技术的快速发展,为了有效地对这一类文本进行处理,许多研究人员已经取得了一些不错的成果。但是现阶段的一个关键问题是深度神经网络的训练需要大规模的训练数据集。并且建筑工程行业中数据来源非常有限,所以数据集对建筑工程行业来说是一个巨大的挑战。本文提出了一个基于自然语言处理的小样本训练方法。首先通过一种基于交叉组合的文本数据增广算法扩大数据集,然后以“字符”为检测单元进行汉字语义编码,使用BiLSTM-CRF模型作为检测核心对文本进行处理。最后,本文以安全事故通告为对象进行分析处理,为施工的安全管理提供了理论指导。 相似文献
18.
信息挖掘技术已成为WEB信息发现研究的一个重要内容,文中对数据挖掘、WEB内容挖掘和日志挖掘进行了全面系统的分析研究,这对情报信息技术的检索具有十分重要的指导意义. 相似文献
19.
刘耀南 《佛山科学技术学院学报(自然科学版)》2012,30(3):70-74
关联规则是数据挖掘领域中最重要的研究内容,能够在数据库中发现频繁模式和关联知识。对关联规则及其相关挖掘算法Apriori进行了分析,指出了Apriori算法存在的缺点。通过基于预处理的改进Apriori算法在高校教学评价中的应用,说明数据挖掘过程,分析挖掘结果,最后指出了未来的研究方向。 相似文献
20.
柴巧叶 《太原师范学院学报(自然科学版)》2011,10(2):87-89
Web挖掘是将数据挖掘和WWW两个领域中的多种技术和方法结合起来的热门研究课题.它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘.关联规则算法已成为数据挖掘算法中的重要课题.通过对关联规则挖掘算法进行分析,指出了该算法存在的一些问题,并提出了一种用户频繁访问模式结构. 相似文献