共查询到20条相似文献,搜索用时 2 毫秒
1.
2.
基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。 相似文献
3.
4.
《重庆师范大学学报(自然科学版)》2016,(1)
互联网的电商中存在着大量的评论信息,这些带有主观情感色彩的评论信息不仅反应了客户对产品的满意程度,而且暗含了市场产品的流行趋势。针对评论信息中所蕴涵的相关主题词,提出了将文本分类和主题词挖掘相结合的方法。该方法首先使用SVM对情感进行分类,再通过LDA模型进行建模对分类后的评论信息挖掘主题词。真实数据集上的实验结果验证了本文方法的有效性,获得了良好的分类结果,能够准确地挖掘出主题词。 相似文献
5.
为实现“安全第一、预防为主、综合治理”的民航安全管理目标,建立了从报告中学习并评估风险等级的深度学习模型.首先采集航空安全报告系统中10年报告,根据严重度建立事件后果的量化指标,确定5个风险等级:高、中高、中、中低和低风险,并消除事件结果分布不平衡和结果多样性的影响.然后应用卷积神经网络(Convolutional Neural Network,CNN)探索非结构化的事件概要与风险等级之间的关系,通过该模型对事件进行分类,确定风险等级.风险评估模型与不同量化指标和不同方法对比,其分类准确率可达96%,优于其他指标和方法.最后应用该模型对非结构化的事件概要挖掘,对2020年事件进行快速的风险评估,预测准确率可达80%.基于CNN的民航风险评估模型可以对文本格式的事件概要充分挖掘,快速评估与主动感知风险,对支持安全预警具有重要意义. 相似文献
6.
《东南大学学报(自然科学版)》2015,(5)
为了挖掘漏洞内在联系且高效管理漏洞信息,将文本处理和聚类算法应用于漏洞挖掘中.从漏洞库宏观角度出发,提出了一种基于文本挖掘和粒子群优化算法的漏洞信息聚类(PSO-Kmeans)算法.首先,通过文本处理,获取频词空间,用以将漏洞信息描述字段编码化;其次,为了减少局部最优和聚类中心选取不当对聚类结果的影响,利用粒子群优化算法获取全局聚类中心;最后,利用K-means算法实现漏洞信息的聚类,对漏洞信息进行分类别管理,并为预测未知漏洞特征提供参考.实验结果表明,PSO-K-means算法准确率达到90.16%,与K-means算法相比,其平均准确率提高约5%,平均迭代次数减少约45次.所提算法可预测3种未知漏洞的主要类别,是一种有效的漏洞分析方法. 相似文献
7.
使用基于类别的用户点击率的统计方法,对传统的协同过滤推荐算法进行改进.该方法根据用户的点击率和项目特点,将概念分层细化,从而改进用户-项目矩阵中存在的稀疏问题.该方法不但能形成准确推荐,而且可以预测该类用户的未来推荐模式.采用Minnesota大学的MovieLens数据集进行实验,实验结果表明,改进的推荐算法与传统的协同过滤推荐算法相比,在用户较集中的区域,其推荐精度明显较高,更重要的是当用户数据增多时,改进的算法有较强的稳定性. 相似文献
8.
本论述针对协同过滤算法的局限性,为顾客购买频度较高的商品设计一种基于Web挖掘的推荐系统,它综合利用朴素Bayesian分类法,基于点击流分析的偏好Web使用挖掘,商品关联规则等各种Web数据挖掘技术,为顾客购物提供智能商务推荐.在数据挖掘技术的基础上,结合智能Agent技术,对系统进行设计和实现.实验结果表明,该系统... 相似文献
9.
10.
11.
基于关联规则挖掘技术,结合销售数据特征,提出了一个基于SQL的多层关联规则挖掘算法,允许用户自定义概念层次.实验结果表明,该算法可行且有效,有良好的用户交互性,能够支持品类管理中高效陈列和促销的应用. 相似文献
12.
商品短评论的情感分析可有效地为用户和决策者提供产品选择的判断依据,但由于商品短评论文本特征呈现分散性和交错性的特点,因此难以有效地抽取短文本情感特征并作出分类。为解决这个问题,基于预训练模型提出一种商品短评论文本情感分类的新方法,便于用户决策。提出的基于ELECTRA的商品短评论文本情感分类方法包括三个过程,即嵌入层用Electra替换Bert进行向量映射和特征选择的过程,训练层神经网络模型的迭代优化过程,分类层进行商品短评情感分类过程。实验结果表明,所提出的模型在准确率上有明显的提高。 相似文献
13.
针对物探作业事故提出了一种基于文本挖掘(TM)的分析方法。首先,从人、机、环境、管理四方面分别对事故文本数据进行文本分析,通过筛选得到事故影响因素,并利用k-means聚类识别事故类型;以事故影响因素为前项,事故类型为后项构建多维物探作业事故数据模型,运用多维Apriori技术进行物探作业事故关联分析,得到事故影响因素与事故类型的强关联规则,并通过分析这些规则发掘各类事故的发生规律;最后,应用该方法对某物探公司野外作业事故数据进行分析及验证。研究结果表明,该方法能够加深对事故的认识,为物探作业安全管理提供科学的决策依据,在物探行业事故分析领域有着良好的应用前景。 相似文献
14.
面向以自然语言描述的生物领域实例,基于自然语言的向量表示模型,研究与设计相关的生物领域实例获取问题,提出了基于文本挖掘的生物领域实例获取方法.通过对语料库文本向量空间的构建和知识挖掘,研究生物领域文本的特征选择、相似性度量和实例检索方法,为设计需求驱动的生物领域实例获取提供技术支持.实例分析表明:一方面,基于向量空间模型的生物领域文本挖掘方法在精度和召回率两方面均较基线法具有较大的优势;另一方面,基于向量空间的文本检索机制具有很好的适应性和扩展性,可以满足不同环境下语义检索的需要. 相似文献
15.
Web文本挖掘在人们的日常生活和决策分析过程中起到了越来越重要的作用。介绍了Web挖掘的概念和基本特征,在此基础上重点研究了Web文本挖掘方法,引出了Web文本挖掘的模型WebMiner。结合知识库概念,尝试对WebMiner模型进行改进,提出了基于知识库的Web文本挖掘模型K-WebMiner,希望可以提高Web内容挖掘的效果。 相似文献
16.
张璐 《重庆工商大学学报(自然科学版)》2019,36(6):65-72
随着旅游网络平台不断的普及,研究和评价旅游目的地已逐渐成为游客选择参考的重要依据;针对重庆旅游业快速发展的背景,选取重庆市5个热门景点——磁器口、洪崖洞、长江索道、武隆天生三桥和金佛山2015—2018年在携程旅行网、马蜂窝、百度旅游、美团网上的游客点评数据,利用文本挖掘法,分析游客对景点整体形象以及情感态度感知的共性和差异,建立模糊综合评价法对重庆旅游进行综合分析;结果发现:游客对于重庆旅游景点持一般满意态度,在商业化、排队时间长还有管理方面有很多意见,未来还有很大提升的空间,并进一步为提高服务水平、避免过度开发提出相关建议。 相似文献
17.
基于海量数据挖掘的个性化推荐系统 总被引:1,自引:0,他引:1
目的建立海量数据环境中具有个性化的推荐系统。方法在普通文献推荐系统的基础上,增加基于链接页面的Pagerank计算,从而更精确地表示查询页面相对于特定用户的查询价值。结果结合了基于页面内容的查询方法与基于链接的查询方法的优点。结论具有一定的研究价值,值得在未来的研究工作中加以完善。 相似文献
18.
1:Web上有大量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点,本文构建了基于Agent的Web文本挖掘模型,并详细阐述了该模型的结构和工作机理。 相似文献
19.
投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够有效地进行投诉文本分类. 相似文献
20.
在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同主题感兴趣概念向量。 相似文献