共查询到20条相似文献,搜索用时 0 毫秒
1.
基于特定领域的Web文本信息获取系统的研究 总被引:2,自引:0,他引:2
从特定领域用户获取Web文本信息的实际应用角度出发,在分析了系统相关开发理论基础上,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,并从实现技术上提出了开发这个系统的体系结构,分析了各组成模块的主要特点及其功能。着重研究了该系统的几项关键技术:Robot技术、Web页面内容的分析和站点结构的分析技术、中文文本的分类问题,包括中文的分词、特征提取、特征匹配及权值计算等的综合应用技术。 相似文献
2.
《哈尔滨商业大学学报(自然科学版)》2017,(4)
对电子商务网站的评论文本进行分词、去停用词等整理,通过词频统计提取特征词,应用词频-逆文档频率提高特征词的类别区分能力以增加特征词的准确性.在收集大量的电子商务网站的评论文本及一系列预处理后构建了特征词词库.采用词语相似度计算方法用于关键词向量与特征词词库相似度的计算.根据相似度计算结果对用户评论的商品进行排序以实现对用户商品的推荐.设计了商品推荐系统并完成了实验程序.利用收集到的用户评论文本完成了对商品的推荐实验,并对实验结果进行了考察与分析. 相似文献
3.
基于实例的工艺知识获取模型 总被引:9,自引:0,他引:9
黄进 《上海交通大学学报》1998,32(5):86-89
介绍了耦合神经网络的工艺设计实例推理系统的实现方法论,提出了一种基于神经网络的工艺设计实例推理索引模型.与现存大多数实例推理系统不同,该方法用神经网络实现实例的动态分类和索引.实例层次分类的三层结构和基于特征的聚类模板概念,为实现基于符号处理的实例推理求解模式向基于神经计算的模式识别求解模式映射提供了条件.提出了基于实例的工艺知识获取模型,采用新实例的入库操作实现工艺知识的隐式获取,从而使知识获取得以简化.神经网络的自适应、自学习能力将减少系统的日常维护工作.基于实例的系统可望解决知识获取的难题. 相似文献
4.
从Web文本文档的结构分析入手,利用XML将Web文本中具有重要价值的标题、关键词、摘要等信息抽取出来形成一个XML格式的Web文本信息库,给出了Web文本信息库构建的方法,对DTD,XSL代码等进行了设计,以实例的形式探讨了网络信息库在Web文本挖掘中的具体应用。 相似文献
5.
基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。 相似文献
6.
7.
为实现“安全第一、预防为主、综合治理”的民航安全管理目标,建立了从报告中学习并评估风险等级的深度学习模型.首先采集航空安全报告系统中10年报告,根据严重度建立事件后果的量化指标,确定5个风险等级:高、中高、中、中低和低风险,并消除事件结果分布不平衡和结果多样性的影响.然后应用卷积神经网络(Convolutional Neural Network,CNN)探索非结构化的事件概要与风险等级之间的关系,通过该模型对事件进行分类,确定风险等级.风险评估模型与不同量化指标和不同方法对比,其分类准确率可达96%,优于其他指标和方法.最后应用该模型对非结构化的事件概要挖掘,对2020年事件进行快速的风险评估,预测准确率可达80%.基于CNN的民航风险评估模型可以对文本格式的事件概要充分挖掘,快速评估与主动感知风险,对支持安全预警具有重要意义. 相似文献
8.
《东南大学学报(自然科学版)》2015,(5)
为了挖掘漏洞内在联系且高效管理漏洞信息,将文本处理和聚类算法应用于漏洞挖掘中.从漏洞库宏观角度出发,提出了一种基于文本挖掘和粒子群优化算法的漏洞信息聚类(PSO-Kmeans)算法.首先,通过文本处理,获取频词空间,用以将漏洞信息描述字段编码化;其次,为了减少局部最优和聚类中心选取不当对聚类结果的影响,利用粒子群优化算法获取全局聚类中心;最后,利用K-means算法实现漏洞信息的聚类,对漏洞信息进行分类别管理,并为预测未知漏洞特征提供参考.实验结果表明,PSO-K-means算法准确率达到90.16%,与K-means算法相比,其平均准确率提高约5%,平均迭代次数减少约45次.所提算法可预测3种未知漏洞的主要类别,是一种有效的漏洞分析方法. 相似文献
9.
《重庆师范大学学报(自然科学版)》2016,(1)
互联网的电商中存在着大量的评论信息,这些带有主观情感色彩的评论信息不仅反应了客户对产品的满意程度,而且暗含了市场产品的流行趋势。针对评论信息中所蕴涵的相关主题词,提出了将文本分类和主题词挖掘相结合的方法。该方法首先使用SVM对情感进行分类,再通过LDA模型进行建模对分类后的评论信息挖掘主题词。真实数据集上的实验结果验证了本文方法的有效性,获得了良好的分类结果,能够准确地挖掘出主题词。 相似文献
10.
基于领域知识的文本分类 总被引:3,自引:0,他引:3
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能. 相似文献
11.
本文作者结合自身多年实践经验,结合跟踪用户兴趣以及行为提出了一种显性方式与隐性方式紧密结合的方法,最终提出了建立用户兴趣模型的手段。并且进一步针对用户浏览Web页面以及浏览网页的这种行为予以详细分析,进而得出了用户兴趣模型,掌握了用户兴趣的获取方式,希望可以对读者产生一些积极影响。 相似文献
12.
介绍一种从《中国大百科全书》文本中获取军事知识的方法 .该方法由 2部分组成 :第一部分是军事知识描述语言 (MKDL) ,由知识工程师用于将文本知识翻译成基于Concept_Relation_模型的MKDL形式化文本知识 ;第二部分是MKDL编译系统 .该系统通过对MKDL文本的编译、分析和知识连接而最后生成军事知识库 . 相似文献
13.
14.
15.
针对交互文本句子短、成分缺失、多领域下类分布不均衡导致的高维、特征值稀疏、正样本稀少的难点,提出面向目标数据集实例迁移的数据层面采样方法。该方法提出目标数据集和源数据集共性特征的Top-N信息增益和值占比函数,选择评价两个数据集实例相似度的特征;提出目标数据集和源数据集特征空间一致性处理方法,克服两者特征空间不一致的问题;提出分领域的实例选取与迁移方法,克服多领域下的类分布不均衡问题。实验结果表明:该方法有效缓解了交互文本的非平衡问题,使支持向量机、随机森林、朴素贝叶斯、随机委员会4个经典分类算法的加权平均的接收者运行特征曲线(receiver operating characteristic,ROC)指标提升了11.3%。 相似文献
16.
针对物探作业事故提出了一种基于文本挖掘(TM)的分析方法。首先,从人、机、环境、管理四方面分别对事故文本数据进行文本分析,通过筛选得到事故影响因素,并利用k-means聚类识别事故类型;以事故影响因素为前项,事故类型为后项构建多维物探作业事故数据模型,运用多维Apriori技术进行物探作业事故关联分析,得到事故影响因素与事故类型的强关联规则,并通过分析这些规则发掘各类事故的发生规律;最后,应用该方法对某物探公司野外作业事故数据进行分析及验证。研究结果表明,该方法能够加深对事故的认识,为物探作业安全管理提供科学的决策依据,在物探行业事故分析领域有着良好的应用前景。 相似文献
17.
Web文本挖掘在人们的日常生活和决策分析过程中起到了越来越重要的作用。介绍了Web挖掘的概念和基本特征,在此基础上重点研究了Web文本挖掘方法,引出了Web文本挖掘的模型WebMiner。结合知识库概念,尝试对WebMiner模型进行改进,提出了基于知识库的Web文本挖掘模型K-WebMiner,希望可以提高Web内容挖掘的效果。 相似文献
18.
在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同主题感兴趣概念向量。 相似文献
19.
张璐 《重庆工商大学学报(自然科学版)》2019,36(6):65-72
随着旅游网络平台不断的普及,研究和评价旅游目的地已逐渐成为游客选择参考的重要依据;针对重庆旅游业快速发展的背景,选取重庆市5个热门景点——磁器口、洪崖洞、长江索道、武隆天生三桥和金佛山2015—2018年在携程旅行网、马蜂窝、百度旅游、美团网上的游客点评数据,利用文本挖掘法,分析游客对景点整体形象以及情感态度感知的共性和差异,建立模糊综合评价法对重庆旅游进行综合分析;结果发现:游客对于重庆旅游景点持一般满意态度,在商业化、排队时间长还有管理方面有很多意见,未来还有很大提升的空间,并进一步为提高服务水平、避免过度开发提出相关建议。 相似文献
20.
目前,基于语义的Web挖掘使语义Web和Web挖掘两个领域结合起来,并在一定程度上促进了各自的发展.本文介绍了语义Web的体系结构和Web挖掘以及智能Agent的相关概念,并提出了在多Agent框架下构建基于语义的Web挖掘信息智能获取系统模型,经过分析说明此模型在一定程度上提高了信息获取的智能化水平. 相似文献