首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文首先在"信息爆炸"的时代背景下提出数据挖掘和Web数据挖掘的重要性,然后针对Web日志挖掘详细讨论了其数据预处理的主要步骤及其过程方法,最后阐述了Web日志挖掘在网站建设上的应用,为后继研究提供了参考。  相似文献   

2.
基于Web Log的数据预处理研究   总被引:4,自引:0,他引:4  
Web日志文件是进行Web挖掘的重要数据来源,对Web日志的数据预处理是Web挖掘过程中关键的一步,首先介绍了Web日志挖掘的体系结构,然后详细地分析了Web日志文件,并对基于Web日志文件的数据预处理进行了较深入的研究,提出了包括数据净化、数据抽取、数据转换和数据集成等过程的具有实际应用价值的数据预处理的实现方法。  相似文献   

3.
在概述Web挖掘以及Web日志挖掘的相关领域的发展和技术及其理论基础上,详细研究了Web日志挖掘的预处理技术,Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面.通过将日志挖掘的结果与最优路径算法将结合,进一步优化网站,设计出拥有最优路径拓扑结构的网站,使优化后的网站更具优势,在同类网站中能够脱颖而出.  相似文献   

4.
加权Web访问模式聚类算法   总被引:4,自引:0,他引:4  
针对Web应用挖掘中聚类算法中的问题,提出加权Web访问模式聚类算法,该算法利用服务器日志库中保存的网页访问次数信息,提高了聚类的客观性和准确性。  相似文献   

5.
基于Web挖掘的个性化服务   总被引:3,自引:0,他引:3  
协同过滤和基于内容的过滤等传统个性化服务技术存在不能处理大规模数据、需要用户输入主观的评价信息、只能利用静态的统计特征等缺陷.最近提出基于Web使用挖掘和Web内容挖掘的个性化服务体系结构,在此基础上进一步引入了Web结构挖掘,统称为基于Web挖掘的个性化服务体系结构;给出了通过聚类算法获取总体使用特征、内容特征和结构特征及其一致化表示的方法;提供了通过总体使用特征、内容特征和结构特征实现个性化服务的途径.  相似文献   

6.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

7.
作为Web内容挖掘的重要组成部分,基于Web的命名实体提取与实体关系发现,以海量Web网页中蕴涵的海量实体及丰富的实体间关系为对象,充分利用Web数据本身的特点,发展一整套方法和技术,力求高效、准确地提取Web网页中的实体与关系.  相似文献   

8.
随着我国社会经济的迅速发展,Internet和电子商务也随之发展起来,Web站点业务的竞争也随着互联网的发展愈发激烈。为了能够获得更多的电子商务信息并对其加以组织和利用,应该从具有丰富数据资源的电子商务中挑出所需的商业形式,这样就能更多地了解到客户的想法。为了获得更多商家和客户的支持,要完善网站的结构,使之能够为客户提供更多更便捷的服务。Web数据挖掘技术是寻找Web文档和用户浏览网站数据中具有潜在应用价值信息的一种手段,挖掘到的信息非平常模式的信息。本文通过对电子商务数据特点进行分析,来详细描述Web数据的概念、方法和相关技术。  相似文献   

9.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

10.
GenExtractor是一个新的基于Web的生物信息挖掘系统,该系统通过Internet对网上生物学数据库中的生物序列数据和基因表达数据进行挖掘,在指定的人染色体区域内搜寻具有特定功能的基因.该系统可为分子生物学家寻找候选基因、收集相关信息等提供有效帮助.通过对人DNA修复基因的查寻,验证了该系统的实用效果.  相似文献   

11.
现代企业每天生成很多日志文件,如果能实时处理日志数据,企业能获取更大的商业价值,但管理这个大日志数据是一个巨大的挑战,因为传统的技术用来处理庞大的数据不够高效.Hadoop生态系统提供一种新的方式来处理大数据,ElasticSearch技术是基于云环境的实时搜索引擎.本文提出了基于ElasticSearch实时进行大日志数据搜索的软件集成方案,采用基于硬件创建虚拟机环境,根据搜索条件使用ElasticSearch得到需要的rowkey列表,Hbase用这些rowkey直接从数据库中得到数据.实验证明,随着日志事件搜索量的增加,搜索反应时间不线性增加,基于ElasticSearch的大日志实时搜索的软件集成方案设计具有可行性.  相似文献   

12.
基于蚁群算法的Web站点导航   总被引:4,自引:0,他引:4  
提出了一种Web站点的导航方法.首先利用蚁群算法对已经存在的Web日志进行训练,构造一个有向图,该有向图的节点和边保存了网页与网页间的链接概率和用户行为规则.利用训练结果,预测访问网站的用户行为,根据其行为推荐网页,最后的测试结果表明该方法比单纯的概率分析和关联规则具有更高的精度.  相似文献   

13.
本文从物联网大数据应用入手,论述了"互联网+"时代浙江省物联网大数据应用技术的发展现状;从互联网Web数据集成、物联网数据空间管理、物联网数据外包、移动互联网上的数据应用等角度分析了"互联网+"时代浙江省物联网大数据应用技术发展前景;简单探讨了"互联网+"时代浙江省物联网大数据应用技术的社会价值。最后进行了总结。  相似文献   

14.
"IT数码作业台"适合生产小批量、多品种、高品质、高附加值的优质产品,A公司在制造现场利用3D-CAD、无线LAN、Server、Web等数码数据,营造了一个数码工场,创建了"IT数码作业台".  相似文献   

15.
基于Web模式可移植性训练系统的设计与实现   总被引:2,自引:0,他引:2  
三层结构模式在Web应用系统中广泛应用,但也存在不足之处:系统对网络环境完全依赖,网络资源利用不平衡.因此,从一个基于Web模式的训练教学系统的设计和实现过程,对Web三层结构提出了调整改进措施,在设计中构建了具有一定逻辑功能的Web页面数据单元,从而实现数据的重用性和系统设计的可移植性,并有效地解决了Web三层结构系统的不足之处.  相似文献   

16.
图书馆大规模日志数据的快速聚类   总被引:2,自引:0,他引:2  
给出了一种简单有效的算法,用于对图书馆大规模日志数据的快速聚类和借阅趋势分析。首先,根据读者基本的借阅规律,把日志数据聚成若干子类,然后,给出了对子类结果进行再次聚类的模糊算法。最后,为了预测读者的借阅趋势,对每一类进行了回归分析。该算法具有线性复杂度,对大规模数据集是可伸缩的,实验证明是可行的。  相似文献   

17.
结合数据流的特点,提出了一种面向数据流挖掘的过程模型PM-DSM。针对目前数据流挖掘过程中存在算法众多但利用率低的问题,提出了一种基于Web服务的数据流挖掘过程模型算法管理框架PMAMF-DSM,描述了该框架的体系结构和运行机制,并用UML活动图给出了框架的实现语义。在Eclipse上基于该框架实现了一个数据流挖掘算法管理系统,实验结果表明了该框架的灵活性与自适应性。  相似文献   

18.
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接.  相似文献   

19.
在制作准考证时,制作一个动态Web页面,各个学校通过这个动态Web页面将应考者的信息输入,利用动态Web技术将数据集中保存在服务器端,最后由服务器端的数据制作出全部的准考证.通过这种分布式的处理方法,将任务分散,从而降低了处理的难度和强度,各个学校的处理可以同时进行,既提高了整体的处理效率,也能够有效地保证数据的正确性.  相似文献   

20.
Web是一个巨大的知识库,作为知识的载体,Web上的海量网页数据包含了各种各样的内容,在这些内容中,命名实体(named entity)是一类重要的内容.随着Web规模的指数级膨胀,如何在海量Web信息中定位自己所需的信息,成为一个非常紧迫的需要.本文结合大量相关文献,对Web命名实体提取的研究工作进行了介绍、分析与比较,并指出了以后努力的方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号