首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种基于后缀树的中文网页层次聚类方法   总被引:4,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

2.
随着网络广告的迅猛发展,其市场竞争也愈发激烈.在网络中实现广告的精准投放,对提高网络广告的回报率具有重要意义.本文提出了广告投放页面特征向量空间和广告投放页面特征向量模型,并基于此模型提出了广告投放页面的模糊向量表示方法,以及广告投放页面模糊向量空间的生成方法.给出了运用广告投放页面模糊聚类方法来实现广告的准确投放.文中采用实验来说明所提方法的计算效率和投放效果.  相似文献   

3.
基于IIS和web日志的关联关系的挖掘   总被引:4,自引:0,他引:4  
针对隐藏在web日志的大量记录中的规律性开展研究,提出了一种基于微软的ⅡS合理构建web日志并进行数据预处理的方案,在此基础上运用Apriori算法挖掘用户访问的页面间的关联关系,将数据预处理过程提前到web日志的建立过程中,可极大地降低数据准备的复杂性,将日志数据导入关系数据库中进行净化处理,大幅度减少了工作量,该方案可用于ⅡS下的商业网站。  相似文献   

4.
Web社区是由对于同一主题感兴趣的人或组织创作的Web页的集合。提出了一种比较严格的Web社区表示法,同时对社区内和社区外的节点进行约束,解决了以往社区定义边界模糊的问题。设计了与该定义对应的Web社区挖掘算法。算法充分考虑了Web图的性质,并在构造好的网络流上采用最大流/最小割算法,从而得到所要的社区。实验表明,该方法可以挖掘出较大而且有意义的社区。  相似文献   

5.
基于语义Web的网页推荐模型   总被引:4,自引:1,他引:4  
如何使用语义 Web技术构建网页推荐模型是一个有着广泛应用前景的研究课题。语义 Web下的网页用本体标注 ,该模型自动采集被标注网页上的语义信息 ,利用网页中的标注信息和相应的本体概念对网页进行分类 ,将分类结果存放在数据库中。同时 ,在这个模型下 ,用户的兴趣存放在DAML (DARPA agent markup language)格式的文件中。通过用户兴趣和网页类别的匹配 ,就能够给用户推荐需要的网页 ,在推荐网页时 ,该模型还采用支持向量机用于分类用户。实验结果显示了该模型比传统的网页推荐模型准确率更高  相似文献   

6.
随着网络的迅猛发展,web服务已经成为研究的热点之一.本文介绍了一种文件类型网页文件的文本信息预处理技术.该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理.测试表明该方法能快速有效地得到大部分HTML网页的主体部分.  相似文献   

7.
Web使用挖掘分析访问者日志,可以发现很多潜在的规律。利用会话之间的依赖关系,给出会话的依赖特征和数值度量,利用会话的动态特性给出会话动态聚类分析的算法和应用,并和模糊聚类算法方法进行比较研究。  相似文献   

8.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

9.
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器.  相似文献   

10.
自适应Web站点站能够根据用户需要快速灵活地改变自身,动态适应不断变化的用户需求和应用环境.通过Web日志文件的挖掘,找出用户的访问模式,及该模式中的访问类型,而且分析当前访问页面的频繁度后,形成经过内容裁剪的个性化页面来压缩Web页面内容.在此基础上,设计了一个自适应站点模型,改善Web站点的结构和组织形式以使站点达到更好的效果.  相似文献   

11.
Web上的信息量正以惊人的速度增加,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具,即如何从数以亿计的页面中发现需要的内容、如何从大量的访问中发现固有的模式和关联.马尔科夫模型的网页浏览预测,仅仅从用户的浏览网页本身出发,预测用户的下一步链接,并不能捕获到用户的真正兴趣.本文提出基于隐马尔科夫模型的网页浏览路径预测,并将其与基于马尔科夫模型的方法进行对比.根据已知的浏览序列判断用户的类别,当浏览序列长度很短时,本文方法的预测准确性比马尔科夫模型低.这是由于序列长度过短,系统获取判断的信息少,增加了对用户错误分类的可能性.随着浏览序列长度逐渐增加.系统捕获的用户浏览信息越来越多,进而能够折射出用户的兴趣所在.预测准确率也逐步增加.当浏览序列长度大于或等于8时,预测准确率已经到达80%.提高了浏览兴趣预测的准确率.  相似文献   

12.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

13.
Web日志挖掘旨在使用数据挖掘技术从Web服务器日志文件中挖掘出有用的规律和模式,以此改进网站结构以及实现Web个性化服务。本文提出基于免疫聚类的Web日志挖掘算法,利用人工免疫系统的基本原理来进行用户聚类分析,从而发现相似客户群体、挖掘潜在客户。免疫聚类通过模拟免疫系统体液免疫应答的基本过程,提取出数据的基本特征,以此概括数据的分布特征,从而实现Web日志数据的无监督自组织聚类。通过在真实数据集上的实验证明了该算法的可行性和有效性。  相似文献   

14.
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。  相似文献   

15.
结合制作信息素质教育Web网页的实践,论述信息素质教育网页制作的总体设计思路,制作时的注意事项以及制作背后的思考。  相似文献   

16.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

17.
Internet的发展给传统的数据挖掘领域提出了很多新的研究课题.Web挖掘技术就是传统的数据挖掘技术与计算机网络技术的结合.Web使用记录挖掘是从日志文件中挖掘出有用的信息,这些信息可以帮助站点设计者设计站点和服务,有益于商业网站开展有针对性的电子商务活动.介绍了Web挖掘的概念和分类,说明了Web使用记录挖掘的过程和意义,并指出了Web使用记录挖掘的研究趋势.  相似文献   

18.
通常搜索引擎网站都有存储大量远程站点复制网页的数据库.为保持复制网页和源网页的同步,需要花费大量的时间和资源.本文提出了保持复制网页和源网页一致的多种同步新策略,并提出源端网页变化的泊松模型,给出了刷新率和刷新时长的规范性描述,对各种同步策略的性能进行了研究和比较分析,发现其较大地改善了网页数据库刷新率.  相似文献   

19.
CSS(Cascading Stylesheets,层叠样式表)是一种网页制作新技术,是网页设计中不可少的工具之一。层叠样式表(CSS)有一系列格式规则,它们控制网页内容的外观。使用CSS能够简化网页的格式代码,加快下载显示的速度,减少需要上传的代码数量,减少重复劳动的工作量。介绍了CSS样式的常用技巧和CSS最基本的应用。  相似文献   

20.
介绍了一种新颖的Web存取模式的聚类算法,该算法是一种结合粗糙理论和模糊理论的改进Leader算法,既体现了粗糙理论和模糊理论在处理含有不确定信息问题上的优势,同时使用了Leader算法进行聚类以提高算法的时间复杂度,从而在Web存取模式的聚类中的聚类的时间花费是令人接受的而且聚类结果是相对满意的。通过实例分析及实验结果,该算法是行之有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号