首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 796 毫秒
1.
个性化Web推荐系统是利用用户的浏览行为定制符合用户结构和内容的过程。在综合应用协作过滤和内容过滤方法的基础上,通过对网站网页关键词的评估,提出了一种新的个性化Web推荐算法,研究了基于网页关键词的个性化模型,网站页面中关键词的权重计算,基于协作过滤的新用户推荐,基于内容过滤的再次推荐方法,以及基于用户群的用户兴趣调整方法。实验证明,本算法能够以较高的效率对用户进行网页推荐。  相似文献   

2.
设计并实现一个网页分类系统,采用相同的特征权值计算方法,特征选择算法以及分类算法,进行基于分词的网页分类系统和基于N-G ram的网页分类系统的对比实验,分析两者的分类效果。结果表明,基于N-G ram的网页分类系统能达到并在一定程度上高于基于分词的网页分类系统的效果。  相似文献   

3.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

4.
网页去重策略   总被引:1,自引:0,他引:1  
提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统.  相似文献   

5.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

6.
对Web日志进行有效聚类,可得到网站不同访问群和访问模式,研究了Web用户群模糊聚类关键技术.因为Web数据既有定量属性,又有定性属性,对Web用户群的聚类挖掘采用了模糊聚类方法,并设计了基于用户群的页面推荐函数.试验证明,Web用户群模糊聚类挖掘方法是有效的.  相似文献   

7.
由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统.  相似文献   

8.
提出一种从用户浏览网页的行为中获取用户需求知识的方法.在领域内将产品进行需求项分解,从服务器日志中提取用户点击的网页及其次数,并计算出用户对每个需求项的值和可信度,由此可提取出用户以及用户群的需求知识.该方法不仅可以及时获取最近一段时间用户对现有产品指标的关注情况,还可以在一定程度上反映用户对该类产品的某些潜在需求,为企业进行新产品开发提供参考.  相似文献   

9.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

10.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

11.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

12.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

13.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

14.
With the rapid development of the Internet, general-purpose web crawlers have increasingly become unable to meet people's individual needs as they are no longer efficient enough to fetch deep web pages. The presence of several deep web pages in the websites and the widespread use of Ajax make it difficult for generalpurpose web crawlers to fetch information quickly and efficiently. On the basis of the original Robots Exclusion Protocol(REP), a Robots Exclusion and Guidance Protocol(REGP) is proposed in this paper, by integrating the independent scattered expansions of the original Robots Protocol developed by major search engine companies.Our protocol expands the file format and command set of the REP as well as two labels of the Sitemap Protocol.Through our protocol, websites can express their aspects of requirements for restrictions and guidance to the visiting crawlers, and provide a general-purpose fast access of deep web pages and Ajax pages for the crawlers,and facilitates crawlers to easily obtain the open data on websites effectively with ease. Finally, this paper presents a specific application scenario, in which both a website and a crawler work with support from our protocol. A series of experiments are also conducted to demonstrate the efficiency of the proposed protocol.  相似文献   

15.
Web日志挖掘   总被引:19,自引:1,他引:19  
提出了一种新颖的MBP算法,它利用关联规则挖掘发现的频繁项目集以加快速度,能找出所有满足阀值约束的频繁浏览路径,该算法是有很效的,同时,针对Web浏览和日志文件固有的模糊性和不确定性,还讲座了Web面面的模糊聚类问题,最后,对发现的知识讨论了其在推荐系统及自适应Web站点中的应用并给出了相应算法。  相似文献   

16.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

17.
由于人的重名现象,人名检索的结果往往是同名的不同人物实体相关网页的混合。重名消解是根据上下文来区分同名的不同人物实体的过程。本文提出了基于相关社区的重名消解方法,采用改进的Espresso算法进行相关社区发现。将每个网页发现的社区应用到两阶段重名消解算法中,并且在WePS-2测试集上进行试验。实验结果表明了该方法的有效性。  相似文献   

18.
目的研究一种能支持创新活动的软件系统模型及相应的实现技术方法。方法分析现有理论及系统模型的优点及不足,根据目前的实现技术条件,设计系统的模型。研究基于本体论知识库构造方法及相应的检索方法,以此作为系统实现的技术基础。结果提出了一个可全面支持创新支持系统(ISS)模型,并实现了系统的核心功能。结论系统具有良好交流支持能力,以支持4种知识转化过程、解决知识工作者向组织提交隐性知识的动力问题。  相似文献   

19.
分析了硫化铜矿的特点,收集基础数据、基础资料和有关知识,建立了该类矿石的数据库和知识库,并将其组装到矿石可选性预测专家系统(OBPES) 的通用骨架系统中,构造成硫化铜矿矿石可选性预测专家系统.实践证明,专家系统的预测结果是令人满意的,通用骨架系统是成功的,它大大提高了不同类型矿石可选性预测专家系统的建造效率.  相似文献   

20.
知识库在现代企业和客户服务机构中得到广泛使用,对知识库构建的效果进行评价是企业衡量其实施知识库构建项目成功与否的关键,也为企业对知识库进行动态改进和维护提供了指导.在已有相关评价方法的文献分析的基础上,针对企业知识库构建效果的评价问题,提出了评价知识库构建效果的一种框架,并给出了相应的知识库构建效果评价流程.最后,通过一个实例分析说明了所给出的框架与流程的可行性和应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号