首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
 为充分利用移动搜索和政府网站的特点, 发挥Hadoop 处理大数据的优势, 设计开发了日志挖掘和个性化定制系统。利用Flume 和HDFS 实现了海量日志的汇总和存储, 为日志挖掘提供了数据源和调用接口;采用MapReduce 实现了对日志的高效分析, 利用搜索结果网页的标签和导航, 建立了网页向量空间模型和用户兴趣模型;根据用户兴趣模型, 使用聚类分析中的K-means算法将有相似兴趣的用户组成兴趣组;通过计算搜索结果网页到用户所在兴趣组的距离, 判断用户对该网页是否感兴趣, 据此调整搜索结果的排序, 实现个性化搜索和推送功能。  相似文献   

2.
网站日志记录了用户的浏览行为,通过挖掘网站日志,可以分析用户行为,为优化网站结构提供有价值的数据.但是很多虚拟主机网站没有日志记录功能,这给日志挖掘带来了极大的不便.本文介绍一种生成日志的方法,并利用关联规则算法对其进行日志挖掘,发现用户的访问模式,帮助网站改进页面结构.  相似文献   

3.
网站日志记录了用户的浏览行为,通过挖掘网站日志,可以分析用户行为,为优化网站结构提供有价值的数据.但是很多虚拟主机网站没有日志记录功能,这给日志挖掘带来了极大的不便.本文介绍一种生成日志的方法,并利用关联规则算法对其进行日志挖掘,发现用户的访问模式,帮助网站改进页面结构.  相似文献   

4.
通过分析和提取数据库服务器上的网站描述文件和网站日志文件,获得浏览用户的浏览行为模式,分析了网页间的相关性,从而构建模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间。  相似文献   

5.
Web日志挖掘改进网站结构的研究   总被引:1,自引:0,他引:1  
Web日志挖掘是目前Web挖掘研究的一个热点课题.针对Web日志挖掘中存在的问题,研究和分析了一个基于网站访问矩阵的路径挖掘算法.在此基础上设计和实现了一个Web日志挖掘系统(WLMS),通过发现用户访问的最优路径和网站访问的统计结果,改进网站性能和组织结构,提高用户查找信息的质量和效率.  相似文献   

6.
基于用户兴趣及术语间关系的查询扩展方法   总被引:1,自引:0,他引:1  
针对传统查询扩展方法无法根据不同用户的需求进行检索的不足,提出一种基于用户兴趣和术语间关系进行查询扩展的方法。通过对用户浏览的网页文档及得到的网页日志进行挖掘得到一系列代表用户兴趣的术语,根据与初始查询词存在同义关系的用户兴趣术语及其权重对初始查询词权重进行调整,利用兴趣术语中与初始查询词存在本体关联关系的术语对初始查询进行扩展。实验结果表明,该方法相对于传统查询扩展方法在一定程度上提高了信息检索的查全率和查准率。  相似文献   

7.
查询效率是数据库系统的重要指标,查询优化是该系统研究的难点和热点.提出了一种基于遗传算法的优化查询方法,该法利用关键字预处理模块,将用户输入的关键字转化为内部关键字,以提高查询准确性;为加快查询响应时间,设置用户搜索统计记录索引表,避免遇到重复搜索时的全库扫描;针对全库扫描时采用遗传算法进行最优求解,提出了相关度的计算方法,根据相关度的大小进行排序,方便用户查询.  相似文献   

8.
web日志挖掘是web挖掘中的一个重要的分支,通过web日志挖掘可以获得用户的访问模式和用户感兴趣的信息及关注的内容,从而为用户提供个性化的服务。另外通过对大量的web日志文件进行分析,可以获取大部分用户同时感兴趣的信息和内容,从而获得关联度高的网页,以便更好地优化和改善网站的布局。  相似文献   

9.
web日志挖掘是web挖掘中的一个重要的分支,通过web日志挖掘可以获得用户的访问模式和用户感兴趣的信息及关注的内容,从而为用户提供个性化的服务。另外通过对大量的web日志文件进行分析,可以获取大部分用户同时感兴趣的信息和内容,从而获得关联度高的网页,以便更好地优化和改善网站的布局。  相似文献   

10.
介绍了"网络迷航"现象及WEB数据挖掘技术,讨论了网站用户浏览行为及获得用户浏览行为模式的方法,构建了模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间.  相似文献   

11.
当搜索日志存在查询词稀疏性和时效性问题时,基于搜索日志的查询扩展方法无法保证查询扩展的质量,无法满足具有时效性查询请求的需求.提出了基于搜索日志与局部上下文的查询扩展方法,通过发掘搜索日志中用户查询词和相关文档的关联关系,抽取查询扩展词,并用局部上下文从相关文档集中提取出频率较大,同时具有时效性的查询扩展词.通过对查询扩展词的查询性能和时效性的计算,该方法为原始查询补充更高质量的查询扩展词.实验结果表明,该方法能够有效地提升准确率和召回率,使原始查询获得更好的查询性能.  相似文献   

12.
为在Web日志数据中挖掘关联规则以指导信息无障碍网站的设计与开发, 针对大量用户对网站页面URL(Uniform Resoure Locator)的访问频率等信息, 通过Apriori算法实
现数据挖掘, 以寻找用户访问页面之间的关联规则。根据3次点击原则及网站结构设计的特点, 对Apriori 算法网页超链接挖掘的过程进行了改进, 频繁项集最多只需找出所有3
-项集即可。算法实现过程表明, 该方法可有效降低算法的时间复杂度, 能通过对关联规则的分析确定用户感兴趣的网页类型, 找出用户所访问网页之间的链接关系。  相似文献   

13.
当前网站激增,网络成为新的营销方式.针对于以优化搜索引擎排名和网站推广,提高网站的知名度和点击率所采用的各种技术手段和方法进行对比分析研究.用户在搜索引擎中搜索关键词时,通常只会浏览前几页的内容,如何使自己的网站让搜索引擎蜘蛛更好的抓取,网站优化推广对于关键字排名和网站权重提升的作用是毋庸置疑的.网站内部优化也叫站内优化,主要要通过对网站功能、网站结构、网页布局、网站内容等要素的合理设计,使得网站内容和功能表现形式达到对用户友好并易于宣传推广的最佳效果,充分发挥网站的网络营销价值.本文主要针对于SEO网站优化推广的各种技术手段进行研究.  相似文献   

14.
A novel personalized Web search model is proposed. The new system, as a middleware between a user and a Web search engine, is set up on the client machine. It can learn a user's preference implicitly and then generate the user profile automatically. When the user inputs query keywords, the system can automatically generate a few personalized expansion words by computing the term-term associations according to the current user profile, and then these words together with the query keywords are submitted to a popular search engine such as Yahoo or Google. These expansion words help to express accurately the user's search intention. The new Web search model can make a common search engine personalized, that is, the search engine can return different search results to different users who input the same keywords. The experimental results show the feasibility and applicability of the presented work.  相似文献   

15.
在移动互联网用户行为分析系统中,为了使深度包检测(deep packet inspection,DPI)进行有效地数据匹配,对用户行为进行更深层次的分析,达到不仅能识别出业务网站类型而且还识别出业务网站访问具体内容的目标,设计出一种能进行具体内容级别上特征爬取和提炼的爬虫模块.针对特定业务网站,考虑广义爬取对技术和存储要求高的缺点以及针对某一行业的爬虫系统得到数据有限的不足,设计并实现了一种基于特定页面分析的聚焦爬虫模块.该爬虫模块采用模块化的思想,使用多线程多任务,精确高效地爬取特定业务网站信息,为DPI匹配提供数据支持.经过测试验证,该爬虫模块达到了预期的要求,可维护性、可扩展性和实时性强,满足移动互联网用户行为分析系统对特征数据提取的需求.  相似文献   

16.
通过分析用户的查询日志, 模拟用户与搜索引擎之间的交互过程, 提出一种基于查询加权的用户建模方法。首先, 对查询日志进行会话分割; 然后, 利用会话中用户查询出现的次数、持续时间及所点击的URL排名等行为信息, 计算查询权重; 最后, 采用兴趣投票的方式, 完成用户模型的构建。在AOL (美国在线)查询日志数据集上的测试结果表明, 基于查询加权的用户建模方法在用户兴趣预测上取得较好的效果。  相似文献   

17.
目的提高扩展词与用户查询在语义层面上的关联,解决歧义扩展问题。方法基于差分进化算法的语义查询扩展技术先利用领域本体提供的领域背景知识来获取候选扩展词集,然后通过分析用户日志来获取用户检索偏好信息,最后利用差分进化算法确定同用户检索意图最相符的扩展词集。结果比起前沿的局部上下文分析方法,基于差分进化算法的语义查询扩展技术能够确定更高质量的扩展词集。结论利用用户日志和本体中概念间的语义关系作为背景数据来过滤无关的扩展词可以有效提高后续语义扩展过程的效率,差分进化算法能够有效排除同用户检索意图无关的词集并确定高质量的扩展词集。  相似文献   

18.
介绍了动态网页生成技术的原理和通过ASP程序的ADO组件对数据库的访问方法,阐述了利用动态网页设计技术检索数据库并将结果转化为HTML格式的原理来实现智能网站的设计,最后以课程教学网的开发为例,给出了智能网站实现的方法和步骤。  相似文献   

19.
利用支持向量回归确定相关Web查询   总被引:1,自引:0,他引:1  
对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关Web查询的新方法.对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关Web查询.实验结果表明该方法具有较高的准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号