首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于Web日志的匿名网络用户聚类研究   总被引:2,自引:0,他引:2  
该文探讨了从Web日志中提取匿名网络用户会话信息的方法以及会话向量的表述形式,并利用网页的层次性减少会话向量的维数,确定了用户会话之间的相似度的计算公式,最后采用leader层次聚类算法完成匿名网络用户会话聚类。实验结果表明,这种方法是高效可行的,可以较好地解决扩展性和动态聚类等问题。  相似文献   

2.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

3.
为了解决网络设备类型划分粒度粗,导致网络流量无法准确分类的问题,提出了一种基于Spark日志集成与FCM-DNN的流量分析算法。首先,该方法使用Spark集成会话日志以获取可分析的结构化数据;然后对同一网站的行为数据进行聚类,提取网站的多类簇特征集合,以解决单个会话连接特征维度较少、特征相似且不平衡的问题;最后,构建DNN网络,将统一化后的聚类特征与原始特征结合进行训练,并从聚类分组长度和损失函数等多个方面进行算法优化。仿真实验结果表明,对于特征较少的会话日志数据,该算法有效提高了网站分类的准确性,同时在保留学生上网特征的前提下将日志压缩了700倍,从而节省了存储开销。  相似文献   

4.
分析了用户访问Web站点的浏览日志,度量用户的浏览行为.实验从实际获得的Web日志着手,进行Web日志的挖掘,提取用户浏览Web的行为特性数据.通过时间阈值进行会话的划分,选取合适的数据预处理,归一化后生成数据模式向量,引入人工神经网络中的自组织特征映射(SOM)模型,对用户访问倾向聚类,对用户浏览的偏爱度进行度量,为Web站点的进化提供依据.  相似文献   

5.
通过分析用户的查询日志, 模拟用户与搜索引擎之间的交互过程, 提出一种基于查询加权的用户建模方法。首先, 对查询日志进行会话分割; 然后, 利用会话中用户查询出现的次数、持续时间及所点击的URL排名等行为信息, 计算查询权重; 最后, 采用兴趣投票的方式, 完成用户模型的构建。在AOL (美国在线)查询日志数据集上的测试结果表明, 基于查询加权的用户建模方法在用户兴趣预测上取得较好的效果。  相似文献   

6.
用户在一个网站的访问行为反映了用户特定的兴趣,本文提出了一种用户访问模式的聚类算法.利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法.通过一系列的实验分析,结果表明,该算法在可承受的计算时间内可对web日志中的用户存取模式进行有效聚类.聚类结果可应用于山西师范大学网站,对相应用户进行分析,给出个性化的服务等.  相似文献   

7.
Web使用挖掘分析访问者日志,可以发现很多潜在的规律。利用会话之间的依赖关系,给出会话的依赖特征和数值度量,利用会话的动态特性给出会话动态聚类分析的算法和应用,并和模糊聚类算法方法进行比较研究。  相似文献   

8.
随着网络环境的愈加复杂,用户数量和种类显著增加,网络信息更新频繁.针对文本数据自身较稀疏、不规范等特点,提出了基于改进的局部序列比对算法的用户会话聚类新方法.首先通过计算用户会话集成距离方法衡量会话的相似度;然后,采用改进的基于用户会话距离的序列比对算法对话题进行聚类,该算法改善了传统用户聚类算法的不足.实验表明,该算...  相似文献   

9.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

10.
该文提出一个基于Web日志的用户和URL聚类的快速算法。利用用户浏览行为建立用户事务矩阵,在此基础上综合考虑用户浏览时间以及点击频率来获取用户权值和页面权值,构建带权值的模糊聚类。为了缩小运算量,构造等价事务,进行事务约减:并针对于FCM算法簇数目初始化敏感的问题,提出了一种全局搜索的方法,搜寻最优的类中心数。实验证实,该算法在精度和效率上都获得了大大提高。  相似文献   

11.
基于访问代理的数字化校园应用整合研究   总被引:1,自引:0,他引:1  
采用基于访问代理模式,实现对不开放数据库的应用系统的整合.其方法是:通过系统访问代理将用户从门户网站上登录的用户名和密码转换成用户有权限访问的各个系统的用户名、密码及权限,从而实现应用系统的整合,该方法高效、安全经济、实用性强.  相似文献   

12.
基于URL语义分析的Web用户会话识别方法   总被引:1,自引:0,他引:1  
由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值...  相似文献   

13.
Web上的信息量正以惊人的速度增加,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具,即如何从数以亿计的页面中发现需要的内容、如何从大量的访问中发现固有的模式和关联.马尔科夫模型的网页浏览预测,仅仅从用户的浏览网页本身出发,预测用户的下一步链接,并不能捕获到用户的真正兴趣.本文提出基于隐马尔科夫模型的网页浏览路径预测,并将其与基于马尔科夫模型的方法进行对比.根据已知的浏览序列判断用户的类别,当浏览序列长度很短时,本文方法的预测准确性比马尔科夫模型低.这是由于序列长度过短,系统获取判断的信息少,增加了对用户错误分类的可能性.随着浏览序列长度逐渐增加.系统捕获的用户浏览信息越来越多,进而能够折射出用户的兴趣所在.预测准确率也逐步增加.当浏览序列长度大于或等于8时,预测准确率已经到达80%.提高了浏览兴趣预测的准确率.  相似文献   

14.
通过Web日志挖掘技术可分析用户访问模式,从而为客户提供智能化、个性化服务。马尔可夫(Markov)模型的链式结构简便易行,适合作为一个预测模型来预测用户的页面访问模式。就此对Markov预测模型进行深入研究,描述了其实现算法,并结合实例对混合Markov预测模型方法进行了验证。  相似文献   

15.
目的提高扩展词与用户查询在语义层面上的关联,解决歧义扩展问题。方法基于差分进化算法的语义查询扩展技术先利用领域本体提供的领域背景知识来获取候选扩展词集,然后通过分析用户日志来获取用户检索偏好信息,最后利用差分进化算法确定同用户检索意图最相符的扩展词集。结果比起前沿的局部上下文分析方法,基于差分进化算法的语义查询扩展技术能够确定更高质量的扩展词集。结论利用用户日志和本体中概念间的语义关系作为背景数据来过滤无关的扩展词可以有效提高后续语义扩展过程的效率,差分进化算法能够有效排除同用户检索意图无关的词集并确定高质量的扩展词集。  相似文献   

16.
提出一种基于用户历史浏览情况对未来相关网页进行预取的算法.该算法能自适应调整用于生成会话的参数,并使用Session-tree结构完成对相关页面的预取.在实现中考虑到用户在特定事件和时间下的历史浏览行为,使用奖励因子和快速排序策略以提高效率.试验分析结果表明,基于自适应会话调整及群体共同兴趣剖像的预取算法能较好地完成对相关页面的预取.  相似文献   

17.
基于行为模式挖掘的网络入侵检测   总被引:3,自引:0,他引:3  
基于系统模型DMIDS,提出了一种有效防范网络入侵的方法。该方法基于IP包信息挖掘出用户的频繁行为模式,能自动建立正常和异常的用户行为规则库;利用相似性匹配,能实时地检测出已知的和未知的攻击。详细介绍了用户频繁行为模式挖掘算法--IDSPADE,实验结果表明该算法能够有效地发现多种网络入侵行为。和现有基于知识工程的方法相比,该方法具有更高的智能性和环境适应性。  相似文献   

18.
本文针对信息技术这一特定领域,提出了一个通过元搜索引擎向特定用户群体一高校教师提供科研项目信息服务的系统,使其可以使用基于关键词的检索、目录式检索以及信息推送服务。该系统通过元搜索引擎提供统一的访问服务,同时利用用户检索行为信息动态反馈其兴趣主题并调整文档聚类结果.因此可有效提高项目信息检索的查准和查全率,更好地帮助用户快速检索到所需的科研项目信息。  相似文献   

19.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号