首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 575 毫秒
1.
在常用的计算时间阈值识别方法的基础上,提出了一种改进的基于 URL 页面类型、页面信息量和访问时间的平均阈值识别方法.针对不同的页面类型采用不同的阈值计算方法设置时间阈值,相对于已有的对所有用户页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高.  相似文献   

2.
Web使用挖掘中的一种改进的会话识别方法   总被引:19,自引:0,他引:19  
针对Web日志挖掘中的会话识别问题,提出了一种改进的基于时间间隔的识别方法.该方法通过使用访问时间间隔超出某个阈值来识别会话.统计结果表明页面的访问时间呈正态分布,改进的方法在此基础之上为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.实验结果表明,相对于传统的对所有用户页面使用单一的先验阈值进行会话识别的方法,该方法能更准确地确定页面访问时间阈值,为合理有效。  相似文献   

3.
提出一种利用网页特征进行会话识别的方法.通过分析网页本身的特征,计算站点中所有网页的特征向量.根据这些特征向量,可以计算任意网页之间的相关程度.按照用户请求页面在日志中的时间顺序,可以得到日志中所有直接相邻的页面记录的关联程度曲线.通过设定一个阈值,在关联程度曲线中波动较大的位置形成会话边界.将关联程度大的页面分类到一个会话中,从而完成会话识别.  相似文献   

4.
Web日志预处理中会话识别的优化   总被引:3,自引:0,他引:3  
针对目前的各种会话识别方法,提出了一种优化的会话切分方法.该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据.实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

5.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

6.
基于语义的Web用户会话识别算法   总被引:2,自引:0,他引:2  
研究一种基于语义进行Web用户会话识别的算法. 通过建立的语义化预处理模型对使用日志进行扩展,利用基于本体语义度量的Markov链模型识别用户请求所应归属的会话,提出用竞争激励算法判别会话的结束状态. 实验结果表明,基于语义的用户会话识别算法的平均识别率为69.8%,高于时间阈值、向前参考等算法.  相似文献   

7.
提出一种基于用户历史浏览情况对未来相关网页进行预取的算法.该算法能自适应调整用于生成会话的参数,并使用Session-tree结构完成对相关页面的预取.在实现中考虑到用户在特定事件和时间下的历史浏览行为,使用奖励因子和快速排序策略以提高效率.试验分析结果表明,基于自适应会话调整及群体共同兴趣剖像的预取算法能较好地完成对相关页面的预取.  相似文献   

8.
提出了基于web拓扑结构和访问页面兴趣度动态确定时间间隔的算法,将其应用到网络日志数据预处理研究中的会话识别阶段.以反向代理服务器采集的网络日志作为数据来源进行实验,结果表明该算法同其他会话识别算法相比,在精确度和完整度上有了很大的提高;能够有效保留用户访问校内网的日志数据特征,为后面完成推荐或者决策提供一个良好的基础.  相似文献   

9.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

10.
为提高用户会话聚类的准确性,充分利用页面路径的相似性,提出了基于兴趣点的会话相似性测量方法IPB(interest-point based).该方法充分利用页面路径包含的网站层次结构所体现的分类信息,将同一目录中的页面定义为一个兴趣点.在计算会话相似性时,首先获取用户会话中的兴趣点,根据页面路径的相似性计算兴趣点的相似性,然后根据兴趣点求出会话之间的相似度.实验结果表明,该方法能够更准确地计算Web会话的相似性.  相似文献   

11.
网络日志挖掘中基于时间间隔的会话切分   总被引:10,自引:0,他引:10  
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。  相似文献   

12.
提出了一种在基于图像的指纹识别系统中,图像二值化中的动态门限值的确定方法。通过对几种传统门限值确定法的分析,得出传统确定门限值方法在数学计算上的弊端,进而引出基于探测概率和虚警概率确定门限值的优点,并给出了基于概率与统计学上的推导过程。这种恒虚警概率条件下的动态门限值确定法克服了传统方法的缺点,完全适应于计算机求解。因此,将该种理论与现在的处理技术和手段相结合,能够很好地满足指纹识别系统的实时性要求。  相似文献   

13.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

14.
为解决基于固定信干噪比(SINR: Signal to Interference plus Noise Ratio)门限值的协作用户划分策略的不足, 在综合考虑系统平均速率和边缘用户最小平均速率基础上, 定义了协作距离。提出了基于效用函数的协作用户划分动态分簇联合多用户调度算法, 并采用蒙特卡洛方法进行了仿真。仿真结果表明, 改进的基于效用函数的协作用户划分算法能在系统整体性能和边缘用户性能上取得较好的平衡, 系统整体性能得到提升。在相同信噪比条件下, 系统平均频谱效率提升0.1~ 0.2 bit/(s·Hz)。  相似文献   

15.
一种新的Web事务模糊聚类算法的研究   总被引:11,自引:1,他引:11  
提出了一种新的Web事务模糊聚类算法。首先,在Web日志预处理后建立Web站点用户访问矩阵,矩阵元素为用户访问离散化时间,在此基础上进行Web事务群体的模糊聚类,最后对在线的活动Web事务进行类别归属。经实验证明,该算法比已有的算法准确性高,运行时间少,扩展性好,它可以广泛地应用于电子商务领域,如个性化Web和Web推荐系统等。  相似文献   

16.
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。  相似文献   

17.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号