首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
Web日志预处理中会话识别的优化   总被引:3,自引:0,他引:3  
针对目前的各种会话识别方法,提出了一种优化的会话切分方法.该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据.实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

2.
Web使用挖掘中的一种改进的会话识别方法   总被引:19,自引:0,他引:19  
针对Web日志挖掘中的会话识别问题,提出了一种改进的基于时间间隔的识别方法.该方法通过使用访问时间间隔超出某个阈值来识别会话.统计结果表明页面的访问时间呈正态分布,改进的方法在此基础之上为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.实验结果表明,相对于传统的对所有用户页面使用单一的先验阈值进行会话识别的方法,该方法能更准确地确定页面访问时间阈值,为合理有效。  相似文献   

3.
通过对传统web会话识别方法分析和比较,改进了目前最常用的基于时间阈值会话识别方法,提出了一种基于动态阈值会话识别方法,该算法采用动态计算会话中请求记录间的平均时间间隔和动态计算会话中页面的平均大小相结合的方法,根据用户和网页的特点动态调整阈值,相对于传统单一的先验阈值,该方法可以根据不同的用户访问不同的页面生成动态的阈值,充分运用用户和网页信息.经过实验验证,该方法可以识别出更多的用户会话,且识别会话的准确率和查全率也比传统算法更高.  相似文献   

4.
在常用的计算时间阈值识别方法的基础上,提出了一种改进的基于 URL 页面类型、页面信息量和访问时间的平均阈值识别方法.针对不同的页面类型采用不同的阈值计算方法设置时间阈值,相对于已有的对所有用户页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高.  相似文献   

5.
针对传统汉字切分方法中对粘连汉字和重叠汉字切分不准确的问题,提出了基于极小阈值和曲线拟合的垂直投影汉字切分算法.该算法在传统垂直投影法汉字切分的基础上结合极小阈值和曲线拟合进行切分,实验结果表明:相对于传统汉字切分方法,该算法对含有粘连和重叠现象的手写体汉字文本的切分是有效的,从而可使手写体汉字的切分准确率有较大的提高.  相似文献   

6.
为实现一种基于IP服务的会话初始协议(SIP)的代理服务器,在分析SIP协议的基础上,提出了一种设计方案并成功实现.此方案采用多线程处理各种发送、处理、接收以及记录等,对SIP系统的研发有一定的参考借鉴意义.  相似文献   

7.
针对印刷体维文在连体段切分部分存在过切分和漏切分的现象,结合水平投影法和连通域搜索法实现维文文本的行切分和单词切分;同时针对连体段切分正确率不高的问题,提出一种新的切分方法。首先对字母连体段位于基线上方的部分进行竖直投影来寻找所有可能的切点,然后利用阈值判定法去除误切分。实验证明,该方法提高了印刷体维文的切分正确率,为提高维文识别的正确率打下基础。  相似文献   

8.
提出了基于web拓扑结构和访问页面兴趣度动态确定时间间隔的算法,将其应用到网络日志数据预处理研究中的会话识别阶段.以反向代理服务器采集的网络日志作为数据来源进行实验,结果表明该算法同其他会话识别算法相比,在精确度和完整度上有了很大的提高;能够有效保留用户访问校内网的日志数据特征,为后面完成推荐或者决策提供一个良好的基础.  相似文献   

9.
针对传统的交叉验证均方差模型在确定交通流监测数据最优汇集时间间隔研究方面存在的不足,以交通流量、时间平均速度、占有率等3个交通流基本参数来表征城市道路交通流运行状态.在传统的交通状态交叉验证均方差估计方法的基础上,提出了一种改进的基于交通状态矢量的交叉验证均方差模型,以估计不同汇集时间间隔时交通流监测数据的波动性.然后,构建了基于交通状态矢量的均差值假设检验,并采用t检验方法寻找交叉验证均方差值变化的拐点,以确定交通流监测数据的最优汇集时间间隔.以昆山市城市道路车辆检测器实际采集的交通流数据为例,对不同等级城市道路交通流监测数据的最优汇集时间间隔进行了量化分析.结果表明,在实际应用中,城市道路交通流监测数据的最优汇集时间间隔可以选取为5 min.  相似文献   

10.
提出了一种基于模糊神经网络的汉语语音声韵母切分方法。该网络的输入采用了时间相依序列的并置输入形式,它的模糊层的输出值在〔0,1〕之间,提供了输入矢量对应的类别的信息,将单音节输入矢量分为噪声,声母和韵母三段,完成了音节的定位和声韵母切分。  相似文献   

11.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

12.
一种Linux环境下安全高效的代理服务器解决方案   总被引:1,自引:0,他引:1  
以一个实验室局域网的互联网接入为例,提出了一个在Linux环境下利用代理服务器技术的局域网Internet接入方案.该方案解决了局域网IP地址耗尽问题,降低了Internet接入费用.实验表明,该方案可以提供安全、高效的服务.  相似文献   

13.
基于分段的适应性流媒体缓存管理算法   总被引:1,自引:0,他引:1  
为提高流媒体代理服务器的缓存效率,从而提高整个流媒体服务系统的性能,提出一种基于用户访问模式的适应性媒体分段缓存策略。该策略充分考虑用户行为模式对具体影片访问特性的不同,采取有针对性的分段缓存管理策略,可显著提高代理缓存命中率。为避免由于分段策略所潜在引发的播放抖动问题,对相应的预取算法进行了理论分析。事件驱动试验结果表明:所提出的缓存算法命中率较之传统的定长分段算法及系统现有的间隔缓存策略均有显著的性能提高,系统稳定时缓存命中率分别高出后两者54%和31%。  相似文献   

14.
为提高流媒体代理服务器的缓存效率,从而提高整个流媒体服务系统的性能,提出一种基于用户访问模式的适应性媒体分段缓存策略。该策略充分考虑用户行为模式对具体影片访问特性的不同,采取有针对性的分段缓存管理策略,可显著提高代理缓存命中率。为避免由于分段策略所潜在引发的播放抖动问题,对相应的预取算法进行了理论分析。事件驱动试验结果表明:所提出的缓存算法命中率较之传统的定长分段算法及系统现有的间隔缓存策略均有显著的性能提高,系统稳定时缓存命中率分别高出后两者54%和31%。  相似文献   

15.
Network on chip (NoC) architectures have been proposed to resolve complex on-chip communication problems. An NoC-based mapping algorithm is shown in this paper. It can map irregular intellectual properties (IPs) cores onto regular tile 2-D mesh NoC architectures. The basic idea is to decompose a large IP into several dummy IPs or integrate several small IPs into one dummy IP, such that each dummy IP can fit into a single tile. It can also allocate buffer space according to the input/output degree and avoid connection congestion by adapting communication density. Experimental data indicate that using the algorithm proposed in this paper, the communication energy can be reduced about 7%.  相似文献   

16.
近年来CERNET有了长足的发展,越来越多的院校和科研部门连入了CERNET。网络计费是CERNET上一个十分迫切和关键的问题,目前已多种上计费系统,但大多数计费都是基于IP地址的,这种方法对于多人使用同一台计算机的情况,不能分别对每个用户来计帐,因此存在许多不方便之处,本提出了一种面向用户的计费方法,这种方法还可以有效防止IP地址的盗用。  相似文献   

17.
Web智能代理的预取技术和缓存技术   总被引:4,自引:0,他引:4  
针对同一个工人组中成员可能对Web有相似的兴趣点和访问习惯问题,研究了主要包括缓存和预取两个部分的智能代理技术,研究了代理缓存三种替换算法:LRU和LRU的两种变种,仿真试验表明,LRU算法的命中率极差,将LRU的两种变种相结合则是一种较好的方案,通过引入预测算法和门限算法,代理服务器可以预测最近将要访问到的页面,并存在客户际请求提出之前有选择地下载,因为单个客户访问某个页面的历史次数往往不够多,将预测算算放在代理服务器上比放在客户端的预测概率更准确,通过在代理服务器上实现缓存和预取技术,可减少用户访问Web的响应时间,还可减少实际访问Web服务器的总次数,并提出了一个为发展中国家中国家用户缩减Web访问代价的有效方法。  相似文献   

18.
一种基于引用日志文件的启发式会话识别算法   总被引:1,自引:0,他引:1  
为了将服务器日志分割为多个独一无二的用户的一次访问序列,提出了一种基于引用日志文件的启发式会话识别算法,并给予很好的算法实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号