首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 390 毫秒

1.  Web日志预处理中会话识别的优化  被引次数:2
   朱晋华  陈俊杰《太原理工大学学报》,2008年第39卷第2期
   针对目前的各种会话识别方法,提出了一种优化的会话切分方法.该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据.实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.    

2.  Web日志挖掘中数据预处理技术研究  被引次数:2
   方元康  胡学钢  夏启寿《安庆师范学院学报(自然科学版)》,2008年第14卷第3期
   Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。    

3.  网络日志挖掘中基于时间间隔的会话切分  被引次数:9
   庄力可  寇忠宝  张长水《清华大学学报(自然科学版)》,2005年第45卷第1期
   针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。    

4.  Web访问挖掘中数据预处理的改进  被引次数:1
   黄志强  贾宇波《广西师范大学学报(自然科学版)》,2007年第25卷第2期
   在分析现有的Web访问挖掘数据预处理模型和会话识别算法的基础上,提出了一种改进的Web访问挖掘数据预处理模型并对基于时间和引用的启发式会话识别算法进行了改进。实验证明,改进的Web访问挖掘数据预处理模型和会话识别算法非常适合于当前搜索引擎广泛使用下的Web访问挖掘数据预处理。    

5.  Web日志挖掘中数据预处理方法研究  
   陈红丽《科学技术与工程》,2012年第12卷第8期
   数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。    

6.  Web日志挖掘数据预处理中的会话识别技术  
   许艳丹《中国西部科技》,2011年第10卷第4期
   会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。    

7.  一种基于会话聚类算法的Web使用挖掘方法  
   陈富赞  刘青  李敏强  寇纪淞《系统工程学报》,2012年第27卷第1期
   Web使用挖掘作为数据挖掘的一个重要任务,有助于了解用户群体的特征,从而为其提供个性化服务.提出了一种基于用户会话聚类的Wei使用挖掘算法.首先,对Web日志预处理采用基于时间窗的用户会话识别方法,提出了一种基于三元组的用户会话表示方法,并在此基础上给出了基于网页语义相似性的会话处理方法,该方法能够在保持用户兴趣不变的情况下有效降低会话维度;其次,提出了一种基于时间及频次的用户会话相似性度量方法;最后,设计了一种两阶段PS-KM会话聚类算法,先用PSO方法进行全局搜索再转入基于K-means方法的局部聚类过程.仿真表明了算法的有效性.    

8.  基于超图聚类的用户行为模式挖掘  被引次数:3
   杨明花  古志民《广西师范大学学报(自然科学版)》,2006年第24卷第4期
   为解决代理服务器端用户行为日志的高维特征,提出一种基于超图模型的Web会话聚类方法。该方法利用页面归约和隐含在会话中的时间等统计信息描述会话,并在此基础上利用基于关联规则的超图对用户会话进行聚类,可以在较高层次上发现代理服务器端的用户行为模式。实验结果表明,该方法可以在大型的代理日志文件集中挖掘出有意义的用户行为模式,有效揭示用户的行为规律。    

9.  改进的页面与时间阈值的会话识别法  
   郑立山  滕少华*《江西师范大学学报(自然科学版)》,2012年第4期
   在常用的计算时间阈值识别方法的基础上,提出了一种改进的基于URL页面类型、页面信息量和访问时间的平均阈值识别方法.针对不同的页面类型采用不同的阈值计算方法设置时间阈值,相对于已有的对所有用户页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高.    

10.  基于语义的Web用户会话识别算法  被引次数:2
   张辉  宋瀚涛  徐晓梅《北京理工大学学报》,2007年第27卷第6期
   研究一种基于语义进行Web用户会话识别的算法. 通过建立的语义化预处理模型对使用日志进行扩展,利用基于本体语义度量的Markov链模型识别用户请求所应归属的会话,提出用竞争激励算法判别会话的结束状态. 实验结果表明,基于语义的用户会话识别算法的平均识别率为69.8%,高于时间阈值、向前参考等算法.    

11.  Web使用记录挖掘前的事务识别方法  
   胡秦斌  李广原《广西师范学院学报(自然科学版)》,2007年第24卷第4期
   Web使用记录挖掘是采用数据挖掘技术对Web服务器上日志文件中的数据进行挖掘,以发现用户访问Web的方式及页面间存在的某种关联,从而可以为网站设计、提供网络个性化服务及其他电子商务活动提供决策依据.事务识别是Web使用记录挖掘前的一种数据预处理技术,本文介绍事务识别的基本方法,并给出一个最大前向引用序列事务识别新方法.    

12.  从Web数据中挖掘频繁访问模式  被引次数:7
   潘登  董小社  杨麦顺  冯锐  张晓亮《西安交通大学学报》,2002年第36卷第6期
   提出了一种新的用户浏览行为模型,通过在Web日志挖掘中引入页面信息量参数,以Web页面文件大小与用户浏览时间的比值作为对页面关心程度的度量,将页面引用划分为导航目的与内容目的两种类型。在此基础上定义并实现了对应的内容事务识别方法。实际数据的挖掘结果证明了模型的适用性。    

13.  基于URL语义分析的Web用户会话识别方法  
   朱志国《大连理工大学学报》,2011年第51卷第3期
   由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值鉴别方法SOAs和SOAd对用户会话进行切分识别.最后对提出的方法与现有经典方法进行了比较实验与分析,结果表明会话识别的精确率和召回率有所提高.    

14.  基于网络日志的数据挖掘预处理改进方法  被引次数:1
   孙宇航  孙应飞《系统工程与电子技术》,2009年第31卷第12期
   对网络日志数据挖掘预处理技术进行研究,针对Frame页面过滤方法与超时阈值设定进行分析,提出了应用ID3算法改进Frame页面过滤过程中丢失SubFrame页面信息且需要进行站点提升步骤。在超时阈值的设定方面采用动态修正方法,提高预处理技术对长时间会话的识别能力的改进方法。通过实验验证,该方法有效地减少了预处理过程中的信息丢失,同时提高了挖掘结果的精度。    

15.  基于Apriori关联规则在信息无障碍网站的应用  
   王玉  张伟红  刘雨《吉林大学学报(信息科学版)》,2013年第31卷第1期
   为在Web日志数据中挖掘关联规则以指导信息无障碍网站的设计与开发,针对大量用户对网站页面URL(Uniform Resoure Locator)的访问频率等信息,通过Apriori算法实现数据挖掘,以寻找用户访问页面之间的关联规则。根据3次点击原则及网站结构设计的特点,对Apriori算法网页超链接挖掘的过程进行了改进,频繁项集最多只需找出所有3-项集即可。算法实现过程表明,该方法可有效降低算法的时间复杂度,能通过对关联规则的分析确定用户感兴趣的网页类型,找出用户所访问网页之间的链接关系。    

16.  基于用户访问兴趣的Web日志挖掘  
   何跃  马丽霞  腾格尔《系统工程理论与实践》,2012年第32卷第6期
   Web日志挖掘可以发现访问者兴趣和需求,提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法.首先以Web日志为基础构建相关矩阵,使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度,最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类.实证分析结果表明该算法能较好地解释用户的实际访问兴趣,从而为网站提供相应的运营建议.    

17.  基于人工蚁群的Web会话聚类  
   周海斌《重庆邮电学院学报(自然科学版)》,2006年第18卷第5期
   将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。    

18.  基于人工蚁群的Web会话聚类  
   周海斌《重庆邮电大学学报(自然科学版)》,2006年第18卷第5期
   将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。    

19.  基于网页特征的会话识别方法  
   陈子军  王鑫昱《燕山大学学报》,2008年第32卷第1期
   提出一种利用网页特征进行会话识别的方法.通过分析网页本身的特征,计算站点中所有网页的特征向量.根据这些特征向量,可以计算任意网页之间的相关程度.按照用户请求页面在日志中的时间顺序,可以得到日志中所有直接相邻的页面记录的关联程度曲线.通过设定一个阈值,在关联程度曲线中波动较大的位置形成会话边界.将关联程度大的页面分类到一个会话中,从而完成会话识别.    

20.  Web数据挖掘算法  
   徐晓玲《南昌高专学报》,2007年第22卷第3期
   本文利用web数据挖掘方法对网站进行优化,在提出了网站优化系统的基本框架基础上,给出相应的web数据挖掘算法:频繁模式发现及序列模式挖掘两个主要算法以找到网站访问者感兴趣的页面集合以及频繁使用的链接序列,该结果以改进网站的设计,提高网站的访问率。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号