共查询到20条相似文献,搜索用时 0 毫秒
1.
提出一种基于粗糙模糊集的层次聚类算法。在该算法中,通过事务间的相似性关系生成用户事务模糊矩阵,运用基于模糊矩阵的粗糙上近似提取初始类,使用约束相似性的上近似概念形成后续类,其中的一个相对的相似性条件被用作合并准则。该算法可以帮助Web挖掘者描述潜在的新的Web用户组特性。 相似文献
2.
为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度闽值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。 相似文献
3.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识. 相似文献
4.
针对传统单纯聚类算法实现网页推荐精确度欠缺的问题, 提出一种基于Web日志挖掘的个性化网页推荐模型, 并实现了相应的网页推荐算法, 算法结合聚类分析和关联规则挖掘, 能有效实现网页推荐. 实验结果表明, 在保障网页页面推荐覆盖率的条件下, 该方法有较高的精确度、 有效性和实用性. 相似文献
5.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。 相似文献
6.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题. 相似文献
7.
YANGJian-wu 《武汉大学学报:自然科学英文版》2004,9(5):817-822
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. 相似文献
8.
一种新的Web事务模糊聚类算法的研究 总被引:11,自引:1,他引:11
提出了一种新的Web事务模糊聚类算法。首先,在Web日志预处理后建立Web站点用户访问矩阵,矩阵元素为用户访问离散化时间,在此基础上进行Web事务群体的模糊聚类,最后对在线的活动Web事务进行类别归属。经实验证明,该算法比已有的算法准确性高,运行时间少,扩展性好,它可以广泛地应用于电子商务领域,如个性化Web和Web推荐系统等。 相似文献
9.
提出了一种适用于多镜像站点环境下的分布式Web使用聚类局部挖掘算法LUC和全局挖掘算法GUC,较好地解决了Web访问信息的异地存储、分布式算法通讯量等因素给模式分析过程带来的困难. 将给出的算法用Java语言加以实现,并对算法性能进行了研究. 结果证明,该算法是有效的,可以用来高效、准确地在多镜像站点环境下发现Web用户群体模式. 相似文献
10.
A dynamic fuzzy clustering method is presented based on the genetic algorithm. By calculating the fuzzy dissimilarity between samples the essential associations among samples are modeled factually. The fuzzy dissimilarity between two samples is mapped into their Euclidean distance, that is, the high dimensional samples are mapped into the two-dimensional plane. The mapping is optimized globally by the genetic algorithm, which adjusts the coordinates of each sample, and thus the Euclidean distance, to approximate to the fuzzy dissimilarity between samples gradually. A key advantage of the proposed method is that the clustering is independent of the space distribution of input samples, which improves the flexibility and visualization. This method possesses characteristics of a faster convergence rate and more exact clustering than some typical clustering algorithms. Simulated experiments show the feasibility and availability of the proposed method. 相似文献
11.
基于URL语义分析的Web用户会话识别方法 总被引:1,自引:0,他引:1
朱志国 《大连理工大学学报》2011,51(3):440-446
由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值... 相似文献
12.
基于兴趣相似性的Web用户聚类 总被引:8,自引:0,他引:8
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的. 相似文献
13.
本文讨论了基于Web使用挖掘的Web个性化技术,针对个性化系统的功能及特点,论述了相关数据采集、数据预处理技术和模式发现及其在个性化服务中的应用,提出了一个关于个性化系统的实时聚类算法.实验结果表明,该算法不仅有效,而且具有较高的准确度,能适应用户短期浏览的变化. 相似文献
14.
李金霞 《南京邮电大学学报(自然科学版)》2009,9(19)
利用改进的自适应粒子群优化算法(APSO)较强全局寻优、快速收敛的特点和模糊C-均值算法(FCM)对初始值敏感、容易陷入局部最优的缺点,提出一种基于自适应粒子群优化算法的模糊聚类算法(APFM)。新算法有效的克服了FCM算法的缺点,同时增强了APSO算法全局搜索和跳出局部最优的能力。实验表明:新算法与单一的FCM和APSO算法相比聚类更准确,效率更高。 相似文献
15.
基于APSO的模糊聚类算法 总被引:1,自引:0,他引:1
利用改进的自适应粒子群优化算法(APSO)较强全局寻优、快速收敛的特点和模糊C-均值算法(FCM)对初始值敏感、容易陷入局部最优的缺点.提出一种基于自适应粒子群优化算法的模糊聚类算法(APFM).新算法有效的克服了FCM算法的缺点,同时增强了APSO算法全局搜索和跳出局部最优的能力.实验表明:新算法与单一的FCM和APSO算法相比聚类更准确,效率更高. 相似文献
16.
Web日志挖掘技术应用研究 总被引:9,自引:2,他引:9
吕佳 《重庆师范大学学报(自然科学版)》2006,23(4):39-44
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望. 相似文献
17.
MAOCheng-ying LUYan-sheng 《武汉大学学报:自然科学英文版》2004,9(5):687-693
As the increasing popularity and complexity of Web applications and the emergence of their new characteristics. the testing and maintenance of large, complex Web applications are becoming more complex and difficult. Web applications generally contain lots of pages and are used by enormous users. Statistical testing is an effective way of ensuring their quality. Web usage can be accurately described by Markov chain which has been proved to be an ideal model for software statistical testing. The results of unit testing can b eutilized in the latter stages, wbich is an important strategy for bottom-to-top integration testing, and the other improvement of extended Markov chain model (FMM) is to present the error type vector which is treated as a part of page node. This paper also proposes the algorithm for generating test cases of usage paths. Finally, optional usage reliability evaluation methods and an incremental usability regression testing model for testing and evaluation are presented. 相似文献
18.
文章提出了一种基于交集关系原理的算法叫做交集算法,它与类Apriori算法本质上互补。这种算法的最大优势是不需要产生大量的候选频繁访问模式,就可以直接生成最大频繁访问模式,因此在挖掘过程中也就不需要反复扫描原始数据库来计算各个候选频繁访问模式的支持度计数;经理论分析和试验证明,交集算法具有一定的理论意义和应用价值。 相似文献
19.
基于FLAAT模糊的WEB挖掘算法 总被引:1,自引:0,他引:1
吴瑞 《武汉科技大学学报(自然科学版)》2005,28(3):270-272
为了挖掘出较完全的兴趣模式,提出一种新的结构类型——FLAAT,它可发现那些被忽略的用户浏览偏爱路径。同时引进模糊集来处理停留在网页上的时间,以形成语义术语使挖掘出的用户浏览偏爱路径更自然、更易理解。实验表明,该算法能准确地反映用户的浏览兴趣,且系统的可扩展性较好。 相似文献
20.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。 相似文献