首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于粗集的模糊聚类方法和结果评估   总被引:3,自引:0,他引:3  
粗集的决策表的属性包括定量属性和定性属性,针对这种情况,根据一种对象的相似性度量方法,使用模糊聚类方法对粗集对象进行模糊聚类,对聚类结果进行了评估(根据这种聚类方法得到的结果和实际的分类结果进行比较).在这种相似性度量方法基础上,证明了粗集的等价关系可以被转化为模糊等价矩阵.基于粗集的聚类步骤如下:首先,一个粗集等价关系都可以转化为一个模糊相似矩阵,其次,转化成一个模糊等价矩阵,最后,进行模糊聚类.对此方法进行了实验,并对实验的结果进行评估.实验结果说明了这种方法的简单高效.  相似文献   

2.
针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.  相似文献   

3.
通过对现有个性化搜索引擎排序算法的研究,提出了一个新的排序算法.该算法首先在不同粒度上多次使用SVD技术和k-means聚类技术,将用户浏览历史及其所包含的词在不同层次上进行文档聚类和词聚类,创建两棵加权兴趣树:文档类树和词类树.其中,树中每个节点的权值表示用户对该类文档或该类词的感兴趣程度.接着,利用朴素贝叶斯分类器对搜索引擎得到的网页进行文档分类和词分类,并根据分类结果进行网页评分.最后,将网页根据文档得分降序排列.实验表明该方法能为用户提供更为精确的个性化排序.  相似文献   

4.
针对S700K转辙机动作功率曲线非线性、非平稳的特点,提出一种基于模糊聚类的信号分析及故障诊断方法。该方法对转辙机故障下的动作功率曲线提取特征值,由各模式下的10种特征值组成特征模式矩阵,利用模糊聚类分析算法求该矩阵的模糊相似矩阵与模糊等价矩阵,在模糊等价矩阵中,当可变阈值λ在[0,1]内变动时,模糊等价矩阵转化为等价的布尔矩阵,由布尔矩阵可以形成动态聚类图并得到分类结果,从而实现故障诊断。研究结果表明:该算法能够准确地提取故障特征且支持多种故障同时检测,有效提高了S700K转辙机故障诊断的精度与诊断效率。  相似文献   

5.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

6.
利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。与已有的网页聚类方法相比较,该方法能够提供多级聚类结果,满足不同的聚类需求,而且在聚类的准确率和效率方面有本质上的提高。  相似文献   

7.
针对模糊C均值聚类(FCM)算法聚类原型最适合于球状类型簇的特点,提出了基于类间分离度和类内紧缩度加权的冗余聚类中心的FCM算法,即先将大簇或者延伸形状的簇(非凸)采用加权FCM算法分割成多个小类(冗余类),从而规避FCM算法对初始聚类中心敏感的弱点.由于隶属度划分矩阵的元素是每个样本隶属于各冗余类的隶属度值,因此将其作为各冗余类的类特征,通过对应分析得到冗余类的新特征,再次采用加权FCM算法进行冗余类合并,最后达到分类效果.以代表曲线分割和曲面分割分类问题的3个典型数据集为算例,结果表明该方法能够识别不规则的簇,解决了FCM算法对初始聚类中心敏感的缺陷.  相似文献   

8.
本文讨论了模糊等价矩阵的一些性质,并给出了一个模糊相容矩阵是等价的充要条件.在此基础上,提出了某些模糊相容矩阵改造为等价矩阵的简便方法以及在模糊相容矩阵R上直接进行聚类分析的一种方法,这个方法将整个聚类过程化为在表格R上的作业法.  相似文献   

9.
基于分解构造的最优模糊等价矩阵的计算   总被引:1,自引:0,他引:1  
本文在模糊等价矩阵的分解构造基础上给出了等价标准型的形式,之后给出了求最优模糊等价矩阵的算法,并提出了两种简化计算的方法,为模糊聚类计算提供了新的计算方法.  相似文献   

10.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

11.
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应用于Web预取系统。实验结果表明,WCM模型在保持较高预取效率的前提下具有较好的聚类效果和适用性。  相似文献   

12.
Optimal clustering for the web documents is known to complicated combinatorial Optimization problem and it is hard to develop a generally applicable oplimal algorithm. An accelerated simuIated arlneaIing aIgorithm is developed for automatic web document classification. The web document classification problem is addressed as the problem of best describing a match between a web query and a hypothesized web object. The normalized term frequency and inverse document frequency coetficient is used as a measure of the match. Test beds are generated on - line during the search by transforming model web sites. As a result,web sites can be clustered optimally in terms of keyword vectors of corresponding web documents.  相似文献   

13.
针对 Web应用挖掘中聚类算法中的问题 ,提出加权 Web访问模式聚类算法 .该算法利用服务器日志库中保存的网页访问次数信息 ,提高了聚类的客观性和准确性 .  相似文献   

14.
文章提出一种新的用户浏览模式的聚类算法,该算法应用马尔可夫链与模糊逻辑理论,通过对Web会话文件的处理,赋予类标记,实现了根据访问模式对用户的分类,以便个性化推荐和指导不同类别的用户进行学习.  相似文献   

15.
Web日志挖掘旨在使用数据挖掘技术从Web服务器日志文件中挖掘出有用的规律和模式,以此改进网站结构以及实现Web个性化服务。本文提出基于免疫聚类的Web日志挖掘算法,利用人工免疫系统的基本原理来进行用户聚类分析,从而发现相似客户群体、挖掘潜在客户。免疫聚类通过模拟免疫系统体液免疫应答的基本过程,提取出数据的基本特征,以此概括数据的分布特征,从而实现Web日志数据的无监督自组织聚类。通过在真实数据集上的实验证明了该算法的可行性和有效性。  相似文献   

16.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

17.
The demand for individualized teaching from Elearning websites is rapidly increasing due to the huge differences existed among Web learners. A method for clusteringWeb learners based on rough set is proposed. The basic ideaof the method is to reduce the learning auributes prior to clustering, and therefore the clustering of Web learners iscarried out in a relative low-dimensional space. Using thismethod, the E-learning websites can arrange correspondingleaching content for different clusters of learners so that thelearners‘ individual requirements can be more satisfied.  相似文献   

18.
一种基于用户浏览路径的Web用户聚类方法   总被引:1,自引:0,他引:1  
在Web用户聚类中,针对具有相似浏览路径和兴趣的用户聚类问题,提出一种新的相似度计算方法.该方法将事务路径看作有序时间序列,以代替用户的兴趣路径;同时结合用户事务路径的停留时间来计算相似度.通过这种方法计算出的用户相似度更接近真实,达到提高web用户聚类的效果,为用户提供更优质的个性化服务.对比实验证明该方法的有效性.  相似文献   

19.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

20.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号