共查询到20条相似文献,搜索用时 15 毫秒
1.
基于兴趣相似性的Web用户聚类 总被引:8,自引:0,他引:8
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的. 相似文献
2.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。 相似文献
3.
基于Web日志的匿名网络用户聚类研究 总被引:2,自引:0,他引:2
该文探讨了从Web日志中提取匿名网络用户会话信息的方法以及会话向量的表述形式,并利用网页的层次性减少会话向量的维数,确定了用户会话之间的相似度的计算公式,最后采用leader层次聚类算法完成匿名网络用户会话聚类。实验结果表明,这种方法是高效可行的,可以较好地解决扩展性和动态聚类等问题。 相似文献
4.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题. 相似文献
5.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性. 相似文献
6.
基于模糊相似度的科技文献软聚类算法 总被引:3,自引:0,他引:3
本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。 相似文献
7.
首先分析了源代码相似度检测系统研究现状与存在问题。然后介绍了源代码相似度识别方法,给出了检测系统设计与实现,主要是系统框架设计、检测模块设计和检测结果输出等,最后对检测系统做了测试和效果分析。 相似文献
8.
9.
一种基于用户浏览路径的Web用户聚类方法 总被引:1,自引:0,他引:1
在Web用户聚类中,针对具有相似浏览路径和兴趣的用户聚类问题,提出一种新的相似度计算方法.该方法将事务路径看作有序时间序列,以代替用户的兴趣路径;同时结合用户事务路径的停留时间来计算相似度.通过这种方法计算出的用户相似度更接近真实,达到提高web用户聚类的效果,为用户提供更优质的个性化服务.对比实验证明该方法的有效性. 相似文献
10.
一种基于概念相似度的文本模糊聚类方法 总被引:4,自引:0,他引:4
文本挖掘是数据挖掘的一个重要研究领域。基于形式概念分析和概念相似度,给出了一种新的文本模糊聚类方法。该方法不仅考虑了关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求,得到不同的聚类结果,具有较好的灵活性。最后通过实例,说明了给出算法的可行性。 相似文献
11.
用户对Web站点的访问代表了用户对Web站点上页面的访问兴趣,这种兴趣程度可以通过用户对Web站点上页面的浏览顺序及页面上的浏览时间表现出来.通过对Web用户访问路径的分析,提出一种基于浏览路径及浏览时间的相似度的度量方法.然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法.最后使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader聚类算法Web用户的有效性. 相似文献
12.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。 相似文献
13.
信息系统收集了大量的业务过程事件日志,过程发现旨在从事件日志中发现过程模型.但面对高度灵活的环境,简单地应用已有的过程发现技术通常会产生不可理解的过程模型(即意大利面模型)问题.轨迹聚类方法允许分解现有的事件日志,从而有效地解决这一问题.现有的轨迹聚类方法有很多,如基于向量空间方法的聚类、基于上下文感知的聚类、基于模型... 相似文献
14.
周向军 《辽宁科技大学学报》2017,40(4)
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。 相似文献
15.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。 相似文献
16.
基于全序列比对相似度预测信号肽 总被引:1,自引:0,他引:1
针对信号肽预测问题,提出采用全序列比对度量序列相似度,以避免以往算法借助滑动窗将整个氨基酸序列分割成等长序列片断所导致的信息丢失及不平衡样本等问题.在此基础上证明基于全序列比对的相似度可嵌入欧式空间,进而借助支持向量机(SVM)进行分类预测.在目前广泛应用的Neilsen数据集上进行实验并与相关结果比较,结果表明所提出的算法确实可以保证稳定的高预测率. 相似文献
17.
现有研究集中于不带有时间空间信息或带有固定时间空间信息的活动序列相似度计算,没有从不同层次来度量用户行为序列的相似性,为了实现对用户行为多粒度多视角的动态认知,提出一种基于序列比对算法Needleman-Wunsch的多粒度时空序列比对算法(multi-granular spatiotemporal sequences alignment,MGSSA),扩展了NW算法的得分函数以结合时间、空间信息,通过粒度调控实现了从不同的粒度来计算时空事件序列的相似度.实验证明,多粒度时空序列比对算法MGSSA是有效且可行的. 相似文献
18.
时间序列聚类是时间序列数据挖掘中重要的研究内容之一。由于时间序列的维数比较大,直接对时间序列原始数据进行聚类性能不理想,如何有效的对时间序列进行维数约简,并且保持原数据集本质特征,是本论文的主要研究点。首先使用局部线性嵌入(LLE)对时间序列样本维数约简,在低维空间对维数约简后的数据进行聚类,然后将它的聚类性能与已有方法如主成分分析(PCA)、分段聚合近似(PAA)进行比较。实验表明,使用LLE更能提高聚类性能。 相似文献
19.
历史相似时间序列的提取在数据挖掘、工业故障检测以及故障根源分析等领域应用非常广泛。针对工业报警系统中异常根源分析方法存在的问题,提出了一种基于趋势特征聚类的多元相似时间序列的提取方法,可以有效地辅助现场工作人员分析关键变量发生异常变化的根源。首先对多元时间序列进行分段线性表示,获得变量的趋势特征信息;然后采用基于密度峰值聚类分析算法对获得的趋势特征在高维空间中聚类,从而实现历史数据的相似性提取;最后可根据关联变量的幅值变化量分析导致主变量发生异常变化的根源变量。数值仿真和实际工业数据案例验证了所提方法的有效性。 相似文献
20.