首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
流程挖掘是从实际业务执行日志出发,提取结构化流程信息的过程。流程挖掘技术现已广泛应用于现实业务流程的发现和辅助建模,并能够通过差异分析的方法帮助改进已有业务流程。提出一种基于聚类的流程挖掘方法,首先从事件日志出发,对基于活动的流程路径进行描述,然后对基于距离的活动视图感知的路径聚类,通过聚类结果分析流程特征,为流程变更提供决策。以现实的会议注册系统作为实验对象,论证了方法的有效性。该方法可为流程变更提供决策支持。  相似文献   

2.
教育过程挖掘将过程挖掘技术应用于教育数据分析,是教育数据挖掘的重要分支之一。当前教育数据挖掘主要是用经典的机器学习算法对在线学习数据进行建模分析,难以描述全局的学习过程。凭借解析事件日志发现控制流模型的过程挖掘技术可以解决这一难题,但由于真实数据受各种客观因素的影响,存在大量噪声和无关行为,已有的挖掘方法往往会生成“意大利面模型”,不利于分析理解。针对这一问题,本研究提出分层过程挖掘方法发现学生学习过程。具体方法是:通过解析带生命周期事件日志的时间属性,发现活动嵌套关系;然后构造分层事件日志,进而挖掘描述学习行为的分层过程模型;最后用契合度、精确度、F-值三个指标,系统地比较分层过程挖掘方法与已有过程挖掘方法所挖掘模型的区别。  相似文献   

3.
面向室内空间的移动轨迹聚类有利于发现室内热点和用户移动模式.针对室内环境在定位技术、距离度量等方面的特殊性,充分考虑室内移动轨迹的空间和语义特征,提出一种基于无线射频识别(radio frequency identi-fication,RFID)位置语义的室内移动轨迹聚类方法.该方法对原始轨迹提取特征点,可简化轨迹以降低算法时间复杂度;从空间形状和位置语义2个方面加权计算轨迹相似度,其中,空间相似度通过定义适用于室内三维空间的距离函数来计算,语义相似度计算基于最长公共子序列思想,并引入移动对象在轨迹点的到达时间和停留时间;利用线性表存储轨迹相似度,采用改进的层次聚类方法对移动轨迹进行聚类.实验结果表明,该方法能够有效地进行室内轨迹聚类并具有较高的效率.  相似文献   

4.
Web日志挖掘旨在使用数据挖掘技术从Web服务器日志文件中挖掘出有用的规律和模式,以此改进网站结构以及实现Web个性化服务。本文提出基于免疫聚类的Web日志挖掘算法,利用人工免疫系统的基本原理来进行用户聚类分析,从而发现相似客户群体、挖掘潜在客户。免疫聚类通过模拟免疫系统体液免疫应答的基本过程,提取出数据的基本特征,以此概括数据的分布特征,从而实现Web日志数据的无监督自组织聚类。通过在真实数据集上的实验证明了该算法的可行性和有效性。  相似文献   

5.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

6.
基于LDA的文本聚类在网络舆情分析中的应用研究   总被引:1,自引:0,他引:1  
针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。  相似文献   

7.
王超  李昊昱  陈含露 《科学技术与工程》2023,23(26):11445-11451
为了挖掘终端区进场航空器交通流的分布特征,量化分析空中交通的复杂性,提出了一种基于多特征轨迹相似度和密度峰值聚类(Density-peak Clustering, DPC)的中心航迹提取方法。首先,采用单向距离(One Way Distance, OWD)计算轨迹之间的形状和物理距离,并结合空管实际运行航迹数据特征,考虑航迹之间的位置属性和航向属性,定义多特征航迹相似度模型。其次,使用密度峰值聚类算法对航迹数据进行聚类分析,提取聚类结果中每一簇中具有最高密度的真实轨迹作为中心航迹。最后,对双流国际机场终端区历史航迹数据进行实验分析,使用轮廓系数指标和基于密度的指标进行评价,并与层次聚类算法进行对比。结果表明,轨迹被划分为8个不同形态的类簇,该方法可以直观有效的识别出轨迹的整体运动特征并精确提取出真实的中心航迹。  相似文献   

8.
隐变迁是指一些存在于过程模型中,但没有出现在日志序列中的变迁。这样的变迁会大量存在于现实的模型中。从事件日志中寻找挖掘隐变迁的方法是过程挖掘技术的一个重要的难题。目前针对自由选择网有一些解决办法,但是对于复杂的过程模型有一定的局限性。本文提出了基于Petri网行为轮廓寻找隐变迁的方法。首先根据发生频率最高日志序列得出源模型,再根据剩余的日志序列一步步优化源模型从而找到隐变迁,最后通过评价指标来判定模型的合理性。  相似文献   

9.
为有效掌握空中交通流的分布规律,提高飞行轨迹聚类效率与质量,提出了一种精确度高、运算快、自主识别异常轨迹的飞行轨迹聚类方法。首先,改进均匀参数化法来降低了飞行轨迹数据规模。其次,提出一种基于核主成分分析法(kernel principal component analysis,KPCA)飞行轨迹降维方法,突出不同类点之间的差异。最后,采用基于密度空间聚类方法(density-based spatial clustering of applications with noise,DBSCAN)算法剔除飞行干扰轨迹并完成聚类。实验表明,该方法在简化数据预处理的条件下,对1243条飞行轨迹实现准确聚类,划分为识别出6个类别,保持较高的聚类质量并识别异常轨迹。相较于其他聚类方法,本文方法简化了聚类前对飞行轨迹的预处理,提高了聚类效率的同时聚类效果更加准确并能够识别异常轨迹。  相似文献   

10.
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

11.
针对现有微博社区发现的准确性与效用性问题,提出了一种高效的基于用户内容相似度的微博社区发现算法。首先对微博用户兴趣模型进行分析,进而挖掘微博意见领袖,通过AP算法对意见领袖进行兴趣聚类,以聚类结果为社区中心结合模块度优化算法完成微博社区发现。经实验验证了该方法可以更好地发现微博社区结构。  相似文献   

12.
为向负荷预测模型提供准确可靠的相似日训练样本集合,针对现有聚类算法在初始聚类中心选取方面的不足,提出了一种基于数据中心度的改进聚类算法,并搭建集数据筛选、聚类、优化、训练、预测为一体的日最大负荷预测模型.首先,基于各被聚类对象的中心度,选取聚拢效果最好的对象作为第一个聚类中心代入Canopy算法,形成初始聚类中心集合;然后,采用K-means聚类算法,得到不同类别相似日的训练样本;最后,利用PSO-GA-BP神经网络算法搭建日最大负荷预测模型进行预测分析.算例对某地区2011—2012年日最大负荷开展预测分析,结果表明:所提方法在聚类指标与预测指标上均具有一定优越性,具备一定实际工程应用价值.  相似文献   

13.
模型修复是一种基于模型增强的过程挖掘的应用技术,现有的模型修复方法大多是以拟合度为主要指标,对于其他维度,诸如精确度,考虑较少。基于此,本文试图综合考虑多个维度,来对过程模型进行修复。校准能够对事件日志进行重演,发现各类偏差,即日志动作和模型动作,却无法确定偏差在Petri网中出现的位置。因此,基于Petri网的可达标识,提出了扩展校准的概念,这样便能确定偏差的位置。进一步地,针对扩展校准中出现的日志动作提出了RMR(Reachable Marking Repaining)算法进行修复。最后,通过实验证明修复算法在拟合度和精确度上均有较好的表现。  相似文献   

14.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

15.
网络舆情热点发现是一种常用且处理速度要求较高的应用.针对网络舆情热点发现这一特殊应用场合,本文提出了一种基于随机N-Gram的文本聚类方法AR-Grams.该方法通过随机N-Gram的文本相似度计算方法,确立待聚类文档集中各个初始聚类的标志文档并完成初步的聚类操作,继而通过聚类元素数阈值来确定初始聚类,并可根据实际情况确定是否执行聚类合并.该方法生成的聚类内聚性好,准确率高.另外,为了便于评估整体的聚类效果,提出了聚类的整体覆盖率和正确覆盖率.实验结果表明:与对比方法DR-Grams相比,在低阈值时,AR-Grams的准确率、召回率、F-score、正确覆盖率分别提高了11.9%、9.1%、10.2%和9.2%,提升效果尤为明显;在高阈值时,效果基本相当;在整体上,前述4项指标则分别提高了4.5%、2.9%、3.5%和3.0%,优于对比方法DR-Grams.  相似文献   

16.
系统事件日志记录是系统安全审计最重要的数据源.现有的日志保护机制主要解决事件日志生成后的数据完整性保护方面的问题,但对于日志数据生成阶段的可信生成方面还没有解决.本文主要贡献是提出了一种基于TCM模块的可信事件日志生成方法,为事件日志提供了生成时的数据完整性、可认证性等安全特性,增强了事件日志数据的可信性,通过分析证明了本方法的有效性和可实施性.  相似文献   

17.
聚类算法是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。但是由于聚类算法的多样性,使其在很多行业应用中有着不同的应用效果,基于此。本文通过聚类算法三种指标的比较,给出了一种聚类方法应用效果评估的方法.该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,最后得出K-Means方法在电信客户细分中的应用优越性.  相似文献   

18.
一致性检测是过程挖掘研究的重要内容,现有的一致性检测方法不足以找到准确的偏差位置。本文以Petri网作为描述过程模型的形式化方法,根据基于日志的次序关系重新定义了一种基于日志的扩展次序关系,并以此定义了基于日志的扩展足迹矩阵和基于模型的扩展足迹矩阵。通过对比两个扩展足迹矩阵得到日志和模型之间精准的偏差位置。最后,通过索赔申请处理的实例验证了方法的有效性。  相似文献   

19.
基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果、自下而上的词聚类算法。研究结果表明:该词聚类算法执行效率高,聚类效果较好;根据该词聚类模型的结果所构造的基于词类和基于词语的线性插值模型,能较好地缓解统计语言模型中的数据稀疏问题。  相似文献   

20.
通过网络学习的web日志的使用挖掘,获取学习兴趣,建立兴趣模型.采用相似性度量方法对具有相似兴趣的学生用户进行聚类,实现了学习内容的个性化推荐系统.实验结果表明,基于用户兴趣模型的个性化推荐系统具有较高的准确率、新颖率和非预期率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号