首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
大规模高维数据集的聚类算法已成为当前聚类研究的热点,由于高维的原因,聚类往往隐藏在数据空间的某些子空间中,传统的聚类算法无法获得有意义的聚类结果.此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题.为了解决以上问题,该文在CLIQUE算法的基础上提出了一种基于最优区间分割和数据集划分的聚类算法—OpCluster,并使用仿真数据对该算法加以验证,实验结果表明,OpCluster对大规模高维数据集具有很好的聚类效果.  相似文献   

2.
图形聚类算法的代谢网络模块化分析   总被引:1,自引:0,他引:1  
代谢网络的研究是当今生物学研究中的新热点,使用图形聚类算法对代谢网络进行分析研究是一个有力的手段.文中提出了用图形聚类方法挖掘复杂代谢网络中蕴含的功能信息并进行模块相似性分析的方法,从系统生物学角度揭示光合作用的进化.介绍了马尔可夫聚类算法和模拟退火聚类算法两种图形聚类方法;给出了两种方法对叶绿体和蓝细菌的代谢网络进行聚类的结果;定义了模块相似度评价指标,挖掘叶绿体和蓝细菌间保守的功能模块,并对其网络结构进行了比较分析.  相似文献   

3.
加权Web访问模式聚类算法   总被引:4,自引:0,他引:4  
针对Web应用挖掘中聚类算法中的问题,提出加权Web访问模式聚类算法,该算法利用服务器日志库中保存的网页访问次数信息,提高了聚类的客观性和准确性。  相似文献   

4.
赵玲 《河南科技》1998,(12):25-26
图书管理实行计算机管理,图书流通实现全开架借阅,是图书馆工作发展的大势所趋,是高校图书馆今后为读者服务的主要形式。河南大学图书馆文理书库实行计算机管理书籍全开架借阅,让读者直接进入书库,自由选取所需书籍,这样读者可以从书的目次上看其结构,从章节上看其...  相似文献   

5.
Web日志模糊聚类算法的研究   总被引:3,自引:0,他引:3  
本文提出了一种新的Web事务模糊聚类算法.给出了新的Web事务定义和相异度定义,聚类准则函数是所有样本与C个代表中心的相异度之和,我们的目标是使这个聚类准则函数最小.同时给出了改进算法.经过试验证明,改进的算法更有效.  相似文献   

6.
<正>图书馆每日会产生许多图书流通数据,通常来说这类数据信息不仅仅是记录读者的信息,也进行一些日常的数据收集和统计。然而,从当前情况来看,这些数据的真正价值并没有充分地被挖掘,更没有得到充分的运用。通过持续的观察,笔者从读者借阅的历史数据中发现,读者借阅图书也存在着一定的关联性,并且学科与学  相似文献   

7.
数据聚类是将数据对象划分到不同的类或簇中,是数据挖掘中的一项重要技术.教育领域拥有海量的学生信息数据,把数据挖掘中的聚类技术引入其中,具有很强的实际价值.阐述了运用数据挖掘中改进的引入权重的聚类技术对成绩数据进行选择、预处理和挖掘分析等,展示了3个Matlab实验使成绩数据如何通过K-means算法进行聚类分析,并对3种运行结果的意义各自进行了显示与分析,同时指出了运行结果的不足及意义.针对学生实验中的分类原因进行了研究并在学生成绩分析中发现很多隐含着的不易发现的有价值信息,利用这些聚类结果提出了相应的教学措施及建议,从而有针对性地提高教学质量.  相似文献   

8.
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.  相似文献   

9.
基于模拟退火思想的优化k-means算法   总被引:4,自引:0,他引:4  
鉴于典型的基于划分的聚类算法——k-means算法中存在局部最优和算法执行速度慢等问题,提出了基于模拟退火思想的优化k!means算法.该算法将模拟退火思想用于对k-means算法的优化,是一种具有全局最优解和较高执行效率的算法.针对聚类算法典型数据集和随机产生的数据集,在不同情况下进行对比实验.实验结果表明,优化k-means算法优于基本的k-means算法。  相似文献   

10.
基于分层聚类的k-means算法   总被引:8,自引:0,他引:8  
为了更好地实现聚类,在分析分层聚类和k-means算法优缺点的基础上提出了一种改进的聚类算法.改进算法将分层聚类和k-means聚类算法的优点相结合,首先采用分层聚类,得到一个初始的聚类结果,然后应用k-means聚类算法继续聚类.实验结果表明,改进算法较原先传统的聚类算法,不但算法执行速度快、效率高,而且聚类效果也比较好。  相似文献   

11.
现代企业每天生成很多日志文件,如果能实时处理日志数据,企业能获取更大的商业价值,但管理这个大日志数据是一个巨大的挑战,因为传统的技术用来处理庞大的数据不够高效.Hadoop生态系统提供一种新的方式来处理大数据,ElasticSearch技术是基于云环境的实时搜索引擎.本文提出了基于ElasticSearch实时进行大日志数据搜索的软件集成方案,采用基于硬件创建虚拟机环境,根据搜索条件使用ElasticSearch得到需要的rowkey列表,Hbase用这些rowkey直接从数据库中得到数据.实验证明,随着日志事件搜索量的增加,搜索反应时间不线性增加,基于ElasticSearch的大日志实时搜索的软件集成方案设计具有可行性.  相似文献   

12.
鉴于网络入侵检测数据样本特征属性的异构性及贡献率不同,提出一种加权特征的异构数据相似性度量法来反应网络数据样本间的相似程度.针对基于模糊C-均值聚类的网络入侵检测算法聚类数目难以确定的问题,提出了一种自动确定最佳聚类数的无监督模糊聚类入侵检测算法.通过KDDcup1999数据集的仿真对比实验,结果表明本文算法能找到最佳...  相似文献   

13.
聚类是通过数据标签或者属性,将一系列经验数据按照相似性或者相近性进行归类.基于密度属性展开的聚类算法,主要聚焦在聚类中心的确定和剩余点如何分配的问题上展开讨论.针对基于密度峰值的可训练最短路径算法,通过密度峰值确定聚类中心,提出使用截断阈值、对路径图进行剪枝的算法改进.然后基于最短路径法对剩余点进行全局分配.实验结果证明,在保持聚类精度的同时,有效地提升了算法执行效率.  相似文献   

14.
基于机器学习的流统计特征识别的方法关键在于如何找到具有区分力度的业务流统
计特征. 为此,提出了一些能够较好地区分视频业务的QoS 相关的统计特征. 为了充分地发
挥多级聚类算法的优势,以灵活的特征选择策略标记不同层级的网络视频流,通过大量的真
实网络视频数据进行实验验证. 结果表明,该方法能比现有同类方法取得更高的分类准确率.  相似文献   

15.
一种基于SOM和层次凝聚的中文文本聚类方法   总被引:2,自引:0,他引:2  
研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间,通过数值实验对比表明该方法对中文文本聚类具有有效性。  相似文献   

16.
针对聚类算法的聚类中心重复性和无法对点云聚类的问题,提出了融合高斯核及指数函数的聚类中心均匀化的点云聚类方法,以优化聚类中心的均匀化分布,实现点云的均匀化聚类。首先,根据高斯核函数及密度指数函数确定局部密度,再依据局部密度的大小确定距离参数。其次,依据局部密度和距离参数的乘积确定聚类中心,同时消除聚类中心的邻近化,使得聚类中心更加均匀分布于整个数据集中。最后,利用数据点到聚类中心距离逐个确定每个数据的聚类归属,并合并邻近聚类实现点云目标物的提取。将该算法与常规的基于密度峰值的聚类算法(clustering function based on density peak,CFDP)、K-means聚类算法、具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)进行比较,该文所提方法可以对教室内3排椅子实现100%的提取。与相对密度关系的峰值聚类(density peak clustering,DPC)算法及深度学习方法相比,所提方法对不同分辨率目标物点云的提取精度均为96.7%,在计算效率和精度方面均优于其他两种方法。  相似文献   

17.
DBSCAN算法是一种基于密度的空间数据聚类方法,聚类速度快,且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗,当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果.  相似文献   

18.
模糊时间序列预测模型在对不确定数据集的模糊趋势描述和论域划分方面有局限性,对此文中规范了直觉模糊时间序列的定义,应用直觉模糊C均值聚类算法优化论域区间划分,通过加入回溯机制构建确定性转换直觉模糊规则库,在此基础上提出一种直觉模糊时间序列预测方法,较好地反映了不确定系统数据的特征分布,提高了复杂环境下时间序列的预测精度. 通过典型实例验证了该方法的有效性和优越性.  相似文献   

19.
将北京智能交通系统中的手机数据抽象成复杂网络,结合网络图论思想,将网络的节点换作手机数据中的基站,网络的边则产生于有关联的基站之间,那么就建立起一个手机基站网络的模型.在统计了大量手机数据的基础上,研究北京地区基站网络的复杂网络特性.统计分析表明,北京地区的基站网络具有较小的平均路径长度和较高的聚类系数(典型的小世界特性),其节点的度分布具有无标度特性.基站网络的复杂网络特性研究为手机基站的布局和通信公司运营质量的提高,提供了新思路.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号