首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

2.
面向室内空间的移动轨迹聚类有利于发现室内热点和用户移动模式.针对室内环境在定位技术、距离度量等方面的特殊性,充分考虑室内移动轨迹的空间和语义特征,提出一种基于无线射频识别(radio frequency identi-fication,RFID)位置语义的室内移动轨迹聚类方法.该方法对原始轨迹提取特征点,可简化轨迹以降低算法时间复杂度;从空间形状和位置语义2个方面加权计算轨迹相似度,其中,空间相似度通过定义适用于室内三维空间的距离函数来计算,语义相似度计算基于最长公共子序列思想,并引入移动对象在轨迹点的到达时间和停留时间;利用线性表存储轨迹相似度,采用改进的层次聚类方法对移动轨迹进行聚类.实验结果表明,该方法能够有效地进行室内轨迹聚类并具有较高的效率.  相似文献   

3.
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。  相似文献   

4.
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.  相似文献   

5.
为提取电力负荷数据的有效信息,改善传统聚类方法在电力负荷数据中相似度衡量方式单一及聚类效果较差的问题,提出一种采用欧式形态距离的负荷曲线近邻传播(AP)聚类方法。使用五分位法将用电负荷曲线重表达为曲线形态变化特征序列,使用改进最长公共子序列算法衡量不同特征序列之间的模式匹配度,以此作为曲线之间的差异度;构造一种兼顾曲线整体分布特征和曲线形态变化特征的双尺度相似性度量方法,使用熵权法对两种特征进行自适应配比;将所提相似度衡量方法应用到AP聚类方法中,改进相似度矩阵计算方法,对用户典型日用电负荷曲线进行聚类。在标准合成时间序列数据集上进行了实验对比,结果表明:欧式形态距离度量方法能够有效区分负荷曲线的变化特征;所提方法具有较高的聚类质量和稳健性,相比其他相似度量方法,调整兰德系数提高了9.0%~43.8%,DB指标与标准集相差0.014 3,在电力实测数据集上能对用户进行合理划分。  相似文献   

6.
王超  李昊昱  陈含露 《科学技术与工程》2023,23(26):11445-11451
为了挖掘终端区进场航空器交通流的分布特征,量化分析空中交通的复杂性,提出了一种基于多特征轨迹相似度和密度峰值聚类(Density-peak Clustering, DPC)的中心航迹提取方法。首先,采用单向距离(One Way Distance, OWD)计算轨迹之间的形状和物理距离,并结合空管实际运行航迹数据特征,考虑航迹之间的位置属性和航向属性,定义多特征航迹相似度模型。其次,使用密度峰值聚类算法对航迹数据进行聚类分析,提取聚类结果中每一簇中具有最高密度的真实轨迹作为中心航迹。最后,对双流国际机场终端区历史航迹数据进行实验分析,使用轮廓系数指标和基于密度的指标进行评价,并与层次聚类算法进行对比。结果表明,轨迹被划分为8个不同形态的类簇,该方法可以直观有效的识别出轨迹的整体运动特征并精确提取出真实的中心航迹。  相似文献   

7.
K-均值算法中聚类个数优化问题研究   总被引:5,自引:1,他引:5  
在传统的K-均值聚类算法中,聚类数K必须事先给定,然而,实际中K值很难被精确的确定,K值是否合理直接影响着K-均值算法的好坏。针对这个缺点,提出一种优化聚类数算法,根据聚类算法中类内相似度最大差异度最小和类间差异度最大相似度最小的基本原则,构建了距离评价函数F(S,K)作为最佳聚类数的检验函数,建立了相应的数学模型,并通过仿真实验进一步验证了新算法的有效性。  相似文献   

8.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

9.
传统K-means聚类算法通过欧式距离计算样本的相似度,将数据所有的属性特征均平等对待,忽略每个属性特征的不同贡献,导致样本相似度计算的准确率不高.针对这个不足,提出一种特征加权的K-means算法进行优化.首先,运用Softmax和Sigmoid逻辑回归函数计算特征权重,使得加权的欧式距离更能准确地表示样本相似度;其...  相似文献   

10.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

11.
本文阐述如何在剑桥库的原有检索体系的基础上增加了一种检索手段——晶胞参数检索,采用二叉树查找方法,编制一套生成和检索文件,与原有该库文献信息检索,化学联接关系检索构成三个并行入口。这样扩充了该库的系统功能.  相似文献   

12.
本文给出了利用二分法和分块二分法实现对分类数据库文件数据的快速检索方法,并讨论了对分类数据库文件的维护问题。  相似文献   

13.
在确定查询阈值上限时,当前数据库查询方法只能使用查询树的一条路径,并行性能较差;在对超大规模数据进行查询时,具有查询时间长、响应不及时的弊端。为此,提出一种新的阈值上限一定时超大规模数据库的查询方法,通过RSA算法对超大规模数据库进行加密和解密处理,依据多叉树的定义构造多叉索引树,在此基础上计算各代表数据点与查询点之间的距离;在阈值上限一定时,利用多个从节点机并行处理后,使用主节点机汇集结果,运用后续子树递归处理,直至获取查询结果。实验结果表明,所提方法不仅具有很高的查询效率,而且CPU使用率很高。  相似文献   

14.
数据库的密文索引机制   总被引:11,自引:0,他引:11  
根据加密数据库的特点,分析了建立密文索引需要考虑的主要因素,提出了采用B+树实现密文索引的方法以支持动态结构调整和顺序查找。同时还提出了一种压缩技术来提高系统效率,减少I/O次数,分析了在这种环境下选取参数m的方法。此法比采用二叉树的方案更加快捷,效率更高,并且不需要额外开销。最后,分析了系统的安全性并指出了有待进一步研究解决的一些问题。  相似文献   

15.
在开发C/S和B/S模式的数据库管理程序时,涉及的图像处理一直是设计人员所面临的难点问题;结合数据窗口对象内嵌的OLE Database Blob,文件操作函数FileRead( )、File-Write( ),SQL语句,以及Windows API函数,提出了一种动态存储与动态载入图像信息的方法;通过将图像信息以大二进制数的形式存储在数据库中.客户端可调用动态SQL语句SelectBlob、UpdateBlob实现从数据库服务器上动态提取和更新图像信息;同时,利用从数据库中提取出的大二进制数图像信息动态创建图像文件,分析并解决了图像在数据窗口对象中的动态载入问题,使得系统具有良好的可移植性。  相似文献   

16.
针对大数据数据库中图像索引中维度灾难问题,该文提出一种基于云的大规模图像检索技术,该方法创新性地将主成分分析法和二叉树引入到图像检索技术中,首先采用尺度不变特征变换和加速鲁棒特征描述符作为帧特征,面对大规模维度特征,将主成分分析法对帧特征进行降维,并使用二叉树表示降维后的特征,以加速研究阶段并减少存储空间,最终实现图像检索.实验表明:该文方法在降维70%的条件下,搜索精确率/召回率(Precision/Recall,PR)值能够达到传统方法20%降维条件下的PR值,并且在搜索时间上,该文方法与正常搜索相比,搜索速度得到30%~50%的提升.  相似文献   

17.
属性均值聚类二叉树及其在人脸识别中的应用   总被引:2,自引:0,他引:2  
在无监督的属性聚类网络的基础上,提出了一种二叉树分类方法。此二叉树自然地在无监督聚类的基础上扩展开来,成为一有监督的分类方法。用ORL人脸数据库做了测试,同标准的特征脸(eigenface)方法相比,识别率得到了较大的提高。  相似文献   

18.
虚拟现实技术在虚拟海洋环境中的应用   总被引:1,自引:0,他引:1  
赵新华  孙尧 《应用科技》2006,33(10):56-59
介绍了从真实的电子海图中提取海洋地理信息数据,建立数据库,并转化成所需要的格式,分别存入海洋地理信息数据库的实现方法和步骤;根据这些数据库建立实体模型库,自动生成三维模型后建立三维模型库,最后实现了实体模型的动态装载。  相似文献   

19.
导航电子地图数据物理存储   总被引:1,自引:0,他引:1  
为满足嵌入式系统中导航需要,研究了导航电子地图数据的物理组织与存储.对比了导航电子地图数据物理存储常用的2种实现方法:嵌入式数据库和基于文件系统的方法,提出了采用基于文件系统的实现方法.论述了导航数据物理存储的逻辑结构,提出采用多文件分块实现数据的存储.针对物理存储中导航地理要素检索定位的重要性,研究了基于数据管理框架的数据检索方法.以二进制文件为基础,给出了导航电子地图物理存储文件格式的具体定义.试验结果表明,该导航电子地图物理存储方法在满足导航系统性能需求的基础上,能较好地支持导航系统主要功能的实现,适合于导航服务系统.  相似文献   

20.
在网络安全领域,可信被定义为一个实体期望另外一个实体执行某个特定动作的可能性大小。为了加强网络的安全性,允许某个结点去评估其他结点的可信性是非常重要的。本文主要讨论的是对可信事件的推荐评估。首先介绍了可信的相关概念和特性;接着,网络被抽象成一个有向图,在该图中,顶点代表实体或用户,边被看成可信关系,这样,评估过程可以看成是在有向图当中寻找最短路径问题,通过对影响推荐信任的因素分析,得到间接信任计算公式,为每个结点建立一个二叉推荐树,用来存储该结点能够推荐的结点以及这些结点推荐信任值,并在每个周期后动态地调整和整理该二叉推荐树;最后,对该模型的有效性进行了分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号