首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 663 毫秒
1.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

2.
基于Relief算法的特征学习聚类   总被引:3,自引:0,他引:3  
聚类作为数据挖掘常用工具之一,是按照事物间的相似性进行的一种无监督分类.然而传统的聚类方法较少考虑特征权值.为此,通过研究、分析Relief算法及其在聚类应用中存在的问题,提出了一种基于Relief算法的特征评价函数,并将此函数运用到特征学习聚类中,以解决特征权值取值不当对聚类产生的负面影响.  相似文献   

3.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

4.
针对采用物理建模刻画三元催化器故障演化精确性不足问题,提出一种基于尾气大数据的改进测度模糊C均值(FCM,fuzzy c-means),故障诊断方法。该方法包括分数阶傅里叶变换(FRFT,fractional fourier transform)下的故障特征提取与优化、核熵成分分析(KECA,kernel entropy component analysis)下的分形故障特征降维以及改进相似测度下的FCM故障特征聚类。首先,对不同工况的尾气数据进行FRFT处理,获取三元催化器从时域到频域的精细故障信息,同时利用粒子群算法(PSO,paticle swarm optimization)选取最优的FRFT特征,并由分形算子给出相应精细特征的分形维数;其次,借助KECA对候选的高维分形特征进行维数约简;最后,将获得的故障特征提交给改进测度的FCM故障分类器完成故障诊断。数值实验结果表明,较之采用欧式距离或余弦距离的FCM方法,研究方法的故障诊断精确度更高。  相似文献   

5.
提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率.  相似文献   

6.
在保证实时性的前提下提高流式大数据卸载的准确性是一个重要问题。针对具有稀疏性的流式大数据开展2种典型场景下的卸载研究。对普通均匀业务的流式大数据进行空间建模,使用弹性距离对数据间的距离进行放缩,提出基于离心率的卸载方法。对异常检测业务流式大数据应用场景进行特征分析,使用预处理自动机对数据的动态处理过程进行描述,在综合考虑数据和处理行为相似度基础上,提出基于等价类划分的卸载方法。重复试验表明,所提出的卸载方法与传统卸载方法相比能明显提高卸载的有效性。  相似文献   

7.
针对航空器轨迹聚类没有充分利用目标的速度、航向等多维特征信息,在发掘轨迹聚类中存在局限性,提出基于多维特征的航空轨迹聚类方法并基于统计学方法完成异常检测。通过散点相似矩阵确定多维特征,利用多维特征构建多维特征相似矩阵,完成对轨迹的聚类,引入航转角和特征点选择特征轨迹,用多元拟合模型对特征轨迹点拟合,得到航空器特征轨迹表达式,通过计算实验轨迹与位置特征表达式的距离是否大于95%的置信区间距离,完成异常轨迹的检测。在天津机场用ADS-B数据进行实验,比较结果表明具有一定可行性。  相似文献   

8.
本文从供应链库存网络系统角度出发,研究信息共享机制对供应链系统牛鞭效应的影响.首先构建了供应链库存系统状态转移模型,并提出相应的库存控制策略;其次将模型扩展至在信息共享受限条件下的供应链网络系统,从系统内部动力学机制的角度分析了牛鞭效应的成因,提出了动态库存控制策略参数设计的线性矩阵不等式组算法.运用系统稳定性理论,深...  相似文献   

9.
针对颜色转移彩色化算法存在速度慢、效果不佳及人工干预性强等问题,提出一种新型的彩色化算法.首先从聚类分割后的各类区域彩色图像中提取矩形块,并计算图像块的颜色直方图和纹理特征;利用颜色直方图比较图像块的相似性,实现数据库的选择性录入;利用目标图像块与彩色图像块纹理特征点之间的欧氏距离比较,查找最佳匹配的图像块,进而实现目标图像的彩色化.通过建立树木、天空、沙滩和草地4类图像块数据库,实现基于数据库技术的免除人工干扰的图像彩色化.  相似文献   

10.
基于递归聚类索引树的剪枝相似检索算法   总被引:2,自引:0,他引:2  
文章提出了一种新的适用于高维特征矢量相似检索动态聚类索引树结构。针对由于类区域相互重叠而导致相似检索费用增加的问题 ,提出了基于该索引树的“剪枝”相似检索算法 ,应用该算法进行相似检索 ,其检索效益比耗尽搜索法和基于 SS树的相似检索法都要高。  相似文献   

11.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

12.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

13.
信息化是实现供应链管理目标的基础和关键, 有效的供应链协调运行建立在各个节点企业高质量的信息传递与共享的基础之上. 文章从不同角度分析了信息化对供应链的影响, 指出了供应链信息化面临的主要问题, 依据供应链信息化评价标准体系, 从战略、策略和技术层面提出了我国供应链信息化构建的重点问题和解决方案.  相似文献   

14.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

15.
量化子空间分布隐马尔可夫模型的间接训练   总被引:3,自引:2,他引:1  
研究了量化子空间分布隐马尔可夫模型(quantized subspace distribution hidden markov model,QSDHMM)间接训练所涉及的三个关键的问题:连续分布隐马尔可夫模型(continuous distribution hidden markov model,CDHMM)的训练、特征子空间的划分和子空间高斯分布的量化方案。提出了相关特征子空间的定义及实现算法。在仿真实验中,采用基于分类学的:Bhattacharyya距离测度的K均值高斯聚类算法对子空间高斯分布进行量化,用最相关子空间的概念划分特征子空间,并将这两者结合使用,提高了系统的识别精度和速度。  相似文献   

16.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

17.
由于时间序列数据具有高维度、动态性等特点,这就导致传统的数据挖掘技术很难有效的对其进行处理,为此,提出了一种基于多维时间序列形态特征的相似性动态聚类算法(similarity dynamical clustering algorithm based on multidimensional shape features for time series,SDCTS).首先,提取多维时间序列的特征点以实现降维,然后,根据多维时间序列的斜率、长度和幅值变化的形态特征定义了一种新的时间序列相似性度量标准,进而提出无需人为给定聚类个数的多维时间序列动态聚类算法.实验结果表明,与其他算法相比,此算法对时间序列具有良好的聚类效果.  相似文献   

18.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一...  相似文献   

19.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

20.
视频分割与场景聚类算法研究   总被引:1,自引:0,他引:1  
本文介绍了实现视频分割和场景聚类的算法.首先用X2直方图匹配法检测镜头切换,梯度法检测镜头淡入淡出;然后对镜头内非相邻帧间距离经过阈值判断提取关键帧;进一步基于镜头的关键帧集计算镜头间的相似度,对相似度大于阈值的镜头进行聚类;最后给出了典型实验结果,表明上述算法对视频分割和镜头聚类有较好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号