首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 386 毫秒
1.
层次化话题发现与跟踪方法及系统实现   总被引:2,自引:0,他引:2  
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。  相似文献   

2.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

3.
针对传统Mashup服务推荐在网络构建方式的成本和计算复杂性过高问题, 提出一种基于半监督层次聚类描述的Mashup服务推荐算法. 首先, 利用网爬工具收集ProgrammableWeb上的Mashup服务信息, 并采用后缀剥离算法把Mashup服务的标签信息修改为名词形式, 以此作为研究分析的数据集; 其次, 为提高聚类精度, 提出一种半监督层次描述聚类算法, 通过植入层次聚类算法顶层核心集方式, 有效解决了传统层次描述聚类因顶层分类集构造失败而影响Mashup服务推荐算法的准确度. 通过在聚类数据集和网爬Mashup服务数据库上的实验表明, 该算法的Mashup服务推荐准确率优于对比算法.  相似文献   

4.
当前遥感图像分割中阈值确定方法忽略了前景和背景内在的联系,导致过分割和轮廓模糊,造成整体性能低下。为此,提出一种新型基于K-means算法分割遥感图像的阈值确定方法,通过K-means算法对遥感图像进行分割,利用最大类间方差方法得到分割遥感图像的初始阈值,依据该阈值将遥感图像划分成两类,求出两类的均值,将其作为K-means聚类算法的两个初始聚类中心,通过K-means聚类方法逐次迭代,不断更新聚类中心,直至得到聚类准则函数,从而求出遥感图像的最佳分割阈值。实验结果表明,采用所提方法确定遥感图像分割中的阈值,不仅效率高,而且整体性能优越;将得到的阈值应用于遥感图像分割中,能够使目标和背景被有效分离,且分离后目标部分轮廓比较清晰。  相似文献   

5.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

6.
现有航迹聚类算法未考虑到航空器航向变化和高度下降等因素对聚类结果的影响,同时聚类过程中缺乏时间信息,另外实测二次雷达数据中存在离群点异常数据,离群点的存在会影响最终的聚类效果,使得聚类结果不准确。提出基于航迹点特征的时间窗分割算法,将航空器进场的航向变化值以及高度下降值作为确定聚类簇大小的影响因素,对进场航空器航迹点数量进行时间窗分割。对真实的进场二次雷达数据仿真分析,从仿真结果中可以看出当影响因子a为0.4时,航迹的曲率最小,聚类效果最好,进而采用层次聚类算法对不同LOF值所对应的航迹点进行聚类,得到最后的聚类结果可以为管制员现场指挥提供技术指导。  相似文献   

7.
岩石样本的分类识别是油气和矿产资源勘探中的重要环节。目前,仍然以人工识别的实验方法作为主要方法,普遍存在主观性强、周期长、成本高等典型问题。机器学习的分类算法在图像分类领域已经得到广泛应用,然而由于岩石样本图像具有明显的差异性特征,甚至同类岩石样本图像也具有一定的色差,直接应用现成智能算法进行分类,验证集的准确度仅为85%左右。所以,基于色彩空间下岩石样本图像的颜色特征曲线,提出了一种基于颜色类别和深度残差网络ResNet-50的智能分类及识别方法。首先,以7种不同岩性的岩石图像为样本,提取样本的RGB颜色特征,应用无监督K-means聚类算法,按颜色分为3个大类,再通过有监督精细K-近邻(K-nearest neighbor, KNN)算法对颜色类别进行验证,平均分类精度为99%。然后,对于不同颜色类别下的岩石样本,利用深度残差网络ResNet-50进行分类识别。结果表明,不同颜色类别的岩石样本平均训练精度为93.15%,验证精度为88.21%,可以作为岩石样本分类的有效方法。  相似文献   

8.
利用分层分类法把厦门岛城市土地类型分为七类,并对分类结果进行了验证.在TM图像光谱特征分析和归一化差异型指数分析结论上,提出分层分类法的分类步骤.利用ERDAS的专家分类器逐类地提取土地类型,并利用掩膜法将原图像上新提取地类所对应区域掩膜掉,使得分类过程越来越容易.分层分类法避免了一次划分多种类别方法在选择波段组合上的矛盾.精度评价结果表明,总分类精度达到90.9%,达到分类要求标准.  相似文献   

9.
一种支持结构化P2P的多维范围查找方法   总被引:1,自引:0,他引:1  
提出一种基于结构化P2P的分层聚类查询系统. 利用空间填充曲线建立从高维特征空间到一维相邻空间的映射,根据映射过程提出一种分层聚类的概念,并将相似的多维数据归入在相同的聚类中,使聚类内的数据具有更大的相似性与更小的值域区间. 模拟结果显示,该方法可减少查询所需的带宽,具有良好的查询准确度和可扩展性.  相似文献   

10.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

11.
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本.  相似文献   

12.
聚类是机器学习和数据挖掘中的重要课题。近年来,深度神经网络(Deep Neural Networks,DNN)在各种聚类任务中受到广泛关注。特别是半监督聚类,在大量无监督数据中仅引入少量先验信息即可显著提高聚类性能。然而,这些聚类方法忽略了定义的聚类损失可能破坏特征空间,从而导致非代表性的无意义特征。针对现有半监督深度聚类的特征学习过程中局部结构保持有所欠缺的问题,本文提出一种改进的半监督深度嵌入聚类(Improved Semi-supervised Deep Embedded Clustering,ISDEC)算法,采用欠完备自动编码器在特征表达学习的同时,保持数据的内在局部结构;通过综合聚类损失、成对约束损失和重构损失,对聚类标签分配和特征表达进行联合优化。在包括基因数据在内的若干高维数据集上的实验结果表明,本方法的聚类性能比现有方法更好。  相似文献   

13.
实体解析是指识别同一实体的不同描述形式的过程, 旨在保障数据质量, 是数据清理、数据集成及数据挖掘中的关键技术. 随着电子商务的不断发展和成熟, 商品的多样性和消费者灵活的购买方式, 使得对网络商品的精确识别和匹配成为大数据时代亟待解决的问题. 与传统实体解析主要针对结构化数据不同, 网络数据具有非结构化、异构和海量的特性, 为此设计了综合相似度算法(synthesized similarity method, SSM)来计算网络商品数据间的相似度, 同时引入凝聚的层次聚类框架, 以匹配来自不同数据源的异构商品. 此外, 为了解决大数据环境下对执行效率的要求, 从字符串相似度缓存、约束知识库和分块策略三个方面对SSM进行优化, 基于真实数据集的实验结果验证了SSM的执行效率和有效性.  相似文献   

14.
针对谱聚类算法中K-means处理无标识软件度量元数据易陷入局部最优的问题, 提出一种新的混沌免疫聚类算法. 该方法在免疫克隆选择算法的框架下, 设计抗体亲和度计算方法用于免疫克隆聚类中心的评价, 并给出分层混沌变异算子, 进一步提高了无标识软件度量元数据的预测性能. 仿真实验验证了算法的有效性.  相似文献   

15.
鉴于传统制造业企业仓储分类方法分类边界不明确、难以适应现代企业信息化发展趋势的问题,提出了基于聚类算法的ABC库存分类算法,提升了传统库存分类模型的分类精度和效率。以某电力制造业企业的库存产品数据为研究对象,结合聚类算法与ABC分类法提出了适用于实际研究场景的评价函数,并给出了新的基于k-means 算法的ABC分类法。采用该分类模型对库存环网柜产品进行分类,并基于ERP系统中存储的产品数据将库存环网柜产品分为A、B、C三类,根据分类结果对不同类别的环网柜产品采取不同的库存控制策略。研究结果表明,将数据挖掘算法应用于库存管理实现了企业库存管理决策的科学化和智能化。  相似文献   

16.
为了解决现有生物激励设计过程存在的跨领域知识获取难的问题,提出了面向生物激励设计的基于功能特征语义相关性的功能语义聚类和基于环境特征约束适应性的环境约束聚类组成的两阶段知识元聚类算法。将生物激励设计过程跨领域实例知识检索问题转化为对离散的生物领域或工程领域知识元的聚类检索。根据跨领域术语知识表示的不同确定跨领域检索功能词,执行基于功能特征语义相关性的功能语义的一阶段聚类,结合生物领域功能与环境特征约束间的相关性,完成基于不同类型环境特征约束的二阶段聚类。一方面,将模糊理论与模糊数学引入知识元聚类算法中,提出基于模糊隶属度函数的语义相似度计算方法,实现了基于功能关键字的语义聚类;另一方面,将FCM聚类算法引入到知识元聚类过程中,结合给出的不同类型环境特征约束相似性算法,提出了AFCM算法,实现了基于环境特征约束适应性的环境约束聚类。最后,开发了相应的原型系统,并且以视觉假体装置设计为例进行测试。结果表明,聚类时间和准确率得到极大改善,聚类效率得到显著提升。该算法有效地避免了跨领域知识分布的离散性,减少了设计过程中研究对象的数量,能够合理地获取已有设计知识,为深入研究奠定了基础。  相似文献   

17.
基于小波和模糊理论的纹理分割方法   总被引:1,自引:0,他引:1  
提出了一种基于小波和模糊理论的纹理分割方法,该方法首先对图象进行高阶小波分解,得到一系列分辨率不同的子图象;然后采用模糊聚类方法从最低分辨率图象进行聚类,将低一级的分割结果扩展后再应用于较高级分辨率,一直到最高分辨率为止,这样就得到一个原始图象的初始分割;最后引入空间约束算法,得到原始图象的粗细分割结果.由于考虑了图象象素之间的相互关系,故提高了分割的准确性.仿真结果表明该方法是比较有效的.  相似文献   

18.
针对多媒体传感器网络的应用,提出了一种基于簇的服务质量(quality of serve,QoS)多路径路由协议(cluster - based QoS multipath routing protocol,CQMRP),利用本地信息采取模糊控制的分簇方法对网络进行划分,然后在分层分簇的网络模型基础上,以带宽为QoS参数并提出节点饱和度和路径饱和度的概念,利用多路径并行传输流量实现拥塞避免?数据实时性传输和网络的高吞吐量;利用模糊控制的分簇方法实现网络的层次化管理和提高应用的可扩展性?仿真结果表明,该协议具有良好的实时性和可扩展性,并能有效延长网络生命周期?  相似文献   

19.
RNN(相互最近邻)算法是一种基于层次的聚类算法,它比其他传统的层次聚类算法聚类更快.由于利用RNN算法对同一个数据集聚类,若选择不同簇间距离度量方式,那么聚类结果就会不同.因此在分析聚类结果对距离度量方式依赖性的基础上,采用用聚类聚集的思想,找出一种新的聚类方式,从而使得聚类效果更好.  相似文献   

20.
针对熔融气化炉冷煤气成分含量,提出了基于熵权模糊C均值聚类和偏最小二乘的COREX冷煤气成分预测方法.建模过程中首先根据料单中各种原料的单耗量,利用熵权模糊C均值聚类的方法将料单聚类成若干种料单类别,然后针对不同的料单类别,利用偏最小二乘法分别建立冷煤气成分预测模型.对宝钢COREX-1#炉实际生产数据验证结果表明:该方法可以有效地建立COREX冷煤气成分预测模型,具有较好的预测精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号