首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于语句-词条矩阵的聚簇式动态增长聚类算法   总被引:1,自引:0,他引:1  
Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.  相似文献   

2.
传统3DVM(3-Dimension Document Vector Model)由于没有使用新闻报道的时间因子,这使得该模型表示的新闻报道具有不准确性,进而影响新闻报道的聚类结果.本研究在三维文档向量模型的基础上加入了时间因子,提出了四维文档向量模型表示新闻报道.最后,用k-means聚类算法进行新闻报道的的无监督聚类.实例验证结果表明本文提出的4DVM和k-means相结合的聚类算法优于3DVM以及VSM(vector space mode)和k-means相结合的聚类算法.  相似文献   

3.
传统3DVM(3-Dimension Document Vector Model)由于没有使用新闻报道的时间因子,这使得该模型表示的新闻报道具有不准确性,进而影响新闻报道的聚类结果.本研究在三维文档向量模型的基础上加入了时间因子,提出了四维文档向量模型表示新闻报道.最后,用k-means聚类算法进行新闻报道的的无监督聚类.实例验证结果表明本文提出的4DVM和k-means相结合的聚类算法优于3DVM以及VSM(vector space mode)和k-means相结合的聚类算法.  相似文献   

4.
以中国学术期刊网络出版总库(CNKI)作为数据源,利用书目信息共现挖掘软件和SPSS软件对大学生权利研究领域的高频关键词进行了共词聚类,结果表明大学生权利研究领域有七个热点主题。为了进一步量化这些主题,论文对被引频次最高的核心文献的研究主题进行内容分析,研究进一步表明:以上七个研究主题,基本反映了大学生权利这一领域的研究热点和主题结构。其中,"实习、兼职等劳动过程中的合法权益保障及法律保护"、"依法治校与高校管理法治化"和"权益侵害与维权意识"等主题在研究数量方面占有绝对的优势。  相似文献   

5.
基于词的上下文语义环境对一个300M的句子语料库进行词聚类;改进了一般的冒泡算法和链式存储的程序实现方式,采用了零优先处理和有限长链表,使程序的执行效率大大提高;对最终的聚类结果进行了深入分析,指出了优点与不足,探讨了算法进一步改进的方向.  相似文献   

6.
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.  相似文献   

7.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度.  相似文献   

8.
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。  相似文献   

9.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

10.
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

11.
12.
13.
设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字代表的类,从而达到聚类的目的.算法分四个步骤:预处理、建立主题向量、生成词聚类和主题聚类.同时,对HTBC与STC、AHC、KMC算法从聚类的准确率和召回率上做了比较,实验结果表明,HTBC算法的准确率较STC、AHC和KMC算法要好.  相似文献   

14.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

15.
通过分析数字化校园建设的发展历程,发现云计算因其低成本,高效率的特性被越来越多的高校应用,成为未来数字化校园的发展趋势.文章提出了一个基于云计算的数字化校园建设构架.  相似文献   

16.
基于聚类分析的多级综合评判   总被引:3,自引:0,他引:3  
在聚类分析的基础上讨论综合评判,利用先验信息和现有信息对问题的各因素进行多级聚类,为多级综合评判搭建了有理有据的平台,同时减少了综合评判的计算量和存储量,消除了因选择函数的不同而引起的偏差.最后,给出了数值算例.  相似文献   

17.
针对传统失效模式与影响分析(failure mode and effect analysis,FMEA)的不足,提出了一种基于云模型和凝聚型层次聚类算法的改进FMEA方法。首先,运用云模型对专家评估信息进行描述与集结;然后,结合凝聚型层次聚类算法识别云模型评价信息,利用聚类子簇确定失效模式间关联关系,利用聚类结果确定失效模式风险等级。最后,以在线教学失效风险评估为例,验证了该改进FMEA方法的可行性和有效性。  相似文献   

18.
由于新闻更新快,对用户进行新闻推荐往往需要进行聚类预处理,而传统方法要么复杂度过高,要么依赖于迭代初值,都不能准确而高效地应用于新闻推荐中.针对以上问题,文中提出了一个基于二次聚类的新闻推荐方法,对随机抽样数据进行密度聚类,基于该样本密度聚类的簇数和初始簇心进行所有待推荐新闻的二次快速聚类,并结合时新性、新闻热度等因素实现新闻推荐.文中方法可以将相关新闻聚集在一起,同时又不导致过高的运算开销,并通过参数估计方法计算各因素参数.实验结果表明,与其他新闻推荐方法相比,文中方法具有较好的推荐多样性和推荐准确度.  相似文献   

19.
针对云计算的发展趋势,结合校园网基础设施特点,研究和分析了虚拟化技术和云计算模式,提出一种基于Hyper-V的私有云计算环境模式,并在校园网内实现了该模式的私有云构建,为云计算环境在高校的实现提供了具体方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号