首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

2.
基于语句-词条矩阵的聚簇式动态增长聚类算法   总被引:1,自引:0,他引:1  
Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.  相似文献   

3.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

4.
基于向量空间的文档相似度算法假设特征元素间关系为正交,当2篇文档采用了具有相近语义的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术语与术语组相似度、术语组和术语组间相似度的概念及算法的基础上,给出一种基于词语相似关系的文档相似度计算方法.实验采用科技文献类文档和新闻报道类文档作为测试集合,比较新方法和向量空间算法的分类性能,结果显示新方法可提高文档分类的准确性.  相似文献   

5.
为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度闽值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。  相似文献   

6.
基于密度聚类的支持向量机分类算法   总被引:8,自引:0,他引:8  
为了解决支持向量机的分类仅应用于较小样本集的问题,提出了一种密度聚类与支持向量机相结合的分类算法.在密度聚类中,当一个样本点不存在拟密度可达的样本点,则其显著特征即表现为该簇的边缘点,将该点加入约简集合,直至选出样本集合中的所有边缘对象,然后再利用约简集合寻找支持向量.实验表明,采用该算法,分类的准确率可从基于无监督聚类的支持向量机算法的86.81%提升至95.43%,核函数计算量由原数量级109下降到106以下,采取限制密度聚类中的核心点ε-邻域内的反例百分比的方法,可以增加约简样本的个数,可将分类准确率提高5%~8%左右.  相似文献   

7.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

8.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

9.
提出了一种基于八邻域网格聚类的多样性XML近似查询算法.首先给出了支持XML文档间语义距离计算的3种编辑操作代价模型,再利用XML文档间的语义距离建立XML文档的向量模型并设计基于八邻域网格的XML文档聚类算法,进而利用聚类过程中得到的物理和逻辑聚类中心对静态有序选择算法的查询评估策略进行优化,这样做只需定位聚类中心所在组群的局部范围,并在该范围内进行目标查询,而无需遍历整个XML数据库,从而快速返回满足用户需求的查询结果.经汽车外形智能化设计实验表明,所提算法的查询速度比静态有序选择算法平均提高了3~4倍.  相似文献   

10.
传统3DVM(3-Dimension Document Vector Model)由于没有使用新闻报道的时间因子,这使得该模型表示的新闻报道具有不准确性,进而影响新闻报道的聚类结果.本研究在三维文档向量模型的基础上加入了时间因子,提出了四维文档向量模型表示新闻报道.最后,用k-means聚类算法进行新闻报道的的无监督聚类.实例验证结果表明本文提出的4DVM和k-means相结合的聚类算法优于3DVM以及VSM(vector space mode)和k-means相结合的聚类算法.  相似文献   

11.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

12.
在数据挖掘领域,聚类是对数据初始的处理。动态系统中,由于经常要增加一些新的数据,如果每次对新增的数据都重新聚类,这样就既浪费时间又浪费资源。首先介绍了聚类的基本概念和聚类的分类,在此基础上提出的一种基于特征向量的聚类算法,它只对新增的数据聚类,这样就会节省大量的资源和时间。通过实验,在动态系统中对新增的数据用该增量聚类算法和重新聚类的算法相比较,最后得出结论,该增量聚类算法是可行的。  相似文献   

13.
针对传统K均值算法中采取的欧氏距离计算相似性的不足,提出一种新的相似性计算方法,并将这种方法与欧氏距离的度量方法进行了比较。在UC I基准数据集上的实验表明,该方法有更稳定的聚类结果,是一种比较有效的聚类度量方法。  相似文献   

14.
为充分挖掘标签中潜在的用户信息、提供更好的个性化服务,在分析用户标签使用情况的基础上,提出一种面向用户的社区发现方法。综合考虑标签使用频率和稀疏度,并同时使用二者构造一个邻接矩阵进行聚类,最终完成社区发现,并且论证了该方法的可行性。  相似文献   

15.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

16.
针对同物异谱现象以及分类过程中样本代表性差、人工参数设置等原因导致高光谱遥感影像分类精度差的问题,提出了一种样本集优化的最优代表向量分类法,对感兴趣区中的样本进行密度峰值聚类提纯,并对每类地物提纯后样本的均值向量集进行隶属度聚类择优,获取最优代表向量集作为该类地物的中心向量,最终依据距离准则进行分类.通过对比实验验证,本文算法总体分类精度高于90%,表明最优代表向量分类法能够有效消除样本差异性的影响,提高冰川分类精度.   相似文献   

17.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

18.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

19.
针对战场环境下通信质量较低的问题,提出了一种基于加权的具有相同移动特性的车载自组网分簇算法。首先通过对移动节点的速度相似度和距离相似度进行计算,将具有相同移动特性且距离相近的节点分为同一个簇,并设置每个分簇中簇成员的最大阈值;计算移动节点的速度因子、距离因子和平均链路维持率,并在分簇中对每个移动节点的这3个因素进行加权,选取权值最大的作为首要簇头,权值第二大的作为次要簇头,首要簇头失效时次要簇头充当主要簇头角色,且主要簇头给每个成员分配了TDMA时隙,提高了通信质量。仿真实验结果表明:与WCA算法和WBACA算法相比,该分簇算法在簇结构的稳定性和分组投递率方面都有较大的改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号