首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 199 毫秒
1.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限。针对这些问题,给出一种基于信息粒度的高属性维聚类算法。首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义,然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强抗噪声能力,最后结合应用领域定义一种新的聚类质量的评价模型。实验证明,算法具有更广应用性,可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征。  相似文献   

2.
层次聚类算法是运行复杂度较高的聚类算法,基于不相似性测度的层次聚类算法不适合稀疏高维数据.结合核函数特点,提出了一种基于核函数的层次聚类算法.利用该算法,对稀疏高维数据进行了层次聚类对比,实验结果表明,该算法提高了层次聚类的准确率.  相似文献   

3.
软件成本数据常常表现为高维混合属性数据,传统的相似性度量已不再适用.文中通过建立软件成本数据的高维模糊C均值(FCM)聚类算法对数据相似性进行度量.首先,定义由序数属性到数值属性的初始映射;然后,通过建立改进的迭代高维FCM聚类算法对序数 数值映射进行修正,优化聚类效果;最后,利用得到的模糊划分矩阵对软件成本数据的相似性进行度量.实验结果表明,通过对聚类效果进行优化,文中定义的相似性度量能够提高软件成本估算精度.  相似文献   

4.
针对高维数据出现的"维灾"、稀疏性问题及各属性维自身具有的特点,采用高斯混合模型定义的相关子空间,给出一种投影聚类分析算法。首先,采用KNN,得到各个数据对象的局部数据集LDS,并引入稀疏因子生成稀疏度矩阵,而后依据高斯混合模型和稀疏度矩阵,识别出相关子空间和不相关子空间;其次,根据相似性度量,剔除稀疏数据和无关属性维,并利用K-means算法形成聚类簇;最后,采用UCI数据集,验证了该算法的有效性与准确性。  相似文献   

5.
定义了一种新的基于马氏距离的半监督模糊聚类算法,并推导出它的迭代公式.该算法能够提高聚类算法的运行效率.在人工数据集和真实数据集上的实验结果验证了这种方法的有效性.提取了黄瓜叶片7个色调特征,Fisher降维之后进行半监督聚类分析.对于已标识类别属性的叶片,聚类结果与已知属性的一致率达100%,而对于未标识数据,一致率也达到96%以上.  相似文献   

6.
针对传统的协同过滤推荐算法存在数据稀疏性、冷启动,影响推荐结果的准确性等问题,提出了一种改进的协同过滤推荐算法。使用基于随机梯度下降优化求解的矩阵分解方法,将原始矩阵分解为较低维的用户特征矩阵和特征产品矩阵;引进产品外部属性信息,运用谱聚类算法对产品聚类,构建属性—特征之间的映射关系,填充特征产品矩阵。所提出的算法不需要对原始评分矩阵进行数据填充,相较于传统的固定值填充方法,不需要系统提供大量的空间存储评分矩阵,并且在评分预测过程中采用降维技术,可以有效地缓解数据稀疏性对推荐结果准确性的影响。  相似文献   

7.
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。  相似文献   

8.
在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提高了10%,准确度提高了2%.  相似文献   

9.
基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的互信息定义一种词语相似度,在词语相似度的基础上定义词语集合的相似度,进而提出一种能得到全局最优结果、自下而上的词聚类算法。研究结果表明:该词聚类算法执行效率高,聚类效果较好;根据该词聚类模型的结果所构造的基于词类和基于词语的线性插值模型,能较好地缓解统计语言模型中的数据稀疏问题。  相似文献   

10.
提出了一种新的谱聚类算法:基于K-Medoids的SSKM聚类,不仅利用距离指数变换函数及稀疏化算法构建了分块对角矩阵以重新解释样本之间的相似度,还结合PAM算法取代传统谱聚类中的k-means算法对特征向量聚类以提高算法的聚类稳定性.为了使SSKM算法能够有效地处理高维数据,引入了高相关系数过滤及主成分分析降维技术,提出了SSKM算法的新版本HSSKM,能够识别高维数据结构以减少原始数据的特征规模.模拟数据及高维基因表达数据结果表明新算法具有聚类稳定、聚类结果更精确等显著性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号