首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

2.
针对微博内容的稀疏、高维等特征,提出了一种基于词项关联关系的模糊C均值聚类算法。该算法通过挖掘词项间语义的关联程度,将文本特征最大化,并用提前标注部分同类文本的方式来指导模糊C均值算法在初始聚类中心上的选择,从而达到优化效果。实验结果表明,该算法一定程度上克服了微博本身存在的数据稀疏性问题,能高效地进行微博聚类。  相似文献   

3.
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。  相似文献   

4.
从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语义相关阈值,筛选重要频繁项集进行谱聚类,得到主题关键词.基于主题关键词对海量微博数据依据语义相关度归类,最后结合情感词典对每类中的微博检索主题关键词前后修饰距离内情感词及否定词,结合表情符号计算微博情感值.在百万规模中文微博上进行实验,证明该方法能准确按主题归类且能有效在该主题上进行情感分类.  相似文献   

5.
为了克服传统协同过滤(CF)推荐方法数据稀疏和可扩展性差的不足,该文提出1种基于局部优化降维和聚类的协同过滤算法。采用局部优化的奇异值分解(SVD)降维技术和K-均值(K-means)聚类技术对用户-项目评分矩阵中的相似用户进行聚类并降低维度。利用近似差分矩阵表示评分矩阵的局部结构,实现局部优化。局部优化的SVD降维技术可以利用更少的迭代次数缓解CF中数据稀疏和算法可扩展性差的问题。K-means聚类技术可以缩小邻居集查找范围,提高推荐速度。将该文算法与基于Pearson相关系数的协同过滤算法、基于SVD的协同过滤算法、基于K-means聚类的协同过滤算法相比较。在MovieLens数据集上的实验结果表明,该算法的平均绝对误差(MAE)较其他算法降低了大约12%,准确性(Precision)提高了7%。  相似文献   

6.
借鉴主题模型的思想,利用word2vec训练数据的高效性以及词聚类结果的有效性,提出了一种基于word2vec的文本建模方法。该方法以word2vec算法得到的词聚类结果为基础,统计文本在词聚类类别上的概率分布,获得文本在类别空间上的特征向量,完成文本建模。将其与两种经典的文本建模方法 VSM和LDA进行比较,实验结果显示在聚类效果上F值分别提高6.01%、1.01%,在算法效率上有明显的提高。  相似文献   

7.
针对临床路径决策分析聚类算法中聚类效果依赖于样本数据分布且处理数据效率低的问题,提出基于均衡分配方法的模糊K-means算法的临床路径决策方法.该算法利用文字数字化处理与加权计算来建立数据格式统一且关键属性突出的样本特征值矩阵;利用基于均衡分配方法的模糊K-means算法对上述样本进行聚类分析,得到最终的聚类中心与聚类结果,以此辅助医生进行临床路径决策.采用ECLIPSE编程进行仿真,与传统模糊K-means算法和基于减法聚类的FCM算法相比,采用该算法的迭代时间分别降低了26%与70%,迭代次数分别减少了33%和82%,平均目标函数最小值分别减小了32%和28%.实验表明,该算法能够有效降低聚类效果对于样本数据分布的依赖,同时数据聚类效率与质量也有显著的提高.  相似文献   

8.
电力负荷聚类分析研究是负荷特性模拟、需求侧管理等应用的基础。针对负荷数据日趋多样性、随机性,传统K-means算法无法有效处理高维数据,且存在人工给定聚类数目K值及随机选取初始聚类中心易收敛至局部最优的问题,本文提出一种基于自编码器(Auto-Encoder,AE)降维的电力负荷聚类方法。首先利用自编码器网络对采集的负荷数据提取特征,降低数据维度,然后通过密度权值Canopy算法对降维后的数据预聚类,得到初始聚类中心和最优聚类数目K值,将预聚类结果结合K-means算法进行聚类。算例结果表明,该方法能够有效对负荷数据进行特征提取,并减少聚类过程中的复杂度,提高了聚类结果准确度和聚类效率。  相似文献   

9.
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.  相似文献   

10.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义;然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强的抗噪声能力;最后结合应用领域定义一种新的聚类质量评价模型.实验证明,该算法可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征.  相似文献   

11.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

12.
校园无线网络产生大量用户位置数据,它使掌握用户行为轨迹、预测用户位置成为可能.协同过滤广泛用于预测和推荐系统中,但现有研究存在数据稀疏性和不适用于处理时空数据的缺点.本文提出基于聚类和时间权重的协同过滤位置预测算法.首先利用DBSCAN聚类算法对用户进行聚类,缓解数据稀疏性.然后在簇内计算用户-位置评分矩阵时引入时间权重,使用户近期的位置签到对预测有更大贡献.与传统协同过滤方法相比,该方法准确率提高9.1%,召回率提高5.2%,F1-SCORE提高7%.  相似文献   

13.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

14.
详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效.  相似文献   

15.
提出一种应用于科技文献分类的文本特征选择方法.该方法运用了聚类与关联规则的思想,对文本特征进行逐层选择.同时为提高K-means算法的聚类性能,对K-means算法做了相应的改进,通过为算法的终止条件设定标准值来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰.采用KNN分类器进行对比实验,实验结果表明,该特征选择方法在科技文献分类方面有较高的准确率.  相似文献   

16.
针对指纹定位精度易受指纹数据K-means聚类预处理效果不佳、加权K近邻算法采用固定K值进行匹配定位精度差等问题,提出一种基于改进K-means聚类的自适应加权K近邻算法.算法在对指纹数据进行聚类计算过程中充分考虑参考点间接收信号强度值与实际物理坐标的双重影响,以避免参考点分类不明确;根据每个测试点的匹配参考点之间实际距离的均值和标准差设置阈值,动态选择K值.实验结果证明,改进K-means聚类的自适应加权K近邻算法相较于传统室内定位算法定位精度提高了44%,可为相关应用提供更精确的定位服务.  相似文献   

17.
当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,去除冗余特征,保留有效的特征信息。应用支持向量机算法构建网络数据流快速分类模型,结合谱聚类算法对多数类样本进行聚类,组成新的数据集并将其输入到分类模型中得出相关的分类结果。实验结果表明,所提方法的平均F1值为0.95,F1值越大分类结果越准确,说明该方法能够满足高速网络数据流快速准确分类,具有优越的数据分类性能,应用价值更高。  相似文献   

18.
《河南科学》2016,(3):348-351
传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进.  相似文献   

19.
给出了K-means算法和层次聚类算法在具体网站用户细分中准确率的比较,在细分网站用户这一类问题中,K-means算法在聚类准确率和处理速度上具有较大的优势,能够满足网站用户细分准确率的基本要求,其聚类准确率达到95%左右,且K-means算法处理速度比较快;层次聚类算法的处理速度较K-means算法慢,且其聚类准确率在处理大量用户数据时低于92%,这对于处理网站用户数据这类信息并不具备优势.  相似文献   

20.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号