首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一种用于文本聚类的改进k-means算法   总被引:2,自引:0,他引:2  
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。  相似文献   

2.
本文首先介绍文本挖掘的定义及一般处理过程,重点探讨了文本分类与分类聚类等文本挖掘的关健技术。  相似文献   

3.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.  相似文献   

4.
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Textclustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

5.
提出了一种利用传统向量空间模型VSM(Vector Space Model)和词共现概念共同表示文档特征的新方法,并将该方法应用于基于平面划分的中文文本聚类中.通过实验,表明基于传统VSM和词共现概念的文本聚类方法与传统的单纯基于  相似文献   

6.
文本聚类算法的比较   总被引:3,自引:0,他引:3  
聚类是一种重要的数据挖掘形式。介绍了常用的文本聚类算法,从各种聚类算法的适用范围、初始参数的影响、终止条件以及对噪声的敏感性等方面对其进行了分析比较。  相似文献   

7.
提出了一种新的支持向量机分类器的设计方法,该方法利用主成分分析(PCA)及聚类技术在原问题空间中求解,减少了支持向量机分类器中支持向量的维数,且将原问题空间与特征空间中的问题归结为同一类的设计问题。  相似文献   

8.
基于LSI和自组织神经网络的高效文本聚类方法   总被引:4,自引:0,他引:4  
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度.  相似文献   

9.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

10.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

11.
进行河流洪水聚类的目的是根据洪水特征的相似程度划分洪水类别,研究同类洪水的规律性以及应对措施.但是,洪水特征选择过多往往会增加计算的复杂程度,同时特征之间的相关性也使得信息大量重叠,导致计算结果失真.为此,提出基于主成分分析的河流洪水系统聚类法.该法首先将所选的洪水特征综合成少数几个不相关的主成分,然后计算出每场洪水在各主成分上的得分值并将该值作为新的洪水特征值,最后根据这些新特征值进行洪水聚类.三门峡水库入库洪水聚类实例证明了该方法的可行性.  相似文献   

12.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

13.
基于Web的个性化学习是在远程学习和个性化服务相结合的基础之上发展起来的.利用Web挖掘的方法,针对用户的兴趣变化,搭建了个性化学习系统.并且通过模拟实验,验证该系统的有效性.  相似文献   

14.
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果.  相似文献   

15.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

16.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

17.
攻击者为了逃避检测,常利用加壳技术对恶意软件进行加密或压缩,使得安全分析人员以及传统基于静态分析的恶意软件检测方法在恶意软件运行前难以利用反汇编等逆向工具对其进行静态分析。为检测加壳恶意软件,当前主要采用动态分析方法检测加壳恶意软件,然而受限于加壳工具种类和样本规模,以及恶意软件加壳行为带来的混淆噪声,导致传统基于机器学习检测方法存在准确率不足等问题。研究提取并分析加壳恶意软件运行时的系统调用行为特征,识别并筛选出敏感行为,旨在过滤脱壳行为噪声产生的影响;通过对系统调用行为特征加权降维,提升行为特征的有效性;通过对加权降维的行为特征进行聚类分析,最终实现加壳恶意软件未知变种检测和检测模型增量更新。实验结果表明,提出的基于动态行为特征加权聚类的加壳恶意软件未知变种检测方法检测误报率3.9%,相较几种典型机器学习检测方法呈显著降低。  相似文献   

18.
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。  相似文献   

19.
基于自适应波段聚类PCA的高光谱图像压缩   总被引:1,自引:1,他引:0  
对高光谱图像进行有效压缩已经成为高光谱遥感领域的研究热点。针对现有高光谱图像压缩算法谱间特性利用不够充分的问题,提出了一种自适应波段聚类PCA(principal component analysis)与JPEG2000相结合的高光谱图像压缩算法。算法采用基于吸引力传播聚类的方法进行自适应波段聚类,对聚类后的各个波段组分别进行PCA运算,最后利用JPEG2000标准对所有主成分进行编码压缩。对高光谱图像进行波段聚类,不仅能更有效地利用谱间相关性,提高压缩性能;还可以降低PCA的运算量。实验结果表明,该算法在相同压缩比下,其信噪比、异常检测、光谱角性能相比对比算法均有所改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号