首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果.  相似文献   

2.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

3.
基于遗传算法的文本聚类特征选择   总被引:3,自引:0,他引:3  
传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特征个体适应度的评价.通过选择、交叉和变异的遗传操作,能较为快速地求出最优特征集.对公开的文本分类语料所进行的实验表明,基于遗传算法的特征选择使文本聚类结果的精度较之特征选择前提高了5.9%,而聚类时间减少了15 s.  相似文献   

4.
当样本数多、数据维数高时,利用Kohonen自组织特征映射聚类后相邻类簇间容易发生大面积重叠,导致聚类和可视化的效果降低.利用Ultsch涌现自组织特征映射神经网络对测井数据进行聚类,而后分别通过分量图、U矩阵和P矩阵在超环面上进行可视化,并对其结果进行比较分析.该模型可克服Kohonen自组织特征映射的上述缺陷,优化聚类结果.借助该模型进行测井数据的聚类分析与可视化,可为岩性识别提供参考.  相似文献   

5.
用于监测刀具磨损的声发射(AE)特征优选方法   总被引:3,自引:0,他引:3  
研究合理选择声发射信号特征以实现实时监测刀具磨损量。利用模糊聚类特征优选方法对声发射传感器特征信息进行优选,并在此基础上给出了模糊聚类优声发射特征的一般结论。给出了声发射信号的模糊聚类优选方法的优选特征,并在实时检测刀具磨损量的实验中得到验证。实验表明,利用模糊聚类特征优选方法能有效地对刀具磨损监测中的声发射特征进行了优选。  相似文献   

6.
针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗...  相似文献   

7.
一种基于核的模糊聚类算法   总被引:6,自引:2,他引:4  
结合核技术与改进的模糊c均值算法聚类准则提出一 种基于核的模糊聚类算法. 通过引入核函数, 样本点被非线性变换映射到高维特征空间进行聚类, 提高了聚类性能. 同时, 算法改进了模糊c-均值聚类模型中的概率型约束条件, 使其对噪声和野值点具有较好的鲁棒性. 在真实数据和人造数据上与常用聚类算法进行了对比实验, 结果表明该算法具有较低的时间、 空间复杂度与较好的聚类性能.  相似文献   

8.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

9.
为了有效地简化稠密采样点模型,提出了一种基于粒子群优化聚类算法的点模型简化方法.引入了具有强大全局寻优能力的粒子群优化算法,对传统的k-均值聚类算法进行改进,基于改进的聚类算法对点模型进行简化,选取具有最优个体适应度函数的粒子作为原始采样点集的最终简化模型.算法聚类依据采样点的空间位置、法向和曲率的邻近性,实现了点模型表面区域几何特征保持的简化.同时在聚类区域的划分中考虑了曲率阈值和区域半径,使得算法在有效地保持特征边界和曲面细节的同时,能够生成高质量的简化曲面.实验结果表明,粒子群优化的k-均值聚类算法克服了传统聚类算法容易陷入局部极小的缺点,具有更好的全局收敛性和较快的收敛速度.该简化方法在有效简化点模型的同时,很好地保持了原始模型的几何形状,且在相同简化效率下能够生成更高质量的简化曲面.  相似文献   

10.
针对航空器轨迹聚类没有充分利用目标的速度、航向等多维特征信息,在发掘轨迹聚类中存在局限性,提出基于多维特征的航空轨迹聚类方法并基于统计学方法完成异常检测。通过散点相似矩阵确定多维特征,利用多维特征构建多维特征相似矩阵,完成对轨迹的聚类,引入航转角和特征点选择特征轨迹,用多元拟合模型对特征轨迹点拟合,得到航空器特征轨迹表达式,通过计算实验轨迹与位置特征表达式的距离是否大于95%的置信区间距离,完成异常轨迹的检测。在天津机场用ADS-B数据进行实验,比较结果表明具有一定可行性。  相似文献   

11.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

12.
借鉴基于正则回归的无监督并行正交基聚类特征选择法和最大互信息系数,提出正交基低冗余无监督特征选择法.该方法在正交基下选择具有判别能力的特征,可用最大互信息系数矩阵选择低冗余性的特征子集. 4个图像数据集上的实验结果表明:该方法选择的特征子集可以提高聚类准确率.  相似文献   

13.
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS.该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征.采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能.实验一:当特征数量由6 000减少到1 047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降.实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法.  相似文献   

14.
特征选择得到的识别特征可以用于聚类分析,提高聚类分析的质量。受数据自表示特性和双图规则化学习的启发,提出了一种新的特征选择聚类算法。利用数据和特征的自表示特性,不仅保留了数据的流形信息,而且保留了特征空间的流形信息。此外,为了充分发挥双图模型的作用和鉴别局部聚类的效果,加入局部判别特征选择聚类,大大提高了聚类的有效性和鲁棒性。  相似文献   

15.
在聚类算法和特征向量维数确定的模式样本集中,各样本的每一维表示一个对应特征;鉴于此在基于层次算法的基础上,提出了一种基于概率的快速聚类算法;该算法先对各个特征进行分类,然后按照概率准则,每个向量先自成一类,将其对应概率最大的特征向量合并,减少类别数,直至达到要求为止;用UCI中的Iris和Wine数据集对该算法进行仿真实验,实验数据表明:用该算法进行聚类,能获得较好的聚类结果,说明算法具有一定的有效性.  相似文献   

16.
针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率.  相似文献   

17.
采用当前方法进行光纤网络流量异常监测过程中,特征选择法无法全面描述流量异常特征监测的不足,存在监测效果较差的问题。为此,提出一种基于改进特征选择法的异常流量监测方法。首先采用分光方式对光纤网络流量进行分析,获取光纤网络流量时间序列,并描述用于流量异常监测的多时间序列之间的相互关系,然后利用改进特征选择法对网络出口流量进行特征提取。利用聚类算法选择网络流量异常最优类数和聚类中心,来对网络流量异常现象进行过滤,从而实现网络异常流量特征抽取、特征选择改进算法和网络流量异常监测的研发,从而提高光纤网络流量异常现象监测的准确度。仿真实验结果证明,通过这种方法,能有效地对网络流量异常现象进行监测,且算法简单,能够满足网络流量异常监测的应用需求,实用价值较高。  相似文献   

18.
由于缺乏类信息,使得无监督文本特征选择问题一直未较好地加以解决。为此,对该问题进行了研究并提出了一个基于论域划分的无监督文本特征选择。该方法主要是把论域划分的思想引入到无监督文本特征选择之中,其首先使用一种新型无监督文档进行文本特征初选以过滤低频的噪声词,然后再使用所给的基于论域划分的属性约简进行文本特征优选。实验结果表明这个方法能够克服文本聚类时缺乏类的先验知识的不足,可以较好地解决无监督文本特征选择问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号