首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
大多数在线学习研究要求访问训练实例的所有属性/特征.这一典型要求在大数据应用中难以满足,因为数据实例的维度可能很高,为了获得完整的属性/特征集而访问所有属性/特征时的成本太高.针对这一问题,首先利用截断技术提出改进的Perceptron算法用于在线特征选择,然后针对该算法错误率较高的缺点,提出一种基于稀疏投影的在线特征选择算法(OFS),并给出了OFS算法误差边界的理论分析.最后基于多种公开数据集的实验结果表明,本文算法的在线平均错误率和时间效率等方面性能要优于著名的批特征选择算法,在大规模应用中具有广阔前景.  相似文献   

2.
提出以乳腺癌数据进行挖掘数据的有效分类方法.针对兰州市某医院乳腺癌数据,通过数据挖掘技术中3种不同的特征提取方法,对乳腺癌数据集的属性进行选择,特征选择后减少的属性代替原来较多的属性,再对其用贝叶斯网络、属性选择分类器、J48、逻辑回归模型、One-R 5种方法进行分类.结果表明,得到的子集再经过分类时所花费时间明显减少,利用贝叶斯网络算法进行分类的准确率和各项性能指标高于其他算法,用逻辑回归模型算法进行特征选择后准确率明显提高.  相似文献   

3.
特征选择是文本分类中一个重要的课题.首先给出了一个新型文档频,然后把属性依赖度引入ID3并提出了一个基于优化ID3的属性约简算法,紧接着以此为基础,提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果证明该特征选择方法是有效的.  相似文献   

4.
提出了一种节点社会关系衡量算法(NSRM).首先,通过分析移动节点的社会关系特征提取决策特征属性,用于研究移动节点社会关系的动态变化;然后,结合信息熵和特征选择的方法对节点的决策特征属性进行权重分配;最后,根据权重分配的结果来衡量节点社会关系,进而基于社会关系选择最佳的中继节点转发数据.实验结果表明:该算法可以有效提高...  相似文献   

5.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

6.
基于类别相关性和交叉熵的特征选择方法   总被引:1,自引:0,他引:1  
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.  相似文献   

7.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则.基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法 ,样例数据测试结果 分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度.  相似文献   

8.
针对混合决策系统的属性约简问题,提出了基于邻域粗集模型的小生境克隆选择属性约简算法.采用邻域关系度量不可分辨关系,通过邻域信息粒子逼近论域空间,可以直接处理数值型属性.克隆选择约简算法的提出解决了求解全部约简的NP完全问题.论述了亲和度函数的选择,引入了小生境技术,避免了抗体的早熟收敛及算法中的参数对具体优化目标的敏感性和单一收敛性,给出了算法的具体实现.对经典数据集和UC I中4组数据约简的仿真结果证明了算法的有效性和可行性.  相似文献   

9.
基于贝叶斯粗糙集的文本特征选择方法   总被引:3,自引:1,他引:2  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的.  相似文献   

10.
基于可辨矩阵的属性约简算法都是从信息系统中直接求得约简,提出了分两步求得约简,降低了算法的时间复杂度为O(mn^2),第一步计算出近似约简,第二步去掉其中的冗余属性。改变了过去人们认为基于可辨矩阵的特征选择算法的时间复杂度不低于O(m^2n^2)的观点(其中m为数据集中特征/属性的个数,n为数据集中样本的个数)。最后给出了实验结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号