首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
基于贝叶斯粗糙集的文本特征选择方法   总被引:3,自引:1,他引:2  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的.  相似文献   

2.
结合优化文档频和变精度粗糙集的特征选择方法   总被引:1,自引:0,他引:1  
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好.  相似文献   

3.
特征选择是文本分类中一个重要的课题.首先给出了一个新型文档频,然后把属性依赖度引入ID3并提出了一个基于优化ID3的属性约简算法,紧接着以此为基础,提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果证明该特征选择方法是有效的.  相似文献   

4.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

5.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。  相似文献   

6.
符红霞  黄成兵 《科学技术与工程》2012,12(34):9234-9237,9242
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先分析了词频和文档频并在此基础上对文档频进行优化。然后又以此为基础提出了特征分辨率并先用它初选文本特征。紧接着又把粗糙集引入进来并给出了一个基于等价类相关矩阵的属性约简算法,以此来进一步消除冗余特征。仿真结果表明上述方法无论是在精确度和召回率方面,还是时间性能及平均分类精度方面,都具有一定的优势。  相似文献   

7.
基于优化文档频和信息量的特征选择方法   总被引:1,自引:0,他引:1  
针对文本分类中几种典型的特征选择方法存在的不足,提出基于优化文档频和信息量的特征选择方法.该方法首先使用优化的文档频方法进行特征选择以降低文本向量的稀疏性,然后利用所提属性的约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明:该方法同3种经典特征选择方法相比,"互信息"和"统计量"以及"信息增益"都要好.  相似文献   

8.
基于类别相关性和交叉熵的特征选择方法   总被引:1,自引:0,他引:1  
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.  相似文献   

9.
针对目前决策表属性约简的计算问题,研究了粗糙集理论中差别矩阵,讨论了知识粒度与信息量、类别特征矩阵之间的关系,利用知识粒度最大的属性生成较小的类别特征矩阵,设计了新的启发式规则来快速缩小搜索空间和最小化属性选择,提出了一个基于知识粒度的最小属性约简算法,并用一个实例证明了算法的正确性。与类别特征矩阵相比,采用知识粒度生成的类别特征矩阵可以有效地减少存储空间。实验结果表明,所提出的算法能够得到最小属性约简。  相似文献   

10.
为提高决策表中最小属性约简的效率、稳定性和鲁棒性,基于云模型在非规范知识定性、定量表示及其相互转换过程中的优良特征对量子进化算法进行算子设计,提出了一种基于量子云模型演化的最小属性约简增强算法(QCMEARE).该算法采用量子基因云对进化种群进行编码,基于约简属性熵权逆向云进行量子旋转门自适应调整,使其在定性知识指导下能够自适应控制属性约简空间搜索范围,并采用量子云变异和云纠缠操作算子较好地避免了在属性演化约简中易陷入局部最优和早熟收敛等问题,使算法快速搜索到全局最优属性约简集.仿真实验表明,提出的最小属性约简增强算法具有收敛速度快、约简精度高和稳定性强等优点.  相似文献   

11.
基于关系积的属性约简算法   总被引:1,自引:0,他引:1  
粗糙集的属性约简是一个NP难问题,目前尚无高效的算法.基于集合理论,提出了关系积概念和基于关系积的属性约简算法,把决策表的属性约简过程转化为关系积的运算,减小了对决策表的扫描次数,提高了属性约简的效率;算法采用自底向上和宽度优先的搜索策略,可确保找到最小属性约简集.结合实例,给出了算法的具体实现.  相似文献   

12.
针对现有食品安全评价指标约简方法计算效率低的问题, 提出一种新的属性约简方法〖CD2〗基于粗糙度的属性约简方法。该约简属性从空集开始, 引入粗糙度概念, 利用粗糙度PB(X)作为条件属性的选择标准, 逐步地将粗糙度值最小的条件属性加入到约简集中, 得到新的论域, 并用递归的处理方法简化属性的搜索空间, 直到论域变为空集, 获得简化的属性集。实验证明了该方法的正确性和有效性。  相似文献   

13.
由于缺乏类信息,使得无监督文本特征选择问题一直未较好地加以解决。为此,对该问题进行了研究并提出了一个基于论域划分的无监督文本特征选择。该方法主要是把论域划分的思想引入到无监督文本特征选择之中,其首先使用一种新型无监督文档进行文本特征初选以过滤低频的噪声词,然后再使用所给的基于论域划分的属性约简进行文本特征优选。实验结果表明这个方法能够克服文本聚类时缺乏类的先验知识的不足,可以较好地解决无监督文本特征选择问题。  相似文献   

14.
基于粗糙集方法的知识发现   总被引:1,自引:0,他引:1  
属性约简和属性值约简是租糙集理论中的重要研究内容,也是粗糙集理论应用于知识发现的主要方法.但求取任意问题的最小属性集是一个NP难问题.本文利用属性间的知识依赖度,提出了一个求取属性约简的贪心算法,它可以在多项式时间内得到一个约简.同时,把粗糙集方法应用于知识发现,通过属性约简删除信息系统的冗余属性,减少数据量,再利用属性值约简,获取决策规则.最后通过实例说明了基于粗糙集方法的知识发现过程,验证了方法的有效性.  相似文献   

15.
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域...  相似文献   

16.
软集在解决不确定性问题的决策分析过程中,参数约简是关键和棘手的问题.软集正规参数约减方法采用全局搜索方式求解最大的参数约简集,存在候选属性集计算量大和冗余度高的问题,针对这一问题提出一种基于局部搜索的软集最小参数约简方法.给出频度和等价类、最小生成元的概念,在此基础上给出分层局部搜索的软集最小参数约简算法,减少搜索空间和加速逐层约简的过程,最后求出软集最小正规约简的最优解.通过分析和实例证明该软集参数约简方法,大幅度减小了候选参数约简集数量,降低运算的复杂度.  相似文献   

17.
基于差别矩阵的增量式属性约简完备算法   总被引:1,自引:0,他引:1  
为了解决基于差别矩阵的属性约简完备算法得不到最小约简的问题,提出了一种改进的属性约简方法.该方法将信息论定义的属性重要性作为启发式信息,并通过构造一个条件信息熵算子对差别集合进行运算,同时利用算子来计算候选属性的剔除次序,采用宽度优先搜索策略使约简集合中含有最重要的属性,这样就解决了完备算法约简率低的问题.结合该方法并在分析对象集增量与差别矩阵关系的基础上,证明了增量约简定理,由此提出了一种增量式约简完备算法(CAIR),当新数据加入决策表时,算法可增量构造差别集合.实验结果表明,所提CAIR在大大缩短计算差别集合时间的同时,约简率比非完备算法提高了20.3%,是同条件下完备算法执行效率的13.2倍.  相似文献   

18.
针对粗糙集理论中属性约简问题,提出了一种基于扫描向量的属性约简方法.根据粗糙集理论知识,定义了一个新概念--差别向量,利用差别向量将信息表转换成差别向量组;根据差别向量的结构特征,定义了差别向量加法法则;运用这个加法法则仅需对差别向量组扫描一次,就可以形成结构简洁却能代表原信息表属性特征的扫描向量.以扫描向量中的属性频率项作为属性约简搜索的启发信息,提高了属性约简效率.数值实例及数据库测试的结果表明该属性约简算法是有效可行的.  相似文献   

19.
前向贪心搜索策略在约简求解的过程中,需要遍历所有的候选属性,从而确保在每轮迭代时能够选择出最优的属性.在属性数量急剧增加时,利用前向贪心搜索进行约简求解会显式地带来较大的时间消耗.鉴于此,在前向贪心搜索的基础上,依据属性约简过程和粒度的变化关系,提出了基于粒度的加速求解约简策略.该策略的核心思想是以粒度大小为标准,剔除...  相似文献   

20.
一种改进的Rough集属性约简启发式遗传算法   总被引:4,自引:0,他引:4  
属性约简是知识发现中的关键问题之一 .为了能够有效地获取决策表中属性最小相对约简 ,提出了一种在优化初始群体基础上提高算法性能的启发式遗传算法 .首先 ,通过构造一个新的算子 ,将信息论角度定义的属性重要性度量作为启发式信息 ,来描述所选择的属性子集对论域中确定分类子集的影响 ;接着 ,以此为基础并结合遗传算法 ,选择一些经过优化的染色体作为初始群体 ,在加强局部搜索能力的同时保持了该算法全局寻优的特性 .最后 ,从理论上对算法做了分析 ,证明了新算子所选择的属性子集对原有属性分类能力保持不变 .试验分析表明 ,该算法能有效地对决策表属性进行约简  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号