共查询到10条相似文献,搜索用时 312 毫秒
1.
基于优化的文档频和粗糙集的特征选择方法 总被引:3,自引:2,他引:1
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择方法.该综合方法首先使用基于最小词频的文档频方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集. 相似文献
2.
特征选择是一种重要的数据预处理步骤,其中互信息是一类重要的信息度量方法。本文针对互信息不能很好地处理数值型的特征,介绍了邻域信息熵与邻域互信息。其次,设计了基于邻域互信息的最大相关性最小冗余度的特征排序算法。最后,用此算法选择前若干特征进行分类并与其它算法比较分类精度。实验结果表明本文提出算法在分类精度方面且优于或相当于其它流行特征选择算法。 相似文献
3.
基于政府部门或企事业单位发布的电子文档都是不允许被非法恶意的篡改,本文提出了一种基于汉字次序的文本零水印算法.首先统计电子文档中汉字的出现频次,然后提取高频次和低频次汉字出现的次序作为文档特征来构造零水印.仿真实验结果表明该文本水印算法构造的水印具有很好的透明性,在电子文档受到篡改的情况下,不需要原文档就可以有效地检测出. 相似文献
4.
5.
6.
对网络特征进行准确和实时的测量是优化无线Mesh网络性能的基础. 该文提出一种无线Mesh网络在线测量架构以解决测量节点的位置选择问题. 联合考虑无线信号检测能力与信息传输能力,提出基于椭圆割线的测量节点选择方法. 分别以被测量节点和数据处理中心作为椭圆焦点构成测量区域,以测量系统的性能度量为目标函数,在椭圆环中选择最佳测量节点位置. 数值仿真表明,在保障无线Mesh网络在线测量品质条件下,该测量架构实现了检测能力和信息传输能力的综合优化,椭圆割线算法的计算复杂度低于随机选择算法. 相似文献
7.
PBC:一种基于路径的XML文档聚类方法 总被引:2,自引:0,他引:2
提出了一种基于路径的XML文档结构聚类方法(PBC).与其他方法直接计算XML文档结构距离不同,该方法通过对文档包含的路径聚类,间接完成文档的聚类.首先,包含某一路径的文档集合形成初始类,并用该路径作为初始类的标识.然后,用层次聚类方法根据设定的标准,合并初始类,直至结束.类的标识信息是类中文档包含的路径,结果直观,容易理解.算法的复杂度是O(n),其中n是文档的大小.相关实验证明该算法不但能保证聚类结果准确,而且能大幅度提高计算的速度. 相似文献
8.
针对人脸识别中区域的高阶隐藏非线性结构发现问题,提出了字典学习优化结合2D Krawtchouk矩(KCM)选择的人脸识别方法.首先,利用二维KCM选择提取特征向量;然后,利用字典学习优化得到最优特征矩阵,并将特征进行组合;最后,使用最近邻分类器完成分类.实验结果表明,相比其他几种方法,该方法获得的平均精度高且鲁棒性更好. 相似文献
9.
10.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化. 相似文献