首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统转换多标记学习算法较难确定最低阈值的问题,该文对传统转换策略的多标记学习算法进行改进,提出了一种基于最低阈值的学习算法(TFEL),该方法根据类别标记学习为每个类别得到一个最低阈值.当分类器将一个测试示例预测为某个类别标记的分值大于为该类别标记学得的最低阈值时,则将该类别标记添加到该测试示例的最终分类结果中.实验结果表明, TFEL方法能够得到较好的分类效果,证明了该方法的可行性和有效性.  相似文献   

2.
为了解决局部支持向量机算法KNNSVM存在的分类时间过长不利于具有海量数据量的高分辨率遥感图像分类的不足,提高KNNSVM的算法表现,提出了改进的基于不确定性的BKNNSVM算法.该算法利用二项式分布的共轭先验分布Beta分布根据近邻的分布情况推导该未标记样本属于正类或负类的概率大小,从而计算每一个未标记样本在类属性上的不确定性大小.再通过设置不确定性阈值的大小,对不确定性低于阈值的未标记样本直接采用KNN进行分类,而对高于阈值的样本利用其近邻建立局部支持向量机分类器进行分类.对高分辨率图像分类的实验结果表明:合适的阈值能够有效降低原始KNNSVM算法的时间开销,同时能保持KNNSVM分类精度高的特点.  相似文献   

3.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

4.
HTML文本自动分类预处理方法的研究应用   总被引:4,自引:0,他引:4  
研究了HTML标记对网页内容的修饰作用,以前人理论为基础设计和实现了基于HTML标记的网页分析和加权策略与算法.经实验比较,加入预处理算法后,提高了分类器的分类效率,验证了所提出方法的有效性.  相似文献   

5.
提出了一种考虑标记间依赖关系的多标记分类算法.首先依据RAk EL算法将标记集合划分为若干子集,然后在子集内部应用概率分类器链算法训练分类器.这样不仅充分考虑了标记间的依赖关系,而且对标记进行分组,从而提高了分类的性能.在5个数据集上与其他经典算法进行了对比实验,结果表明本文所提算法可显著提高分类性能.  相似文献   

6.
一种改进的互信息特征选取预处理算法   总被引:4,自引:1,他引:3  
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度。  相似文献   

7.
粒子群算法的改进及其在文本分类上的应用   总被引:3,自引:0,他引:3  
本文首先从加强全局搜索能力、提高种群多样性的角度对经典粒子群算法提出二点改进方案,并将改进后的粒子群算法用来作为训练文本分类的分类算法,实现了文本资源的自动分类.  相似文献   

8.
网页分类需要使用标记网页对分类算法进行训练,然而,对网页进行标记的过程既费时又费力.随着web的快速发展,获得未标记网页已经变得相对容易.为了有效地利用未标记网页来提高网页分类的性能,提出了一种基于集成学习的网页分类算法,迭代运行支持向量机、中心分类器和朴素贝叶斯分类器,并对各分类器的预测进行集成,不断地从未标记集中对网页进行标记后用于训练.实验结果表明.提出的算法有效地提高了网页分类的性能.  相似文献   

9.
一种基于离散度的决策树改进算法   总被引:3,自引:0,他引:3  
在数据挖掘中,决策树方法是一个重点研究方向.很多学者从不同角度对ID3算法进行改进和优化,提高了分类的效率和速度.本文从离散度的角度,对ID3算法进行改进.实验表明,利用改进后的算法挖掘分类规则,不仅提高了分类的正确率,而且非常高效.  相似文献   

10.
由于多标记学习中的"维度灾难"问题,鉴于判别嵌入式聚类(DEC)算法对数据降维的特点,本文提出了基于DEC算法的多标记学习。该算法在多标记数据集作分类处理之前,采取DEC算法对多标记数据集进行维度约简,从而降低算法复杂度、提高分类性能。实验结果表明,这种基于DEC算法的多标记学习是有效的。  相似文献   

11.
数据集的质量会极大地影响分类算法的精度,针对一类隐式互斥的数值型数据提出了一致性分类方法.借鉴连续函数的思想,提出了数值型连续数据的分类一致性定义;改进了SOM算法的计算过程,使其满足文中提出的分类一致性最优条件.通过改进的SOM方法得到一个新的聚类数据集,减少了原始数据集中容易出现的隐式分类不一致性问题,从而有效地提高了分类方法的效率和分类精度.通过在一个实际的数据集上的比较,表明提出的算法的预测精度明显优于其他算法.进而还从VC维的角度分析了提出算法的优点.  相似文献   

12.
为了提高图像分类的准确度,提出基于最小Hausdorff距离的多示例多标记K近邻图像分类方法。该方法通过改善图像包的生成方法,均匀分割并提取图像的颜色和纹理特征,使用最小Hausdorff距离作为包间的距离度量,对多示例多标记K近邻算法进行改进。实验结果表明,该方法提高了分类准确度,减少了运行时间。  相似文献   

13.
在介绍数据挖掘、分类算法有关概念的基础上,介绍了决策树的具体生成算法.为了减少数据量,改进决策树算法实现时的数据结构,详细描述了基于SPRINT(scalable paraUehzable induction of decision trees)分类算法的实现,给出了SPRINT算法的性能评估。  相似文献   

14.
基于改进FCM算法的SAR图像分类   总被引:1,自引:0,他引:1  
目的改进模糊C-均值FCM算法,并对SAR图像进行粗、细分类。方法对FCM算法从初始聚类中心、隶属度约束条件两个方面进行改进,并提出对SAR图像的粗、细分类。首先利用改进的FCM算法对图像进行聚类,然后在隶属度矩阵中设定阈值,对小于阈值的像素块进行进一步细分类。结果得到并验证了改进的FCM算法,该算法对图像进行分类的分类精度比传统的FCM算法要高。结论本算法既可以保持较高的精确度,又可保证较快的计算速度。  相似文献   

15.
多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。  相似文献   

16.
在一定的条件下,给出内分类算法复杂性的严格定义;通过一种新的内分类算法分析及其与古典的内分类算法的测试比较,说明这一定义的合理性。最后给出了这种新算法的改进框图。  相似文献   

17.
从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的Support Vector Machines(SVM)算法和K-nearest neighbor(KNN)算法两者结合成为一种应用于基因表达数据分类的算法,并针对基因表达数据分类数据集“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余.实验结果表明,新方法可有效提高分类准确率和特征选取的效率.  相似文献   

18.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

19.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

20.
分类挖掘技术在金融客户关系管理中的应用   总被引:7,自引:0,他引:7  
探讨数据挖掘技术在企业实际工作中的应用方式与应用领域,分析金融客户分类的必要性.针对具体的项目论述对金融客户进行分类的方法.改进了传统的决策树分类挖掘算法即ID3算法,提出了进行数据挖掘结果可视化展现的两层软件结构.该方法在银行客户关系管理系统中投入实际运行,获得了较好的用户反映,对企业的决策支持产生了积极的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号