首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

2.
多分类问题的RBF 二叉神经树网络方法   总被引:1,自引:0,他引:1       下载免费PDF全文
神经网络是一种普遍使用的分类方法。当类别数目较大时 ,神经网络结构复杂、训练时间激增、分类性能下降。基于两类问题的树网络多分类方法将两分类方法和判决树相结合 ,利用两分类方法来减少神经网络的训练时间 ,利用树型分类器来提高识别率。提出了一种多分类问题的二叉神经树网络结构和训练算法。利用两分类网络的训练结果对类别进行排序处理 ,并应用排序后的类别序号构成树型分类器 ,使可分性最差的类别的识别率提高最大 ,从而提高了整体分类性能。使用径向基函数 ( RBF)网络作为节点网络 ,使节点网络结构适应两类间的可分性 ,从而最终优化了神经树网络的结构。仿真实验表明该方法的分类性能优于现有方法  相似文献   

3.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

4.
文中提出了一种结合非负矩阵分解和Normal_Matrix谱分解技术的肿瘤基因分类方法.其分类过程首先是利用fdr_test记分准则粗略除去噪声基因以实现基因表达谱数据的初步降维,进而运用非负矩阵分解萃取基因间的综合属性,通过综合属性构造样本间的Normal_Matrix并对其进行奇异值分解获取表征样本类别属性的谱分量实现肿瘤类型的分类识别.采用三组具有代表性的肿瘤基因表达谱数据进行实验,通过与其他方法的对比,其结果证明了文中方法的可行性和有效性.  相似文献   

5.
有1份仅含A类与B类的训练集,与1份包含不止这2个类别的测试集,如何对测试集中的样本进行分类?针对这个问题,本文提出3种基于SVM方法和最小包围球方法(minimum enclosing ball, MEB)的新类别分类方法。这3种新类别分类方法不仅解决了SVM不能正确判别新类别的缺点,而且在实际数据分析中获得了较好的效果。本文使用乳腺癌分子分型数据进行分析,最终样本分类准确率可达90%以上,新类别样本分类正确率可达99%以上。  相似文献   

6.
中文新闻信息分类的类别数量大,难以一次性获取均衡的分类性能。针对这一问题,提出了一种基于差错网络的文本分类反馈校正方法。首先对文本进行一次分类,^根据分类结果生成有向差错网络,得到标注类别与真实类别的候选映射规则。然后计算差错网络的类别关联度参数,再对候选映射规则进行筛选,得到标注类别与真实类别的映射规则。最后根据映射规则进行二次分类,实现分类反馈校正。实验表明,差错网络清晰地反映了类 别的相关度。通过映射关系进行反馈校正,比普通文本分类的F值提高了6.2%。在NLP&CC2014评测中,基于差错网络的方法平均正确率达到73% ,证明了该方法的有效性。  相似文献   

7.
提出了超长方体与KNN相结合的分类算法.在训练阶段,该算法为训练集中的每一个类别构造多个超长方体,区域分离每一类训练样本.在测试阶段,该算法首先检查测试样本是否被某一个超长方体包围,如是则其类别被识别出,否则用KNN方法确定其类别.实验采用四个真实数据集进行测试.实验结果表明基于超长方体与KNN的分类算法在四个数据集全部优于两个基于多球覆盖的分类方法,是一种有效的分类方法.  相似文献   

8.
遥感影像监督分类与非监督分类的比较   总被引:23,自引:0,他引:23  
遥感影像的分类方法按照是否有先验类别可以分为监督分类和非监督分类,这两种分类法有着本质的区别但也存在一定的联系.从分类原理、分类过程、分类方法等不同角度分析了这两种方法的区别与联系,并展望了遥感影像分类的发展趋势与发展前景.  相似文献   

9.
在解决故障检测等分类问题时,若不同类别样本数目相差很大,C-SVM训练的分类错误总偏向于样本数较少的类别,因而影响了分类的精确性.为提高精确性,提出一种优化算法,在训练过程中针对不同类样本,采用不同的权值来优化训练过程,按正负类样本在总样本中所占的比例,加大样本数较少的类别权值,降低样本数较大的类别权值来实现两类样本间的均衡.实验结果表明,该方法对两类样本数目相差很大的问题有效.  相似文献   

10.
黄璐  谷军  李然  李向军 《科技信息》2013,(9):162-162,194
文本分类技术可以有效提高信息资源的可用性和利用率。提出一种基于改进的TF.IDF和支持向量机(SVM)结合进行多类别文本分类的方法。在文本的TF.IDF特征计算中,加入特征词权重,有效加强了重点词汇的特征标引作用。将提取出的文本特征向量送入组合SVM进行多类别文本分类。实验结果表明,本文提出的多类别文本分类方法具有较好的分类效果,为信息资源的充分利用了奠定良好基础。  相似文献   

11.
基因芯片技术在肿瘤分型分类的研究中得到了广泛的应用.为了处理肿瘤基因表达谱数据,建立肿瘤分类预测模型,文中采用基因表达差异显著性分析方法,支持向量机,遗传算法相结合的多步骤降维分类方法.采用该方法处理大肠癌和白血病数据集,筛选到基因数量较少并且分类准确度较高的特征基因子集.实验结果表明,文中的方法可以快速有效地筛选肿瘤特征基因,获得更好的分类效果.  相似文献   

12.
 针对基因表达数据中的高维小样本问题,提出了一种两阶段的识别框架:“偏最小二乘法(PLS)+极大间距准则(MMC)”。该方法首先使用PLS算法提取出带有分类信息的特征,然后使用MMC准则对样本进行分类。在六个公共的基因数据库上与一些常见的基因分类方法相比较,结果显示了该方法对基于基因表达数据的肿瘤分类有效且稳定。  相似文献   

13.
基因表达谱数据一般来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.采用加权极限学习机来对不平衡基因表达谱数据进行分类,为了减少因为不平衡数据引起的分类误差,一个临时的权重被分配给每一个样本以增强少样本类的影响,同时减少多样本类的影响,进而提高肿瘤分类的准确率.实验结果表明,所提方法能够提高少样本类的识别率,从而提高分类器的总体性能.  相似文献   

14.
基于非参数方法的肿瘤基因表达数据挖掘   总被引:3,自引:0,他引:3  
该文提出了一种基于非参数统计的模式识别方法,此方法并不对微阵列数据作总体分布假设,从而降低了噪声对预测结果的影响.该方法可适用于两总体及多总体的模式识别问题.通过对两个真实的肿瘤基因表达数据的分析,验证了方法的识别效果.  相似文献   

15.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析.  相似文献   

16.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

17.
随着数据存储规模的海量增长,降低存储系统的总拥有成本,提高数据访问效率是海量数据分级存储系统的关键.在分析了两种典型的数据分级算法后,结合两种算法的优点对算法进行了改良,提出了基于数据访问频率和数据设备依赖度的自动分级算法,实验结果验证了算法的有效性和数据分级算法具有较高的准确率.  相似文献   

18.
In previous gene expression data analyses, supervised learning has mainly focused on the classification of attribute data, such as the different experimental conditions, different known classes of the same tumor and sex, However, supervised learning classification is not suitable for interval-scaled attributes such as age and survival outcome of cancer patients, For this problem, this paper proposed a new method by combining two well-known methods: principal component analysis (PCA) and Fisher analysis (FA). The method, PCA-FA, realizes supervised learning with two types of attributes (nominal attributes and intervalscaled attributes). The fuzzy FA was introduced to model the interval-scaled attributes. In this paper, an approximate linear relationship between gene expression data of lung adenocarcinoma patients and survival outcome is successfully revealed by PCA-TA.  相似文献   

19.
数据仓库在决策支持系统(DSS)中起着核心作用,而要创建一个好的数据仓库,构造合适的数据粒度模型是要解决的一个重要问题.通过对数据粒度划分方法的分析,结合实例给出了一个划分粒度级别的新思路,提出了解决不同级别间数据查询效率的基本方法.  相似文献   

20.
提出一种基于匿名数据分类法的KCNN-SVM分类法.把匿名数据建模成不确定数据,实现用匿名数据建立分类模型.同时发布匿名数据的QI属性统计信息,更好地操纵匿名数据.KCNN-SVM分类法改进了SVM分类对于混淆点的泛化能力.结果表明,在实现了匿名数据分类的同时,分类精度也得到了提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号