期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

田丰桂小林杨攀王刚郭岳龙《西安交通大学学报》2012,46(12):6-11,122

针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内. 相似文献

2.

直推式可信最邻近分类器在文本分类中的应用研究

杜秋超赵宏《北京交通大学学报(自然科学版)》2008,32(5)

直推式可信最邻近分类器是基于算法随机性理论提出的一种新的分类算法,它不仅能够判断样本的类别,还能够为每一个判断提供可信度,这对于分类机器的应用是很有意义的.但这种分类器需要将每一个待分类样本逐一在所有的类别中进行计算,使得计算量大大的增加.这一点对于多类别和大数据量的文本分类尤为明显.本文在深入研究该算法的基础上,对其利用聚类分析进行了改进,并将这一算法及其改进后的算法用在文本分类中.实验表明改进后的算法和原算法相比准确率相近,但在计算速度上提高了近40%. 相似文献

3.

上下文广告中的一种文本分类方法

赵耀陈志敏《扬州大学学报(自然科学版)》2011,(4)

针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能. 相似文献

4.

基于类别相关性和交叉熵的特征选择方法 总被引：1，自引：0，他引：1

朱颢东钟勇《郑州大学学报(理学版)》2010,42(2)

文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好. 相似文献

5.

一种改进的朴素贝叶斯分类器在文本分类中的应用研究 总被引：1，自引：0，他引：1

张璇左敏《北京工商大学学报(自然科学版)》2009,27(4):52-55

文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度. 相似文献

6.

一种基于粗糙集的文本分类规则抽取方法 总被引：10，自引：0，他引：10

孟庆春王汉萍魏天滨葛艳高云《青岛海洋大学学报(自然科学版)》2003,33(6):943-949

随着文本数据库的日益增大，寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取，提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后，作为规则的条件属性，文本所属的类别用作决策属性，构造决策表，然后通过决策表的知识约简算法提取出文本的分类规则。实验结果表明，该方法提取规则的分类正确率较高，分类速度较快。相似文献

7.

基于粗糙集与KNN的Web文本分类的研究

桂海霞孟祥瑞《安徽理工大学学报(自然科学版)》2008,28(4)

为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。相似文献

8.

改进Stacking算法在妊娠期糖尿病预测中的应用

冯鑫磊俞凯袁贞明《杭州师范大学学报(自然科学版)》2023,(2):126-134

本研究提出基于妊娠早期体检、基因信息,结合集成学习的妊娠期糖尿病预测分类方法.设计了基于Stacking框架的改进模型ACS-Stacking.ACS-Stacking模型将基分类器输出的类别概率值作为基层输出结果,元层使用GBDT模型学习组合基层输出的类别概率结果,拓展了算法的层次结构.在基分类器层与元分类器层之间加入基分类器筛选层,通过CFS算法估计不同分类器集合中个体分类器准确性与多样性的权衡值,筛选出最佳基分类器集合,实现基分类器的自适应选择.研究结果表明,该模型F1值较单一模型提高约9%,较Stacking模型提高约7%,具有较好的预测准确性和稳定性. 相似文献

9.

改进的TAN构造算法及其文本分类

石洪波黄厚宽景丽萍《太原师范学院学报(自然科学版)》2002,1(1):20-26

朴素贝叶斯分类器是当前流行的一种文本分类算法，但是它的属性独立性假设使其无法表达文本词语之间的依赖关系，TAN(Tree Augmented NaIeve Bayes)在许多情况下优于朴素贝叶斯分类器。然而，由于学习TAN所需的空间是数据属性个数的二次项级，限制了TAN对高维数据(如：文本数据)的分类，本文介绍了TAN模型及其一般的构造算法，提出一种新的TAN构造算法ITAN，该算法的空间复杂度是数据属性个数的线性级，最后将该算法用于文本分类，实验比较了朴素贝叶斯分类器和TAN分类器，实验结果表明：该方法具有较好的分类性能。相似文献

10.

基于贝叶斯粗糙集的文本特征选择方法 总被引：3，自引：1，他引：2

朱颢东钟勇《河南师范大学学报(自然科学版)》2009,37(4)

特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的. 相似文献

11.

Boosting算法在文本自动分类中的应用 总被引：7，自引：0，他引：7

下载免费PDF全文

肖江张亚非《解放军理工大学学报(自然科学版)》2003,4(2):25-28

随着网络信息的迅猛发展，如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向，它是指在给定的分类体系下，根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的，并且优于目前的大多数分类算法。相似文献

12.

基于汉字字频向量的中文文本自动分类系统 总被引：1，自引：0，他引：1

曹素丽曾伏虎曹焕光《山西大学学报(自然科学版)》1999,22(2):144-149

提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计（ＬｉｎｅａｒＬｅａｓｔＳｑｕａｒｅＦｉｌ，ＬＬＳＦ）技术建立文本分类器模型，通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习，实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数，并用该函数对测试文本进行分类相似文献

13.

基于两步策略的英文文本分类

陈建林樊兴华王国胤《广西师范大学学报(自然科学版)》2007,25(4):200-203

提出了基于两步策略的3种多类多标签英文文本分类方法:①以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法;②以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法;③以ID 3、C 4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法②进行二次分类的混合两步方法。实验表明,3种方法中方法③具有最好的性能。相似文献

14.

Support vector machine ensemble using rough sets theory

胡中辉 Cai Yunze He Xing Xu Xiaoming 《高技术通讯(英文版)》2006,12(1):58-62

A support vector machine （SVM） ensemble classifier is proposed. Performance of SVM trained in an input space eonsisting of all the information from many sources is not always good. The strategy that the original input space is partitioned into several input subspaces usually works for improving the performance. Different from conventional partition methods, the partition method used in this paper, rough sets theory based attribute reduction, allows the input subspaces partially overlapped. These input subspaces can offer complementary information about hidden data patterns. In every subspace, an SVM sub-classifier is learned. With the information fusion techniques, those SVM sub-classifiers with better performance are selected and combined to construct an SVM ensemble. The proposed method is applied to decision-making of medical diagnosis. Comparison of performance between our method and several other popular ensemble methods is done. Experimental results demonstrate that our proposed approach can make full use of the information contained in data and improve the decision-making performance. 相似文献

15.

基于SVM的不同特征空间多分类方法研究

周绮凤洪文财邵桂芳《厦门大学学报(自然科学版)》2010,49(1)

目前,在基于SVM的分解多分类方法中,各个子分类器都采用相同的核参数进行整体优化.如果采用不同的核函数参数分别优化各个子分类器,相当于在不同的特征空间进行分类,此时,能否直接采用求输出最大值(MaxWin)等判别策略,需要研究各分类器的输出是否可比.利用相对间隔对此问题进行深入的研究,说明在基于SVM的"一对多"等多分类方法中,采用不同的核参数分别优化各个子分类器,其决策函数的输出结果仍是可比的,且具有更好的泛化能力. 相似文献

16.

一种基于粗糙集的改进KNN文本分类算法

苟和平《科学技术与工程》2012,12(20):4926-4929

K最近邻算法（KNN）被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。相似文献

17.

跨文化传播视域下的公示语翻译——以黔西南州公示语的翻译为例

周华北徐建国彭雁萍乔靖常滔《黔西南民族师范高等专科学校学报》2013,(4):54-59

公示语文本一般分为两类：即非文学性公示语文本和文学性公示语文本。非文学性公示语文本的翻译须采用交际翻译为主、语义翻译为辅的策略；而文学性公示语文本的翻译，宜采用以语义翻译为主、交际翻译为辅的翻译策略。相似文献

18.

基于文本频谱的中文文本聚类方法

周扬屈武斌卢一鸣 张成岗杨毅《四川大学学报(自然科学版)》2012,49(6):1386-1394

本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性. 相似文献

19.

基于模糊聚类的文本分类研究

Lizhihao Rao Juan 《科技信息》2007,(35)

文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈。本文用模糊聚类分析的方法对文本进行分类,较好地解决了信息的实时分类问题,在实践中收到了良好的效果。相似文献

20.

基于属性坐标的文本信息检索模型

李广原冯嘉礼《广西科学院学报》2005,21(4):225-227,231

文本和用户查询用属性坐标表示,以交点与查询重心点的距离确定为文本与查询间的相似度进行计算,利用相关性反馈技术调整检索策略,得到一个基于属性坐标的文本信息检索模型.实验表明,该模型的检索方法可行,检索效果较好. 相似文献