共查询到20条相似文献,搜索用时 93 毫秒
1.
文本分类就是在给定的分类体系下,让计算机根据文本内容自动确定相关类别的过程。介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。对文本分类过程中关键技术进行研究。讨论目前文本分类研究面临的问题,并对文本方向进行展望。 相似文献
2.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选... 相似文献
3.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%. 相似文献
4.
在介绍本分类的背景及传统基于向量空间模型特征选择不足之处的同时.提出了不同特征选择方法相结合的本分类模型.该模型首先对本进行分析.把本表示成向量空间的形式.本在经过预处理后.按一定规则提取关键词.关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高. 相似文献
5.
基于特征贡献度的特征选择方法在文本分类中应用 总被引:1,自引:0,他引:1
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果. 相似文献
6.
7.
基于命名实体的Web新闻文本分类方法 总被引:1,自引:0,他引:1
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值. 相似文献
8.
文本分类技术是文本挖掘的核心,本文简单介绍了该研究热点的研究动态、定义并针对其系统结构给出了一个简要的概述,然后分析了文本分类处理过程中的关键技术,最后对依然存在的某些问题进行了展望。 相似文献
9.
基于VSM的中文文本分类系统的设计与实现 总被引:25,自引:0,他引:25
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。 相似文献
10.
基于词向量空间模型的中文文本分类方法 总被引:4,自引:0,他引:4
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。 相似文献
11.
研究了一种基于改进贝叶斯算法的短信分类方法。对中文文本短信,采用文档频度(DF)的特征项提取方法,借助自建短信语料库对改进的贝叶斯分类器进行了实验测试。实验结果表明:改进的分类器可以提高正常短信的通过率,并可以根据新的训练集训练出个性化的分类器,适应短信变化,满足用户的个性化需求,还结合黑白名单过滤机制实现对短信的过滤... 相似文献
12.
13.
提出一种基于向量空间模型(VSM)的音频分类算法.特征提取中,针对目前采用的参数主要为静态特征,提出了基于信息论的动态特征计算方法,并根据其物理意义设置关键帧提取中的初始值,解决聚类局部极值问题.通过引入音频聚类的类内标准差,对传统VSM未处理特征项间相关信息的缺点进行改进,提出新的相似性度量方法,并以此方法对不同类别的音频构造分类器.实验结果证明,此方法提高了分类精度,准确度可达85%以上. 相似文献
14.
为提高计算机对古典诗歌自动分类的准确性,提出一种基于特征项聚合的分类方法.首先从文本中提取特征项并用向量表示,向量的每一分量表示该特征项在不同类别中的比重;然后通过聚类算法把相似的特征项聚合为一组,从而形成特征项聚合的诗歌模型;最后利用分类器对诗歌进行分类.《全唐诗》语料库的实验结果表明,利用该模型及算法可明显提高诗歌分类的准确率. 相似文献
15.
To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorithm is that the crossover and mutation of operator are constructed according to its own characteristics of information retrieval. Immune operator is adopted to avoid degeneracy. Relevant documents retrieved am merged to a single document list according to rank formula. Experimental results show that the novel immune algorithm can lead to substantial improvements of relevant document retrieval effectiveness. 相似文献
16.
基于PBS的工程文档信息分类与集成方法 总被引:2,自引:0,他引:2
按项目时间、文档内容、文档文件类型等对工程文档信息进行分层 ,以PBS为标识系统 ,形成工程文档编码的目录集成结构模型 .该模型不仅可为业主方所使用 ,也可为项目的参与者如项目管理方、设计方、施工总包方所共享 ,提供及时、准确的项目实施信息为项目的决策者和管理者服务 相似文献
17.
提出一种基于向量空间模型的多层网页分类方法.该方法用主题词、修正主题词和主题概念从3个层次构建网页表示向量,从而在概念层次上更贴近网页的语义,且向量维数低于传统的特征向量.实验结果表明,该方法降低了分类时的计算量,提高了网页分类速度和分类精度. 相似文献
18.
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果. 相似文献
19.
针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。 相似文献
20.
基于改进分类模型的文本分类系统实现 总被引:1,自引:0,他引:1
吕佳 《重庆师范大学学报(自然科学版)》2009,26(2):79-83
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的. 相似文献