首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于机器学习的文本分类方法综述   总被引:1,自引:0,他引:1  
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。  相似文献   

2.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

3.
基于文本数据挖掘的硕士论文分类技术   总被引:1,自引:0,他引:1  
针对硕士论文的摘要和关键词等数据进行数据挖掘,实现硕士论文自动分类。为此收集了2 000余个相关数据,在对所研究的数据对象特点进行分析的基础上,确定了分类算法,详细分析了支持向量机分类方法;对收集的研究数据进行了仿真实验,并与其他常用分类器进行比较。实验表明,基于支持向量机的分类方法比其他常用分类器具有较高的准确率。对实验结果中得到的知识进行了分析,得出一系列可供科学研究者和管理者参考的结论。  相似文献   

4.
通过采用Cross-Validation实验模型对多种XML分类算法进行对比,设计了实验平台,给出了各种分类算法的适用场合.本文的分析和数据表明如果有效地将XML中的结构信息以及文本信息结合起来,设计出更加适合XML文本本身的相似度量模型将是未来XML分类研究中的重要研究方向.  相似文献   

5.
文本的自动分类   总被引:4,自引:3,他引:1  
主要介绍了文本分类的任务,给出了文本分类所用到的机器学习方法,并介绍了降维和几种文本自动分类器的算法,最后引入了评价分类器性能的两个参数。  相似文献   

6.
刘洋 《科技信息》2007,(3):54-54
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。  相似文献   

7.
Boosting算法在文本自动分类中的应用   总被引:7,自引:0,他引:7       下载免费PDF全文
随着网络信息的迅猛发展,如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的,并且优于目前的大多数分类算法。  相似文献   

8.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支.本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例, 最后对该领域研究中存在的问题和方向进行了分析.  相似文献   

9.
网页分类技术   总被引:17,自引:0,他引:17  
网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.  相似文献   

10.
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法;最后,指出了当前文本分类过程中存在的问题,并对今后的发展进行了展望.  相似文献   

11.
12.
为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该算法有更好的抗干扰能力和更好的分类效果。  相似文献   

13.
针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考.  相似文献   

14.
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键...  相似文献   

15.
计算文本相似度阈值的方法   总被引:8,自引:0,他引:8  
基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。  相似文献   

16.
为了提高党政机关公文办理的自动化、科学化程度,尝试将业已成熟的汉语多类文本分类技术应用于机关公文办理系统中,并加入专家评估和反馈模块,使该系统具备"渐进式学习"的能力,将公文办理的经验积累在数据库中,不断提高输出结果的准确度.经过实验证实了文本分类技术在党政机关公文办理中的应用价值.  相似文献   

17.
针对新冠疫情新闻繁杂及信息类别不明等问题,采取新冠疫情新闻语料作为数据集,分别利用TF-IDF与Word2vec提取特征值,与支持向量机、朴素贝叶斯等基于机器学习的模型结合对文本进行分类,并与TextCNN及BiLSTM 2种深度学习模型的分类实验结果进行对比分析。实验结果表明:同等条件下,基于新冠疫情主题新闻数据集,SVM+TF-IDF模型在几种分类器中效果最好,精确度达到84%,F1值达到83%。  相似文献   

18.
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

19.
基于领域知识的文本分类   总被引:3,自引:0,他引:3  
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号