首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
文本分类与文本信息特征概念的提取是当前智能信息服务研究的重点,为自动获取新的特征概念,提出了一种基于特征概念的自动提取系统,该系统包括分词、综合文本词权处理、类别归属和特征概念提取等部分,能有效地从概念上提取文本类特征,提高文本自动分类的准确性.  相似文献   

2.
一种基于粗糙集的文本分类规则抽取方法   总被引:10,自引:0,他引:10  
随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。  相似文献   

3.
张鸿彦 《科学技术与工程》2013,13(10):2704-2709
特征具有高维、稀疏性。为提高了文本自动分类准确率,针对PCA提取特征需要对大规模文本进行批处理,影响文本的准确率等,提出一种基于增量主元分析方法(CCIPCA)和最二小乘向量机(LSSVM)相结合的文本自动分类算法(CCIPCA-LSSVM)。首先通过互信法选择文本特征,然后采用CCIPCA高维文本特征进行提取,降低特征维数,消除冗余特征,最后采用LSSVM对提取特征进行学习,并通过粒子群算法对分类器优化,建立最优文本自动分类模型。仿真结果表明,相对于其它文本分类算法,CCIPCA-LSSVM提高了文本分类准确率和召回率,解决了文本特征提取过程存在的难题。  相似文献   

4.
自动文本分类中类别特征提取是文本分类中的关键,传统特征提取算法存在特征提取不够准确,进而导致分类精度不高。为解决此问题,本文提出了一种有效的特征提取方法——基于滑动窗口的特征提取方法,用来构成文本分类的模型,该方法能扩大特征的提取范围。实验表明,改进后的分类模型可以有效地提高文本的分类精度。  相似文献   

5.
自动文本分类中类别特征提取是文本分类中的关键,传统特征提取算法存在特征提取不够准确,进而导致分类精度不高.为解决此问题,本文提出了一种有效的特征提取方法一基于滑动窗口的特征提取方法,用来构成文本分类的模型,该方法能扩大特征的提取范围.实验表明,改进后的分类模型可以有效地提高文本的分类精度。  相似文献   

6.
为提高领域本体概念及概念之间关系提取效率和准确率, 提出基于中文文本的领域本体学习模型。在提取候选概念的过程中, 采用修改后的关联规则频繁项计算方法对合
成词进行处理, 并结合位图存储分词处理后术语间的物理相邻关系, 再通过计算领域相关度和领域一致度对候选概念进行筛选, 最后利用关联规则可信度和层次聚类的方法分别提取概念间的非分类关系和分类关系。实验结果表明, 该模型对领域本体学习具有合理性, 提出的算法与基于互信息的本体学习相比较, 在概念和关系的提取
上具有较高的准确性。  相似文献   

7.
针对电影影评语句短小、特征矩阵稀疏问题,提出一种利用本体扩展特征矩阵的方法。首先通过传统与新型文本分类方法的比较和分析,发现适合中文短影评的分类方法,并通过试验证明决策树的短文本分类效果优于SVM、Bayes和KNN等文本分类方法,然后进一步利用决策树分类本体扩展后的特征向量。试验表明,基于本体扩展的中文短影评的分类效果比传统的分类效果提高3%,查准率达到90.1%。  相似文献   

8.
在分析标准文献结构和文本分类的基础上,提出基于文本分类的标准文献内容比对模型,实现标准文献内容的快速提取和自动分类,支持相关技术人员和企业轻松快捷地实现标准比对工作,为标准文献比对工作的可持续发展提供方法和策略。  相似文献   

9.
针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。  相似文献   

10.
介绍了本体和语义网,提出了基于本体的语义网在数字图书馆中的一个应用模型——自动文本分类器。  相似文献   

11.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

12.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

13.
针对社交网络用户人格预测问题, 提出一种结合信息增益与语义特征提炼用户文本信息, 并采用多标签分类算法进行综合预测的方法. 先基于信息增益提取文本词特征, 包括情感词、 词性和时态等, 进行特征选择与加权; 对于语义特征, 将文本内容映射为本体概念并计算语义相关度; 然后以基于词的特征和语义特征的共同
影响为依据, 运用多标签分类算法执行人格预测过程, 从不同角度处理文本信息, 并充分考虑了类标签间的相关性. 实验结果验证了该方法的有效性.  相似文献   

14.
毛平 《科技资讯》2009,(36):183-183
本文在构建军用飞机领域本体的基础上,尝试基于领域本体的文本信息语义检索研究。重点探讨了基于领域本体的文本信息标注以及查询扩展方法以及知识片段的提取思想,实现了基于语义的文本信息资源的检索功能。  相似文献   

15.
为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类.  相似文献   

16.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

17.
研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度.  相似文献   

18.
针对工程安全管理中普遍存在的知识缺口问题,提出一套基于本体技术实现领域知识建模和更新的方法。以公路工程领域为范例,从行业标准规范的文本数据中自动提取安全知识,构建领域知识图谱;通过知识模型与建筑信息模型(BIM)的结合,开发安全管理应用场景,展示本体引导的知识图谱对工程安全管理的辅助作用。领域本体在知识图谱中作为本体层结构,表示为一个包含7个层级、 390个有效节点的多维度层状结构;基于本体层的引导开发知识提取算法,从海量文本中提取网状知识结构,形成知识图谱的数据层。知识模型的更新采用由数据层到本体层的知识流动方式;提出基于类属关系、构成关系和实体核心词聚类的3类方法,实现本体层的更新。将知识模型关联实际项目的BIM,从安全管理的应用层面出发,验证了本体的引入在知识的组织和扩展中起到良好效果,展现了知识模型与BIM的结合呈现出的智能化应用前景。该研究为领域知识图谱的构建、更新、应用全过程提供了一个完整的范例,对于本体更新过程实现了方法创新,拓展了知识图谱的应用领域和技术思路,有助于提升工程安全管理的信息化水平。  相似文献   

19.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

20.
传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号