首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
根据清华汉语树库的标注方法, 利用规则从中提取复句关系词并标注其类别, 然后分别抽取带功能标记和不带功能标记的自动句法树的句法、词法、位置特征, 进行复句关系词的识别和分类。实验结果表明, 复句关系词判断准确率达95.7%, 复句关系词类别判断F1值为77.2%。  相似文献   

2.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

3.
分析了自动分类知识库中的文本兼类噪声,提出借助于频次统计特性来减少兼类噪声的新算法,在进行理论分析的基础上,讨论了具体的实现步骤,并通过对新闻语料的分类实验,检验了降噪效果。结果表明,该方法可以减少兼类概念在知识库中的冗余次数,能提高自动分类系统的性能指标。  相似文献   

4.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类。为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词;针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

5.
刘洋 《科技信息》2007,(3):54-54
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。  相似文献   

6.
自动文本分类中类别特征提取是文本分类中的关键,传统特征提取算法存在特征提取不够准确,进而导致分类精度不高。为解决此问题,本文提出了一种有效的特征提取方法——基于滑动窗口的特征提取方法,用来构成文本分类的模型,该方法能扩大特征的提取范围。实验表明,改进后的分类模型可以有效地提高文本的分类精度。  相似文献   

7.
自动文本分类中类别特征提取是文本分类中的关键,传统特征提取算法存在特征提取不够准确,进而导致分类精度不高.为解决此问题,本文提出了一种有效的特征提取方法一基于滑动窗口的特征提取方法,用来构成文本分类的模型,该方法能扩大特征的提取范围.实验表明,改进后的分类模型可以有效地提高文本的分类精度。  相似文献   

8.
利用已经分类得到的类别标记结果之间的相关性,提出一种迭代的改进ML—KNN算法(I-ML-KNN),以提高多标记文本的分类效果.实验表明,改进的ML-KNN算法具有可行性和有效性.  相似文献   

9.
同其他语言一样藏语词性的兼类现象普遍存在,这给词性标注工作带来了巨大困难,对兼类词的处理是藏语词性标注的关键所在。文章利用传统和现代藏语语法理论,在分析藏语真实文本的基础上,归纳了藏语兼类词的种类,提出了兼类词的标注原则。并根据词语搭配关系和词的组合结构构建了兼类词的识别规则库,利用该规则库可对兼类词的词性进行较准确的标注。  相似文献   

10.
为了消除传统机器学习中分类方法的限制,提出一种基于主题模型与迁移学习的文本分类方法。将文本集合成由共同主题和特定主题所联合起来的混合模型;然后,通过这两类主题相关性推断出不同领域之间主题的映射关系;最后,融合共同主题以及映射后的特定主题形成一个新的特征空间,并在此特征空间中完成文本的分类。实验结果表明,相较于其他分类方法,本方法在国外的20newsgroups数据以及自建的中国专利数据集上能更加高效准确地预测未标记文本的类别,为文本挖掘领域相关方向的研究提供新的视角。  相似文献   

11.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

12.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

13.
黄璐  谷军  李然  李向军 《科技信息》2013,(9):162-162,194
文本分类技术可以有效提高信息资源的可用性和利用率。提出一种基于改进的TF.IDF和支持向量机(SVM)结合进行多类别文本分类的方法。在文本的TF.IDF特征计算中,加入特征词权重,有效加强了重点词汇的特征标引作用。将提取出的文本特征向量送入组合SVM进行多类别文本分类。实验结果表明,本文提出的多类别文本分类方法具有较好的分类效果,为信息资源的充分利用了奠定良好基础。  相似文献   

14.
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,其目的是将跨境民族文化文本进行归类处理。针对跨境民族文化数据分类面临类别交叉的问题,提出融合领域知识图谱的跨境民族文本分类方法,利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。此外,通过掩码自注意力机制分别对文本的词级、句子级进行特征提取以此得到文本中句子的局部特征和全局特征。实验表明,本文方法在跨境民族文化数据集中相比基线模型的F1值提升了11.9%。  相似文献   

15.
基于类别层次结构的多层文本分类样本扩展策略   总被引:1,自引:0,他引:1  
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题, 提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略, 即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系, 从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上, 基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139, 在10个参赛系统中位列第二。  相似文献   

16.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

17.
张浩  汪楠 《科技信息》2007,(23):95-96
文本分类就是在给定的分类体系下,让计算机根据文本内容自动确定相关类别的过程。介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。对文本分类过程中关键技术进行研究。讨论目前文本分类研究面临的问题,并对文本方向进行展望。  相似文献   

18.
中文新闻信息分类的类别数量大,难以一次性获取均衡的分类性能。针对这一问题,提出了一种基于差错网络的文本分类反馈校正方法。首先对文本进行一次分类,^根据分类结果生成有向差错网络,得到标注类别与真实类别的候选映射规则。然后计算差错网络的类别关联度参数,再对候选映射规则进行筛选,得到标注类别与真实类别的映射规则。最后根据映射规则进行二次分类,实现分类反馈校正。实验表明,差错网络清晰地反映了类 别的相关度。通过映射关系进行反馈校正,比普通文本分类的F值提高了6.2%。在NLP&CC2014评测中,基于差错网络的方法平均正确率达到73% ,证明了该方法的有效性。  相似文献   

19.
大数据时代,各行各业均产生海量信息,面临大量的信息,如何准确而高效地获取数据中的潜在规律和蕴含价值成为企业信息化的重点。为提升煤矿企业对安全监测数据的理解和监控能力,改善隐患排查治理工作水平,本文提出基于类别关键词权重的短文本分类模型,有效缓解了文本分类中特征稀疏的问题。该方法首先基于朴素贝叶斯算法,对不符合规范的非法数据进行筛选,然后构建基于关键词权重的短文本分类模型,利用中文分词技术、卡方检验方法构建关键词库,最后建立得分模型实现对隐患数据的分类。结果表明,该模型能较为准确地对矿业安全隐患数据进行有效的评级分类,进一步地改善隐患排查和治理的针对性和有效性。  相似文献   

20.
针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BERT-BiLSTM模型实现服务文本分类;最后,针对数据集的类别数量不均衡和分类难易不均衡问题,在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能,在互联网获取的真实数据集上进行了大量对比试验,实验结果表明:WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比,WBBI模型具有更快的收敛速度和更好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号