首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 648 毫秒
1.
庞雅丽 《科技信息》2008,(15):19-19
本文给出了一种基于目标迁移学习的文本分类方法,用于解决在分类目标发生变化时的训练集重复标注和分类模型重复训练的问题。该方法通过引入一个中间类别体系层作为桥接,首先在中间层类别和目标类别之间建立映射关系,分类时将文本分到中间层类别上,然后根据中间层和目标层的映射来确定目标类别。  相似文献   

2.
以学科教材术语语料库建设为目标,实现了一种基于底表的多层扫描术语自动标注算法.该算法首先采用预测性规则模板扫描文本中未登录术语,并进行标注;其次采用最大匹配方法识别出每个可能的候选术语,把每个候选术语看作术语的定位点,扫描其上下文语境,分别调用单位术语规则模板、例外规则、部件规则、部件例外规则、例外校正规则等对扫描结果进行判断,确定候选术语的身份,并进行标注.该方法以规则的预测和限定功能为辅,充分利用了底表术语信息,取得了较高的标注准确率和召回率,开放测试F-指数达到了84%左右.  相似文献   

3.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

4.
采用类别相似度聚合的关联文本分类方法   总被引:1,自引:0,他引:1  
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.  相似文献   

5.
本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法.该方法应用于宾州大学中文树库,取得不错的组块识别效果.在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正....  相似文献   

6.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

7.
为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进行分类,并验证新模型在多个文本分类数据集上的有效性。实验结果表明,与需要大量标注文档的监督学习方法相比,所采用的方法未标注文本的分类精度提高了1%~3%,在多个文本分类数据集上验证了新模型性能先进,内存占用更少。研究结果可为解决小样本文本分类问题提供参考。  相似文献   

8.
现有的电商垃圾评价检测方法大多基于对评价文本信息进行分析,难以有效检测带有图片的多模态垃圾评价,为充分利用评价的图片和文本内容,提出了基于Transformer双向编码表示(bidirectional encoder representa-tions from transformer,BERT)和宽残差网络(wide residual networks,WRN)的图文融合决策检测方法.该方法利用评价文本对经过预训练的BERT模型进行微调训练,经过表示学习分类得到文本评价类别向量,使用宽残差网络对评价图片进行特征提取和分类并输出图片类别向量,将得到的对应评价图文类别向量共同输入启发式决策融合分类器,对多模态评价整体进行预测分类.使用真实电商评价数据集进行实验表明,相比面向评价文本的分类方法,图文融合决策检测方法对多模态评价分类的精准率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%,结果证实该方法能够对多模态垃圾评价进行有效检测.  相似文献   

9.
基于汉字字频向量的中文文本自动分类系统   总被引:1,自引:0,他引:1  
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类  相似文献   

10.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

11.
高分辨率遥感影像在实际应用中得到广泛使用。高分影像语义分割方法的研究具有重要实际应用价值。近来基于深度卷积网络的遥感影像标注方法表现出了比传统方法更为优越的性能;然而由于其基于固定感受野大小的上下文信息获取方法没有显式利用像素间约束关系,导致同一地物内部语义标注结果不一致。基于同一区域内部像素属于相同类别概率较大的假定,试图引入图像区域内部语义标注一致性约束,以改善现有深度卷积神经网络描述上下文信息的能力。在现有全卷积网络模型基础上,利用卷积神经网络最后一层特征,引入一个表示区域内部像素特征一致性的损失函数;将该损失函数与softmax损失函数进行联合训练,得到网络模型参数。在ISPRS(国际摄影测量与遥感学会)的Vaihingen 2D语义标注数据集上,对提出的方法进行了实验验证,实验结果表明所提方法在大多数类别上取得了较现有卷积神经网络模型更优的分类结果,总体准确率达85.18%。提出的引入区域内部像素标记一致性的全卷积网络模型,可以有效捕捉区域内部像素特征一致性的上下文信息,能有效纠正全卷积网络模型在区域内部像素分类中的冲突,获得区域一致较好的分类结果,从而改善图像的语义标注效果。  相似文献   

12.
基于粗糙集-神经网络故障诊断技术的研究   总被引:2,自引:0,他引:2  
提出了一种基于粗糙集-神经网络故障诊断新方法,该方法利用粗糙集理论对数据样本进行数据浓缩,提取初步的映射规则.该规则通过神经网络进行粗映射,利用神经网络的分类逼近能力,建立输入状态空间到输出空间的精确映射,大大提高了神经网络的收敛速度和逼近精度.通过对一个电力电子电路进行实验,实验结果表明,该方法可以有效地减少输入层神经元个数,提高神经网络模型的学习效率和诊断的准确性,在故障诊断中有良好的应用前景.  相似文献   

13.
由于高分三号卫星(gaofen-3 satellite, GF-3)数据问世时间较短、参数不足,现有软件未针对GF-3数据添加传感器支持,导致难以利用现有各类软件生成其正射影像。提出一种基于间接校正的GF-3正射影像生成方法。模拟待校正区域卫星成像过程,采用RD模型利用与该区域对应的DEM数据构建模拟GF-3影像;在模拟与真实GF-3影像中分别提取特征点,并配准提取的特征点对,进而建立两影像间的映射关系;利用模拟GF-3影像分别与DEM数据和真实GF-3影像之间的映射关系,间接完成正射校正,生成正射影像。针对GF-3多成像模式的特点,选取3种具有代表性成像模式的影像进行正射影像生成试验,取得了较好的实验结果。将真实GF-3影像与模拟GF-3影像的对应像元坐标进行比较表明,x和y方向误差均小于一个像元,精度较高。提出算法充分考虑到了GF-3系统的成像特点,在不同的地形细节均取得了较好的结果。定性和定量的分析实验结果验证了提出方法的可行性及有效性。  相似文献   

14.
为了减小行人导航过程中的误差,提出基于支持向量机分类决策的零速反馈修正方法。根据行人足部运动特点,构建行人足部运动模型,利用支持向量机决策方法对足部运动样本数据进行训练和提取数据特征,建立超平面方程。通过超平面函数对行人足部运动数据进行分类和决策,辨别区分静止段和运动段。在零速静止段,对惯性导航解算的速度、角速度和方向进行修正,利用扩展卡尔曼滤波递推方法进行方向、速度和位置误差跟踪。进行了行人按既定路径的行走跟踪实验,结果表明,设计的行人导航系统能够使行人行走轨迹与设定路径完全吻合,多次测试数据最大误差小于2.5%,平均误差为1.94%。因此,基于支持向量机分类决策的行人导航零速修正方法能够准确地对行人轨迹进行跟踪和定位。  相似文献   

15.
导频污染是影响大规模MIMO系统性能提升的因素之一.蜂窝网络中导频功率控制方法适用于导频长度较长的情形,但是导频长度过长不仅影响信道信息的估计,而且影响信息传输速率.为了扩大导频功率控制方法的适用范围,提出一种基于小区分类的导频功率控制的改进方法.将小区分为3类,所有小区均采用同1套导频,利用1维网络中的导频功率控制方法对蜂窝网络中的导频功率进行控制.仿真结果表明,基于小区分类的导频功率控制改进方法适用于导频长度较短的情形,可使蜂窝网络中导频长度的适用范围变大,同时降低了用户的上行功率开销.  相似文献   

16.
为更好地实现快速、有效的产品配置,通过建立需求评价模型、关系映射和可拓关联规则来实现配置过程,提出了基于需求评价模型的产品族可拓配置方法。通过确定客户的需求指标建立基于需求指标的评价模型,并根据评价模型中各个指标与产品族实例的特征指标建立映射关系,由关联规则确定评价模型与实例之间的相似度,提取最具相似度的产品族实例。根据具体相似情况展开实例推理,将实例修改成为满足配置要求的产品。该方法通过减速机配置得到验证。  相似文献   

17.
针对目前语义搜索过程中存在效率低、 用户推荐误差大等问题, 提出一种基于抽取规则和本体映射的语义搜索算法. 首先根据用户语义搜索要求抽取语义中的元素和属性, 解决数据利用率低的缺陷; 然后建立语义模型, 构建本体之间的元素及属性之间的映射, 消除用户需求和计算机之间的语义偏差; 最后将语义搜索算法应用于用户个性化推荐系统. 实验结果表明, 该语义搜索算法有效提高了搜索效率, 降低了用户个性化推荐误差.  相似文献   

18.
指出了时序关联规则在支持度度量上的不足,存在处理高密度海量数据时往往要耗费大量的时间处理规模巨大的频繁候选集,同时需要多次重复扫描数据库,执行效率低等问题,提出了重新定义支持度度量方法的时序关联规则.针对时序关联规则在解决项分类时涉及到的分层不确定、不准确情形,引入了基于隶属度的模糊层次分类结构,定义了项间距离、项集间距离,最终得到一种新的关联规则间距离的度量方法.实现了模糊层次分类,将时序关联规则结果进行聚类分析,得到规则和规则之间相似性,实验验证了该方法的有效性.  相似文献   

19.
为解决目标跟踪过程中快速运动模糊、背景相似干扰、目标状态变化等问题,基于孪生网络跟踪算法,提出三联区域候选神经网络(TripleRPN)算法与跟踪区域自适应策略(TAA)相融合的目标跟踪方法(TAA+TripleRPN).三联区域候选神经网络根据当前跟踪结果实时更新网络匹配模板,提高了跟踪器对目标状态变化的敏感性.通过区域自适应策略,根据区域候选回归网络分类分支的得分在网络的两组输出间择优选择,提高算法长时跟踪的鲁棒性.针对背景相似干扰和目标状态变化的问题时,TAA+TripleRPN跟踪器能达到更好的跟踪性能.在OTB2015数据集上,算法的AUC达到66.31%,CLE达到88.28%.在实际场景中实现验证与应用,跟踪效果良好.   相似文献   

20.
In recent years, multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas, especially for automatic image annotation, whose purpose is to provide an efficient and effective searching environment for users to query their images more easily.In this paper, a semi-supervised learning based probabilistic latent semantic analysis ( PL-SA) model for automatic image annotation is presenred.Since it' s often hard to obtain or create la-beled images in large quantities while unlabeled ones are easier to collect, a transductive support vector machine ( TSVM) is exploited to enhance the quality of the training image data.Then, differ-ent image features with different magnitudes will result in different performance for automatic image annotation.To this end, a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible.Finally, a PLSA model with asymmetric mo-dalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores.Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PL-SA for the task of automatic image annotation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号