首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 131 毫秒
1.
提出联合学习方法,利用少量人工标注样本和大量自动标注样本,通过辅助任务的辅助LSTM层获得主任务的辅助表示,并将此辅助表示加入到主任务中进行联合学习.实验结果表明,同时利用人工标注样本和自动标注样本进行联合学习的方法在情绪分类任务上有不错的性能.  相似文献   

2.
基于有监督机器学习算法的蛋白质相互作用关系抽取方法仍然面临一个问题:标注数据集有限,导致算法无法得到充分学习。该文首先构造了一个丰富的特征空间,包括句法、词汇、词性等特征;然后,该文对不同数据集数据分布的不一致性进行了分析,在此基础上提出了一种基于自训练的数据添加算法,通过不断从未标注数据集中选择置信度高的样本加入到已标注数据集中,扩大数据集规模,提高算法效率。实验结果表明:在5个常用的蛋白质相互作用关系数据集上,该方法均有助于提高抽取性能。  相似文献   

3.
针对当前SAR图像半监督协同训练分类算法受相干斑噪声干扰等问题,本文提出了基于选择策略的SAR图像半监督分类方法.该方法首先以超像素为基本单元,在获取伪样本过程中,利用典型相关性分析作为SAR图像高置信度样本补充判别器,而对于低置信度样本,提出基于超像素和主动学习的样本扩充方法,然后基于扩充后的样本实现SAR图像的半监督分类;最后通过理论分析和实验验证了该方法在标注样本较少的情况下,取得了较好的效果和精度,降低了相干斑噪声对分类效果的影响.  相似文献   

4.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

5.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

6.
面向专利的功能信息自动标注方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对专利文本功能信息手工标注效率低、耗时长、表达内容不完整等问题,提出了一种同时标注专利设计目标与专利实现原理的自动标注方法.通过对发明问题解决理论(TRIZ)中科学效应知识的表达方式分析,运用自然语言处理方法,对专利发明中所希望达到的设计目标、技术实现方法及功能原理进行自动抽取和标注.  相似文献   

7.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

8.
为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案.该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则.针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则.同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价.实验结果表明: 现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%, 显示了这套规则学习和评价方法的有效性.  相似文献   

9.
提出一种基于多种文本类型的半监督性别分类方法,即根据微博平台中用户所产生的不同类型的文本(如:原创微博、转发微博等)对用户的进行性别分类。文中的方法是一种基于协同训练(Co-training)的半监督学习方法,旨在减少分类器对大量标注样本的依赖。首先将不同类型的文本分为不同的独立视图;其次,在每个视图中利用LSTM分类器挑选置信度最高的未标注样本;最后,将挑选出来的未标注样本加入训练模型迭代训练。实验结果表明我们的方法能够有效利用非标注样本信息,并明显优于其他现有的半监督性别分类方法。  相似文献   

10.
【目的】自训练方法易选出低置信度的无标记样本去训练分类器,在训练中也易误标记无标记样本导致错误累积,针对这些问题提出结合相似度选择高置信度样本的朴素贝叶斯自训练方法。【方法】选择朴素贝叶斯作为基分类器,在迭代中通过相似度计算方法计算样本相似度,选择同时满足相似度阈值和类别号判别一致的无标记样本加入训练集。【结果】在UCI数据集的对比实验中发现,提出的新方法的分类正确率高于其他对比算法。【结论】新方法能够利用少量有标记样本和不断添加的置信度高的无标记样本去训练分类器,提高分类精度,解决了自训练方法因有标记样本集初始分布不均导致准确率较低的问题。
  相似文献   

11.
针对目前商用CAD软件中MBD功能三维标注缺乏正确性校验问题,基于OpenCASCADE几何造型内核研究了三维尺寸标注与标注有效性检查的问题.通过提取被标注对象的几何特征,结合信息标注规则,判断用户标注内容与标注对象间的匹配性,进而判断标注的正确性,增加了系统三维尺寸标注的智能性.设计了分层数据结构存储标注信息,并将标注信息与形体要素相关联,避免了三维标注中重复标注的现象,也为后续的产品虚拟装配、加工制造以及产品服役中产品语义信息的自动化提取提供可能.将标注信息以XML格式储存,便于信息的传输和访问,为进一步研究产品的数字孪生技术打下良好的基础.  相似文献   

12.
The abundant entities and entity-attribute relations in medical websites are important data resources for medical research. However, the medical websites are usually characterized of storing entity and attribute values in different pages. To extract those data records efficiently, we propose an automatic extraction system which is related to entity and attribute relations (attributes and values) of separate storage. Our system includes following modules: (1) rich-information interactive annotation page rendering; (2) separate storage attribute relations annotating; (3) annotated relations for pattern generating and data records extracting. This paper presents the relations about the attributes which are stored in many pages by effective annotation, then generates rules for data records extraction. The experiments show that the system can not only complete attribute relations of separate storage extraction, but also be compatible with regular relation extraction, while maintaining high accuracy.  相似文献   

13.
针对互联网中的产品评论信息,提出一种三层过滤的评价对象抽取方法.该方法采用一个自举式的抽取算法在评论文本中得到候选的评价对象和情感词;利用评价对象与情感词之间的关联度对候选词进行关联置信度计算,提取关联置信度高的评价对象以提高识别的准确率;引入一个不相关的平行领域对剩余的候选词进行领域置信度计算,挖掘低频的评价对象.3个公开数据集中的实验结果表明该方法能够显著地提高评价对象的识别效果.   相似文献   

14.
在分析不同类型体育赛事报道特点的基础上, 首次提出一种以实时数据作为数据源的足球赛事战报自动写作方法。该方法利用历史战报, 对实时数据进行自动标注, 得到训练集, 使用卷积神经网络(CNN)对标注后的实时数据进行建模, 自动识别实时数据中的关键事件, 将关键事件中结构化的信息生成战报风格的自然语言。实验表明, 与其他方法相比, 该方法写作效果更好, 内容更加详实, 可以很方便地扩展到其他赛事的自动写作。  相似文献   

15.
基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。  相似文献   

16.
Corpus is a kind of important resource for knowledge acquisition in the natural language processing(NLP). However, up to now, in the biomedical domain comparatively fewer corpus focus on semantic association among all tokens in a sentence. We proposed an annotation scheme based on feature structure theory for enriching biomedical domain corpora with token semantic association(TSA). There are 227 documents of the Bio NLP GE ST training data annotated to form TSA corpus in which each annotated item shows a token semantic association that appears as a triple. The annotation of token semantic association has the potential to significantly advance biomedical text mining by providing rich token semantic information for NLP systems especially for the sophisticated IE systems, such as bio-event extraction.  相似文献   

17.
In recent years, multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas, especially for automatic image annotation, whose purpose is to provide an efficient and effective searching environment for users to query their images more easily.In this paper, a semi-supervised learning based probabilistic latent semantic analysis ( PL-SA) model for automatic image annotation is presenred.Since it' s often hard to obtain or create la-beled images in large quantities while unlabeled ones are easier to collect, a transductive support vector machine ( TSVM) is exploited to enhance the quality of the training image data.Then, differ-ent image features with different magnitudes will result in different performance for automatic image annotation.To this end, a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible.Finally, a PLSA model with asymmetric mo-dalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores.Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PL-SA for the task of automatic image annotation.  相似文献   

18.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

19.
意见目标抽取是自然语言处理领域中意见挖掘研究的重要环节。该文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,经过第一轮自举过程后,该方法的F-1 score指标超出基线方法0.078;自举过程完成后,F-1 score指标提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。  相似文献   

20.
由于本体中的个体能更好地描述其所属概念的真实语义,因此基于个体的本体匹配技术有助于提高本体匹配结果的准确性。针对现实的本体中缺乏双向标注的个体而导致的基于个体的本体匹配技术难以得到广泛的应用这一问题,本文提出了一种基于双向个体标注的本体匹配技术,该技术通过进化算法来实现本体间自动化个体双向标注和概念匹配的过程。实验采用OAEI 2012的测试数据集,结果表明本文提出的方法是有效的  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号