首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

2.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

3.
用户在搜索引擎上进行信息查询时,并不关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中反复筛选。智能搜索技术,采用了先进的"模式识别"方法,可以根据单词或词语的使用和出现频率来识别不同文本在上下文环境中自己产生的模式。通过判断一条非结构化信息中的一种模式优于另一种模式,可使计算机了解一篇文档与某个主题的相关度。利用这种方法,可以抽取文档中的文本要素,自动识别文本的概念然后对该文本进行自动操作。这种创新的高性能模式识别算法提供了精确的文本上下文分析和概念抽取,可对信息自动分类和相互链接,从而提高信息检索的效率。  相似文献   

4.
通过对各种Web信息抽取方式的分析,将一种新的抽取方法应用于电子期刊信息抽取.该方法首先应用文档结构相对路径结合节点内容特征进行相似度比较来完成对所需抽取信息块的精确定位;然后对于需要抽取出来的各个信息项则采用正则表达式构造文本信息项的特征模式;在此基础上,实现准确抽取.测试结果表明:基于Web的电子期刊元数据信息抽取方法在查全率和精确度方面高于一般的信息抽取方法,取得了比较令人满意的效果.  相似文献   

5.
基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态.对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率.  相似文献   

6.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

7.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

8.
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率.  相似文献   

9.
数值信息作为数据的一种直观表达方式,能够真实、有效地表达数据的量化含义.完整的数值信息要素包含有数字,数字的量化对象,如:主体及其属性,以及时空约束条件.对文本中蕴含的数值信息进行有效识别和抽取,并以问答的形式反馈给用户是大数据挖掘的重要意义,越来越受到学术界和产业界的关注.提出了一种基于数值模板结合条件随机场的数值信息抽取方法,该方法利用数值相关知识来制定数值信息抽取模板,对文本模式匹配,并使用条件随机场修补模板的局限性.实验结果的准确率、召回率和F值分别为0.847、0.665和0.745.  相似文献   

10.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率.  相似文献   

11.
科技文献中回顾前人研究成果、分析存在的问题、提出解决方法等语言片段是论文创新性信息的构成部分。分析论文写作过程中问题分析信息的逻辑思维以及在文章中呈现的篇章关系,综合利用引用分布特征、篇章关系特征、否定情感特征构建具有普适性的信息抽取语义模式。从论文原始文本中通过匹配定义好的语义模式抽取出问题分析信息。同时,利用引导词特征、语义相似度计算从论文文本中抽取出论文的主要工作信息。以数据挖掘领域科技文献为例,对比人工抽取结果对提出的方法进行评价,结果表明该方法能较准确抽取相应信息,为科技论文聚类、论文推荐提供基础数据来源。  相似文献   

12.
针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Word2Vec计算词语相似度,完成对短文本内容和词向量特征的扩展;最终通过融合BERT-TextCNN和BERT-BiGRU-Attention两个通道特征信息的BGTC模型实现了对扩展后文本的分类。经过多组对比实验,结果表明该方法在市民热线文本分类任务中具有更好的性能,准确率和F1值分别达到了85.6%和85.8%。  相似文献   

13.
提出一种启发式的信息抽取算法, 并利用该算法建立一个信息抽取系统. 该系统基于文本分块, 利用文本的语义特征和结构特征, 抽取具有特征的状态, 在此基础上, 利用反向动态规划和正向A*算法, 抽取剩余的无特征状态. 通过对100篇论文头部进行测试的结果表明, 精确度和召回率比基于单词和传统Viterbi算法的方法均有所提高, 启发式算法的性能优于Viterbi算法.  相似文献   

14.
网络文本分类中基于信息瓶颈的特征提取   总被引:3,自引:0,他引:3  
针对网络文本特征关键词多、新词多的特点,提出了一种基于概念特征的文本分类提取方法。应用信息瓶颈法,根据关键词在不同类标号上的分布情况完成关键词聚类。在此基础上,结合概念抽取的方法,将词聚类结果映射到知网义原,并以此作为分类特征。在网络文本语料上的分类实验显示,该方法保留了基于概念特征提取方法的鲁棒性强、特征维数低的优点,但克服了概念词典中新词无定义,需要维护更新词典的不足。  相似文献   

15.
针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注意力机制与卷积神经网络相融合以进行关系预测.以新疆旅游领域为研究对象,总结归纳15种实体关系.采用...  相似文献   

16.
传统的年龄回归方法不能学习深层次信息,因此利用能充分挖掘上下文关系信息的深度学习方法来识别用户的年龄。具体而言,提出了一种基于LSTM的年龄回归方法,其能够学习长期依赖关系即建立输入值之间的长相关联系。采用了两种不同的特征,即文本特征和社交特征。为了有效地区分这两种特征,充分利用这两种特征之间的信息,进一步提出了基于双通道LSTM的年龄回归方法,具体实现是在神经网络中加入Merge层,将LSTM分别产生的文本特征表示和社交特征表示结合进行集成学习以充分学习文本特征和社交特征间的联系。实验结果表明,基于双通道LSTM的年龄回归方法能够有效地区分文本特征和社交特征,并且较单个LSTM方法能够取得更好的年龄回归性能。  相似文献   

17.
文章主要研究短文本关键词抽取及具有丰富文本含义的关键词扩展问题,在关键词抽取工作中将文本主题分类信息和词搭配关系引入到传统的TF-IDF算法中;在关键词扩展的工作中,通过构建词的特征表示向量,计算文本关键词和类别特征词相似度,从而发现所需扩展的关键词,两方面工作均取得了令人满意的结果。  相似文献   

18.
Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.  相似文献   

19.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

20.
基于特征选择的人物关系抽取方法   总被引:2,自引:1,他引:1  
在人物关系抽取中,其特征空间维度往往非常高,会造成向量稀疏问题,从而影响关系抽取的效率。针对这一现象,首先将人物关系分为6类;然后引入了文档频率、信息增益、互信息和χ2统计这四种文本文类的特征选择算法,对特征空间进行降维。最后运用SVM分类器抽取人物的实体关系。实验结果表明这四种特征选择算法不仅能够保证抽取性能,还能有效的降低向量空间维数,极大提高关系抽取效率。其中,χ2统计算法效果最佳,信息增益次之。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号