共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 相似文献
2.
《海南大学学报(自然科学版)》2016,(2)
提出了一种基于句法分析的特征提取方法,该方法将对句子成分进行分析,并将其作为特征集的一部分进行实验.实验证明,将句子成分分析结果加入特征集中进行定义的抽取,有较好的正确率和召回率. 相似文献
3.
基于混合条件模型的Web信息抽取 总被引:2,自引:0,他引:2
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能. 相似文献
4.
基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态.对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率. 相似文献
5.
针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。 相似文献
6.
7.
本文说明了网页主题信息提取的意义,并描述了常用的抽取方法及其存在的主要问题。在此基础上提出了一个新的基于模板的抽取方法,并结合实例分析了如何运用该模型构建电子军务信息提取系统。 相似文献
8.
一种基于属性抽取与整合的Petri网模型 总被引:3,自引:1,他引:3
将感觉神经检测机制融合于Petri网中,提出了一种新的基于属性抽取与整合的感觉神经检测Petri网模型,使得Petri网更加适合于对神经思维的描述,提高了系统的智能行为。 相似文献
9.
谭龙江 《四川理工学院学报(自然科学版)》2011,24(1):58-61
历史信息、即时信息以及流言往往冲淡网站中的主题思想,导致信息隐藏等问题。为解决上述问题,提出了网站信息抽取系统的结构模型、数据结构和处理流程;该模型采用信息抽取技术,从相关网页中抽取出带有主观倾向的主题信息;采用贝叶斯网络对客户需求进行决策与预测分析。仿真测试与客户应用证明,该模型能较准确的抽取网站中的客户倾向、有较好的及时性。 相似文献
10.
针对通用领域的事件论元抽取研究中角色信息利用不足和论元间缺少交互两个问题,提出角色信息引导的多轮事件论元抽取模型,用于增强文本的语义信息和论元之间的交互能力,提升事件论元抽取的性能。首先,为了更好地利用角色知识来引导论元的抽取,该模型根据角色定义构造角色知识,对角色信息和文本独立编码,并采用基于注意力机制的方法获取标签知识增强的文本表示,进而采用增强嵌入来预测各角色论元的起始和结束位置。同时,为了在抽取过程中充分利用事件论元之间的交互,受多轮对话模型的启发,设计一种多轮事件论元抽取算法。该算法参照“先易后难”的自然逻辑,每次选择预测概率最大,也是最容易确定的角色进行抽取。在论元抽取过程中,为了对论元之间的交互进行建模,模型引入历史嵌入,并在每一次预测结束后更新历史嵌入,帮助下一轮事件论元的抽取。实验结果表明,角色信息的引导和多轮抽取算法均有效地提升了论元抽取的性能,使得该模型的表现优于其他基线模型。 相似文献
11.
12.
基于依存关系的句法分析统计模型 总被引:3,自引:2,他引:3
袁里驰 《中南大学学报(自然科学版)》2009,40(6)
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验.研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%. 相似文献
13.
曹玉东 《重庆邮电大学学报(自然科学版)》2008,20(2):236-240
MDI为HMM训练的优化准则之一,但传统的MDI是基于局部最优求解的,所得的解也是一个局部最优解,而进化计算则是基于全局搜索的。为此,提出了将MDI及进化计算相结合来训练HMM的方法。各个模型用个体来表示,个体的适应值采用模型的最小差别信息。实验结果表明,该方法所得的系统识别率高于传统的方法。 相似文献
14.
半监督中文事件抽取系统的性能依赖于种子模板,但自动获取的种子模板的表达方式与覆盖范围有限,导致某些语言现象下的事件实例很难被识别。为解决这一难题,基于篇章内的事件一致性理论提出基于同指事件与相关事件的推理方法,根据已抽取的事件实例来推理可能有同指关系与关联性的其它事件,从而进一步提高半监督中文事件抽取系统的性能。在ACE 2005中文语料上的测试表明,该方法可有效地提高半监督中文信息事件抽取系统的性能。 相似文献
15.
16.
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。 相似文献
17.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量. 相似文献
18.
基于广义隐马尔可夫模型的网页信息抽取方法 总被引:2,自引:0,他引:2
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。 相似文献
19.
词性标注是词法分析的基础.HMM是一个数学模型,具有算法成熟、效率高、易于训练的优点;负反馈是一个控制模型,在规则中引入负反馈,可以增强规则的客观性.本文探讨了两个模型,然后将它们应用于词性标注中.实验结果表明两者的结合是有效的和成功的. 相似文献
20.
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义. 相似文献