首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 406 毫秒
1.
基于登录词邻接关系的双条件概率的领域术语抽取算法   总被引:2,自引:2,他引:0  
领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果.  相似文献   

2.
基于语言特性的中文领域术语抽取算法   总被引:2,自引:0,他引:2  
提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.  相似文献   

3.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

4.
领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC -value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表...  相似文献   

5.
周志浩  李建波 《科学技术与工程》2022,22(24):10625-10630
术语是语料库、机器翻译、人工智能实时翻译建设的基础,但传统术语抽取方法存在不全面、错误率高的问题。即便是采用人工抽取的方式,除了耗时耗力难以适应大数据时代社会化大生产的要求,也存在不同的专家观点不一致的问题。本文从术语的语言特征和复合测量方法出发,综合使用词性特征数值、词长比特征数值、C-value和TF-IDF数值抽取术语。同时,以农业领域的语料为例进行术语抽取,实验结果表明,该方法抽取的术语精确度和召回率都较高,能有效提高术语抽取的准确率。  相似文献   

6.
基于互信息与词语共现的领域术语自动抽取方法研究   总被引:1,自引:0,他引:1  
领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。  相似文献   

7.
术语自动抽取是信息处理领域的基础性课题,日益受到研究者的关注。似然比方法能有效抽取低频词汇,但抽取准确率偏低。为了解决这个问题,将似然比的抽取结果用C-value进行改进。实验证明,两者相结合,在保证似然比方法高召回率的前提下,比单纯依靠似然比方法抽取准确率提高了约8%。  相似文献   

8.
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。  相似文献   

9.
通过结合2 738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型.  相似文献   

10.
以学科教材术语语料库建设为目标,实现了一种基于底表的多层扫描术语自动标注算法.该算法首先采用预测性规则模板扫描文本中未登录术语,并进行标注;其次采用最大匹配方法识别出每个可能的候选术语,把每个候选术语看作术语的定位点,扫描其上下文语境,分别调用单位术语规则模板、例外规则、部件规则、部件例外规则、例外校正规则等对扫描结果进行判断,确定候选术语的身份,并进行标注.该方法以规则的预测和限定功能为辅,充分利用了底表术语信息,取得了较高的标注准确率和召回率,开放测试F-指数达到了84%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号