首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
基于互信息与词语共现的领域术语自动抽取方法研究   总被引:1,自引:0,他引:1  
领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。  相似文献   

2.
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。  相似文献   

3.
本体构建的重点在于概念的抽取,针对甲骨文卜辞特有的特征和已有的领域概念抽取算法的缺陷,提出了一种基于上下文语义的甲骨文领域概念抽取算法。该算法针对传统的基于DR+DC的概念抽取算法的缺点进行改进,提出了基于上下文的概念间的相似度的计算方法,并给出了基于语义的领域概念筛选算法。实验数据表明,该方法在准确率和召回率以及困惑度衰减比率都有较大的提高。  相似文献   

4.
领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC -value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表...  相似文献   

5.
基于条件随机场的汽车领域术语抽取   总被引:1,自引:0,他引:1  
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.  相似文献   

6.
领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果.  相似文献   

7.
研究第五届中文倾向性分析评测的任务3和任务4,即微博的倾向性分析和评价对象识别.网络新词多,句子格式不规范,语言简短且包含的情感内容多都是微博分析的难点.针对此问题,提出对中文微博的过滤算法.在词语倾向性识别中,构建基础观点词和网络观点词等词典,然后利用知网识别所有词语的倾向性.在评价对象的抽取方面,提出一种面向微博的基于统计和规则相结合的评价对象抽取方法,特别是提出利用句法分析和评价词、评价对象互信息的联合抽取算法.实验表明,该算法可以提升评价对象抽取的效果.  相似文献   

8.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

9.
针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirec-tional encoder representations from transformer,BERT)的诉讼案件违法事实要素自动抽取方法.首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量.其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果.最后,采用focal函数作为损失函数关注难以区分的样本.违法事实要素抽取的工作是通过对文本标签进行分类得到的.实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高.对模型注入领域内知识,也可以提高模型抽取准确率.  相似文献   

10.
为准确地获取动态的用户兴趣信息,提出了一种基于信息抽取的用户兴趣自动获取方法.该方法首先根据电子商务网站中商品的领域知识构建领域Ontology,然后基于该领域Ontology自动抽取用户事务的语义文本信息,并将结构化的信息存入内容数据库,最后通过分析这些数据库中信息的特征值取得用户兴趣的描述文件.在汽车销售网站上的应用实例表明了该方法的有效性.  相似文献   

11.
首次提出利用URL-Key进行领域术语识别的方法。以URL作为媒介, 借助已知URL-Key的领域性来判断未知领域候选术语的领域性。首先, 借助互联网中已有的人工分类领域URL, 根据URL-Key在各领域汇总使用的频度, 采用基于方差的领域URL-Key识别方法, 构建领域URL-Key词表; 然后, 利用伪反馈技术, 收集候选领域词检索得到的URL结果集, 根据URL结果集构建候选领域术语的URL-Key特征向量; 最后, 利用SVM对候选领域术语进行提取。在4个领域进行实验, 都取得不错的效果。新提出的方法可以有效地解决低频术语识别问题, 为低频术语的识别提供新的思路。  相似文献   

12.
提出一种基于P 集合和形式概念分析的中文领域本体学习方法. 该方法以非结构化中文文本为数据源, 通过引入P-集合理论获取形式背景, 在获取形式背景的基础上, 采用Godin]算法构造概念格, 并采用自定义映射规则实现概念格到中文领域本体的映射. 通过学习生物和水领域文本, 得到一个中文领域本体. 实验结果表明, 该方法能解决手工构建本体费时、 费力的问题, 且学习到的本体是形式化本体, 能被更好地共享和重用.  相似文献   

13.
热传导方程二阶并行区域分解差分算法   总被引:1,自引:1,他引:1  
提出了一类新的计算热传导方程数值解的并行差分算法. 算法基于区域分解和子区域校正,在每个子区域上进行残量修正,各子域之间可以并行计算. 证明了算法的收敛性,并且理论分析表明,在每一时间步,只需校正一次或两次,即可达到最优的收敛阶. 数值试验表明了算法的有效性和优越性.  相似文献   

14.
为了提高网页在互联网中的搜索效率,基于非结构化P2P网络的多种搜索算法和网络蜘蛛搜索算法,提出了一种广度优先搜索(BFS)和非贪婪性搜索(NGS)相结合的改进搜索算法(BNS)。并通过该算法的性能分析与大理学院校园BBS的应用测试,结果表明,BNS算法在搜索速率、相关度和准确率上都优于BFS和NGS算法,该算法的实际应用提高了网络论坛运行效率。  相似文献   

15.
一种基于先验知识约束的车牌字符分割新算法   总被引:1,自引:0,他引:1  
车牌字符分割是车牌自动识别系统的三大核心技术之一,字符分割是字符识别的基础;针对传统的基于连通域分割字符算法计算量大、处理时间长的不足之处,在此提出了一种改进的算法,充分利用先验知识进行字符粗分割,在此基础上再利用连通域法最终实现字符完整分割,同时利用先验知识改进了传统的迭代法求二值化阈值算法,减少了迭代次数;实验表明:在此提出的字符分割算法在准确提取了车牌字符的前提下,大大缩短了处理时间,满足了实时性要求。  相似文献   

16.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

17.
数字水印技术是数字媒体版权保护和管理的主要方法。在广播电视领域,视频水印需处理的数据量大,对嵌入算法的时间复杂度限制较大,同时对视频质量要求也较高。数字水印技术主要分为空域和变换域两种。空域算法时间复杂度低,但鲁棒性不好;而变换域算法鲁棒性较好,但时间复杂度高。因此,在广播电视视频水印中,需要鲁棒性好且时间复杂度低的水印嵌入算法。这样,用空域的方法实现数字视频的变换域水印,就成为一个首选的方法。但是,目前我们尚不知道该方法的性能。本文基于DCT变换的频域水印算法,首先介绍了频域水印的空域实现的原理,然后,基于两个典型的频域水印算法,通过800幅图片的实验,测试了该算法的空域实现的时间复杂度和PSNR。实验结果表明,频域视频水印的空域实现,具有很好的性能。  相似文献   

18.
波动方程的重叠型区域分解并行有限差分算法   总被引:1,自引:0,他引:1  
提出了一类新的计算波动方程数值解的并行差分算法. 算法基于区域分解和子区域校正,在每个子域上进行残量修正,各子域之间可以并行计算. 证明了算法的收敛性,并且理论分析表明,在每一时间步,只需校正一或两次,即可达到最优的收敛阶. 数值试验表明了算法的有效性和优越性.  相似文献   

19.
面向专利文献的汉语分词技术研究   总被引:2,自引:0,他引:2  
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。  相似文献   

20.
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号