首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案.该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则.针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则.同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价.实验结果表明: 现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%, 显示了这套规则学习和评价方法的有效性.  相似文献   

2.
提出一种基于规则的无监督词性标注方法, 利用200多条英语语法规则, 创建26个规则函数, 先将输入的待标注英语句子进行预处理后得到初始标记, 再对每个单词调用规则函数, 最终得到标注后的英语句子. 通过对Brown语料库的实验, 词性标注的正确率达到9395%. 实验结果表明, 本文方法可行、 有效, 能很好地提高英语词性标注的准确率.  相似文献   

3.
主要针对基于规则的汉语词性自动标注问题,引入了关联规则挖掘的概念和方法,给出了一种汉语词性标注规则的获取算法,并对试验结果进行分析,从而提出一些改进思路。  相似文献   

4.
描述了基于统计的蒙古文自动词性标注系统的功能和总体结构,并对系统的性能进行测试.以规模为95万词的语料库作为训练语料,对5万词的测试文本进行一级词性标注,结果表明封闭测试和开放测试的准确率分别达到96.96%和96.79%  相似文献   

5.
基于关联规则挖掘的汉语语义搭配规则获取方法   总被引:1,自引:0,他引:1  
针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.  相似文献   

6.
一种基于NA假设的训练数据自动构造方法   总被引:1,自引:0,他引:1  
为减轻人工标注训练语料库面临的瓶颈问题,提出了一种基于NA假设带标训练语料库的自动构造方法·为了检验该方法的有效性,将自动获取的带标训练语料库用于词性标注应用中,2万词次的开放性测试结果的准确率为93.1%,其中词性兼类消歧准确率为79.3%,未登录词词性确定准确率为88%·  相似文献   

7.
为解决审计日志信息利用不充分的问题,通过改进FP-Growth方法研究了审计日志关联规则,提出了基于相互关联规则的KAFP-Growth算法。将现有的审计日志与先进的数据挖掘分析技术结合,在详细研究Apriori算法、PCY算法和FP-Growth算法后,引入了重要属性的概念,对审计日志中的重要属性进行约束,减小了频繁项集,提高了计算性能。实验结果验证KAFP-Growth算法有效提高了审计日志的关联分析效率,相较于FP-Growth算法,在最小支持度相同的情况下,改进算法运行时间速度提升了49.3%,随着数据集规模的增大,改进算法运行时间可提升60%以上。  相似文献   

8.
王娟 《科技信息》2011,(33):56-56,45
关联规则是数据挖掘的重要手段,它基于支持度、置信度等对规则进行筛选,生成有用的规则。关联规则反映了大量数据中项集之间的相互依存性和关联性。Apriori算法和FP-Growth算法是关联规则挖掘中的两个典型算法。本文阐述了这两种算法的基本思想、数据挖掘步骤,并讨论了它们的优缺点及差异。  相似文献   

9.
关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识.对于大型数据库来说,有算法的执行时间太长等问题.分析和探讨了Apriori算法,提出了基于Apriori算法的一种有效的关联规则挖掘算法,减少了数据库I/O操作时间,从而提高了效率.  相似文献   

10.
将FP-Growth算法应用于面向目标的关联规则(OOA)挖掘,对FP-Tree的结点进行了修改,增加了目标支持度计数和效用度累计两个字段,对FP-Growth算法进行了改进.实验结果表明,改进后的方法比基于Apriori算法和基于Dfree算法的OOA挖掘效率更高。  相似文献   

11.
付宝君 《科技信息》2008,(15):67-68
本文主要介绍了数据挖掘中的关联规则,分析了关联规则中的主要算法,包括Apriori算法、FP-Growth算法以及CRApriori算法,并且阐述了各种算法的主要特点。  相似文献   

12.
一种高性能英文词性标注器的设计与实现   总被引:3,自引:2,他引:3  
针对统计和规则方法各自的优点和局限,提出运用Viterbi和FTBL(fast transformation-based learning)算法相级联的算法,实现一种英文自动词性标注器.该级联方法以FTBL算法为整体算法,在它的规则学习和最终标注两个阶段,均以Viterbi算法作为其初始化过程.实验结果表明此算法优于其中任何一种单独的算法,达到了98%的高准确率,验证了自然语言处理中统计与规则并举的主流设计思想.  相似文献   

13.
关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和MapReduce的FP-Growth算法(BPFP),分析了算法的时间和空间复杂度.该算法使用Hadoop框架和布尔矩阵以减少对事务数据的扫描次数,利用两次MapReduce来实现频繁项集的挖掘.在多个数据集上的实验结果表明,与原FP-Growth算法相比,BPFP算法具有更高的执行效率、更好的加速比.  相似文献   

14.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

15.
在蒙古语语音合成系统中,语料库的好坏会直接影响语音合成的效果.因此,语料库标注规则的设计对语音合成工作具有重要意义.提出了一种新的蒙古语语音合成语料库的标注规则,并用按此规则标注的蒙古语语料库进行了基于隐马尔科夫模型的蒙古语语音合成实验,合成效果达到了预期目标,说明我们提出的标注规则是合理可靠的.  相似文献   

16.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

17.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

18.
以学科教材术语语料库建设为目标,实现了一种基于底表的多层扫描术语自动标注算法.该算法首先采用预测性规则模板扫描文本中未登录术语,并进行标注;其次采用最大匹配方法识别出每个可能的候选术语,把每个候选术语看作术语的定位点,扫描其上下文语境,分别调用单位术语规则模板、例外规则、部件规则、部件例外规则、例外校正规则等对扫描结果进行判断,确定候选术语的身份,并进行标注.该方法以规则的预测和限定功能为辅,充分利用了底表术语信息,取得了较高的标注准确率和召回率,开放测试F-指数达到了84%左右.  相似文献   

19.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

20.
Apriori算法是经典的关联规则挖掘算法,主要缺点是可能产生大量的候选集和需要多次扫描数据库.从幂集运算的角度提出了一种新的关联规则挖掘算法P_DM算法,实现了只需要扫描一次数据库就产生所有频繁集.实验证明这种算法在中小规模数据挖掘上效率优于Apriori算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号