首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC -value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表...  相似文献   

2.
基于条件随机场的汽车领域术语抽取   总被引:1,自引:0,他引:1  
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.  相似文献   

3.
一种基于关联规则的数据挖掘算法实现与应用   总被引:1,自引:0,他引:1  
对Apriori算法加以改进,提出了一种更高效的关联规则挖掘算法,在扫描数据库的同时把支持每个项目的事务都标记出来,采用一种新的方法来计算候选项目集的支持度.该算法只需对源数据库进行一次扫描,就可以找出所有的频繁集,具有很高的效率.  相似文献   

4.
针对一个术语的多条候选定义, 首次提出术语定义辨析模型并给出一种基于互联网的求解方法。该方法从百度百科和百度搜索构建参考释义, 总结术语及其定义来源语料中的术语定义模板, 根据参考释义和定义的模板从待辨析定义中选出最优定义。实验选取中国知网概念知识元库中部分领域的术语在学术文献和工 具书中的定义作为待辨析对象, 用所提出的模型和方法进行辨析实验, 结果表明, 该方法辨析的准确率为96.1%, 有很好的辨析效果。  相似文献   

5.
自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则 统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究.  相似文献   

6.
一种实时有效的蜂群模式挖掘算法   总被引:1,自引:0,他引:1  
针对实时相关运动模式挖掘应用的需求,提出了一种实时地发现关闭蜂群模式的簇重组算法(CLUR).该算法维护一个候选蜂群模式列表,在每个时间戳采用基于密度的聚类算法对移动目标进行聚类,根据聚类结果组合所有的最大移动目标集,记录相应的时间集,然后构建候选蜂群模式,并更新到候选列表.算法给出了三种更新规则和一种插入规则,用于实现候选蜂群模式列表的更新,同时降低了候选列表的冗余度,提高了算法的效率.在每个时间戳结束时可通过关闭检测规则实时地发现当前时刻的关闭蜂群模式.在合成数据上的综合实验验证了CLUR算法的正确性、实时性和高效性,CLUR算法适用于实时相关运动模式挖掘系统.  相似文献   

7.
首次提出利用URL-Key进行领域术语识别的方法。以URL作为媒介, 借助已知URL-Key的领域性来判断未知领域候选术语的领域性。首先, 借助互联网中已有的人工分类领域URL, 根据URL-Key在各领域汇总使用的频度, 采用基于方差的领域URL-Key识别方法, 构建领域URL-Key词表; 然后, 利用伪反馈技术, 收集候选领域词检索得到的URL结果集, 根据URL结果集构建候选领域术语的URL-Key特征向量; 最后, 利用SVM对候选领域术语进行提取。在4个领域进行实验, 都取得不错的效果。新提出的方法可以有效地解决低频术语识别问题, 为低频术语的识别提供新的思路。  相似文献   

8.
针对现有网络评论中产品特征提取算法运行效率低和准确率低的问题,提出了改进Apriori算法并用于候选特征集合的抽取,结合单字词规则和邻近剪枝规则对候选特征集合进行初步过滤,采用频繁项名词非特征规则及PMI阈值过滤技术对候选产品特征集进行筛选,得到最终产品特征集.以从互联网下载的手机评论语料作为实验对象进行实验,结果验证了该方法具有较高的准确率和查全率.  相似文献   

9.
关联规则挖掘是数据挖掘中的一个重要课题,常用的Apriori 算法要多次扫描数据库,会产生大量的候选项集.利用向量的内积运算和逻辑运算提出了一种关联规则挖掘的改进算法.研究表明,该算法运算简单,只需要扫描一次数据库,不需要产生候选项集,且具有处理大型数据库的优点.  相似文献   

10.
针对Apriori算法产生大量候选集和多次扫描事务数据库的不足之处,本文提出一种基于模式向量的与和或运算的关联规则挖掘算法Association Rule Mining Algorithm Basedon ModeVector(ARMV)。该算法首先提出通过模式向量的或运算来减少生成的候选集数量。然后采用模式向量与事务矩阵的与运算来判断候选模式向量是否为频繁集。同时对事务矩阵的行设置flag,删除flag为0的行。每个候选模式矩阵只需扫描事务矩阵一次。实验表明ARMV算法比Apriori算法具有更好的性能和效率。  相似文献   

11.
基于约束的关联规则挖掘是针对特定约束的规则的挖掘,挖掘的结果有着更好的针对性和实用性,Separate算法是现有的效果较好的算法,但有2点不足:未修剪生成的候选集和候选项重复生成。对此该文提出了改进的SeparateP算法,算法中加入了对候选集的修剪,并且利用了项集重复生成的信息,使候选集的修剪更加有效快捷。实验表明,改进算法显著提高了原算法的效率。  相似文献   

12.
基于DSP的LTE TDD上行解传输预编码实现   总被引:1,自引:1,他引:0  
在时分长期演进(time division-long term evolution,TD-LTE)系统中,为了保证上行传输单载波特性,采用集中式DFT-扩展-OFDM(discrete Fourier transform-spread OFDM)机制.对各种离散傅里叶逆变换(inverse discreteFourie...  相似文献   

13.
详细地研究了D最优设计的数值构造法以及对称算法理论,对Evans的单纯形搜索来构造D最优设计的方法进行了改进·应用改进的Fibonacci技巧来求新增设计点,考虑其对称性,引入负测度,采取双循环多点迭代的方法来构造多分量对数项混料模型的D最优设计,提出了D最优设计的改进单纯形构造法·并运用这种新方法构造了多分量对数项混料模型以及高阶对数项混料模型的D最优设计  相似文献   

14.
基于语言特性的中文领域术语抽取算法   总被引:2,自引:0,他引:2  
提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.  相似文献   

15.
自适应神经网络在短期负荷预测中的应用   总被引:2,自引:0,他引:2  
采用基于混沌算法的自适应预测模型,应用于电力系统短期负荷预测.选取重构相空间中的饱和嵌入维数作为神经网络的输入节点数,适当选择非线性反馈项,能使网络的动力学在权空间具有混沌行为.通过进化算法建立一种自适应机制,使得网络能够根据学习和训练的结果优化非线性反馈项.算例表明,该算法具有很强的自适应能力和鲁棒性,精度高.  相似文献   

16.
在现有的关联规则算法的基础上,深入分析了经典算法的内涵,提出了剪枝候选二项集的改进算法,有效的控制候选二项集的生成,得到传统算法中部分候选二项集,从而减少扫描数据库的运算量.与Apriori算法相比,效率明显提高.  相似文献   

17.
对蒙古语的术语原则、术语翻译、术语国际化、术语研究等方面存在的问题进行分析,认为群众性原则以及“挖、创、借”原则有不妥之处,指出应当依据国际标准以及国家颁布的术语确立原则,运用蒙古语言文字的规律,采用外来语、使用前缀等方法,繁荣和发展蒙古语术语.  相似文献   

18.
一种基于分布式数据库的全局频繁项目集更新算法   总被引:4,自引:0,他引:4  
在算法FMAGF的基础上,提出了一种基于分布式数据库的全局频繁项目集更新算法-UAGFI,该算法主要考虑最小支持度发生变化时全局频繁项目集的更新情况。UAGFI在最坏的情况下仅须扫描各局部数据库一遍,并利用已挖掘的结果,可避免传送某些原全局频繁项目对应的条件频繁模式树,从而降低网络通讯代价,实验结果表明,UAGFI算法是有效可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号