首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
本文提出了一种基于最大匹配快速中文分词算法的改进算法。通过对最大匹配分词算法做出改进,从而解决了最大匹配快速中文分词算法所不能解决的一些问题,并得出较准确的粗分结果。结合本人主持开发的《长春市市长干公开电话之中文分词系统》的项目实践,对系统海量信息的处理起到了关键作用,  相似文献   

2.
基于拼音索引的中文模糊匹配算法   总被引:3,自引:0,他引:3  
主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。  相似文献   

3.
基于优化最大匹配与统计结合的汉语分词方法   总被引:1,自引:0,他引:1  
汉语自动分词足中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题.基于训典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频汁算耗费时间.本文提出优化最大匹配与统汁结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略.然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率.最后,基十分词算法实现中义分词系统,并通过实验对算法进行了分析和验证.  相似文献   

4.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

5.
匹配理论是图论中一个重要的分支,已被广泛地应用于许多领域,如组合优化、线性规划、人工智能和矩阵论等.给出一个求解多部图的最大匹配算法,并用仿真例子说明其实用性和有效性,此算法为解决复杂的指派问题开辟了新途径.  相似文献   

6.
定义了简单图匹配边的匹配优先指数、竞争集、匹配余集及匹配余图等重要概念,从最大匹配的定义及匹配边与非匹配边的竞争关系着手,在图的关联矩阵基础上,提出了求无权简单图最大匹配的一种操作简单、编程容易的新算法——"表单作业法".  相似文献   

7.
一种改进的增字最大匹配算法   总被引:1,自引:0,他引:1  
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。介绍了目前几种常用的自动分词算法,在对各种分词算法进行研究的基础上,对现有的增字最大匹配法进行了进一步的改进,更加充分的体现了最大匹配法中的“长词优先”的原则,使分词系统在自动分词阶段有比目前的增字最大匹配法更好的效果。  相似文献   

8.
求一个简单图的最大匹配与完美匹配问题在经济生产中有着重要的实际意义。将求二分图的完美匹配转化为简化邻接矩阵问题来解决,将一般简单图的最大匹配问题转化为关联矩阵问题或求对偶图的邻接矩阵中阶最大主子式所在的行(列)的序号集问题,这不仅使矩阵工具在图论中得到了充分运用,而且这种方法用起来方便,又便于计算机处理。  相似文献   

9.
随着大数据时代的到来,大规模的数据需要处理,其中字符串词典数据占据着越来越大的比重。现有的字符串词典索引,不是空间占用过大,就是数据的本地引用性能差,无法高效地应用到外存磁盘环境。针对这些问题,提出了一种具有高效I/O的压缩索引SB-trie,该索引不仅解决了以往索引空间占用过大的问题,同时也具有良好的本地引用性能,能够很好地工作于外存磁盘环境。实验结果表明,相比现有的索引,该索引不仅在空间上得到了有效的压缩,同时在磁盘环境下具有高效的查找性能。  相似文献   

10.
称图G的一个匹配M是导出的,如果M是由M所覆盖的顶点导出的子图的边集.分别给出二部图的一个匹配是导出匹配的条件及存在一个最大匹配是导出匹配的条件.  相似文献   

11.
本文利用中文设计院处理系统软件的一些功能,介绍了“拼字”方法。  相似文献   

12.
通过对不同寄主植物及寄主植物不同生育时期和不同温度条件下美洲斑潜蝇各龄幼虫头咽骨、口钩和取食道长度的测量,结果表明,按各龄幼虫头咽骨长度可以准确进行美洲斑潜蝇幼虫分龄,而取食道长度不同处理间的差异较大,不宜做为分龄标准。  相似文献   

13.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

14.
研究结果表明,穗粒数、千粒重、籽粒饱满度、株高和单株产量可以作为小麦杂种早期(F2,F3)分离世代的综合评价指标。运用模糊数学综合评判法,以这些指标为评价因素,在早代可以定量的估测组合的超亲或超标优势和组合内包含的单株类型比率,对于提高选种效率,加快育种进程,减少育种规模具有实际应用价值。  相似文献   

15.
研究了多环芳烃正辛醇-水分配系数Kou与一阶价分子连接性指数'Xv的相关性,首次提出了烃基校正因子(A)的概念,建立了包含'Xv和月两个参数的二元回归方程式。由该方程计算的各种取代和未取代多环芳烃正辛醇-水分配系数与文献测定值以及分子碎片常数法计算值十分吻合。  相似文献   

16.
从发展高速走丝线切割加工及其计算机数字控制(CNC)装置系列产品出发,对其CNC装置的体系结构作了系统的研究.基于充分利用计算机领域中软、硬件开发技术及其成果,提出了一种中低档高速走丝线切割加LCNC装置的硬件结构和软件结构.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号