首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
本文提出了一种基于最大匹配快速中文分词算法的改进算法。通过对最大匹配分词算法做出改进,从而解决了最大匹配快速中文分词算法所不能解决的一些问题,并得出较准确的粗分结果。结合本人主持开发的《长春市市长干公开电话之中文分词系统》的项目实践,对系统海量信息的处理起到了关键作用,  相似文献   

2.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

3.
基于统计的无词典分词方法   总被引:17,自引:0,他引:17       下载免费PDF全文
通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。  相似文献   

4.
罗洋 《科技信息》2009,(7):204-204,242
在中文信息处理中,汉语的自动分词是一个难点。本文对汉语自动分词的方法及已有的词典机制进行了探讨。  相似文献   

5.
马凌霄 《科技资讯》2014,(26):219-219
中文自动分词不仅是中文信息处理的基础性工作而且对后续句法分析、语义分析等中文信息处理流程有着很大的影响。本文基于最小费用最大流,提出一个具有拓展性的中文分词算法模型,实验证明了本算法能够准确地对输入文字串进行切分。  相似文献   

6.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

7.
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高.  相似文献   

8.
基于最大概率分词算法的中文分词方法研究   总被引:1,自引:0,他引:1  
丁洁 《科技信息》2010,(21):I0075-I0075
本文提出了一种基于最大概率分词算法的中文分词方法,以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现,根据针对大规模真实语料库的对比测试,分词运行效率有较大提高,该方法是行之有效的,并且提出了该算法的改进方向。  相似文献   

9.
基于最长次长匹配的汉语自动分词   总被引:11,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

10.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台.  相似文献   

11.
针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.  相似文献   

12.
基于地址结构匹配的手写中文地址的切分与识别   总被引:2,自引:0,他引:2  
为了自动识别手写中文地址,提出基于地址结构的汉字字符切分和匹配方法。它将地址行图像过切分为一列子字符图像,对于可能的子字符合并方式进行识别。置信度比较大的词作为关键词搜索地址数据库,得到一系列候选地址。对每个候选地址进行匹配,综合考虑切分、识别和匹配代价给出最终结果。该方法在565个地址行样本上获得了超过91%的地址匹配率。实验表明:该方法能有效地克服传统手写汉字切分方法的不足,减少切分错误,从而提高地址匹配的正确率。  相似文献   

13.
车牌识别系统是智能交通中的重要环节之一,字符分割则是车牌识别的重要步骤,其目的是将车牌字符串分割为更易于识别的单个字符。字符分割算法一般分为投影法、连通域分析法和先验知识法3种。投影法和连通域分析法会受噪声、光照变化、污染等情况的影响,先验知识法具有较强的抗噪能力,可以弥补上述2种方法的缺陷,但是其分割效果取决于分割基准点的准确选择。为了提高分割基准点选取的准确性,采用了一种以车牌最大间隔位置的符号作为基准点的字符分割算法。实验表明,此种以最大间隔符号特征为基准点的分割算法抗干扰能力强,解决了对噪声、光照变化、污染等情况的干扰,分割准确率高且速度快,并能够通过分割基准点的特征准确地细分出武警车、警车、军车车牌的类别,分割率达到94%以上,具有较强的鲁棒性和实用性。  相似文献   

14.
针对可见光图像中靠岸舰船的灰度、纹理等特征的自动检测比较困难的问题,提出一种基于港口匹配和海域分割的靠岸舰船检测方法.根据飞行器实时返回的姿态信息,将港口模板变换到实时图同一视角下进行港口配准,确定实时图海域部分,再对海域进行分割,检测出舰船.采用基于边缘梯度矢量的港口配准方法,克服岸内边缘干扰,提高匹配精度.提出一种特征融合聚类结合生长的分割算法,解决灰度不均匀导致的分割后舰船断裂现象,优化海陆分割效果.试验结果证明了该方法的有效性和鲁棒性.  相似文献   

15.
提出了一种微粒群优化和区域生长相结合的彩色图像分割算法,以彩色图像直方图中自适应搜索到的峰值作为像素种子。由于搜索像素种子点是按密度进行,计算量小,大幅度提高了算法的计算速度,同时克服了传统区域生长方法不能自动选择种子且容易导致过分割的局限性。实验表明:该方法提高了图像分割速度,并可以准确地分割出目标,是一种有效的图像分割方法。  相似文献   

16.
基于最大相关法的图像阈值分割   总被引:1,自引:0,他引:1  
提出了一种基于最大相关准则的图像阈值分割法.该算法比基于最大熵原理的图像分割法更简便.另外,本文采用遗传算法搜索最佳闽值,并对算法中的交叉算子和有关运行参数进行了改进.实验结果证明了该算法的快速性、有效性和稳定性.  相似文献   

17.
佘科  谢红 《应用科技》2011,38(5):47-51
针对传统图割立体匹配算法耗时太长以及动态规划立体匹配算法匹配精度不高,且视差图带有条纹瑕疵的问题,提出了一种基于动态规划和图像分割的立体匹配算法.采用自适应多阈值图像分割算法对参考图像进行高效可靠的区域分割,提取边界,使用多种子点动态规划算法精细求取边界上点的视差,并以区域为单元用图割立体匹配算法求取区域内各点的视差,拟合得到图像对的视差图.通过对比,实验结果表明:此算法较传统图割法匹配速度有明显提高,且可以得到匹配精度较高的稠密视差.  相似文献   

18.
一种基于后缀数组的无词典分词方法   总被引:6,自引:3,他引:6  
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.  相似文献   

19.
针对网格运动统计(GMS)算法性能依赖特征点数量且当特征点检测较少时存在误匹配集中的问题,结合一致性约束思想,提出了一种基于网格运动统计的自适应特征匹配算法.首先对待检测图像引入网格划分,依次对每个网格区域设置自适应阈值并进行特征点检测;然后使用旋转特性的二进制描述(rBRIEF)算法对特征点描述并基于汉明距离完成特征点匹配;最后采用GMS算法做初次误匹配点剔除,利用随机抽样一致算法筛选出精确匹配点.实验结果表明:该算法能有效剔除误匹配点,提升匹配质量且实时性高,对于低纹理结构的图像匹配也具有很好的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号