首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 187 毫秒
1.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

2.
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高.  相似文献   

3.
分词是汉语文献处理的第一步.目前,在多种分词算法中正向最大匹配算法最为简洁、易于实现、日常应用也最为广泛.我们主要运用理论知识剖析算法中的优缺点,着重研究这种分词算法切分词语的速度,并进一步优化和改进这种分词算法,提出可行性改进方案,最终提高算法切分词语的效率和准确率.高校精品课程的知识管理可以尝试采用基于词表的最大匹配法进行分词,可建立有关词表.在此基础上,可提出一套高校精品课程知识管理的标引方法.  相似文献   

4.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

5.
一种改进的增字最大匹配算法   总被引:1,自引:0,他引:1  
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。介绍了目前几种常用的自动分词算法,在对各种分词算法进行研究的基础上,对现有的增字最大匹配法进行了进一步的改进,更加充分的体现了最大匹配法中的“长词优先”的原则,使分词系统在自动分词阶段有比目前的增字最大匹配法更好的效果。  相似文献   

6.
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。  相似文献   

7.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

8.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台.  相似文献   

9.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

10.
根据实际工作,开发了一个自动分词系统,对汉语自动分词技术在智能人机交互中的实现进行探讨.基于系统的情况,分词算法采用了最大匹配法,在词库检索中提出了化查询为直接存取的方法,提高了检索效率,节省了内存,有利于分词速度的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号