期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蒋斌杨超赵欢《湖南大学学报(自然科学版)》2006,33(1):121-123

根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率. 相似文献

2.

Dynamic Hash TRIE算法的研究与分析

杨来何清许立达史忠植《广西师范大学学报(自然科学版)》2008,26(1):134-138

分词是中文信息处理的基础，词典查询又是分词的基础。另外，搜索引擎需要对访问过的URL进行唯一性检测。针对汉语词典查询和唯一性检测这两个问题，提出Dynamic Hash TRIE词典算法，有效地压缩了节点，没有单链树枝。通过Java和C＋＋编程实验，对比了多个同类算法，证明该算法对于中文词典具有较高的查询性能，灵活的可拓展性。另外还提出了一个词库测试的标准Norm Test，可以排除机器性能的干扰来对比各种算法。相似文献

3.

快速双向中文分词算法

原佳丽杨仁广孟祥增《山东师范大学学报(自然科学版)》2009,24(1):75-77

中文分词是中文信息处理的基础、前提和关键．通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法．使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率．相似文献

4.

基于专业词典的带词长的中文分词技术的研究

刘勇王崇《科技信息》2012,(34):188-189

中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。相似文献

5.

一种应用分治策略的中文分词方法

赵春红高希龙王柠赵威刘国华《燕山大学学报》2009,33(5):444-449

自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。相似文献

6.

几种基于词典的中文分词算法评价 总被引：1，自引：0，他引：1

李丹宁李丹王保华马新强《贵州科学》2008,26(3)

基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统. 相似文献

7.

一种改进的基于PATRICIA树的汉语自动分词词典机制 总被引：3，自引：0，他引：3

马哲姚敏《华南理工大学学报(自然科学版)》2004,32(Z1):28-31

分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIA tree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度. 相似文献

8.

一种改进的增字最大匹配算法 总被引：1，自引：0，他引：1

金在全赵照杜秀全张东《科学技术与工程》2007,7(18):4761-4764

汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。介绍了目前几种常用的自动分词算法,在对各种分词算法进行研究的基础上,对现有的增字最大匹配法进行了进一步的改进,更加充分的体现了最大匹配法中的“长词优先”的原则,使分词系统在自动分词阶段有比目前的增字最大匹配法更好的效果。相似文献

9.

一种基于语词的分词方法 总被引：10，自引：0，他引：10

赵曾贻陈天娥朱兰《苏州大学学报(医学版)》2002,18(3):44-48

提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进相似文献

10.

基于小字符集的藏文自动分词技术研究

才华《西藏大学学报》2013,(5)

文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容. 相似文献

11.

基于组合型中文分词技术的改进

梁胜成卫青《南京邮电大学学报(自然科学版)》2013,(6):112-117

在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率. 相似文献

12.

构建单字词表识别未登录词的方法

于童刘淑芬《吉林大学学报(理学版)》2015,53(2):307-310

针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上. 相似文献

13.

一种基于后缀数组的无词典分词方法 总被引：9，自引：3，他引：6

张长利赫枫龄左万利《吉林大学学报(理学版)》2004,42(4):548-553

提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、高频词. 适用于对词条频度敏感、对计算速度要求高的中文信息处理. 相似文献

14.

中文信息处理在动态几何软件领域的应用研究

陈晓霞《浙江科技学院学报》2012,(1):30-34

阐述了中文信息处理技术在几何作图等动态几何领域内的应用现状。鉴于几何语言其本身相较于一般自然语言的特点,介绍了利用中文分词技术及其他自然语言处理技术来实现基于自然语言输入的动态几何作图的方法,主要包括GMMM算法和基于"分词词典"的分词方法及建立同义词库、使用语模匹配和语模词典等方法来形式化和规则化几何命题等内容,并提出在该领域的研究展望。相似文献

15.

基于最大匹配的中文分词改进算法研究

赵源《科技信息》2010,(35):58-58,49

本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。相似文献

16.

高性能FTP搜索引擎的设计

方冰张一中《南京邮电大学学报(自然科学版)》2007,27(3):67-70,75

FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术.使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型系统.压力测试结果表明此FTP搜索引擎具有很高的性能. 相似文献

17.

中文全文检索系统中基于分词技术的研究

刘畅张猛《吉林大学学报(信息科学版)》2013,31(3):320-323

为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。相似文献