首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 331 毫秒
1.
基于词形的最佳路径分词算法   总被引:4,自引:0,他引:4  
在基于词形统计模型分词算法的基础上,通过以存词表结构的有效组织及改进词的匹配算法和切分算法,并以最佳路径法实现了一种快速的基于词形的分词算法,在保证了较高准确率的同时,大大提高了分词速度。  相似文献   

2.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

3.
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。  相似文献   

4.
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高.  相似文献   

5.
张香梅  徐立 《科技信息》2009,(28):95-96
本文对Lucene中文切词算法进行改进,提出将基于网络有向图的双向匹配分词算法应用于Lucene的中文切词器,提高了检索的准确性和检索性能。  相似文献   

6.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

7.
针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI~k和t-测试差对壮文文本分词,并结合两者在评价相邻单词间的静态结合能力和动态结合能力的各自优势,提出了一种MI~k和t-测试差相结合的TD-MIk混合算法对壮文文本分词,并对互信息改进算法MI~k、t-测试差、TD-MI~k混合算法三种方法的分词效果进行了比较.使用人民网壮文版上的文本集作为训练及测试语料进行了实验,结果表明:三种分词方法都能够较准确而有效地提取文本中的语义词,并且TD-MI~k混合算法的分词准确率最高.  相似文献   

8.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高.  相似文献   

9.
由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。  相似文献   

10.
对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.基于几何中的自然语言,结合正向减词最大匹配法,提出了适合几何语言的GMMM分词算法,并给出了算法的实现过程.  相似文献   

11.
语言中存在着大量与动物有关的词语——指称动物名称的词以及以之为基础衍生出的复合词和固定结构。一方面,动物词语形象鲜明、生动活泼,大大地丰富了词汇系统;另一方面,相关新词的衍生、内部词义的发展、词与词之间的聚合关系显示了词汇的系统性。因此,动物词语有重要的词汇研究价值。  相似文献   

12.
试析重庆方言的单音节语气词   总被引:2,自引:0,他引:2  
重庆方言中的单音节语气词 ,不仅字音、字形与普通话中的语气词不尽相同 ,而且好些语气词在普通话里找不到与之相对应的词。从举例中 ,可看出重庆方言中的单音节语气词的地方特色  相似文献   

13.
现代汉语中有些词是以修辞方式造出的,它们形象生动,在表达词汇概念意义的同时,更鲜明地表达出词汇的色彩意义,增强了语言的抒情性和表意性,能给人留下深刻印象,是汉字表意体系的很好体现。如何有效规范这些词在结构、语义、语用方面的问题,使它们更好地被人们理解、接受,是我们要深入研究的。同时,我们看到,修辞不仅是一种提高语言表达效果的手段,也是一种重要的造词方式,是与词汇系统的发展相适应的。  相似文献   

14.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

15.
本文对新词"晒"的产生和使用情况进行了全面的梳理,指出新词"晒"的广泛使用,已经使现代汉语中形成了一个以"晒"为共同特征的词族。新词"晒"的高频使用有其语义和结构上的基础,其中类推机制起到了十分重要的作用,同时我们对"晒"族词语使用中的优势和潜在的问题也作了详细说明。  相似文献   

16.
随着社会的发展和文明的进步,语言中最活跃的部分——词汇也反映出这一变化。英语和汉语中新造词、仿造词、外来词这三种构词方式由来已久,但在最近一段时间内出现一些新的趋势。本文拟从这三方面就汉英构词新趋势进行探讨。  相似文献   

17.
运用计量统计的方法,分析了<现代汉语词典>(1983年版)中2488条比喻义的释义特点及所反映的词义性质.概括出了六种释义类型,反映出两种不同性质的比喻义固定比喻义与语境比喻义.固定比喻义是指已经凝固为稳定词义成分的比喻义,已成为词典释义中的一部分.语境比喻义是指靠具体上下文来显示的比喻义,以例句的形式来体现.<现代汉语词典>对比喻义的处理方法在词汇学与词典学有着独到的贡献再现了词义形成、稳定的过程;扩大了规范语文词典反映语言事实的范围,加强了语文词典的"引导"功能;丰富了词典的编纂技巧,完善了语文词典的表现手段.  相似文献   

18.
本文对《报任安书》中的复音词进行定量与定性分析,按照构词方式对其进行分类和阐释,并与先秦复音词作比较,以期窥探汉代复音词的发展。  相似文献   

19.
从认知语言学的角度来看,词语没有固定不变的意义,语言知识源自语言运用。语言描写的并不是真实的世界,而是人们对真实世界的感知。在认知语言学的理论视域中,应该分析英语中实际使用的词项在语境中的意义。词义体现着百科性,在把握每一个词及词义时,人们往往会调动其所有相关的背景知识。每个词虽然都有其本义,但在实际的运用中,人们并非总是依据其本义去理解,而常常是按非字面意义或比喻意义去理解,这就表现为词义的延伸。  相似文献   

20.
《庄子》提出了一系列的范畴语言,使用了许多特定的单子来传达和界定哲学涵义和范畴,诸如,“游”、“天”、“忘”等,这些字在当时具有约定俗成的准确的哲学涵义,又具有极大的外延性,其中“游”是《庄子》书中出现最频繁而极为重要的一个哲学范畴。分析“游”的哲学涵义及其所呈现的生动的理论形态,认清“游”的哲学和美学意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号