首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
本文在统一的分词模型──分词图的基础上,提出了一种汉语音节全分词法,它可以给出在分词词典约束下所有可能的分词结果,为高层的句法、语义分析提供了多个候选结果,避免了在某种具体准则下丢失分词结果的困难,因此适用面比较广.  相似文献   

2.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

3.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

4.
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制.  相似文献   

5.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

6.
面向专利文献的汉语分词技术研究   总被引:2,自引:0,他引:2  
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。  相似文献   

7.
许华 《科技咨询导报》2010,(20):230-230
中文分词技术是中文信息处理的关键,开发设计中文分词系统需要选择合适的平台构造分词词典,处理分词方法。本文是利用VC++6.0作为开发工具,介绍系统设计之初词典的构造与加载的方法。  相似文献   

8.
罗洋 《科技信息》2009,(7):204-204,242
在中文信息处理中,汉语的自动分词是一个难点。本文对汉语自动分词的方法及已有的词典机制进行了探讨。  相似文献   

9.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

10.
一种改进的基于PATRICIA树的汉语自动分词词典机制   总被引:3,自引:0,他引:3  
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIA tree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度.  相似文献   

11.
基于互信息的宋史语料库词表的提取   总被引:2,自引:0,他引:2  
基于统计语言模型,对《续资治通鉴长编》进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.  相似文献   

12.
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性.  相似文献   

13.
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。  相似文献   

14.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

15.
提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律词预测方法.实验结果表明,所提出的方法在测试集上能够达到97.5%的预测精度.  相似文献   

16.
文字识别作为模式识别的一个重要方面,其研究获得广泛重视。本文基于粗集理论的观点,把文字识别问题看作是模式识别中简化知识表达与信息分类处理问题,提出一种新的文字识别方法,这不仅对模式识别中如何提取有用特征是一种新的探索,而且对简化信息处理也是一种新的方法。本文介绍了基于粗集理论的文字知识表达的方法,探讨了模式识别中的特征提取及最小决策算法,并给出一个文字识别的例子来说明这种有效的方法。  相似文献   

17.
基于语境计算模型的汉语词义消歧   总被引:1,自引:1,他引:1  
提出利用相对词频(Relative Word Frequency,RWF)来评估词语之间搭配强度。基于相对词频,提出语境计算模型,用于对汉语文本词义进行消歧。选择3个常用多义词进行试验,结果验证了该方法的有效性。  相似文献   

18.
一种新的词语相似度计算方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种新的词语相似度计算方法.该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度.实验结果验证了该方法的有效性.  相似文献   

19.
提出了一种新的词语相似度计算方法。该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度。实验结果验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号