首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高.  相似文献   

2.
应用“层次分析法”优化汉语盲文分词连写规则   总被引:1,自引:0,他引:1  
应用现有的分词连写规则书写汉语普通话盲文,会因人因时而得到不同的分词结果.为减少这种分词的不确定性,提出了应用“层次分析法”优化分词规则的方案.首先论述了普通话盲文的“结构分层”理论,继而给出了优化分词连写规则的总体原则、思路和优势,在详细介绍层次分析法基础理论后给出了应用层次分析法分词的原则,并列举有代表性的11个实例进行分析.改进的分词策略,不仅简化了分词规则、在很大程度上减少了盲文分词的不确定性,简单易用.  相似文献   

3.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

4.
由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。  相似文献   

5.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

6.
刘勇  范丽辉 《科技信息》2012,(8):264-265
中文分词技术是一项在搜索引擎中广泛应用的关键技术,也是中文信息处理中的一项关键技术。文章通过对中文分词系统中预处理模块的改进提高了分词的速度,改进了分词系统。  相似文献   

7.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

8.
应用现有的分词连写规则书写汉语普通话盲文,会因人因时而得到不同的分词结果。为减少这种分词的不确定性,提出了应用“层次分析法”优化分词规则的方案。首先论述了普通话盲文的“结构分层”理论,继而给出了优化分词连写规则的总体原则、思路和优势,在详细介绍层次分析法基础理论后给出了应用层次分析法分词的原则,并列举有代表性的11个实例进行分析。改进的分词策略,不仅简化了分词规则、在很大程度上减少了盲文分词的不确定性,简单易用。  相似文献   

9.
基于优化最大匹配与统计结合的汉语分词方法   总被引:1,自引:0,他引:1  
汉语自动分词足中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题.基于训典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频汁算耗费时间.本文提出优化最大匹配与统汁结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略.然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率.最后,基十分词算法实现中义分词系统,并通过实验对算法进行了分析和验证.  相似文献   

10.
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.  相似文献   

11.
汉字字模的自动提取和重建算法   总被引:1,自引:0,他引:1  
在讨论从图像中自动提取汉字字模的同时给出了短量化存储和无级放缩字模的算法。这些算法已编程实现,效果较为理想。  相似文献   

12.
本文介绍了一种汉字拼音首字符识别的原理和在VisualBasic中的具体实现 ,并阐述了该方法在信息系统中方便用户查询的应用。  相似文献   

13.
江泽民根据冷战后国际政治和中国国际环境的深刻变化,提出了正确认识和把握世界多极化和经济全球化趋势,建立公正合理和国际政治经济新秩序,促进国际关系民主化,尊重多样性促进不同文明共存,建立新的国际安全观等一系列外交思想。这是对邓小平外交思想的继承与发展,在实践中对中国外交产生了广泛而深远的影响。  相似文献   

14.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

15.
区别于传统基于图像和西文文档的公式定位方法, 针对中文电子文档的特点, 提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则; 选择适合中文文档的公式特征和机器学习算法; 针对公式定位中的过分割问题, 提出行合并与词块合并等后处理手段。实验结果表明, 该方法可以有效地从中文电子文档中自动定位公式区域。此外, 构建了公开可用的中文数据集, 以促进不同数学公式定位方法间的相互比较及性能评估。  相似文献   

16.
篇章级句间关系分析包括语义单元的切分和各个单元之间的语义关系识别.已有的研究主要面向英文,到目前为止,尚无可用的中文篇章级句间关系自动分析系统发布.在中文篇章关系语料库的基础上,首次实现面向中文的篇章级句间关系自动分析系统,包括语义单元切分、连词识别、显式语义关系识别以及隐式语义关系识别等.实验结果显示:该系统在显式句间关系识别上F-score为89.8;,隐式句间关系识别上F-score为55.5;.  相似文献   

17.
就汉语语言的特点,对中文口语自动问答系统中用户问句的处理方法作了系统的分析.提出了口语问句规范化处理的方法,使得系统能够对口语表达形式多样(甚至病句),但语义相同的问句可以采用相同的分析算法.同时此法所得出的规范化问句将反馈给用户,用于用户确认,实现了人机交互.规范化问句通过主题词的方法,确定搜索的知识源,明确和缩小了搜索范围,减少了对无用信息的搜索.  相似文献   

18.
目的在界定理想人居环境基础上,延伸到理想的生物憩息地景观。方法以鄂西神农架国家级自然保护区大龙潭风景区为例,改进并应用旅游地形象理论。结果从形象识别、感官识别、主体识别和产品识别4个方面构建了理想的生物憩息地景观识别系统。结论科学理论与旅游规划的结合,是实现理想生物憩息地景观的必由之路。理想生物憩息地景观评价与优化问题,有待进一步研究,计量方法的应用,测评体系的建立应为今后的研究方向。  相似文献   

19.
This paper describes an identification system for Chinese Materia Medicas (CMMs) in microscopic powder images.The imaging processing of the microscopic powder image is very complex because of the low contrast,blurry boundaries,overlapping objects,and messy background.Therefore,the object detection must segment the significant microscopic structures from the complex image.The objects are detected in these images using an adaptable interactive method.After identifying the significant microscopic structures,the system identifies 14 features belonging to three main characteristics.These features form a 14-dimensional vector that represents the microscopic structures.The multi-dimensional vector is then analyzed using a feature assignment algorithm that picks the most notable features to construct a decision tree with thresholds.The identification system consists of a coarse classifier based on the decision tree and a fine classifier using similarity measurements to rank the possible results.Tests on 528 images from 24 different kinds of microscopic structures show the system effectiveness and applicability.  相似文献   

20.
针对全反射棱镜式激光陀螺腔长控制系统的特殊性及其模型参数辨识的必要性,给出TRP激光陀螺温度控制系统的数学模型,并基于最小二乘法从理论上分析推导出3种新型参数辨识法:直接辨识算法、辅助变量法和递推算法。指出3种参数辨识法各自的优缺点及适用场合,并用具体实例证明了该辨识算法的正确性和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号