首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
本文根据彝文自身的特点,从分词词表、分词算法、设计原则、结构流程、系统界面和功能、实验结果等6个方面详细分析了彝文自动分词系统的实现过程及自动分词过程实例;最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性,对彝文自动分词技术的研究做了一次尝试性探索。  相似文献   

2.
自动分词是彝文信息处理领域的一项基础性课题.词类的划分标准是正确切分词乃至以后的词性标注、文字识别、文本校对、机器翻译、篇章理解、自动文摘、文本校对、自动标引等彝文信息处理研究的必要条件.本文首先首先阐述了研究彝文分词规范的必要性和重要意义; 然后提出了彝文分词规范的基本原则; 讨论了研制彝文分词规范中存在的一些问题.  相似文献   

3.
彝语词法分析是计算机彝文信息处理中一项不可缺少的基础性工作,计算机彝文信息处理只要涉及到信息检索、机器翻译、语法分析、语义分析等方面的应用,就都需要以词为基本的处理单位.简要介绍了彝语语法结构,信息处理用彝语分词的主要任务,提出一种基于层叠隐马尔科夫模型的彝语词法分析方法.  相似文献   

4.
词、格助词、藏文信息和分词单位等概念是藏文分词过程中必须提及的几个专业术语。文章依据《咨询用中文信息处理分词规范》、《中文信息处理分词之基本词表》、《信息处理用现代汉语分词规范》和《分词词表》等地区和国家标准,结合藏文传统语法典籍和汉语语义分类体系,对这几个概念进行了论述。  相似文献   

5.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

6.
对彝文计算机操作系统的研制技术从彝文的编码输入、彝文的显示、彝文的打印输出等进行了系统的阐述.彝文信息处理的特点和要求是:①具备英文计算机系统原有的全部功能.②要在计算机系统中能保留汉字信息处理的全部功能.⑦要在计算机系统中能够输入和输出彝文信息.④要解决信息量较大的彝文字形在系统内的存储问题.⑤在系统技术上,要解决彝文与汉字、英文信息的兼容问题.要求系统同时能处理英文、汉字和彝文混合的信息流.⑥彝文信息处理系统的技术必须走和国际标准兼容的道路,已便彝文信息处理能共享世界上丰富多彩的计算机硬件和软件资源.  相似文献   

7.
1989年,北京、云南、四川、贵州、广西等省、市、自治区的有关领导、权威专家云集西昌,一致通过了1980年国务院批准实施的规范彝文作为我国彝文信息处理标准,1992年,国家技术监督局颁布实施了多项规范彝文信息处理国家标准,从而使彝文信息处理工作得到了顺利发展。1998年,在滇、川、黔、桂四省(区)彝族古籍整理协作会第六次会议上,来自四省区和北京的权威及有关领导云集成都,一致通过了“将国务院批准的四川规范彝文作为我国彝族统一文字的会议纪要”。至此,计算机彝文信息处理事业得到了迅速发展。YWBDDOS北大方正彝文激光照排系统、YWPS彝文系统、YWWIN2000彝文系统、YW彝文字幕系统等计算机彝文系统相继问世,并获得了省部级的各种奖励。古老的彝文,正向着世界、向着信息化、现代化、网络化、趄着五彩缤纷的信息时代大步迈进。  相似文献   

8.
1989年,北京、云南、四川、贵州、广西等省、市、自治区的有关领导、权威专家云集西昌,一致通过了1980年国务院批准实施的规范彝文作为我国彝文信息处理标准,1992年,国家技术监督局颁布实施了多项规范彝文信息处理国家标准,从而使彝文信息处理工作得到了顺利发展.1998年,在滇、川、黔、桂四省(区)彝族古籍整理协作会第六次会议上,来自四省区和北京的权威专家及有关领导云集成都,一致通过了"将国务院批准的四川规范彝文作为我国彝族统一文字的会议纪要".至此,计算机彝文信息处理事业得到了迅猛发展.YWBDDOS北大方正彝文激光照排系统、YWPS彝文系统、YWWIN2000彝文系统、YW彝文字幕系统等计算机彝文系统相继问世,并获得了省部级的各种奖励.古老的彝文,正向着世界、向着信息化、现代化、网络化、朝着五彩缤纷的信息时代大步迈进.  相似文献   

9.
分词是汉语文献处理的第一步.目前,在多种分词算法中正向最大匹配算法最为简洁、易于实现、日常应用也最为广泛.我们主要运用理论知识剖析算法中的优缺点,着重研究这种分词算法切分词语的速度,并进一步优化和改进这种分词算法,提出可行性改进方案,最终提高算法切分词语的效率和准确率.高校精品课程的知识管理可以尝试采用基于词表的最大匹配法进行分词,可建立有关词表.在此基础上,可提出一套高校精品课程知识管理的标引方法.  相似文献   

10.
利用计算机编程语言和XML数据处理技术来实现YiWin彝文到方正unicode彝文的转换,可以很方便地将YiWin彝文转换并升级为符合国际标准的彝文字符.同时文中涉及到的开发思路和原理对其他民族文字信息处理中的类似问题也提供了一个可参考的解决方案,具有一定的借鉴作用.  相似文献   

11.
随着互联网和彝文信息化的快速发展,彝文网络上充斥着大量的敏感信息,极大的影响了我国边疆的舆情信息安全.但彝文信息技术的发展与中英文相比还比较滞后,因彝文语言结构复杂、彝语分布环境广泛等原因,彝文的信息采集和文本分词等技术还不够成熟,这对涉外彝文网页的敏感内容监管带来巨大的挑战.为解决彝文网络信息的安全传播和舆情稳定,试图提出彝文敏感内容分级模型,并结合自研的彝文爬虫及分词等技术.构建一种面向彝文网页的敏感内容分级的算法模型和演示系统,相比于同类的民族语言舆情分析系统,不仅可实现敏感词的识别和过滤,还具有敏感内容分级、敏感源地址追踪等功能.通过人工评测与分析,该系统对敏感内容的分级可达到48%的准确率,敏感词的识别率为80%.  相似文献   

12.
阐述了中文信息处理技术在几何作图等动态几何领域内的应用现状。鉴于几何语言其本身相较于一般自然语言的特点,介绍了利用中文分词技术及其他自然语言处理技术来实现基于自然语言输入的动态几何作图的方法,主要包括GMMM算法和基于"分词词典"的分词方法及建立同义词库、使用语模匹配和语模词典等方法来形式化和规则化几何命题等内容,并提出在该领域的研究展望。  相似文献   

13.
探讨汉语彝语机器翻译的方法与实现.阐述了课题研究的背景和意义,给出了技术实施中的时态转换的匹配规则,汉彝句型转换的翻译初步实践、汉语句子单词切分时的边界处理算法.从而实现对源语言汉语单词的切分检索,通过算法对语句进行调序,再结合彝族特定的语法、句型结构,最终生成目标语言彝语.即采用适合汉彝语法的句法结构转换再增减恰当的词汇来构成符合源语句语义信息的目标语句,从而达到汉彝机器翻译的基本层次.  相似文献   

14.
中文分词技术研究   总被引:1,自引:0,他引:1  
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。  相似文献   

15.
方莹 《科技信息》2008,(18):49-50
关键字的上下文环境是自然语言处理的基础知识,其自动抽取是很多研究的基础和关键。本文主要研究了从百度搜索页面中提取出搜索关键字的文本信息,并将这些文本信息进行分词处理,最后基于去重算法将词语上下文去重的方法。算法的关键过程包括关键字的环境提取、文本分词和提取到的信息的入库三部分。  相似文献   

16.
一种改进的增字最大匹配算法   总被引:1,自引:0,他引:1  
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。介绍了目前几种常用的自动分词算法,在对各种分词算法进行研究的基础上,对现有的增字最大匹配法进行了进一步的改进,更加充分的体现了最大匹配法中的“长词优先”的原则,使分词系统在自动分词阶段有比目前的增字最大匹配法更好的效果。  相似文献   

17.
一种不需分词的中文文本分类方法   总被引:2,自引:1,他引:1  
提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%.  相似文献   

18.
采用面向对象的编程工具和数据库技术,使用改进的机械分词方法,开发了适合教学方面的中文索引和检索服务系统(课程词典)。系统负责搜索和获取指定范围内的有关数据。对检索服务系统的工作原理和关键技术进行了讨论和分析。该系统基于"自然语言理解"的智能检索,背景为对教学方面信息检索系统的设计与开发。系统中,无论是对用户提问的分析,还是对所检索的信息都是以汉语自动分词为基础加工处理,因而将汉字串切分为汉词串的分词问题即为该系统研发的前提和关键。  相似文献   

19.
一种基于语词的分词方法   总被引:10,自引:0,他引:10  
提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号