首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档.  相似文献   

2.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

3.
根据图层定义,提出了针对可缩放矢量图形(SVG)格式地图的模糊查询模型.通过构建模糊查询词库来储存模糊查询相关词和模糊查询匹配模式.在此基础上,提出了分词子算法,将查询语句分解为词串.据此给出了语义分析子算法,将分词子算法产生的词串转化成模糊查询匹配模式,并与SVG格式地图相关层(一层或多层)中的元素关联以实现模糊查询.最后实验验证证明了该模型的有效性.  相似文献   

4.
文档格式标准OOXML(Office Open XML)通过了国际的投票成为了文档格式的国际标准,而我国在这里却投上了反对的一票,这其中的道理值得我们琢磨与思考,XML技术在国际上已经相当成熟,并且拥有自己的很多国际标准.本文就试图通过这次事件来分析文档格式标准之争的内在含义及其对我国XBRL发展的影响思考.  相似文献   

5.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台.  相似文献   

6.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

7.
微软Word 2007相对于Word 2003,在文件格式、用户界面和功能等几乎各个方面都有了很大的变化.最引人注意的是用户界面(尤其是Ribbon的新界面)和相关功能的改变,使得Word 2007成为一个更图形化、图像化的软件.Word 2007中的文档格式后缀由Word 2003中的.dot转化为现在的.docx..doex并不和.dot兼容,Word 2003的用户不得不下载升级补丁才能浏览.docx的文件.Word 2007还关注互联网的发展,为博客的写作提供了非常方便的工具和功能.学术研究者和专业文件处理者(比如法律工作者等)会发现很多有用的功能和工具.但是对于已经完全习惯传统Word软件的只是处理些简单文档的一般用户,word 2007的全新的用户界面和文档格式可能会使得他们有些速惘并且不得不重新学习新的用户界面. 件.Word 2007中的文档格式后缀由Word 2003中的.dot转化为现在的.docx..doex并不和.dot兼容,Word 2003的用户不得不下载升级补丁才能浏览.docx的文件.Word 2007还关注互联网的发展,为博客的写作提供了非常方便的工具和功能.学术研究者和专业 件处理者(比如法律工作者等)会发现很多有用的功能和工具.但是对于已经完全习惯传统Word软件的只是处理些简单文档的一般用户,word 2007的全新的用户界面和文档格式可能会使得他们有些迷惘并且不得不重新  相似文献   

8.
分析以往流式文档和固定版式文档一体化处理方法的局限, 提出一种可逆转换方法, 即将文档的转换信息记录于目标文档中, 以便用于源文档的重构。论述了可逆转换的原理、关键技术、实验结果以及技术优势。选择标文通(UOF)作为流式文档格式, CEBX作为固定版式文档格式, 利用该方法成功地实现标文通文档到CEBX文档的可逆转换, 实验结果表明, 该方法取得较好的效果。  相似文献   

9.
使用电脑撰写制作各种文件、报表,是每一个电脑使用者最常用的功能,而面对各种不同格式的文档,使用不同的软件进行操作也是大家习以为常的事.Word有自己的文档格式和操作方法,Excel有自己的文档格式和操作方法,AutoCAD也有自己的格式的操作方法,还有PDF、HTML等数百种文档格式,每种文档格式都被一种软件所垄断,甚至连同一个公司同一个软件包的软件都不能实现互操作,如Word就不能打开Excel的文件.……  相似文献   

10.
不同的用户有不同的兴趣指向,个性化推荐的核心在于如何提高推荐命中率.以新闻文档内容特征为基础,用ICTCLAS完成分词和频数统计,建立基于内容的新闻文档模型和动态的用户兴趣模型,实现新闻文档的比较、分类和个性化推荐,并用SSHA框架技术对系统进行设计.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号