期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

戴洪蒋静樊程于雪丽《青岛大学学报(自然科学版)》2011,(3):53-58

由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。相似文献

2.

基于双字词的动态最大匹配分词算法的研究

宋国柱陈俊杰《太原科技大学学报》2009,30(3)

通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高. 相似文献

3.

基于Lucene的全文检索系统模型的研究和开发

朱岸青黄杰《暨南大学学报(自然科学与医学版)》2009,30(5)

设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档. 相似文献

4.

改进的SNM中文语义重复记录检测算法

袁满穆永豪王贵友于再富《吉林大学学报(信息科学版)》2021,39(3):348-356

为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高. 相似文献

5.

基于最大匹配的中文分词改进算法研究

赵源《科技信息》2010,(35):58-58,49

本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。相似文献

6.

Nutch-0.9中JE中文分词的实现 总被引：1，自引：0，他引：1

蔡小艳寇应展沈巍郑伟《科学技术与工程》2008,8(17)

Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。相似文献

7.

基于领域词典的动态规划分词算法

蒋卫丽陈振华邵党国马磊相艳郑娜余正涛《南京理工大学学报(自然科学版)》2019,(1)

由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。相似文献

8.

基于专业词典的带词长的中文分词技术的研究

刘勇王崇《科技信息》2012,(34):188-189

中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。相似文献

9.

lucene中文切词算法的改进

张香梅徐立《科技信息》2009,(28):95-96

本文对Lucene中文切词算法进行改进，提出将基于网络有向图的双向匹配分词算法应用于Lucene的中文切词器，提高了检索的准确性和检索性能。相似文献

10.

基于最大熵算法的全文检索研究

下载免费PDF全文

张立岩吕玲王井阳《河北科技大学学报》2009,30(2):112-115

全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。相似文献

11.

一种Hash高速分词算法 总被引：7，自引：2，他引：7

李向阳张亚非《解放军理工大学学报(自然科学版)》2004,5(2):40-44

对于基于词的搜索引擎等中文处理系统，分词速度要求较高。设计了一种高效的中文电子词表的数据结构，它支持首字和词的Hash查找。提出了一种Hash高速分词算法，理论分析表明，其平均匹配次数低于1．08，优于目前的同类算法。相似文献

12.

支持多语言的自然语言倒序分词最大成词算法

王智慧姜建国张秋亮《科学技术与工程》2007,7(17):4311-4315

提出一种支持多语言的分词算法,该算法可以按照以下层次来理解：首先,对不同编码的源词库文件编码转换,生成Unicode编码的源词库文件;然后,用Unicode编码的词库文件生成Unicode词库索引;最后,将待分词的自然语句转换成Unicode编码的语句并按照索引倒序分词。该算法已经用C＋＋语言实现,基于此算法实现的分析系统能够自动探测词库的更新并确定是否需要更新索引,能够支持多种编码方式,其编码转换和分词代码与平台无关,分词效率在9MB/s以上,正确率在90%以上。相似文献

13.

A New Word Detection Method for Chinese Based on Local Context Information

曾华琳周昌乐郑旭玲《东华大学学报(英文版)》2010,27(2):189-192

Finding out out-of-vocabulary words is an urgent and difficult task in Chinese words segmentation. To avoid the defect causing by offline training in the traditional method, the paper ptoposes an improved prediction by partical match (PPM) segmenting algorithm for Chinese words based on extracting local context information, which adds the context information of the testing text into the local PPM statistical model so as to guide the detection of new words. The algorithm focuses on the process of online segmentation and new word detection which achieves a good effect in the close or opening test, and outperforms some well-known Chinese segmentation system to a certain extent. 相似文献

14.

一种基于中文分词的主观题自动评分优化算法研究

胡恩博余腊生《长沙大学学报》2014,(5):59-61

论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升. 相似文献

15.

基于组合型中文分词技术的改进

梁胜成卫青《南京邮电大学学报(自然科学版)》2013,(6):112-117

在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率. 相似文献

16.

基于多类特征池化的文本分类算法 总被引：2，自引：0，他引：2

阳馨蒋伟刘晓玲《四川大学学报(自然科学版)》2017,54(2):287-292

文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。相似文献

17.

高性能FTP搜索引擎的设计

方冰张一中《南京邮电大学学报(自然科学版)》2007,27(3):67-70,75

FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术.使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型系统.压力测试结果表明此FTP搜索引擎具有很高的性能. 相似文献

18.

一种改进的手写汉字文本切分算法

明德烈柳健胡家忠李海涛《华中科技大学学报(自然科学版)》2000,28(2):87-89

在分析传统手写汉字文本切分算法利弊的基础上 ,提出了一种改进的基于快速连通域提取的切分算法 ,算法具有很强的抗干扰能力 ,有效解决了小角度歪斜图像和笔画粘连字符的汉字切分问题 .同时给出了具体的实现方法相似文献