首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
简要探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,并在用joone-editor建立的神经网络模型中加以实验。  相似文献   

2.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。  相似文献   

3.
基于最大概率分词算法的中文分词方法研究   总被引:1,自引:0,他引:1  
丁洁 《科技信息》2010,(21):I0075-I0075
本文提出了一种基于最大概率分词算法的中文分词方法,以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现,根据针对大规模真实语料库的对比测试,分词运行效率有较大提高,该方法是行之有效的,并且提出了该算法的改进方向。  相似文献   

4.
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。  相似文献   

5.
中文分词技术   总被引:3,自引:0,他引:3  
在现代化的社会,为了更好的利用计算机来处理以自然语言为载体的信息,让计算机能读懂人类的语言,只有计算机读懂了人类的语言,人和计算机的交流才成为可能,对于中文来讲,词是语言的最小单位,所以,汉语的文本分词是解决该问题的第一步,本文重要介绍了中文分词的必要性,以及中文分词的方法和存在的问题。  相似文献   

6.
将分词看成是一个对汉字进行分类的过程,然后利用条件随机场(CRFs)模型对每个汉字进行标记,最后转换为相应的分词结果.在现有CRFs模型的基础上,从字的构词能力角度出发,探索了字位置概率特征,提出了基于字位置概率特征的条件随机场中文分词方法.实验表明,字位置概率特征的引入,使得结果F1值提高了3.5%,达到94.5%.  相似文献   

7.
中文分词技术研究   总被引:1,自引:0,他引:1  
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。  相似文献   

8.
论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升.  相似文献   

9.
文章设计新的数据结构对网店商品的原始数据进行加工处理,形成一个存储所有商品信息的词条字典。结合全切分算法,实现对用户输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合。为了消除分词过程中的歧义和不合理的词条组合,系统结合商品类目树的存储结构,通过算法和引入权值计算的方法对词条组合进行排序,得到最佳结果。  相似文献   

10.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

11.
针对目前汉语分词系统中BP算法收敛速度慢等难题,本文将基于遗传的BP神经网络算法用于汉语分词模型,此模型结合了遗传算法和BP网络的优点.实验结果表明:该优化模型完全达到了汉语分词要求,并且在分词速度上也明显优于传统的BP神经网络,具有高精确性、收敛速度快等特点.  相似文献   

12.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

13.
给出了一种将基于统计与基于词典方法融合而成的混合中文分词方法,利用统计方法进行词典的动态扩展,克服了基于词典算法对"完全词典"的依赖;利用词典对统计的一些参数进行估计,避免了以往靠实验得到这些参数的不确定性,同时将RMM算法与统计算法结合起来.最后通过仿真说明该混合算法比传统的基于词典和基于统计的方法更有效.  相似文献   

14.
提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU(gated recurrent unit)的双向循环神经网络进行古文断句。在解码过程中,该算法不仅利用神经网络输出的概率分布,还进一步引入状态转移概率和长度惩罚,以便提高断句准确率。在大规模古籍语料上的实验结果表明,所提方法能够取得比传统方法更高的断句F1值。  相似文献   

15.
社区发现是社会网络分析的重要任务,有助于理解中观尺度的网络结构.现有的诸多社区发现方法仅考虑网络的拓扑信息,忽略了网络中每个节点所包含的属性信息.为此,本研究首先基于社会网络的拓扑结构信息与节点属性信息分别构建初始特征矩阵;然后基于网络嵌入模型,融合初始特征矩阵的主成分信息,构建共识嵌入矩阵;最后,给出社会网络中"领袖节点"的泛化定义形式,并提出一种改进的图聚类算法(LIK-means)挖掘社会网络中潜在的社区结构.实验表明,LIKmeans较其他经典算法有较好的可扩展性,同时在真实社会网络中的社区识别精度更高.  相似文献   

16.
汉语分词中一种逐词匹配算法的研究   总被引:1,自引:0,他引:1  
提出了一种改进的运词匹配算法.该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高.在5万汉字语料开放测试中,交集型歧义字鼹切分正确率可达98%以上.  相似文献   

17.
提出一种基于神经网络模型的脆弱水印嵌入算法。脆弱水印提取不需要原始图像。实验结果表明,算法除可以鉴别图像是否被篡改外,还可以报告图像在空间域中被篡改的位置。  相似文献   

18.
汉语自动分词中的神经网络技术研究   总被引:5,自引:0,他引:5  
本文讨论了人工神经网络技术应用于汉语自动分词的映射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,对其性能进行评价。  相似文献   

19.
基于双数组Trie树中文分词研究   总被引:1,自引:0,他引:1  
对双数组Trie树(Double—ArrayTrie)分词算法进行了优化:在采用Trie树构造双数组Trie树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列;将冲突的结点放入Hash表中,不需要重新分配结点.然后,利用这些方法构造了一个中文分词系统,并与其他几种分词方法进行对比,结果表明,优化后的双数组Trie树插入速度和空间利用率得到了很大提高,且分词查询效率也得到了提高.  相似文献   

20.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号