共查询到19条相似文献,搜索用时 62 毫秒
1.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文... 相似文献
2.
3.
4.
一种高效的个性化中文分词词典 总被引:1,自引:0,他引:1
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率. 相似文献
5.
6.
7.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率. 相似文献
8.
9.
中文分词技术是一项在搜索引擎中广泛应用的关键技术,也是中文信息处理中的一项关键技术。文章通过对中文分词系统中预处理模块的改进提高了分词的速度,改进了分词系统。 相似文献
10.
中文自动分词不仅是中文信息处理的基础性工作而且对后续句法分析、语义分析等中文信息处理流程有着很大的影响。本文基于最小费用最大流,提出一个具有拓展性的中文分词算法模型,实验证明了本算法能够准确地对输入文字串进行切分。 相似文献
11.
对于基于词的搜索引擎等中文处理系统,分词速度要求较高。设计了一种高效的中文电子词表的数据结构,它支持首字和词的Hash查找。提出了一种Hash高速分词算法,理论分析表明,其平均匹配次数低于1.08,优于目前的同类算法。 相似文献
12.
汉语分词中一种逐词匹配算法的研究 总被引:1,自引:0,他引:1
提出了一种改进的运词匹配算法.该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高.在5万汉字语料开放测试中,交集型歧义字鼹切分正确率可达98%以上. 相似文献
13.
一种用于自动标引系统的主题词自动切分方法 总被引:2,自引:0,他引:2
该文着重介绍一种知识指导下的主题词自动切分方法,该方法能灵活处理自然主题词、大幅度跳跃及关联词的切分问题,其字面切分精度达99.33%,综合切分精度达98.91%。 相似文献
14.
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。 相似文献
15.
一种改进的基于PATRICIA树的汉语自动分词词典机制 总被引:3,自引:0,他引:3
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIA tree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度. 相似文献
16.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升. 相似文献
17.
18.
针对目前汉语分词系统中BP算法收敛速度慢等难题,本文将基于遗传的BP神经网络算法用于汉语分词模型,此模型结合了遗传算法和BP网络的优点.实验结果表明:该优化模型完全达到了汉语分词要求,并且在分词速度上也明显优于传统的BP神经网络,具有高精确性、收敛速度快等特点. 相似文献
19.
提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估价值,将分词问题转换为决策树求最优解问题,采用动态规划选取最优路径,从而确保切分结果的整体估价值最优. 相似文献