排序方式: 共有80条查询结果,搜索用时 15 毫秒
61.
周云 《大众科学.科学研究与实践》2007,(4)
实现了中文单字切分模块,并在Lucene API基础上建立支持中英文混合检索的全文数据库。在电子文献全文检索系统项目中作为全文检索工具。中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。 相似文献
62.
针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。 相似文献
63.
基于隐Markov模型的汉语词类自动标注的实验研究 总被引:3,自引:0,他引:3
汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。 相似文献
64.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果. 相似文献
65.
陈晓霞 《浙江科技学院学报》2012,(1):30-34
阐述了中文信息处理技术在几何作图等动态几何领域内的应用现状。鉴于几何语言其本身相较于一般自然语言的特点,介绍了利用中文分词技术及其他自然语言处理技术来实现基于自然语言输入的动态几何作图的方法,主要包括GMMM算法和基于"分词词典"的分词方法及建立同义词库、使用语模匹配和语模词典等方法来形式化和规则化几何命题等内容,并提出在该领域的研究展望。 相似文献
66.
67.
汉语计算语义理论及其原则 总被引:3,自引:0,他引:3
介绍了一些汉语计算语义理论相关的知识和研究成果,谈到了目前面临的问题,最后提出了汉语计算语义理论研究的目标、原则与思路,以作为解决问题的对策. 相似文献
68.
对动词构词规律的探讨 总被引:2,自引:0,他引:2
从中文信息处理的角度探讨了动词类义抽象后的构词规律问题。动词构词规律的科学归纳 ,对于中文信息处理具有重要作用 相似文献
69.
70.
汉语自动分词中的神经网络技术研究 总被引:5,自引:0,他引:5
本文讨论了人工神经网络技术应用于汉语自动分词的映射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,对其性能进行评价。 相似文献