排序方式: 共有32条查询结果,搜索用时 31 毫秒
1.
Lucene 是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了 Lucene 的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。 相似文献
2.
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性. 相似文献
3.
4.
搜索引擎用短语词典能够有效地改善和提高信息检索的性能,"V+N1+N2"型结构是一种常见汉语短语结构.本文基于搜狗语料,分别从各组成要素特点、语义特征以及句法功能,对"V+N1+N2"型动词短语和名词短语进行统计分析和相关数据处理.针对不同语义关系,在不改变原语义的条件下,提出了相应的转换模式,为搜索引擎用短语词典的构建提供了理论支撑. 相似文献
5.
基于同义词词林的中文文本主题词提取 总被引:3,自引:0,他引:3
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本 相似文献
6.
用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n^2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n^2)的子串归并算法,并用数学方法证明其与O(n^2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理. 相似文献
7.
针对汉语并列关系的标注方式,提出一种基于条件随机场模型的并列关系自动识别方法.从语料库中自动抽取并列关系的角色信息,进行角色标注,在条件随机场模型的基础上实现并列关系的识别.与基于图的依存分析方法比较,并列关系的召回率和正确率分别提高了9.1%和13.8%. 相似文献
8.
台阶问题及其等价命题 总被引:2,自引:0,他引:2
用递归的方法给出一般台阶问题的通解,并指出了它的几个等价命题,同时对菲波那契数列做了合理扩张。 相似文献
9.
基于统计的汉英法律文献亚句子级对齐 总被引:2,自引:0,他引:2
基于统计的句子对齐是根据双语句子的长度在所有可能的对齐中找出概率最大的一个·提出两种对齐汉英语料的参数计算方法,使对齐模型中的评价函数满足标准正态分布·参数s2的值是对训练语料中的所有点(l1,(l2-cl1)2)进行线性回归分析所得直线的斜率,s2的另一种求法是直接计算方差·实验结果表明汉英法律文献亚句子级对齐的正确率为98 8%,召回率为99 2%· 相似文献
10.
基于连接文法的双语E-Chunk获取方法 总被引:2,自引:0,他引:2
提出了一种面向机器翻译领域的扩展Chunk概念·EChunk是在Chunk概念基础上基于语义惟一性的一种扩展形式,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语EChunk的识别技术和双语EChunk获取方法·双语EChunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持· 相似文献