排序方式: 共有32条查询结果,搜索用时 15 毫秒
1.
Lucene 是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了 Lucene 的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。 相似文献
2.
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性. 相似文献
3.
4.
针对汉语并列关系的标注方式,提出一种基于条件随机场模型的并列关系自动识别方法.从语料库中自动抽取并列关系的角色信息,进行角色标注,在条件随机场模型的基础上实现并列关系的识别.与基于图的依存分析方法比较,并列关系的召回率和正确率分别提高了9.1%和13.8%. 相似文献
5.
搜索引擎用短语词典能够有效地改善和提高信息检索的性能,"V+N1+N2"型结构是一种常见汉语短语结构.本文基于搜狗语料,分别从各组成要素特点、语义特征以及句法功能,对"V+N1+N2"型动词短语和名词短语进行统计分析和相关数据处理.针对不同语义关系,在不改变原语义的条件下,提出了相应的转换模式,为搜索引擎用短语词典的构建提供了理论支撑. 相似文献
6.
基于同义词词林的中文文本主题词提取 总被引:3,自引:0,他引:3
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本 相似文献
7.
用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n^2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n^2)的子串归并算法,并用数学方法证明其与O(n^2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理. 相似文献
8.
针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。 相似文献
9.
台阶问题及其等价命题 总被引:2,自引:0,他引:2
用递归的方法给出一般台阶问题的通解,并指出了它的几个等价命题,同时对菲波那契数列做了合理扩张。 相似文献
10.
针对汉语句际关系中分布最广泛的并列复句,提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算,使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法,在广义并列关系上进行评测。最后将其中3种方法进行集成,并取得了较为理想的效果。 相似文献