首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
为了解决分布式哈希表(DHT)不支持模糊匹配和查找延迟长等问题,提出使用改进的超立方体互连圈结构建立逻辑的关键字搜索层.对于给定的文档和描述该文档的关键字集合,使用反向文档索引(IDF)技术选择文档的重要关键字,并映射到环标号,将描述文档的关键字集映射到立方体标号,有效地提取了关键字对于文档的重要性信息,并通过构造生成树来实施搜索操作.实验结果表明,与使用超立方体结构作为关键字搜索层的算法相比,该算法在查询关键字较少时,具有更好的性能.  相似文献   

2.
讨论了基于XML文档的关键字查询技术,根据XML文档结构的特点,结合关键字查询的需求,提出查询文档中主题的概念;建立XML文档的主题索引,设计出基于主题的高效查询算法.该算法依据主题索引和输入的关键字判断用户的查询主题,再根据主题执行获取最终查询的结果.在查询过程中不仅排除了查询主题不相关的关键字节点,同时也避免生成不相关的查询结果,提高了查询效率和质量.实验结果证明了该算法在绝大多数情况下的高效性.  相似文献   

3.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

4.
方莹 《科技信息》2008,(18):49-50
关键字的上下文环境是自然语言处理的基础知识,其自动抽取是很多研究的基础和关键。本文主要研究了从百度搜索页面中提取出搜索关键字的文本信息,并将这些文本信息进行分词处理,最后基于去重算法将词语上下文去重的方法。算法的关键过程包括关键字的环境提取、文本分词和提取到的信息的入库三部分。  相似文献   

5.
为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息.  相似文献   

6.
基于视觉单词树的快速图像检索   总被引:1,自引:0,他引:1  
建立了一种分层的视觉字典树.首先提取图像特征,定义树的分支因子k和层数L,采用分层聚类算法进行逐层聚类,生成树型结构的视觉单词本,并对每个树节点计算逆向文档频率作为权值,定义得分准则进行图像的相似度匹配.新的视觉单词树由于建立了分层结构,较之传统平面结构的视觉单词本具有计算负荷小、单词个数不受约束、搜索速度快等优越性.在Caltech-101图像库的检索实验中验证了本文算法的快速性和高效性.  相似文献   

7.
针对XML文档半结构化的特点及传统tf\|idf方法仅考虑关键字在文档中出现的频率, 而未考虑XML文档中节点的语义信息问题, 利用向量空间模型, 设计一种基于XML关键字查询结果的相关度排序策略. 相关度计算充分考虑XML文档中各节点对文档的区分程度、 节点描述文档的明确程度及节点描述文档的直接程度, 以提高节点权重度量的准确性, 从而将最相关的信息提供给用户, 经DBLP数据集实验验证了该方法的有效性.  相似文献   

8.
对缅甸文字进行文本挖掘,提出一种新的缅甸文字单字分割算法和词干提取算法.在向量空间模型下,使用Okapi相似度评测方法,评测缅甸文字文档与查询关键字之间的相关性,实现一个基于以上算法的缅甸文字文献检索系统.实验结果证明:所提出来的算法能够快速、有效地挖掘Web上的Html文档.  相似文献   

9.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

10.
复杂网络在新闻网页关键词提取中的应用   总被引:1,自引:0,他引:1  
通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的正确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号