首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。  相似文献   

2.
一种基于文本节点的XML文档索引   总被引:1,自引:0,他引:1  
XML将逐步取代HTML成为Internet上的主流数据表示及数据交换格式,如何快速准确地对XML文档中的数据进行查询也成为亟待解决的关键问题.因此,需要开发一种适合XML的查询策略以及特殊的索引技术.文章利用一种基于文本节点的XML索引TN—Index,特点是索引文件规模较小,而且可以进行局部查找,这样就实现了XML文档的快速查询.  相似文献   

3.
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。  相似文献   

4.
无向图的BWC着色问题是给定两个正整数b和w,判断是否存在这样的着色方案:对b个顶点着黑色,对w个顶点着白色,其它顶点不着色,着黑色顶点集合与着白色顶点集合之间没有任何边相连。BWC的最优化问题,是找出一种最优化着色方案,使得与所有黑色顶点不相连接的着白色顶点数最大。该问题被证明是NP-完全问题。提出了一种基于禁忌表和局部搜索机制的混合启发式算法(BTLSBWC),通过对部分网络图进行测试,结果达到了现有文献计算出的最好值。  相似文献   

5.
面向对象XML数据索引技术   总被引:2,自引:2,他引:0  
提出了一种面向对象XML数据的索引模式路径仓,路径仓是紧凑地、准确地表示面向对象的XML数据的一棵树,是两级双向树:组级和元素级.在组级上,路径仓提供路径信息、类层次信息,类层次信息存储以索引类为根的类层次子树上特有的元素和属性的对象标识符,而继承的元素和属性的对象标识符存在较高的层次中,可以在查询早期阶段减少大量存储空间;在元素级,它保存从孩子元素到父亲元素的信息,快速存取元素的父亲,提高查询处理效率.不使用全局标志符而是用基于组的引用,可以按组区分不同类型的元素值聚簇相同类型元素值并且索引它们.  相似文献   

6.
针对基于位置的web搜索需要将网页中位置信息和文本信息相结合进行索引的应用需求,提出了先倒排表再R-tree索引和先R-tree再倒排表索引两种混合索引结构,同时处理文本和位置信息.大规模真实数据集上的实验表明,这两种方法在查询效率上明显优于已有的倒排表和R-tree相互独立的索引模式.  相似文献   

7.
对基于序列的XML索引技术进行了分析和研究,指出了由于同名兄弟节点的存在,导致了假警报,出现了查询不等价问题。并详细介绍了基于约束序列XML的索引技术,给出了基于序列的XML索引技术未来发展方向。  相似文献   

8.
提出了一种适用于大量编程用文本数据的存储和显示的处理方法。该方法已经成功地应用于计算机辅助机械设计计算软件的开发过程中。  相似文献   

9.
XML索引技术已成为一种重要的XML数据管理技术。本文着重介绍两种XML索引技术并作出比较分析。  相似文献   

10.
针对空间文本对象流和订阅流的匹配,采用一种混合索引树来组织数据对象,包括多叉树空间索引、谓词索引和倒排文件三个部分,其中多叉树空间索引用于空间区域管理,谓词索引和倒排文件用于订阅谓词管理.在此基础上,提出了谓词索引建立算法、空间文本对象与倒排项匹配算法和混合索引树检索算法.与基于空间网格加倒排文件的检索方法进行了对比实验,结果表明:所提出的算法提高了用户的检索效率,并验证了其有效性.  相似文献   

11.
基于XML的Web数据挖掘   总被引:4,自引:0,他引:4  
介绍了数据挖掘、Web数据挖掘以及XML的基础知识,阐述了将XML技术应用于Web数据挖掘,构建基于XML的Web数据挖掘系统结构.  相似文献   

12.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

13.
裴喜春 《太原科技》2010,194(3):87-89
现今,XML数据管理的一个重要问题是如何对XML数据进行高效的查询处理。以XML数据流的压缩为目标.提出了一种基于BloomFilter的XML数据流压缩技术,利用Dom4j的Aelfred2解析器对XMLSchema进行解析,构建dom4j树。采用压缩布鲁姆过滤器思想进行算术编码,达到压缩的目的。  相似文献   

14.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

15.
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.  相似文献   

16.
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价.  相似文献   

17.
提出了一种新的交替变游程编码的测试数据压缩方案。不像其它文章中仅仅编码连续的"0",该方案采用变长到变长的编码方式对0游程和1游程进行编码。实验数据表明,交替变游程编码能取得较高的压缩效率,能够显著减少测试时间和测试功耗,从而达到降低测试成本的目的。  相似文献   

18.
数字图书馆的建设面临着资源整理、查找、存储等一系列问题,传统的文档存储形式不利于信息的再利用、web发布等。提出了将中文文本数据转换为可扩展标记语言(XML)文档的一种方法,通过解析一个文件类型表示(DTD),利用DTD中给的元素名称、属性等从文本数据中找到相应元素的内容,从而形成一个特定DTD下的XML文档。  相似文献   

19.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号