首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
提出了基于查询过程的动态计算数据源和查询关键词相似度的算法.当用户查询时,从数据源中选择子集进行查询,然后计算结果网页与查询关键词的相似度,按加权均值法调整该数据源的相似度,随着系统的运行,数据源与关键词的相似度不断被动态调整以反映数据源的实际情况,从而为数据源选择做出判断依据.  相似文献   

2.
Deep Web在线数据库蕴含大量的信息,但由于这些信息检索困难,利用率不高,本文提出一种基于XML Schema的查询接口分类方法,建立数据查询接口的XML Schema文档,通过各数据源名的语言学相似度实现查询接口的初次分类;根据查询接口标签属性,建立特征-接口向量空间模型实现查询接口向量化,再采用KNN算法进行二次分类,减少KNN算法分类带来的计算开销,提高Deep Web数据检索的效率。  相似文献   

3.
为了最大限度地获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据源集成工作以及用户的检索使用,提出了一种基于数据库的实时的Deep Web数据源搜索框架,该模型在本地服务器上设计安装"数据源发现应用程序"模块,通过各搜索网站下载安装的"客户端数据源应用程序"模块实现数据信息的对接和实时传送.为了保证检索效率,利用知网结合同义词词林对各大被检索网站进行分类.  相似文献   

4.
周旭  赵耀  刘海博 《科技信息》2007,(35):53-54
面对越来越多的在线数据库,Deep Web得到人们的广泛重视,Deep Web资源集成是Deep Web研究的重点内容。本文对一个典型的Deep Web资源集成原型系统--WISE-Integrator进行了系统的分析和介绍。该系统对查询接口的描述、接口抽取和接口整合等Deep Web资源集成的主要问题进行了深入的研究,提出一些切实可行的方法,对于该领域的研究人员具有重要的参考价值。  相似文献   

5.
如何高效、准确地组织和检索Deep Web蕴含的高质量信息已经成为未来Web挖掘和数据库领域面临的一项崭新课题和挑战,而Deep Web分类则是Deep Web信息检索的基础.该论文综合论述了Deep Web信息集成的研究概况,重点分析了结构化Deep Web分类的主要方法和存在的主要问题,并且讨论了解决这些问题的可能方法;最后对未来工作进行展望.  相似文献   

6.
Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性.  相似文献   

7.
采用潜在语义分析实现查询接口特征-文档矩阵降维,利用KNN算法将用户查询接口归属到某个类别,以减少匹配计算的接口数量,最后采用基于Word Net的方法在此类别中进行接口属性匹配,减小属性匹配范围。实验证明,此方法能够实现查询接口的有效匹配。  相似文献   

8.
考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性.  相似文献   

9.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

10.
由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件.  相似文献   

11.
针对 Web应用挖掘中聚类算法中的问题 ,提出加权 Web访问模式聚类算法 .该算法利用服务器日志库中保存的网页访问次数信息 ,提高了聚类的客观性和准确性 .  相似文献   

12.
介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客户分类的有效性.  相似文献   

13.
Deep Web环境中,用户输入的查询条件过于严格可能会导致查询的失败,通过查询松弛可以提升查询的有效性.为使查询松弛更加科学准确,提出了一种基于经验值的弹性查询松弛方法.首先获取各查询属性的经验值,并确定各属性的重要度;然后给出了基于经验值的弹性查询松弛策略,即按照属性重要度由低到高的顺序,依次在属性的经验值范围内对查询条件进行弹性松弛,使查询松弛后返回的结果尽可能与用户的查询请求相匹配;最后通过实验验证了所提查询松弛方法切实可行.  相似文献   

14.
李顺勇  余曼  王改变 《河南科学》2020,38(10):1549-1557
为了对含有多个特征向量的分类矩阵对象数据进行描述,提出了一种新的基于簇间信息的分类矩阵对象数据的聚类算法(between-cluster k-modes,简称BC-k-modes).该算法利用k-modes算法的聚类过程,对分类矩阵对象数据进行聚类,导出隶属度矩阵与聚类原型的更新公式,通过增加簇间信息对目标函数寻求局部最优解.最后在五个真实数据集上进行了实验,结果表明该算法对真实数据的聚类效果明显优于其他算法.  相似文献   

15.
通过处理和研究Web日志,得到多数用户感兴趣的页面URL和具有相近访问爱好的用户群体,对站点的结构是否适合用户作出判断并进行相应的调整,从而实现对用户的个性化服务.  相似文献   

16.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

17.
本文给出了一种Web用户和页面的模糊聚类算法.在该算法中,通过Web日志中的数据,根据用户对Web页面的浏览情况分别建立Web用户和页面的模糊集,在此基础上用最大-最小法的模糊相似性度量构造模糊相似矩阵,并由此构造模糊动态聚类算法.  相似文献   

18.
为了有效地利用Deep Web资源,Deep Web数据集成成为当前研究的热点之一.能否高效地发现Deep Web站点是Deep Web数据集成的基础和关键.在此,提出了一种Deep Web接口发现方法,包括基于领域知识来确定合适的查询提交词和用启发式规则发现领域内Deep Web接口.实验结果表明,该方法达到了较高的准确率和召回率,具有良好的可行性和实用性.  相似文献   

19.
用聚类-分类模式解决聚类问题   总被引:4,自引:2,他引:2  
分类和聚类都是常用的数据挖掘方法,分类的优点是准确率较高,但需要带有类别标注的训练集;聚类不需要训练集,但准确率较低。提出一种聚类-分类模式来解决聚类问题,首先通过聚类方法自动形成训练集,然后在训练集的基础上进行分类操作。实验数据表明,提出的聚类-分类模式能够有效提高聚类的准确率。  相似文献   

20.
关联挖掘在Deep Web查询中的研究与应用   总被引:1,自引:0,他引:1  
对Deep Web进行模式匹配查询时,通常会碰到复杂的模式匹配。由于复杂模式匹配技术在对所有可能联接进行匹配时,需要的空间开销比简单匹配的空间开销大得多,所以现有的模式匹配技术大部停留在简单匹配技术上。为了解决这一难题,本文提出了关联规则挖掘这一方法在复杂匹配中的应用,将模式匹配视为一种关联挖掘,实现web查询接口的匹配,以此将Internet上众多数据库进行集成。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号