首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
通过对现有个性化搜索引擎排序算法的研究,提出了一个新的排序算法.该算法首先在不同粒度上多次使用SVD技术和k-means聚类技术,将用户浏览历史及其所包含的词在不同层次上进行文档聚类和词聚类,创建两棵加权兴趣树:文档类树和词类树.其中,树中每个节点的权值表示用户对该类文档或该类词的感兴趣程度.接着,利用朴素贝叶斯分类器对搜索引擎得到的网页进行文档分类和词分类,并根据分类结果进行网页评分.最后,将网页根据文档得分降序排列.实验表明该方法能为用户提供更为精确的个性化排序.  相似文献   

2.
由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统.  相似文献   

3.
元搜索引擎的个性化   总被引:1,自引:0,他引:1  
提出一种通过产生用户动态偏好来达到个性化搜索的方法.利用RDF的语义表达能力存储和优化基于访问记录的用户偏好,并采用聚类方法划分用户群,实现对用户偏好的有效管理。给出了元搜索引擎选择算法和搜索结果排序算法,实现了一个个性化的元搜索引擎,实验表明,该搜索引擎提高了查询准确率和使用效率,并能够根据用户及其所在群的历史偏好信息重新组织搜索结果.  相似文献   

4.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

5.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

6.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

7.
针对用户搜索聚类的需求,以描述优先聚类算法为中心,利用提取高频短语获取候选聚类标签,并结合用户行为,提出一种基于搜索引擎的搜索结果可视化服务的实现机制.该机制包括聚类、可视化、用户反馈三个方面的算法,通过将用户的搜索结果动态转化及总结为相关聚类形态,基此进行可视化搜索呈现,引导用户快速获得搜索结果,并统计用户的使用习惯.实验表明:该机制可有效将用户搜索的结果进行汇聚,减少用户选择的选项,利用聚类等呈现手段辅助用户搜索.  相似文献   

8.
卢希 《科技信息》2012,(24):271-271
聚类搜索是建立在专业垂直搜索技术上的一种高效搜索方法,该方法能通过对用户数据分析而向用户提供相对准确的搜索结果,其智能聚类、去重、覆盖性等能力在电子商务中将有更为广泛的应用,本文通过对当前聚类搜索引擎技术的了解,进一步探索其在电子商务领域中的应用。  相似文献   

9.
提出一种融合用户偏好优化聚类的协同过滤推荐算法。首先利用RP-IIP算法形成细粒度用户-项目类型偏好矩阵,真实反映出用户兴趣偏好并缓解数据稀疏性;然后在该矩阵上利用蝙蝠优化的用户模糊聚类算法进行聚类,增强了用户的聚类效果并提高可扩展性,从隶属度较高的簇中选取目标用户的最近邻居,提高了最近邻选取的准确性;最后,建立用户加权相似度模型对目标用户进行评分预测并产生推荐,进一步提高推荐结果的准确性。实验结果表明,所提出的算法能够产生更好的推荐结果。  相似文献   

10.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

11.
针对用户在搜索结果列表中寻找所需信息困难的问题,在分析了Web搜索结果的特点的基础上,提出了一种结合K-Means的层次化方法对搜索结果进行聚类,并通过向用户提供查询结果的类别标签分类显示结果,从而大大提高可浏览性.同时,在该方法的基础上设计并实现了一个搜索结果聚类原型系统,实验结果表明新方法是可行的.  相似文献   

12.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。  相似文献   

13.
划分土层、辨别土类是静力触探(cone penetration test,CPT)成果应用的基础.常规的人工分层效果差强人意,而土体行为分类法尽管可靠性高,但无法起到分层效果.引用层次聚类算法,通过对变量的选择、数据的标准化、距离矩阵的生成和类数目的确定,得到了基于层次聚类算法的CPT土体分类流程图.采用自主研发的静力触探-钻探一体机,在汉江一级阶地和长江一级阶地上展开试验,利用层次聚类算法对地层土体进行划分,将土层划分结果与钻孔柱状图展开对比分析,结果表明:以锥尖阻力-侧壁摩阻力(qc-fs)和锥尖阻力-摩阻比(qc-Rf)为初始参数的聚类分层图均能够较准确识别主层的位置,其中,以qc-Rf为初始参数的聚类分层结果比qc-fs更准确,能够识别更多的次要层以及钻孔柱状图无法体现的次要层、过渡层和薄夹层,但是无法判断土层的具体类别以及单一的类(离群值)到底是属于过渡带还是异常值.建议在后期研究中将孔隙水压力纳入聚类分析中,研究孔隙水压力对聚类分层效果的影响.同时,将聚类分层图与土体行为分类法结合起来,达到划分土层、辨别土类、细化土层和识别异常地层的目的.  相似文献   

14.
The problem of scalable classification by clustering in large databases was discussed. Clustering based classification method first generates clusters using clustering algorithms. To classify new coming da-ta points, it finds the κ nearest clusters of the data point as neighbors, and assign each data point to the dominant class of these neighbors. Existing algorithms incorporated class information in making clustering decisions and produced pure clusters (each cluster associated with only one class). We presented hybrid cluster based algorithms, which produce clusters by unsupervised clustering and allow each cluster associ- ated with multiple classes. Experimental results show that hybrid cluster based algorithms outperform pure ones in both classification accuracy and training soeed.  相似文献   

15.
基于聚类的文本过滤模型   总被引:4,自引:0,他引:4  
为了帮助用户在因特网上搜索感兴趣的线文本,提出了基于聚类的文本过滤模型。其基本思想是:在预定的层次目录之下,根据用户给出的过滤模板进行动态扩张,以便于全面地反映用户信息需求。然后,通过对扩张模板的聚类分析,使得每一类由表达相同或相近兴趣的用户模板组成。匹配时,先将文本推送到相应的模板类中,再计算与具体模板的相似度,获得最终的匹配结果,以提高过滤效率。  相似文献   

16.
基于区域分割的彩色航空影像建筑物自动检测   总被引:1,自引:0,他引:1  
为了从高分辨率遥感图像中完整提取建筑物区域,采用区域分割的原理,研究了建筑物自动检测的方法。该方法首先利用利用K-Mean分类方法将地物分为两类:人工地物类和非人工地物类,然后利用阴影、Mean Shift分割信息来剔除人工地物类中干扰区域,再根据形状分析来确定真实的建筑物区域。本文用上述方法对高分辨率航空影像进行了实验,实验结果证明了该方法有着较高的识别率、较好的准确性和鲁棒性,具有实用价值。  相似文献   

17.
多旅行商问题在实际生活中有着较为广泛的应用价值,该问题的求解受到越来越多学者的关注。信息传播算法是一类求解组合优化问题最为有效的方法,基于K-means聚类技术,给出了求解多起点多旅行商问题(Multiple depots Multiple Traveling Salesman Problem, MMTSP)的信息传播算法,该算法采用k-means聚类算法将旅行商问题进行聚类,从而形成若干类,对每一个类采用信息传播算法进行旅行商搜索,将每一个类的搜索结果进行综合,得到MMTSP问题的解。通过对旅行商标准测试数据集中的多种实例进行测试,并与其它同类算法进行试验对比分析,结果表明:该算法优于同类算法。  相似文献   

18.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

19.
给出了一种基于模拟退火的模糊分类系统—SAFCS,该分类系统结合了SA元启发式搜索策略的学习能力和模糊系统的近似推理方法,旨在改善与分类问题有关的大型数据空间的搜索性能,找到模糊if-then规则的优化集.SAFCS可以从输入数据集中抽取精确的模糊分类规则,并在若干不同预定义类中将其应用于对新数据实例的分类.文末用某数据集检测了SAFCS的性能,结果表明,在与其他几个著名算法比较时该分类系统性能可靠.  相似文献   

20.
DBSCAN方法是一种典型的基于密度的聚类算法,因此该方法具有可以发现任意形状的类的特点,但其聚类的效率并不是很高.如果考虑将传统的网格技术引入到DBSCAN聚类算法中,虽然一定程度上会提高聚类的效率,但其聚类的质量显得较为粗糙.文章通过引入自适应网格技术,使得DBSCAN聚类算法的效率和质量都有所提高.对比数值实验表明,基于自适应网格的DBSCAN聚类算法的聚类效果是良好的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号