首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
分析Web聚类,并针对Web用户聚类提出了使用二值属性描述对象.利用Zipf定律将时间属性进行二值化,然后采用ROCK算法进行聚类.通过实验证明,以Zipf定律为准则的ROCK算法具有很好的聚类效果.  相似文献   

2.
为了体现词条之间的关系,更好地为用户提供个性化服务,提出了在语义网络下对用户兴趣建模的思想. 根据用户的访问历史,利用知网建立基于概念关系的用户兴趣森林模型. 通过计算机链接描述文字的平均带权语义距离,预取用户将来可能访问的Web页. 基于带权语义距离的网页预取方法对用户兴趣进行归纳,用带权语义距离反映词与词之间的概念关系. 实验结果表明,此方法的命中率较高,漏取率较低,平均命中率可以达到61%左右.  相似文献   

3.
作为一种常用的在线文档聚类算法,STC算法聚类结果在用户个性化方面存在不足。改进后的算法结合用户兴趣模型,通过增加基类选择因子和改善基类合并规则来进行改进,实现基于用户兴趣特征的个性聚类效果。实验表明,改进后的算法具有较好的准确性和效率。  相似文献   

4.
个性化搜索中用户兴趣模型匿名化研究   总被引:2,自引:1,他引:1  
为了解决个性化搜索技术所潜在的用户隐私信息泄露的问题,提出了用户兴趣模型匿名化方法。首先根据用户兴趣模型之间的相似性将其聚类为满足p-链接性的等价组,然后计算聚类后兴趣条目的权值。所谓的p-链接性是指攻击者根据背景知识链接确定某一用户的概率不超过p。该方法可实现用户兴趣模型匿名化以及兴趣倾向不发生改变,既保护了用户隐私信息,同时也保证了个性化检索性能。实验表明:随着相关结果个数的增多,匿名化后搜索结果的查全率基本能保证在50%以上,另外p-链接性的减小对于查全率的影响并不是太大。  相似文献   

5.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

6.
由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统.  相似文献   

7.
为了改善P2P网络的搜索性能,提出应用马尔可夫链预测用户兴趣集合的方法.根据用户的历史查询行为,对关键词进行聚类,得到相关的兴趣类;应用马尔可夫链,建立用户行为模型,描述用户兴趣的时序变化;根据极限概率,预测用户达到平稳状态时的兴趣集合;给出根据模型进行预测的方法.实验表明,模型的命中率受查询序列分布的影响较大,增加兴...  相似文献   

8.
一种P2P网络的信息优化检索算法的仿真分析   总被引:1,自引:1,他引:0  
为了解决P2P网络系统信息检索效率低、不能有效解决跨文本搜索,提出节点兴趣域聚类和信息量声誉激励的P2P网络检索机制。在该机制中,首先对网络系统中节点持有的数据信息量进行基于相似度和兴趣度阈值的兴趣域聚类;然后依据节点数据信息的声誉激励策略对兴趣相邻节点进行兴趣树构造,同时对用户输入的搜索关键字进行语义分析和个性化的辅助语义选择。将与查询信息向量最接近的节点持有信息量返回给用户,并对该数据信息量进行声誉激励评价和更新。实验仿真证明,该算法基于兴趣树的动态构造,能够避免结构化P2P网络系统对中心节点的过度依赖;同时检索的向量是基于用户个性化辅助语义生成的,能够有效地提高查询率和查准率。  相似文献   

9.
一种基于用户浏览路径的Web用户聚类方法   总被引:1,自引:0,他引:1  
在Web用户聚类中,针对具有相似浏览路径和兴趣的用户聚类问题,提出一种新的相似度计算方法.该方法将事务路径看作有序时间序列,以代替用户的兴趣路径;同时结合用户事务路径的停留时间来计算相似度.通过这种方法计算出的用户相似度更接近真实,达到提高web用户聚类的效果,为用户提供更优质的个性化服务.对比实验证明该方法的有效性.  相似文献   

10.
通过对现有个性化搜索引擎排序算法的研究,提出了一个新的排序算法.该算法首先在不同粒度上多次使用SVD技术和k-means聚类技术,将用户浏览历史及其所包含的词在不同层次上进行文档聚类和词聚类,创建两棵加权兴趣树:文档类树和词类树.其中,树中每个节点的权值表示用户对该类文档或该类词的感兴趣程度.接着,利用朴素贝叶斯分类器对搜索引擎得到的网页进行文档分类和词分类,并根据分类结果进行网页评分.最后,将网页根据文档得分降序排列.实验表明该方法能为用户提供更为精确的个性化排序.  相似文献   

11.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.  相似文献   

12.
数字图书馆个性化服务用户模型研究   总被引:32,自引:0,他引:32  
提出了一种数字图书馆个性化服务用户模型构架,并对实现过程中的几个关键问题,包括用户模型表示方法,用户模型的建立以及更新算法进行了详细论述.提出了基于本体论的空间向量用户模型表示方法,建立了简单的数字图书馆领域本体,以空间向量表示用户模型,以本体概念作为向量的特征项;采用支持向量机分类算法和无监督聚类算法相结合提取用户兴趣;在用户模型更新方法上,采用渐进遗忘和滑动窗口相结合的方法实现用户兴趣概念的漂移.  相似文献   

13.
To discover personalized document structure with the consideration of user preferences,user preferences were captured by limited amount of instance level constraints and given as interested and uninterested key terms.Develop a semi-supervised document clustering approach based on the latent Dirichlet allocation(LDA)model,namely,pLDA,guided by the user provided key terms.Propose a generalized Polya urn(GPU) model to integrate the user preferences to the document clustering process.A Gibbs sampler was investigated to infer the document collection structure.Experiments on real datasets were taken to explore the performance of pLDA.The results demonstrate that the pLDA approach is effective.  相似文献   

14.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

15.
一种高效的个性化中文分词词典   总被引:1,自引:0,他引:1  
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率.  相似文献   

16.
User interest is not static and changes dynamically. In the scenario of a search engine, this paper presents a personalized adaptive user interest prediction framework. It represents user interest as a topic distribution, captures every change of user interest in the history, and uses the changes to predict future individual user interest dynamically. More specifically, it first uses a personalized user interest representation model to infer user interest from queries in the user’s history data using a topic model; then it presents a personalized user interest prediction model to capture the dynamic changes of user interest and to predict future user interest by leveraging the query submission time in the history data. Compared with the Interest Degree Multi-Stage Quantization Model, experiment results on an AOL Search Query Log query log show that our framework is more stable and effective in user interest prediction.  相似文献   

17.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

18.
针对基于音乐作品信息的音乐作品个性化推荐及协同过滤方法的不足,通过分析音乐作品需求者的音乐试听数据及下载数据,并结合LDA(latent Dirichlet allocation)主题挖掘模型,提出一种基于LDA-MURE模型的推荐算法.实验结果表明,与基于音乐作品需求者的协同过滤算法和基于音乐属性项目的协同过滤算法相比,LDA-MURE算法可更高效地向音乐作品需求者推荐感兴趣的音乐作品.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号