首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统.  相似文献   

2.
稀有类分类在许多领域有重要应用,针对稀有类在数据中所占比例少,容易被忽略的特点,提出一种基于聚类和Ripper的稀有类分类方法,该方法在一趟聚类的结果中,通过将在整个数据集中所占的比例低于15%的聚类标识为少数类,再应用Ripper分类算法分别对少数类和多数类分别进行分类建模,并按照一定的组合方式调整得出整个数据集的最终规则集.在UCI数据集上的测试结果表明,基于一趟聚类和Ripper的稀有类分类方法对稀有类可产生高质量的分类效果.可以将该方法应用于现实生活的领域中进行稀有数据的分类.  相似文献   

3.
聚类分析算法作为一种主要的Web使用挖掘技术,在个性化推荐系统中得到了广泛应用,然而面对Web动态性所引起的网页的更新以及用户行为方式的改变,已有的聚类算法并不能很好地解决这一问题。针对这一问题,本文以一种无向图的形式表示用户对网站的访问,提出一种可实时反映网站及用户行为变化情况的增量式页面聚类算法,并在页面聚类的基础上提出相应的推荐决策算法动态生成页面推荐。  相似文献   

4.
Web2.0为信息检索提供了很多可以使用的资源,其中两种资源对于个性化检索而言非常有益,那就是社会化标注和网页分类信息。用户给出的标签反映了其对于网页的认识和思考,而用户标注过的网页的类别则反映了用户在选择时的偏好和兴趣,两者的结合使用对个性化检索能起到良好的效果。在仅使用社会化标注进行个性化检索的方法上,提出基于标注和网页分类进行个性化检索的方法,通过两者结合筛选出兴趣和偏好相近的用户,进行用户属性的扩展,并在扩展时考虑用户的质量,从而能在个性化检索中取得更好的结果。在真实数据集上的实验表明,本文方法具有一定的优势。  相似文献   

5.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法   总被引:1,自引:0,他引:1  
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价.  相似文献   

6.
用聚类-分类模式解决聚类问题   总被引:4,自引:2,他引:2  
分类和聚类都是常用的数据挖掘方法,分类的优点是准确率较高,但需要带有类别标注的训练集;聚类不需要训练集,但准确率较低。提出一种聚类-分类模式来解决聚类问题,首先通过聚类方法自动形成训练集,然后在训练集的基础上进行分类操作。实验数据表明,提出的聚类-分类模式能够有效提高聚类的准确率。  相似文献   

7.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

8.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

9.
提出一种基于网页分类和网页加权的网民聚类算法,其基本思想是:先以各个网民对每个网页的点击量为依据,通过模糊等价矩阵聚类法对网页进行分类,并根据网页内容与深度确定网页的加权,即给每个网页一个分数,最后根据这个加权分数再次对网民进行聚类,即使用两次模糊等价矩阵聚类.  相似文献   

10.
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈。本文用模糊聚类分析的方法对文本进行分类,较好地解决了信息的实时分类问题,在实践中收到了良好的效果。  相似文献   

11.
基于向量空间模型(Vector Space Model,VSM)实现用户搜索结果的个性化排序,通过用户提供其感兴趣的文本集作为训练样本实现用户模型的初始化,并引入遗忘因子,结合机器学习的方法,通过用户后期的上网行为实现用户模型的动态更新,同时采用TF-IDF算法进行文本特征的提取,并针对文档模型与用户模型的统一提供了解决方案。  相似文献   

12.
改进传统的基于二叉树结构的支持向量机多类分类方法。将无监督聚类引入到算法中,利用无监督聚类剔除大量的非支持向量样本,同时对于无监督聚类在异类样本相近时出现的性能下降问题,引入线性判别分析使得同类样本聚集,异类样本分散,确保聚类精度。线性判别分析和无监督聚类结合能够显著地缩减训练样本。该方法能够在保持分类准确率的情况下有效地提高SVM的分类速度。  相似文献   

13.
考虑到软件定义网络异常流量分类受到网络复杂特性的影响,导致分类效果变差,提出了基于K-means聚类的软件定义网络异常流量分类研究.利用权重属性,划分了软件定义网络异常流量的频度,在网络异常流量的分布形式转化过程基础上,根据软件定义网络异常节点出现的概率,计算了异常流量的特征值,提取出软件定义网络异常流量特征,根据软件定义网络异构值差的度量,初始化软件定义网络的参考向量值,通过更新分类属性的邻域半径,计算网络异常流量的参考向量,选择出软件定义网络异常流量分类属性,利用K-means聚类算法过滤软件定义网络异常流量,对软件定义网络异常流量进行检索,通过定义网络异常流量分类的目标函数,利用K-means聚类算法理论,构建软件定义网络异常流量的加权临界函数,结合对角矩阵的求解,设计了软件定义网络异常流量分类原理,实现了软件定义网络异常流量的分类.实验结果表明,文中分类方法的查全率、差准率较高,适应度以及收敛性能较好.  相似文献   

14.
针对个性化邮件过滤中接收的邮件没有规律、正常邮件和垃圾邮件存在严重类偏移等问题,提出一种改进的k最近邻(k-nearest neighbor algorithm,KNN)个性化邮件过滤方法.该方法主要是通过建立兴趣度模型(对兴趣度计算的改进,剔除用户习惯对建立兴趣度模型带来的影响)不断改变训练集,使得训练集中的文本始终...  相似文献   

15.
针对传统K-medoids聚类算法初始聚类中心随机选择、聚类精度不高、全局搜索能力较差以及禁忌搜索算法对初始值随机选取等问题,提出了一种粒计算与最大距离积法相结合的初始化禁忌搜索初始值算法,将改进后的禁忌搜索算法用来优化K-medoids,以提高聚类算法的性能。通过仿真试验论证了该算法具有较高的效率和准确率以及较强的稳定性。  相似文献   

16.
鉴于传统制造业企业仓储分类方法分类边界不明确、难以适应现代企业信息化发展趋势的问题,提出了基于聚类算法的ABC库存分类算法,提升了传统库存分类模型的分类精度和效率。以某电力制造业企业的库存产品数据为研究对象,结合聚类算法与ABC分类法提出了适用于实际研究场景的评价函数,并给出了新的基于k-means 算法的ABC分类法。采用该分类模型对库存环网柜产品进行分类,并基于ERP系统中存储的产品数据将库存环网柜产品分为A、B、C三类,根据分类结果对不同类别的环网柜产品采取不同的库存控制策略。研究结果表明,将数据挖掘算法应用于库存管理实现了企业库存管理决策的科学化和智能化。  相似文献   

17.
直接依靠人的理解判断对内容进行分类,需花费大量的时间与精力,为了解决文本内容的自动聚类问题,该文在信息系统理论与自组织神经网络理论的指导下,利用智能技术得出了内容的分类结构。提出了基于智能聚类的内容分类方法,利用自组织神经网络的学习算法进行内容的聚类,并根据所提出的方法设计了基于智能聚类的内容分类示范系统,进行了应用研究,验证了该方法的有效性。  相似文献   

18.
针对用户在搜索结果列表中寻找所需信息困难的问题,在分析了Web搜索结果的特点的基础上,提出了一种结合K-Means的层次化方法对搜索结果进行聚类,并通过向用户提供查询结果的类别标签分类显示结果,从而大大提高可浏览性.同时,在该方法的基础上设计并实现了一个搜索结果聚类原型系统,实验结果表明新方法是可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号