首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 391 毫秒
1.
一种基于改进Rocchio的网络信息过滤反馈算法研究   总被引:1,自引:0,他引:1  
随着互联网上信息的迅速增长,网络安全日益引起人们的关注。提供一定手段管理网络用户,尤其是青少年用户具有十分重要的意义。本文利用向量空间模型,Rocchio方法生成类别过滤模板,采用余弦算法比较待过滤文档和类别模板的相似度,并提出一种利用反馈动态修改模板的反馈机制。实验表明本文提出的反馈方法是切实可行的。  相似文献   

2.
针对海量新闻的个性化推荐算法进行研究,提出一种改进的推基于K-means聚类的协同过滤用户推荐算法.该算法首先随机初始化了K个质心,按照重新定义过的新的用户相似度公式将用户进行K-means聚类,并选取相似度最大的作为当前用户所属类别;然后再重新定义了质心并进行迭代聚类;最后在每一个用户类里应用基于用户的协同过滤推荐算法,并给用户合理的个性化推荐.仿真实验测试表明,新算法能够提高推荐的准确率,并且有效提高了扩展性.  相似文献   

3.
基于神经网络的遥感图像分类取得了较好的效果,但存在固有的过学习、易陷入局部极小等缺点.支持向量机机器学习方法,根据结构风险最小化(SRM)原理,表现出很多优于其他传统方法的性能,本研究的基于多类支持向量机分类器的遥感图像分类取得了达95.4%的分类精度.但由于遥感图像分类类别多,所需训练样本较大,人工选择效率较低,为此提出以人工选择初始聚类质心、C均值模糊聚类算法自动标注训练样本的基于多类支持向量机的半监督式遥感图像分类方法,期望能在获得适用的分类精度的基础上有效提高分类效率.  相似文献   

4.
针对协同过滤推荐算法中因图书评分数据稀疏,导致推荐质量和推荐效率低的问题,提出结合用户聚类的图书协同过滤推荐算法。首先将用户身份特征数据和行为数据进行向量化表示,并利用K-means聚类算法进行用户聚类成为不同的类别;其次计算目标用户与各类别的距离,并选择最近距离的类别作为目标用户的检索空间;最后,从检索空间中通过相似度计算确定目标用户的最近邻居,在此基础上产生推荐列表。实验结果表明,所提算法能够有效提高推荐精度,降低推荐所耗时长。  相似文献   

5.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

6.
基于K-medoids项目聚类的协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对传统协同过滤推荐算法通常针对整个评分矩阵进行计算,存在效率不高的问题,提出一种基于K-medoids项目聚类的协同过滤推荐算法.该算法根据项目的类别属性对项目进行聚类,构建用户的偏好领域,使用用户偏好领域内的评分矩阵进行用户间相似度的计算,得到目标用户的最近邻居集,并生成推荐结果.与常用的K-means聚类方法相比,采用K-medoids方法对项目类别属性进行聚类,不仅克服了评分聚类可靠性不高的问题,而且算法还具有更好的鲁棒性.实验结果表明,该算法能有效提高推荐质量.  相似文献   

7.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

8.
构建了一种多核加权图像相似度聚类的方法来过滤垃圾图像,首先根据图像的视觉特征利用基于核的KNN方法将图像聚到多个类别,接着从每个类别的图像中抽取一些典型图像,并用hyperbolic显示技术显示到屏幕上,当用户选择某个样本图像后,系统将保留该类别的所有图像而丢弃其他类别的图像从而实现图像的过滤。实验表明该方法有效地改善了检索的交互性,降低了图像的分类错误率,从而有效地过滤检索到的垃圾图像,提高检索的效率。  相似文献   

9.
针对支持向量机(Support Vector Machine,SVM)处理大规模样本分类的学习效率降低问题,提出两阶段学习的支持向量机算法。该方法首先在正负类分别进行无监督聚类,提取各个聚类质心组成约简训练集,进行初次SVM训练;然后,根据初次训练结果选取边界样本集,参与第二次SVM训练。在UCI数据集上的实验结果表明,所提方法在保持分类泛化性能的同时,提高了模型的训练速度。  相似文献   

10.
深层分类模型是一种解决大规模文本层次分类问题的有效范式。本文基于该范式提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时利用相关类别的分类结果确定最终类别。在ODP数据集上的实验表明,相对于最新型的深层分类方法,该模型具有一定优势。  相似文献   

11.
为更好地解决用户如何从过载信息中快速获取需要的信息,利用RSS标准与内容过滤技术,提出了一种使用Rocchio单次反馈和多次反馈相结合的方法,此方法可以准确、快速地追踪用户兴趣的概念漂移,自适应用户模型的变化,更好地实现用户的个性化需求.为验证该方法的可行性,实现了一个基于RSS新闻的内容过滤系统(RSS News Filtering).  相似文献   

12.
提出了一种基于支持向量机的改进分类方法.该方法将特征空间分类超平面附近的样本分类,交由特征空间和样本空间中的K-近邻集体投票表决.该方法应用于垃圾邮件的过滤,邮件合法性误判发生的概率可被有效降低.最后通过垃圾邮件过滤实例对本文所述方法的有效性进行了验证.  相似文献   

13.
面向个性化需求的用户建模技术研究   总被引:1,自引:0,他引:1  
从用户需求多样性和随机性出发探讨了用户建模技术。对模型表示和模型更新两项关键技术进行了研究。基于向量空间模型表示用户模型,采用重心向量分类算法建立用户模型。分析用户浏览行为隐性地获取反馈信息,计算文档反馈度,提出了一种基于Rocchio算法的周期性自适应学习机制更新用户模型。以用户满意度为评价指标,通过实验,验证了对用户需求变化的动态追踪能力。  相似文献   

14.
针对垃圾信息过滤的问题,提出了一种基于支持向量机(SVM)算法的垃圾信息过滤方法. 利用文本分类和信息检索领域所常用的性能评价指标,建立了垃圾信息过滤的评价体系,针对仿真实验获得的实验数据,利用所建立的垃圾信息过滤评价体系对实验数据评价结果,选取了适合的核函数及其参数,构建了SVM分类器,同时也通过仿真实验和评价体系对SVM分类器和传统贝叶斯分类器进行了测试和评估. 结果表明,基于SVM算法的分类器提高了信息过滤的准确性,同时也验证了SVM算法在垃圾信息过滤中的有效性.   相似文献   

15.
Aiming at the topic of electroencephalogram (EEG) pattern recognition in brain computer interface (BCI), a classification method based on probabilistic neural network (PNN) with supervised learning is presented in this paper. It applies the recognition rate of training samples to the learning progress of network parameters. The learning vector quantization is employed to group training samples and the Genetic algorithm (GA) is used for training the network’s smoothing parameters and hidden central vector for determining hidden neurons. Utilizing the standard dataset I(a) of BCI Competition 2003 and comparing with other classification methods, the experiment results show that the best performance of pattern recognition is got in this way, and the classification accuracy can reach to 93.8%, which improves over 5% compared with the best result (88.7%) of the competition. This technology provides an effective way to EEG classification in practical system of BCI.  相似文献   

16.
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类. 在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验. 结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.  相似文献   

17.
分类大规模数据的核向量机方法研究   总被引:1,自引:0,他引:1  
标准的支持向量机算法需要求解二次规划问题,因此,在处理大规模样本的时候,求解二次规划问题的时间复杂度和空间复杂度就成为支持向量机应用的一个瓶颈.核向量机将传统支持向量机中的二次规划问题转化为求解最小包围球问题,从而显著降低了二次规划的复杂程度.使用核向量机对大规模数据进行分类,所选用的数据样本数均超过2000,并与标准的支持向量机作了对比实验结果表明:核向量机在处理大规模数据分类时,比标准的支持向量机计算复杂度低,训练速度快,耗费空间少.  相似文献   

18.
基于特征域词频的邮件过滤方法的研究   总被引:1,自引:0,他引:1  
出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法,并介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术,以及改进的文本相似度计算概率模型.实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号