共查询到10条相似文献,搜索用时 46 毫秒
1.
提出一种基于网页分类和网页加权的网民聚类算法,其基本思想是:先以各个网民对每个网页的点击量为依据,通过模糊等价矩阵聚类法对网页进行分类,并根据网页内容与深度确定网页的加权,即给每个网页一个分数,最后根据这个加权分数再次对网民进行聚类,即使用两次模糊等价矩阵聚类. 相似文献
2.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测. 相似文献
3.
介绍了笔者所设计的一个校园网搜索引擎(SzCompass)中的网页排序算法。首先详细分析了通用搜索引擎常用的PageRank和HITS网页排序算法;通过比较在校园网和Internet上搜索的主要区别,设计了一种适合校园网的多参数加权的网页排序算法,并对利用该算法实现的搜索引擎的检索效率进行了实验分析。 相似文献
4.
5.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能. 相似文献
6.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果. 相似文献
7.
基于可视布局信息的网页噪音去除算法 总被引:13,自引:1,他引:13
主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比.本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音. 相似文献
8.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析 总被引:3,自引:0,他引:3
詹毅 《成都大学学报(自然科学版)》2013,32(1):50-53
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据. 相似文献
9.
融入链接相关度策略的PageRank算法 总被引:1,自引:0,他引:1
为实现对网页更好地评分,提出了融入链接相关度策略的PageRank算法.以体现人工智能的当代经典PageRank算法为基础,分析其基本思想并指出其在对网页评分中存在的不足,通过引入相关度计算使链接标题的质量和其所指向网页的内容产生联系,实现在网页中各个链接之间的竞争.通过实验和分析,新的算法在不影响原算法的优点和效率的同时能更好地进行网页评分,在网页优先级算法上向人工智能和语义网又迈进了一步. 相似文献