首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
一种新的基于社会化标签的网页排名算法   总被引:1,自引:0,他引:1  
针对目前web2.0下网页无法进行有效排序这一问题,对社会化标签网下新的数据源"标签"的时间因素加以分析和利用,提出一种新的社会化标签的网页排名算法TagRank. 该算法通过对网页上用户的标注行为进行挖掘,计算标签的"热度",从而更客观地反映标签的真实质量,以此提高网页排名的准确性. 实验证明该算法是切实有效的.  相似文献   

2.
介绍了Google搜索引擎中所使用的网页等级量化算法——PageRank算法及计算结果的评价方法。用一个计算实例系统介绍了算法原理、计算过程、分析方法、以及MATLAB实现程序。  相似文献   

3.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

4.
基于Google搜索引擎的PageRank模型,提出了一种可用于高校学科排名的SpecRank数学模型,并给出了求解SpecRank的一种有效算法.数值实验表明了该方法的有效性.  相似文献   

5.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

6.
搜索结果的合成是元搜索引擎系统中一个重要的技术问题。为了提高元搜索引擎的查询精度,提出了一种改进的元搜索结果合成算法。通过分析搜索结果列表中包含的文本信息,综合考虑搜索结果与查询的匹配完全程度和相关程度给出了文本分析的规范化方法,并结合搜索结果的排序信息计算文档的相关分值,据此实现对局部相似度的调整。利用成员搜索引擎的性能评价,提出了改进的影子文档方法估算非相关文档的相关分值。然后,采用基于群决策的合成方法对搜索结果进行一致性排序。在实际Web环境中进行了测试,实验结果表明采用本算法,搜索结果的相关性比Round-robin、CombSum和CombMNZ三种合成算法有较大提高。  相似文献   

7.
为了实现对大量的网络信息的正确分类以便使用户迅速获取所需信息,提出一种新的网页内容分类算法,该算法将遗传算法(GA)与支持向量机(SVM)结合起来,利用遗传算法良好的寻优能力优化SVM的分类性能。在由新闻网页文本构成的数据集上的仿真实验结果表明,GA和SVM融合的算法能够有效提高SVM的分类性能,新算法的分类正确率相比基本的SVM有非常显著的提高。由此证明,提出的基于GA的SVM改进算法是有效的,能够用于对大量网络信息的分类问题中。  相似文献   

8.
针对基于内容的文本分类问题,提出了一种Agent与朴素贝叶斯分类(Naive Bayes)相融合的反馈分类模型和算法(Agent-NB).朴素贝叶斯分类是一种简单而有效的文本分类方法,然而有限大小的训练样本集,一般不具备良好的数据完备性,难以一次性构造出高性能的分类模型.基于Agent-NB的反馈分类模型,可结合Age...  相似文献   

9.
中文网页自动分类新算法   总被引:8,自引:0,他引:8  
为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率  相似文献   

10.
考虑到反垃圾邮件本身特点,借鉴文本分类中的已有技术,将其应用到垃圾邮件的屏蔽中来.因为将合法邮件判别为垃圾邮件对于邮件用户造成的损失明显大于相反的操作,所以定义了一个损失函数,将其与朴素贝叶斯算法结合,实现了基于最小损失的垃圾邮件屏蔽算法.在一个公认的垃圾数据集上的实验结果验证了引入损失函数的有效性.  相似文献   

11.
交互支持向量机学习算法及其应用   总被引:31,自引:0,他引:31  
交互支持向量机学习算法能解决一些监督学习问题中学习样本较少的问题,它以支持向量机( S V M )方法为基础,将设计分类器变成一个交互的过程,即: 根据对已知样本进行的 S V M 分类器设计,主动采样选择“有用”的新样本,并进行下一步 S V M 分类器的设计。与普通 S V M 法相比,该方法所需的样本量大大降低,而且可能达到更好的推广能力。文本信息过滤问题的实例说明了该算法的有效性。  相似文献   

12.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能.  相似文献   

13.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

14.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

15.
提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters 21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%.  相似文献   

16.
网页信息隐藏技术是将网页作为隐蔽通道进行秘密信息传输的一种技术。基于网页结构特点,提出了基于标记字典的网页信息隐藏算法,该算法采用多标记组合的思想,在不增加原始网页大小和算法复杂度的基础上,使网页信息隐藏容量提高了2.5倍,也为网页信息隐藏算法的研究提供了思路。  相似文献   

17.
根据科技文献的结构特点搭建了一个四层挖掘模式,并结合K-medoids算法提出了一个特征选择方法.该选择方法首先依据科技文献的结构将其分为4个层次,然后通过K-medoids算法聚类对前3层逐层实现特征词提取,紧接着再使用Aprori算法找出4层的最大频繁项集,并作为4层的特征词集合.同时,由于K-medoids算法的精度受初始中心点影响较大,为了改善该算法在特征选择中的效果,论文又对K-medoids算法的初始中心点选择进行优化.实验结果表明,结合优化K-medoids的四层挖掘模式在科技文献分类方面有较高的准确率.  相似文献   

18.
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.  相似文献   

19.
意见挖掘在企业智能分析、政府舆情分析等领域发挥着重要作用,为了充分挖掘主观性文本所蕴含的商业价值和社会价值,提出了一种基于情感主题模型的特征选择方法。该方法重点考察极性词及其共现现象,采用主题模型挖掘出正面褒义主题和负面贬义主题中极性词的分布情况,旨在度量情感特征在情感倾向表达中的重要性。实验阶段结合支持向量机分类器进行分析。实验表明该特征选择方法能有效提高跨领域文本情感分类准确性,具有较好的实用价值。  相似文献   

20.
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号