首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
一种应用于博客的垃圾评论识别方法   总被引:1,自引:0,他引:1  
针对博客垃圾评论泛滥的问题,提出了一种识别博客垃圾评论的新方法.利用网络常用语对短小评论先进行评论的识别,然后利用改进的相似度公式对评论进行了K轮评论的识别,在每轮识别之后,对主题词进行权重的调整和主题词扩展;待所有评论识别完毕,再利用网络常用语和主题词对识别出的垃圾评论进行第二次过滤,过滤出垃圾评论中的合法评论.实验结果表明,利用该方法进行评论识别在一定程度上提高了识别垃圾评论的准确率和召回率.  相似文献   

2.
针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.  相似文献   

3.
基于鉴别性向量空间模型的语种识别   总被引:1,自引:0,他引:1  
传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试有一定干扰。针对这些问题,提出一种鉴别性向量空间模型(D-VSMs)建模方法。D-VSMs能够自动过滤训练集中信息重叠的数据,使得每一个支持向量机的训练数据都有针对性,从而用较少的训练数据能取得较好的分类效果。在美国国家标准技术局(NIST)2009年语种识别测试中,D-VSMs只用了原训练数据的25%,计算量是传统并行音素识别器后接向量空间模型(PPRVSM)的10%,等错误率在30s、10s和3s的测试条件下分别比传统PPRVSM下降了12.75%、15.89%以及7.33%。  相似文献   

4.
智能N维向量的空间模型   总被引:2,自引:0,他引:2       下载免费PDF全文
传统向量空间模型在计算复杂度、查询性能、智能性方面存在种种缺陷。在其基础上,提出了智能N维向量空间模型,改进了文档特征向量生成的算法,使用局部统计数据计算特征向量,大大降低了计算复杂度。模型采用用户点击作为反馈,提出了对初始的文档特征向量和用户查询向量进行调整的算法。最后,从理论上对两种模型的性能进行了对比分析。  相似文献   

5.
基于混合向量空间模型的主题网站识别   总被引:1,自引:0,他引:1  
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析.结果表明该模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性.  相似文献   

6.
介绍了向量空间模型中文档向量及查询向量的表示,以及索引同一文档矩阵的含义,在此基础上讨论了索引词权重的计算公式及选择方法(特征提取)。  相似文献   

7.
针对语种识别中大规模数据库的训练问题,提出一种基于局部多样性建模的向量空间模型。首先将训练数据库分成若干个小数据库,然后利用每个小数据库来训练不同的向量空间模型,最后对不同的模型进行加权组合。为了有效地对不同模型进行组合,需要对模型的加权系数进行优化。对模型组合算法从理论上进行推导,在模型权重与分数线性融合系数之间建立起对应的数学关系,并提出采用逻辑回归方法对不同模型的权重进行估计。在美国国家标准技术局(NIST)2009年度语种识别测试库上的实验结果表明:所提方法不仅能够处理大规模的训练数据,而且相比传统方法识别性能也有了一定程度的提高,系统的等错误率在30 s、10 s和3 s的测试条件下分别下降了8.44%、5.91%以及3.45%。  相似文献   

8.
摘要随着高校扩招以及互联网信息膨胀,高校毕业论文管理中排查论文抄袭的工作量越来越大。文中提出采用向量空间模型计算论文之间的相似度,通过相似度排序,找出“可疑”论文,然后再进行人工审核,从而加快了管理机构对论文排查的速度,减少了人工排查的工作量,增加了论文排查过程的公正性。  相似文献   

9.
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。  相似文献   

10.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

11.
针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。  相似文献   

12.
基于核向量空间模型的专利分类   总被引:2,自引:0,他引:2  
提出了一种利用核函数改进向量空间的新模型:核向量空间模型,该模型利用Mercer核,把输入空间的样本映射到高维特征空间,在高维特征空间中按向量空间模型操作。然后用核向量空间模型实现专利分类.理论分析及在专利分类中的实验表明,所提出的模型比经典向量空间模型有更高的正确分类率。  相似文献   

13.
博客聚类是处理博客信息的有效方法,提出基于评论修正的博客页面聚类算法.首先分析博客所包含的信息层次结构,然后利用博客页面的通用属性构建博客属性模型,基于博客属性模型对博客页面进行聚类,并且在初次聚类的基础上利用博文的评论对聚类结果进行修正.采用通用的熵和纯净度来衡量聚类结果,根据评论利用方式的不同,设计了两种实验方案:一个实验直接使用评论参与聚类,另一个将评论作为聚类后的修正手段.实验结果对比表明,在大多数情况下,利用评论作为修正手段的聚类效果要优于直接利用评论参与聚类.  相似文献   

14.
基于向量空间模型(Vector Space Model,VSM)实现用户搜索结果的个性化排序,通过用户提供其感兴趣的文本集作为训练样本实现用户模型的初始化,并引入遗忘因子,结合机器学习的方法,通过用户后期的上网行为实现用户模型的动态更新,同时采用TF-IDF算法进行文本特征的提取,并针对文档模型与用户模型的统一提供了解决方案。  相似文献   

15.
随着在线拍卖的迅速发展,网站的用户数和商品数急剧增加,使得信息过载和如何提高客户忠诚度的问题凸现出来。为了解决这一问题,采用理论分析和实验的方法,对用户在拍卖网站的行为进行了详细分析,提出了偏好序的概念。在此基础上建立了基于向量空间的用户偏好模型和拍卖商品模型,然后利用内容过滤技术进行拍卖商品的个性化推荐。研究结果表明,买者偏好模型的权重矩阵形式很好地克服了传统的向量表示形式,全面地表示了买者的偏好。研究使得目前拍卖网站的推荐手段更加丰富,提高了推荐的个性化、智能化程度。  相似文献   

16.
为了提升检索结果与用户个性化需求的符合程度,依托向量空间模型提出一种新的检索方法.将用户查询关键词和语料库内的文本信息都映射为向量,从而把检索过程转化为向量相似性的比对.在比对过程中,通过关键词权重突出用户个性化需求,通过余弦相似度判断符合程度.实验结果表明:文中方法的检索结果与用户需求的符合程度明显提高.  相似文献   

17.
提出量化情感的概念(评论中的情感值),从用户评论的自然语言文本中得到用户表达的情感值。为了计算评论的量化情感,对评论中的情感词的依存关系进行了研究。给出了情感句的量化情感算法。对量化情感与垃圾评论的关系进行分析,通过直观观察,确定了一系列判别方法。最后本文以量化情感值为指标,建立时间序列对网店的评论选行分析,有效地检测了垃圾评论。实验结果证明在检测网店垃圾评论工作中,所提出的方法有良好的检测结果,优于已有的方法.  相似文献   

18.
基于向量空间模型的信息检索系统的研究与实现   总被引:2,自引:0,他引:2  
赵耀红 《长春大学学报》2009,19(8):25-27,31
基于向量空间模型的信息检索系统具有良好的性能。本文阐述了向量空间模型的基本概念和思想,提出了一个基于向量空间模型的信息检索系统的体系结构模型,进一步讨论了该系统实现的关键技术和实现方法。  相似文献   

19.
随着信息技术的发展,互联网上的文本信息呈爆炸式增长,文本自动摘要技术成为目前研究的热点。文章提出一种基于向量空间模型的自动摘要冗余处理方法,该方法首先根据统计信息进行粗摘要提取,然后利用向量空间模型对粗摘要进行冗余处理;实验结果表明,该方法提取的摘要不受领域知识限制,有效去除冗余,能更好地反映文档内容。  相似文献   

20.
针对发表在微博上评论信息的特点,尤其是那些广大网民用户不愿看到的垃圾评论信息进行了深入研究.归纳了网络上垃圾评论的存在形式和类型,将垃圾评论分为社会网络垃圾评论和普通垃圾评论.为了有效地检测与过滤微博中评论垃圾,提出了一种微博垃圾评论数据预处理的过程和方法,将预处理后的评论信息作为分类和检测的基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号