首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于示例的中文文本过滤模型   总被引:13,自引:0,他引:13  
简要描述了文本过滤的背景,提出了基于示例的中文文本过滤模型,其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用文本层次分析方法,提取文本特征,形成主题词表示的用户模板,然后进行文本过滤。  相似文献   

2.
一种基于SVM的中文电子邮件过滤方法   总被引:1,自引:1,他引:1  
提出了一种基于SVM的中文邮件过滤方法,通过构造最优的支持向量机(Support Vector Machine,SVM)过滤模型,有效地提高了垃圾邮件的过滤精度,实验结果超过了网易免费邮所公布的过滤指标.  相似文献   

3.
用于中文色情文本过滤的近邻法构造算法   总被引:2,自引:0,他引:2  
从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到了重要的作用.实验同时表明,所设计的过滤器在保证速度的前提下,很好地完成了基于内容的高精度过滤.  相似文献   

4.
针对学习型社区中的教育需求,在传统算法上加以改进,提出了一种基于向量空间模型的教育资源自适应过滤算法.通过训练算法,提取特征向量和伪反馈建立初始模板,设置初始阈值.然后通过过滤算法根据用户的反馈信息自适应地调整模板和阈值.该算法在执行过程中,不需要大量的初始文本,同时在过滤的过程中可不断地进行自主学习来提高过滤精度.该算法已在个性化知识服务系统中进行验证,结果表明是有效的.  相似文献   

5.
针对学习型社区中的教育需求,在传统算法上加以改进提出了一种基于向量空间模型的教育资源自适应过滤算法。首先通过训练算法,提取特征向量和伪反馈建立初始模板,设置初始阈值。然后通过过滤算法根据用户的反馈信息自适应地调整模板和阈值。该算法在执行过程中,不需要大量的初始文本,同时在过滤的过程中可不断地进行自主学习来提高过滤精度。该算法已在项目中进行验证,结果表明是有效的。  相似文献   

6.
信息过滤技术是当前研究的热点。本文先分析了向量空间模型和布尔逻辑模型及其它们的优缺点,在此基础上提出了基于语义和学习机制的信息过滤模型,该模型是对字项文档矩阵使用奇异值分解[1](Singular-Value Decomposition,SVD)的方法来实现信息过滤的,并详细分析了此模型的优缺点。  相似文献   

7.
基于文本内容分析的过滤技术研究   总被引:7,自引:1,他引:7  
提出一种基于特征词和局部语义分析的文本分类与过滤方法,在基于特征词统计特性分析的基础上,将特征词的知识属性和局部语法匹配引入信息过滤模型,实验结果表明,这种方法对于某些领域的文本信息可以有效地进行识别和过滤.  相似文献   

8.
将潜在语义索引(LSI)应用于垃圾邮件过滤领域,并将其与向量空间模型(VSM)和经典的邮件过滤器Spa-mAssassin系统进行比较.另外,对基于词提取技术的邮件文本特征集合和SpamAssassin系统提取的邮件"元特征"集合进行了对比.实验结果表明,LSI与VSM均取得了较SpamAssassin系统更优的分类效果.  相似文献   

9.
文本自动分类系统是信息处理的重要研究方向,在文献检索、信息过滤和文本管理等领域中有着广泛的应用。介绍了一种基于模糊模式识别以及向量空间模型提取特征向量的中文文本分类器的设计与实现。  相似文献   

10.
将基于数据库过滤与基于文本内容过滤两种过滤方式相结合,采用分级匹配过滤的策略,利用相关技术对收集到的网页进行处理。最后结合准确率和查全率这两个系统评价指标,提出一种新的指标,即F1测试值对实验结果进行测评。  相似文献   

11.
垃圾邮件的过滤是一个具有重要现实意义的课题.将交叉覆盖学习算法和向量空间模型等技术相结合可得到一种新的垃圾邮件过滤方法.实验结果表明该方法识别率较高,具有较强的实用价值.  相似文献   

12.
基于多视角特征融合的中文垃圾微博过滤   总被引:1,自引:0,他引:1  
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。  相似文献   

13.
Open Bookmark——基于Agent的信息过滤系统   总被引:11,自引:0,他引:11  
为解决搜索引擎等传统网络信息服务系统的不足 ,提出了一个基于 Agent的信息过滤系统—— OpenBookm ark,它提供了一个开放性的信息组织环境。 OpenBookm ark使用向量空间法和社会过滤两种信息过滤方式帮助用户获取有用信息。向量空间法采用关键词向量描述用户的信息需求 ,通过计算信息之间的相似度 ,从信息数据库中提取符合用户兴趣的信息推荐给用户 ,并根据用户的反馈信息调整关键词向量。系统采用信息 Agent获取用户的信息需求 ,以实现个性化的主动信息服务 ,Agent之间采用 Agent通信语言进行信息协作 ,实现社会过滤。在开放式信息服务系统中使用信息过滤的方法 ,可以帮助用户有效地获取信息。  相似文献   

14.
基于内容的垃圾邮件过滤本质上是文本分类问题,支持向量机分类器非常适合于垃圾邮件过滤这一二分类问题,但标准的支持向量机是基于分类精度进行优化的,对两类邮件的重要性未以区别,造成了邮件分类时虽然整体精度较高,但对正常邮件的误判率也较高.据此笔者提出了一种基于加权支持向量机的垃圾邮件过滤算法,通过增加两类邮件的类别权重及反映每封邮件重要性的权重,对支持向量机分类器进行训练,在保证分类精度的同时,尽可能地降低对正常邮件的误判率.实验表明该算法取得了很好的过滤效果.  相似文献   

15.
基于一类分类法的不良信息过滤模型   总被引:5,自引:0,他引:5  
孙强  李建华  李生红 《上海交通大学学报》2005,39(12):1993-1996,2001
针对网络不良信息过滤中训练样本分布不均衡,负面样本对于训练效果无充分贡献,提出了一种利用正面训练样本建立分类模型,并基于该模型实现网络不良信息过滤的方法.模型通过选择合适的核函数,提高过滤的准确性,实现了基于正面样本的不良信息过滤.  相似文献   

16.
问答对过滤是准确自动获取问答对的句法结构关系和领域特征,选取句子主干与领域词汇作为分类特征,采用贝叶斯分类学习方法进行领域问答对过滤;根据中文语言相关性,融合句法、词法及语义要素,计算句子与问答对相关性,以相关性为基础,过滤面向句子相关的问答对.实验结果表明,提出的过滤方法均取得了较好的效果,相对传统过滤方法,能够提高问答对过滤的准确率.  相似文献   

17.
针对垃圾信息过滤的问题,提出了一种基于支持向量机(SVM)算法的垃圾信息过滤方法. 利用文本分类和信息检索领域所常用的性能评价指标,建立了垃圾信息过滤的评价体系,针对仿真实验获得的实验数据,利用所建立的垃圾信息过滤评价体系对实验数据评价结果,选取了适合的核函数及其参数,构建了SVM分类器,同时也通过仿真实验和评价体系对SVM分类器和传统贝叶斯分类器进行了测试和评估. 结果表明,基于SVM算法的分类器提高了信息过滤的准确性,同时也验证了SVM算法在垃圾信息过滤中的有效性.   相似文献   

18.
针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文本集,将基于向量的kNN分类器扩展到张量上以构建分类器。该方法简化了预处理过程,提高了准确率,并使得更多张量学习方法能够在中文文本分类中得以应用。实验证明其具有较高的分类准确率,有一定的实用价值。  相似文献   

19.
观点挖掘能自动对网络上大量的非结构化文本进行分析,得到有价值的观点态度,因为中文在机器语言处理中存在一些自身的特点和难点,相关研究进展较缓慢。本文提出了中文依赖语法的观点挖掘模型,介绍了文本爬取和文本预处理技术;采用了向量空间模型表示文本向量,介绍了基于中文依赖语法的特征抽取方法,在此基础上加入了评价对象提取的思想;采用知网情感词典作为判别主观字极性的基础,并对主观字极性评估方法做了相关改进。以建立一个全面、准确的中文观点分析模型为目标。  相似文献   

20.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号