首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 620 毫秒
1.
文本分类中的类别信息特征选择方法   总被引:3,自引:0,他引:3  
随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类嚣的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,谊方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.  相似文献   

2.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

3.
特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更高的分类准确率和Macro-F1值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,有效提升文本的分类性能。  相似文献   

4.
刘洋 《科技信息》2007,(3):54-54
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。  相似文献   

5.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

6.
基于潜在语义的多类文本分类模型研究   总被引:15,自引:0,他引:15  
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定.  相似文献   

7.
文本分类是垃圾短信过滤的核心技术,为了在文本分类时实现特征提取,就需要在不影响分类准确性的前提下,减少原始空间的维数.文档频率、信息增益、互信息、统计、期望交叉熵法、文本证据权和主成分分析是目前采用的主要的特征降维方法,通过实验数据对六种方法的性能做比较分析后发现,对于垃圾短信过滤系统而言,信息增益是最优的特征选择方法.  相似文献   

8.
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。  相似文献   

9.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

10.
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别,文本分类是文本挖掘的一个重要内容。本文分别介绍了文本分类技术和支持向量机的概念,并阐述了支持向量机(SVM)在文本分类中的应用及其发展趋势。  相似文献   

11.
由于缺乏标准的中文邮件样本集,无法评测不同垃圾邮件过滤系统的性能.通过 分析邮件样本收集过程中存在的各种问题,研究了生成标准样本涉及的问题,设计了一个基于真实环境的标准邮件样本生成系统结构,并希望以此推出一个用于衡量邮件过滤系统性能的标准的邮件样本集,最终作为邮件过滤技术研究的基本语料.  相似文献   

12.
详细介绍了基于电话语音卡的语音邮件网关(Telephone Voice Email Gateway,TVEG)的设计及实现,阐述了电话语音邮件网关的硬件平台和软件结构;软件系统采用了Microsoft的Visual C 6.0开发平台,通过对MIME邮件协议的分析,实现对语音邮件的解析与合成.设计完全符合MIME规范,并具有良好的可扩展性.本系统成功地将计算机和电话机的优势有机地结合起来,实现了电话语音格式的邮件在电话线路上传输,提供了一个全方位的交叉的通信平台,拓宽了E-mail的应用领域.  相似文献   

13.
为降低垃圾邮件系统分类计算的误码率,分析了贝页斯垃圾邮件过滤系统对目标邮件的自动检测过程,从系统过滤质量和用户容错两个方面研究系统成本定义.在不同样本集合及其属性空间内,对于词语还原和间断表的开启与关闭,重点分析成本参数λ,通过调整成本参数分析贝页斯过滤系统在多种假定下邮件处理结果,完善系统建模定义标准,优化应用系统建模,提高系统过滤质量.实验结果证明该解决方案是可行的.   相似文献   

14.
介绍了电子邮件协议簇,基于LINUX系统下的邮件系统的工作原理,并对邮件服务器阻挡垃圾邮件、病毒入侵的过滤算法进行研究和改进,可实现邮件服务系统的稳定性、高效性.  相似文献   

15.
提出在Linux系统上以Postfix为SMTP服务器、CYRUS为POP/IMAP服务器、A-PACHE为WEB服务器和MYSQL为后台数据库构建一个支持大量用户的邮件系统的方案,并实现其Web Mail系统.在贝叶斯方法的基础上,设计出一个电子邮件过滤器,并给出实现的系统结构.针对日益泛滥的邮件病毒问题,提出一套可行的病毒防护方案.  相似文献   

16.
电子邮件一直是互联网最重要的应用之一,但现有基于SMTP协议和客户/服务器模式的电子邮件系统采用类似路由器的转发机制,由于服务器无法验证最初发送者的身份或源地址的真实性,导致垃圾邮件泛滥,而现有基于内容分析的过滤机制误判率高,经常导致邮件丢失.本文研究基于真实IPv6地址访问的P2P电子邮件体系结构,提出了基于真实IPv6地址的发信人身份认证技术,设计实现了基于真实IPv6地址访问的P2P电子邮件系统,实现了对发信人源地址的认证与追踪,使得假冒源地址的垃圾邮件根本无法发出.  相似文献   

17.
本文在分析目前INTERNET上主要的邮件攻击的基础上,介绍了基于sendmail的一种邮件过滤系统,采用基于地址和基于内容两种方法过滤邮件,防止邮件攻击.  相似文献   

18.
越来越多的用户使用电子邮件进行商业活动,在邮件系统发生故障后,对邮件及邮箱的恢复就显复非常重要。文章讨论了邮件与邮箱保留期限的设置方法,在保留期内对邮件恢复方法,利用备份恢复邮件的方法及恢复被删除邮箱的方法。在讨论利用备份恢复邮件时,采用了"恢复存储组"对邮件进行恢复,在不影响其他用户使用邮件系统的情况下,恢复被删除的邮件,具有一定的先进性。  相似文献   

19.
本文提出一种新的邮件分类方法(ILDS),即根据邮件对于用户的重要程度将其分为重要邮件、次要邮件、删除邮件及陌生邮件。通过对已接收邮件的地址、主题、正文以及用户习惯等的学习,实现邮件归类。同时设计了一个相应的测试系统,验证了本方法的可行性。  相似文献   

20.
为了将IP网络电话、语音电子商务等通信方式的优点融入电子邮件系统之中,构造大容量,具备电话和电脑两类用户、能随时随地接入的邮件系统。以通用SMTP/POP3邮件协议为基础,提出基于实时语音压缩的IP语音邮件的SMTP/POP3修改协议,并用VC++编程语言实现基于G.729实时语音压缩标准的、具有简单和方便操作界面、具备说话人特征的IP语音邮件系统。系统测试结果表明,系统能够自由实现电脑用户到电话用户、电脑用户到电脑用户、电话用户到电话用户以及电话用户到电脑用户间的语音邮件发送和接收,提供特快语音邮件和普通语音邮件服务功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号