首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
垃圾邮件问题日益严重,受到研究人员的广泛关注.通过利用基于词频的权值计算,同时改进传统文本相似度计算概率模型,改进SVM算法实现邮件过滤系统.实验表明在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有明显改善.  相似文献   

2.
针对个性化邮件过滤中接收的邮件没有规律、正常邮件和垃圾邮件存在严重类偏移等问题,提出一种改进的k最近邻(k-nearest neighbor algorithm,KNN)个性化邮件过滤方法.该方法主要是通过建立兴趣度模型(对兴趣度计算的改进,剔除用户习惯对建立兴趣度模型带来的影响)不断改变训练集,使得训练集中的文本始终...  相似文献   

3.
采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件.  相似文献   

4.
基于Na(i)ve Bayes模型的垃圾邮件过滤方法   总被引:2,自引:1,他引:1  
采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件.  相似文献   

5.
针对现有贝叶斯算法应用于垃圾邮件过滤时,贝叶斯贝努利模型对邮件文本特征向量进行处理不能区分特征向量的重要性,导致邮件分类召回率低,同时还存在合法邮件被误判的风险的问题,采用贝叶斯多项式模型对特征向量进行加权处理来区分特征向量的重要性;然后,采用低风险策略来降低合法邮件被误判的风险,提出基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法.实验结果表明:对于不同数量的特征项,该算法能够有效提高邮件分类的正确率与召回率,降低合法邮件被误判的风险,并在过滤文本字符数量较大的邮件时,具有性能平稳、波动小的特点.  相似文献   

6.
研究了典型的特征加权方法,分析了词频权重以及tf*idf权重等特征加权方法在表现特征重要性上的不足,提出了一种新的特征权重计算方法tf*idf*cf.该方法综合考虑了特征频率、文档频率以及特征类别信息,更为全面准确地描述了特征在文本中的重要程度.实验结果表明,该方法可以有效地改善分类性能.  相似文献   

7.
中文分词在邮件过滤系统中的应用   总被引:4,自引:0,他引:4  
针对邮件文本分词效果较差的特点,提出采用一种改进的最大匹配法来进行中文分词的方法.该方法对于普通的邮件文本和一些具有特定格式的邮件文本都可以进行有效的分词;文中还利用φ2统计法生成新词,对词典起到了动态更新的作用,提高了分词的精度和准确度.两种方法在邮件过滤系统中结合应用,使分词的误分率低于0.025.  相似文献   

8.
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性.  相似文献   

9.
基于贝叶斯概率模型的邮件过滤算法探讨   总被引:6,自引:0,他引:6  
讨论了邮件过滤模块,通过分析研究该模块中垃圾邮件关键词的统计概率分布,提出了基于贝叶斯概率模型的邮件过滤算法,并对该算法的合理性和复杂度进行了分析.可以根据垃圾邮件内容的特征,建立贝叶斯概率模型,计算出一封邮件是垃圾邮件的概率,从而判断其是否为垃圾邮件.  相似文献   

10.
文本自动分类的一项关键技术是特征选择。本文针对信息过滤的特点,对特征选择方法进行了改进,提出了一种基于语义神经网络的文本特征选择方法。首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心是关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明,该方法可以极大地降低文本的维数,提高文本过滤的质量。  相似文献   

11.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.  相似文献   

12.
有些文本缺少字符集信息,因而阻碍了字符信息的正确解析.为了获得字符集信息可以根据文本中字符信息的统计特征以及各种字符集之同的差异来识别出文本的字符集.集成的字符集检测方法通过综合应用编码模式检测方法、字符分布方法和双字符序列检测方法来检测字符集.它根据算法复杂度和每种算法的准确率来调度算法.使得在用一种方法不能确定字符集的情况下利用其它方法来检测出字符集实验结果表明:集成的字符检测技术具有较高的准确率.集成的字符检测方法在某些情况下通过适度增加一些时间来获得较高的精度.  相似文献   

13.
首次提出利用URL-Key进行领域术语识别的方法。以URL作为媒介, 借助已知URL-Key的领域性来判断未知领域候选术语的领域性。首先, 借助互联网中已有的人工分类领域URL, 根据URL-Key在各领域汇总使用的频度, 采用基于方差的领域URL-Key识别方法, 构建领域URL-Key词表; 然后, 利用伪反馈技术, 收集候选领域词检索得到的URL结果集, 根据URL结果集构建候选领域术语的URL-Key特征向量; 最后, 利用SVM对候选领域术语进行提取。在4个领域进行实验, 都取得不错的效果。新提出的方法可以有效地解决低频术语识别问题, 为低频术语的识别提供新的思路。  相似文献   

14.
为了提高字符识别的正确率和速度,本文提出了一种改进的Hausdorff距离的字符识别方法.实验结果表明,该方法在印刷体数字识别中达到100%的识别率,在字母识别中,除个别被噪声严重污染和结构特征极其接近的字母外也得到了正确的识别效果,且改进后的运算速度提高了一倍左右.  相似文献   

15.
文本图像的快速区域定位方法   总被引:2,自引:0,他引:2  
字符区域定位是字符识别的预处理过程,但字符图像常常受到光照和噪声的影响,使字符区域的准确定位变得十分困难。提出了一种基于数学形态学的定位方法,利用数学形态学的膨胀、腐蚀运算和字符串图像的整体特征,实现对复杂背景图像中字符串的准确定位,同时对算法进行了优化,使算法更适于实际应用。文中以印刷电路板字符图像作为测试样本进行区域定位,取得了预期的效果。  相似文献   

16.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

17.
从语文课改实践看"工具性与人文性的统一"   总被引:1,自引:0,他引:1  
正确把握“工具性与人文性的统一”,具有实践意义。在语文课改实践中,无论是《语文课程标准》的制订、语文教材的编写,还是课程教学实施、课程理论研究,都存在重人文性、轻工具性的倾向,没有把握好二者的统一:工具性是语文的基本属性,人文性是各学科的共同属性;统一的责任主要在语文教师;统一是一种状态,一种程序,是解决矛盾的过程和方法;“统一”要坚持和保有一个底线:诵读积累、整体把握、自主表达,在课文内容和学习过程中做到二者的统一。  相似文献   

18.
基于人工标引的中文学术期刊文献自动分类算法   总被引:3,自引:0,他引:3  
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率  相似文献   

19.
为给满文识别系统提供基元特征和训练测试样本,在对图象进行灰度化、二值化、倾斜校正、行列分割等预处理后,构建了印刷体满文文字多级数据库,包括列文本库、单词库和基元库3个子库。该库的构建为后续满文识别提供了技术支撑。  相似文献   

20.
分析了周期性慢波结构中的场分布特点,提出了一种利用粒子模拟软件Magic快速分析周期性慢波结构色散特性和描绘色散曲线的方法.以一个具体的慢波结构为实例,详细介绍这种方法的操作过程,并结合周期性慢波结构的场分布特点及其他电磁理论分析这种方法的原理,理论证明它的可行性.这种方法尽管有一定的误差,但是其操作简单而迅速,在进行一些微波电子器件的初步设计工作当中有一定的实际意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号