首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件.  相似文献   

2.
引入柯尔莫格洛夫复杂性理论来描述邮件的特征,采用信息距离理论衡量邮件的相似程度,采用支持向量机(SVM)算法对邮件进行分类,提出了一种高准确率的垃圾邮件识别方法.相对于传统的垃圾邮件识别方法,该方法不需要对垃圾邮件进行邮件分割,省略邮件头分析和正文分析,可以准确地刻画垃圾邮件的主要特征,具有运算简单高效的特点.测试结果表明:该方法对文本邮件的分类准确率高达99%以上,有效提高了垃圾邮件识别的准确率.  相似文献   

3.
针对垃圾邮件文本数据高维、稀疏及词条相关等特点,提出Elastic Net-Decision Tree(EN-DT)两步分类算法。第一步,利用Elastic Net提取邮件文本特征变量,将高维文本数据降至低维。第二步,将所提取的低维特征变量输入到Decision Tree中进行邮件分类。根据分类评价指标对分类结果进行评价。利用Mark Hopkins等人收集的Spam邮件文本数据进行仿真,实验结果表明相比于PLS、PCA和Lasso等算法EN-DT分类性能更佳。  相似文献   

4.
给出了超平面构形的系数矩阵、特征矩阵的定义,将求构形的特征矩阵问题转化为系数矩阵的子矩阵求秩问题,从而给出构形的特征多项式的算法。利用特征矩阵对二维空间内不多于7条直线的构形进行了分类,并给出了特征多项式在聚合物拓扑分类中的应用。  相似文献   

5.
文本图像页面分割算法研究   总被引:1,自引:0,他引:1  
提出了一种基于改进纹理谱的文本页面分割算法,该算法首先采用改进的递归投影轮廓切割算法对文本图像页面进行粗分割,并提取文本图像的纹理谱特征;然后采用最小距离法将相邻纹理单元进行分类;最后实现文本图像页面文字区与非文字区的精确分割.实验表明,提出的方法在含有文字、图、表格的文本图像页面分割中效果很好,对其他复杂文本图像页面分割也具有适应性.  相似文献   

6.
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性.  相似文献   

7.
针对现有点云识别与分割算法因忽视点的位置特征和局部几何特征关系而导致难以捕获具有鉴别力的局部几何信息的问题,提出基于位置关系深度残差神经网络的三维点云识别与分割算法。将原始点云嵌入到高维空间并获取其高维特征;将点云的高维特征输入位置关系卷积实现局部邻域内当前点特征与位置几何特征的信息交流,并通过深度残差模块强化提取到的深层语义特征,分层重复以上步骤可逐步得到点云的高级上下文语义特征;通过全连接层与解码器,得到点云的识别与分割结果。实验结果表明,所提算法在ModelNet40点云分类数据集的识别精度达到了93.9%,在ShapeNet Part点云部件语义分割数据集的平均交并比达到了86.0%。所提算法能够提取三维点云的关键特征信息,具有较好的三维点云识别与分割能力。  相似文献   

8.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

9.
针对现有贝叶斯算法应用于垃圾邮件过滤时,贝叶斯贝努利模型对邮件文本特征向量进行处理不能区分特征向量的重要性,导致邮件分类召回率低,同时还存在合法邮件被误判的风险的问题,采用贝叶斯多项式模型对特征向量进行加权处理来区分特征向量的重要性;然后,采用低风险策略来降低合法邮件被误判的风险,提出基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法.实验结果表明:对于不同数量的特征项,该算法能够有效提高邮件分类的正确率与召回率,降低合法邮件被误判的风险,并在过滤文本字符数量较大的邮件时,具有性能平稳、波动小的特点.  相似文献   

10.
文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间相似度较低的文本对应的映射点距离较远,而相似度较高的文本对应的映射点距离较近;然后根据低维空间映射点坐标,再采用传统的聚类分析算法进行聚类,得到最终的聚类结果.在多个基准文本数据集上进行了实验测试,验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号