首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

2.
用于中文色情文本过滤的近邻法构造算法   总被引:2,自引:0,他引:2  
从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到了重要的作用.实验同时表明,所设计的过滤器在保证速度的前提下,很好地完成了基于内容的高精度过滤.  相似文献   

3.
针对稀疏文本特征纬度高、特征稀疏程度大的特点,根据词、文档和所属类别的关系,建立训练样本的特征概率分布函数,通过基于内容的滤波器去除背景噪声和非关键词后,利用特征分类方法对稀疏文本进行分类.用线性回归的分类方法与其他传统分类方法进行了比较,结果表明,该特征分类方法能够有效提高稀疏文本的分类精度,尤其是与线性分类中的岭回归方法相结合时,分类精度更高.  相似文献   

4.
学术报告讲座的标题属于典型的超短文本,其固有的特征稀疏问题使得在利用传统的文本分类方法对其分类时效果不佳。为解决上述问题,文章基于词向量嵌入技术,对学术报告标题进行特征词扩展。通过控制特征扩展幅度和设置词间相似度阈值,使扩展的特征词与标题特征词的内容相关,并从词性角度进一步考虑词语相似性,过滤无关特征词。实验结果表明,该方法能够有效地提高对学术报告标题短文本的分类效果。  相似文献   

5.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

6.
文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。  相似文献   

7.
文本自动分类的一项关键技术是特征选择。本文针对信息过滤的特点,对特征选择方法进行了改进,提出了一种基于语义神经网络的文本特征选择方法。首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心是关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明,该方法可以极大地降低文本的维数,提高文本过滤的质量。  相似文献   

8.
朴素贝叶斯分类器是一种简单有效的文本分类方法.改进方法利用同义词对文本的特征词集进行过滤,在一定程度上放松了朴素贝叶斯的特征独立性假设;在特征选择时迭代了2种不同的特征选择方法,有效地提高了特征集的代表性.实验结果表明,本方法有效地提高了朴素贝叶斯分类器的性能.  相似文献   

9.
垃圾邮件过滤技术主要有三个大类,它们分别运用不同的方法和途径来判定垃圾邮件:基于IP地址;基于规则;基于邮件内容.基于内容的垃圾邮件过滤是一种常用的反垃圾邮件技术,它以邮件在内容方面的特点来鉴别邮件,在技术上利用文本分类的方法来实现.文章设计了基于内容的,采用贝叶斯方法进行文本分类的垃圾邮件处理系统.  相似文献   

10.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

11.
基于文本内容分析的过滤技术研究   总被引:7,自引:1,他引:7  
提出一种基于特征词和局部语义分析的文本分类与过滤方法,在基于特征词统计特性分析的基础上,将特征词的知识属性和局部语法匹配引入信息过滤模型,实验结果表明,这种方法对于某些领域的文本信息可以有效地进行识别和过滤.  相似文献   

12.
针对WWW的HTML结构,采用TFE表示,给出一种新的TFE实现方法,在此基础上,探讨了基于向量空间模型的词元权重函数的构造方法,描述了权重函数,研究了先前比较典型权重函数,把整个文档作为一个空间,提出一种更有效的文本权重调整方法,试验结果表明,该算法对文本分类的准确率有明显提高。  相似文献   

13.
基于Boosting算法的垃圾邮件过滤方法研究   总被引:2,自引:2,他引:0  
为解决垃圾邮件过滤的精确度和有效性问题,提出了一种基于邮件内容过滤的垃圾邮件过滤方法,该方法采用Boosting算法构造了一种垃圾邮件过滤器,利用该垃圾邮件过滤器实现对垃圾邮件的过滤. 本文借鉴文本分类和信息检索领域所使用的评价指标,构建了垃圾邮件过滤器的评价体系,利用该评价体系,针对基于Boosting算法所构造的垃圾邮件过滤器对垃圾邮件的过滤实验所得到的数据进行了测试和评估,测试和评估的结果验证了Boosting算法在垃圾邮件过滤中的有效性,其性能优于传统的贝叶斯算法.   相似文献   

14.
With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applications which can block or filter such information are used. Approaches in those systems can be roughly classified into two kinds: metadata based and content based. With the development of distributed technologies, content based filtering technologies will play a more and more important role in filtering systems. Keyword matching is a content based method used widely in harmful text filtering. Experiments to evaluate the recall and precision of the method showed that the precision of the method is not satisfactory, though the recall of the method is rather high. According to the results, a new pornographic text filtering model based on reconfirming is put forward. Experiments showed that the model is practical, has less loss of recall than the single keyword matching method, and has higher precision.  相似文献   

15.
田正军  张鸿彦 《河南科学》2007,25(2):282-284
电子邮件作为因特网一个主流的应用日益成为网络使用者不可缺少的工具,随之而来的垃圾邮件也越来越猖獗,对邮件的分类、检测与过滤显得尤为迫切.利用文本自动分类器,将接收到的邮件转换为向量表示,通过计算向量的相似度对其分类,方便用户使用.  相似文献   

16.
考虑到反垃圾邮件本身特点,借鉴文本分类中的已有技术,将其应用到垃圾邮件的屏蔽中来.因为将合法邮件判别为垃圾邮件对于邮件用户造成的损失明显大于相反的操作,所以定义了一个损失函数,将其与朴素贝叶斯算法结合,实现了基于最小损失的垃圾邮件屏蔽算法.在一个公认的垃圾数据集上的实验结果验证了引入损失函数的有效性.  相似文献   

17.
在自然语言生成任务中,主题文本生成是一项富有挑战性的工作,其主要难点在于:源信息量远小于目标生成的信息量.为了解决该问题,本文提出一个基于外部知识筛选的主题文本生成模型Trans K,通过引入与主题词相关的外部知识来丰富源信息,进而提高生成文本的质量.本文为了解决引入外部知识的“一词多义”问题,提出一种基于线性变换的主题向量计算方法,用于筛选和主题词语义一致的外部知识;提出一种基于注意力机制的外部权重计算方法,为每个外部词设定一个主题权重,使其更贴合文本语义;为了解决主题词(含候选词)在生成文本中反复出现的问题,提出一种基于多头注意力机制的内部权重计算方法.在EASSY数据集上的实验表明,与基线相比,Trans K生成文本质量的各项指标更优.此外,人类评估表明,该模型可生成与主题更相关、语言更连贯、且符合语义逻辑的文本.  相似文献   

18.
垃圾邮件制造者为了躲避基于文本的垃圾邮件过滤器的过滤,常常将文字嵌入到图像中,产生了大量的广告垃圾图像.为解决这一问题,提出了基于图像内容的垃圾图像过滤方法.首先提取出图像中的文字区域,再利用广告垃圾图像中的文字区域特征进行广告垃圾图像过滤.实验结果表明利用文字区域特征过滤广告垃圾图像是行之有效的.  相似文献   

19.
基于CUDA的高速并行高斯滤波算法   总被引:2,自引:1,他引:1  
为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性弱和CUDA采用单指令多线程(SIMT)执行模型的特点,总结出适合于CUDA的并行高斯滤波算法流程.实验证明:该方法与CPU串行处理方法相比,其加速比达到40倍以上,可以有效提高数据处理能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号