首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
针对现有贝叶斯算法应用于垃圾邮件过滤时,贝叶斯贝努利模型对邮件文本特征向量进行处理不能区分特征向量的重要性,导致邮件分类召回率低,同时还存在合法邮件被误判的风险的问题,采用贝叶斯多项式模型对特征向量进行加权处理来区分特征向量的重要性;然后,采用低风险策略来降低合法邮件被误判的风险,提出基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法.实验结果表明:对于不同数量的特征项,该算法能够有效提高邮件分类的正确率与召回率,降低合法邮件被误判的风险,并在过滤文本字符数量较大的邮件时,具有性能平稳、波动小的特点.  相似文献   

2.
文本生成是自然语言处理的一项重要任务.针对生成的文本大多缺乏多样性,且当生成文本过长时,文本生成的质量会有明显下降的问题,提出了一种采用Sentences and Words(SW)奖励机制的传递向量文本生成对抗网络.首先,为生成器提出了层次结构设计,包括传递特征向量训练模块和生成向量训练模块,同时传递判别模型中真实文本特征向量给生成器的传递特征向量训练模块,由此来提高长文本生成的准确率,生成向量训练模块接收其生成词序列;然后,在训练过程中,使用关系存储核心代替传统的长短期记忆循环神经网络模型作为生成器,提高了模型的表达能力和捕获信息的能力;最后,采用SW奖励机制提高文本生成的多样性.实验结果表明,分层学习的多奖励文本生成对抗网络(Generation Adversarial Network Based on Hierarchical Learning with Multi-reward Text,HLMGAN)模型在合成数据负对数似然度和双语互译质量评估辅助工具指标中均有所提升.  相似文献   

3.
针对电影影评语句短小、特征矩阵稀疏问题,提出一种利用本体扩展特征矩阵的方法。首先通过传统与新型文本分类方法的比较和分析,发现适合中文短影评的分类方法,并通过试验证明决策树的短文本分类效果优于SVM、Bayes和KNN等文本分类方法,然后进一步利用决策树分类本体扩展后的特征向量。试验表明,基于本体扩展的中文短影评的分类效果比传统的分类效果提高3%,查准率达到90.1%。  相似文献   

4.
文本生成是自然语言处理的一项重要任务. 针对生成的文本大多缺乏多样性,且当生成文本过长时,文本生成的质量会有明显下降的问题,提出了一种采用Sentences and Words(SW)奖励机制的传递向量文本生成对抗网络. 首先,为生成器提出了层次结构设计,包括传递特征向量训练模块和生成向量训练模块,同时传递判别模型中真实文本特征向量给生成器的传递特征向量训练模块,由此来提高长文本生成的准确率,生成向量训练模块接收其生成词序列;然后,在训练过程中,使用关系存储核心代替传统的长短期记忆循环神经网络模型作为生成器,提高了模型的表达能力和捕获信息的能力;最后,采用SW奖励机制提高文本生成的多样性. 实验结果表明,分层学习的多奖励文本生成对抗网络(Generation Adversarial Network Based on Hierarchical Learning with Multi-reward Text,HLMGAN)模型在合成数据负对数似然度和双语互译质量评估辅助工具指标中均有所提升.  相似文献   

5.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

6.
针对学习型社区中的教育需求,在传统算法上加以改进提出了一种基于向量空间模型的教育资源自适应过滤算法。首先通过训练算法,提取特征向量和伪反馈建立初始模板,设置初始阈值。然后通过过滤算法根据用户的反馈信息自适应地调整模板和阈值。该算法在执行过程中,不需要大量的初始文本,同时在过滤的过程中可不断地进行自主学习来提高过滤精度。该算法已在项目中进行验证,结果表明是有效的。  相似文献   

7.
一种在图像和视频帧中检测文本的新方法   总被引:1,自引:1,他引:0  
提出了一种在带有复杂背景的图像和视频帧中检测文本的由粗到细的新方法.首先用连通分量(Component Connect,CC)方法对可能是文本的区域进行粗定位,然后再进行纹理分析,得到特征向量后,用统计图的方法对其进行筛选,并对筛选后的特征向量使用BP神经网络进行分类,从而得到真正的文本区域.经过测试,提出的算法在图像和视频帧中的检测率达到95.3%.  相似文献   

8.
针对学习型社区中的教育需求,在传统算法上加以改进,提出了一种基于向量空间模型的教育资源自适应过滤算法.通过训练算法,提取特征向量和伪反馈建立初始模板,设置初始阈值.然后通过过滤算法根据用户的反馈信息自适应地调整模板和阈值.该算法在执行过程中,不需要大量的初始文本,同时在过滤的过程中可不断地进行自主学习来提高过滤精度.该算法已在个性化知识服务系统中进行验证,结果表明是有效的.  相似文献   

9.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.  相似文献   

10.
文本自动分类系统是信息处理的重要研究方向,在文献检索、信息过滤和文本管理等领域中有着广泛的应用。介绍了一种基于模糊模式识别以及向量空间模型提取特征向量的中文文本分类器的设计与实现。  相似文献   

11.
基于示例的中文文本过滤模型   总被引:13,自引:0,他引:13  
简要描述了文本过滤的背景,提出了基于示例的中文文本过滤模型,其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用文本层次分析方法,提取文本特征,形成主题词表示的用户模板,然后进行文本过滤。  相似文献   

12.
目前结合机器学习、文本分类的过滤方法成为研究热点.而这些过滤方法在邮件过滤时存在使用训练集数据量和表征数据的特征向量维数过多,引发"维灾难"和较大的运算量等问题.结合证据理论K近邻方法(evidence theory based K-nearest neighbors,EKNN)和直推式信度机(transductive...  相似文献   

13.
基于本体的信息过滤需求模型构造   总被引:1,自引:0,他引:1  
在信息过滤系统中,由于缺乏语义模型作为支撑,基于关键词的用户需求模型难于准确地反映出用户的真实需求,成为影响过滤性能的主要瓶颈.提出了以本体构造用户需求模型的方法:采用领域相关度和领域一致度组合方法来确定查询关键词在特定领域的重要程度,建立查询关键词到本体概念的映射,然后利用本体的概念及属性构造用户需求模型.这种基于本体的用户需求模型构造方法能提高过滤系统性能.  相似文献   

14.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

15.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

16.
针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。  相似文献   

17.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

18.
本体映射是解决本体异构的通用方法.根据边的类型、顶点深度、边的密度和强度以及边关联的两顶点的属性计算有向边的权重.选择最优路径构建对应本体有向层次图的无向生成树,分别定义其Laplace矩阵,并通过分析该矩阵的特征值及特征向量来构造匹配矩阵.最后根据匹配矩阵元素的大小和位置信息来实现顶点匹配,并由此生成本体映射.实验表明该方法是有效的.  相似文献   

19.
分析了电子邮件过滤系统的实现方案及关键技术,实现了一种基于内容和地址的电子邮件实时过滤系统.系统利用中文文档信息处理中的文档特征向量提取技术,作为邮件过滤的依据。系统运行在Linux或WindowsNT/2000平台上。经过实际运行测试,证明系统性能稳定,达到了预期设计目标。  相似文献   

20.
解题所需知识库的构建对自动解题尤为重要。在利用本体知识库解答地理试题时,希望尽量减少本体构建中的人工参与成分。为此,首先对地理试题文本进行分词,并利用TF-IDF算法实现试题文本中的概念实体抽取;然后设计基本术语层次关系表,实现试题文本中的概念实体关系构建;最后利用Jena推理机将概念实体关系进一步规则化为OWL本体,并利用protégé工具对其进行调整和优化。在所收集地理试题集上的实验结果表明,本文所提出的本体构建方法对各类试题的知识库构建有明显的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号