首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

2.
基于核方法的潜在语义文本分类模型   总被引:4,自引:0,他引:4  
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能.  相似文献   

3.
为解决传统推理引擎在进行大规模OWL本体数据的SWRL规则推理时存在的计算性能和可扩展性不足等问题,提出了云计算环境下的SWRL规则分布式推理框架CloudSWRL.根据SWRL规则语义,并以Hadoop开源云计算框架为基础,设计了OWL本体在HBase分布式数据库中的存储策略,定义了SWRL规则解析模型和相关推理中间数据模型,提出了在DL-safe限制下基于MapReduce的SWRL规则分布式推理算法.实验结果表明,在对大规模OWL本体进行SWRL规则推理时,CloudSWRL框架在计算性能和可扩展性方面均优于传统推理引擎.  相似文献   

4.
为解决大规模漏洞分类问题,提出一种基于卷积神经网络(convolutional neural network,CNN)的漏洞自动分类方法,借鉴深度学习的技术思想自动获取漏洞描述的相关局部特征,通过batchnorm规范化数据解决文本训练不稳定问题,进而实现漏洞类型的有效划分.实验表明,与传统方法相比,该方法在漏洞自动分类效率上能够得到显著的提高.   相似文献   

5.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

6.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选...  相似文献   

7.
基于朴素贝叶斯分类框架,通过添加尾项值对部分严重扭曲的分类结果进行调整,达到提升分类器性能的目的.方法通过增量式自适应学习分类模式,根据历史结果,判断分类器分类质量,进而确定尾项添加区间,对明显产生分类扭曲的区间结果自适应添加尾项补偿,调整分类结果.在Trec05,Trec06,Trec07,Ceas08数据集上的对比实验表明,改进算法在accuracy,Macro F1两个指标上均比朴素贝叶斯分类器和bagging朴素贝叶斯分类器显著提高,且方法简单易行.  相似文献   

8.
9.
在云计算环境中,用户把敏感数据外包在云端,所以数据强制访问控制成为目前云计算研究中亟需解决的问题。当前常用的解决算法是加密数据密钥;但这种算法因密钥分发及数据管理导致计算开销大。因此,提出一种新的云计算环境中数据分布式强制访问控制算法。介绍了云计算环境中数据访问流程,分析基于密文策略和属性的加密算法。利用属性集合对云计算环境中的用户身份进行描述,通过访问控制树表示数据分布式强制访问控制结构,在用户属性集符合既定访问控制结构的情况下,用户才能够完成对数据的解密。通过属性私钥申请、文件上传和文件下载三个过程,实现数据分布式强制访问控制。实验结果表明,所提算法在效率、安全性、内存消耗和控制精度四个方面均显示出了很大的优势。  相似文献   

10.
该课题主要是用于云计算数据中心的日志查询、分析的系统设计及实现。为了大量的日志数据采集、处理、检索的问题,需要一种作用于云计算数据中心分布式、高性能、实时、可扩展日志搜索系统。该课题研究由专用的分布式组件完成,分布式日志采集组件能够采集,转发不同种类,不同类型的日志信息形成一个能够采集不同协议的日志采集网络。  相似文献   

11.
对3种常用的文本分类方法进行了分析和比较,并进行了对比实验,结果表明支持向量机是进行文本分类较好的方法.最后讨论了支持向量机在文本分类中存在的缺点.  相似文献   

12.
智能电网短期负荷波动性大,传统预测方法无法解决波动性问题,预测结果不准确。为此,提出一种新的云计算环境下智能电网短期负荷预测方法。介绍了支持向量机理论,将一个含有所有某类样本在内的、由支持向量支撑的球面看作超球面,分析了分位数回归过程,将支持向量机和分位数结合在一起,构建支持向量-分位数回归预测模型。得到短期负荷概率密度函数,从而实现智能电网短期负荷预测。在进行实验时,完成对功率采样值和智能电网负荷属性的归一化处理,将其转换成[0,1]区间内的数据。实验结果表明,所提方法预测精度和效率高、成本低。  相似文献   

13.
采用传统方法对移动大数据进行分流时,结果不合理,对不同处理器的分流均衡性较差。为此,提出一种新的移动大数据合理分流方法。给出云计算环境下移动大数据分流平台整体结构,在云计算环境中每个可编程交换机上安装移动大数据分流单元。将移动大数据分流问题转换成求解最优解问题,通过状态反馈实现分流。将优化分解方法与拉格朗日乘法结合在一起完成分布式计算,获取移动大数据在链路上的均衡分流模型。采用交换机分流单元获取云计算环境下网络的分流状态,求出此时收益函数的偏导数,将两者相加获取最终分流结果。对移动大数据分流延迟进行分析。实验结果表明,所提方法能够保证分流均衡性和合理性。  相似文献   

14.
基于潜在语义的多类文本分类模型研究   总被引:15,自引:0,他引:15  
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定.  相似文献   

15.
基于潜在语义对偶空间的跨语言文本分类研究   总被引:1,自引:1,他引:0  
当今互联网上语言呈现多样性趋势,如何组织这些多语言的资源成为研究的热点。通过对双语平行语料库提取语义对应关系,构建潜在语义对偶空间,把双语文档映射到此概念空间后,实现跨语言分类。并通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。  相似文献   

16.
在云计算环境中,用户把敏感数据外包在云端,所以数据强制访问控制成为目前云计算研究中亟需解决的问题。当前常用的解决算法是加密数据密钥,但这种算法因密钥分发及数据管理导致计算开销大。因此,提出一种新的云计算环境中数据分布式强制访问控制算法,介绍了云计算环境中数据访问流程,分析基于密文策略和属性的加密算法,利用属性集合对云计算环境中的用户身份进行描述,通过访问控制树表示数据分布式强制访问控制结构,在用户属性集符合既定访问控制结构的情况下,用户才能够完成对数据的解密。通过属性私钥申请、文件上传和文件下载三个过程实现数据分布式强制访问控制。实验结果表明,所提算法在效率、安全性、内存消耗和控制精度四个方面均显示出了很大的优势。  相似文献   

17.
一种基于潜在语义结构的文本分类模型   总被引:19,自引:1,他引:19  
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构.  相似文献   

18.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

19.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

20.
在云计算环境下,数据挖掘应用中的数据共享和服务外包在产生巨大财富的同时,也带来了隐私泄漏的风险,其信息安全问题亟待解决。对云计算环境下神经网络预测分类服务外包中存在的风险以及全同态加密算法的应用进行了分析,使用平方函数作为神经网络中的非线性激活函数,设计并实现了一种密文域的数据分类预测方案,并对该方案运行过程中的5个主要步骤:模型训练、模型加密、数据加密、密文计算和解密结果进行详细描述。设计的测试实验结果验证了该方案的可行性,保证了模型和数据在整个神经网络处理过程中不被泄漏,可有效保障数据和模型的安全与隐私。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号