首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种面向大规模数据集的单类支持向量机(OCSVM)方法.该方法基于k近邻思想得到表征数据集合分布特征的集合内点,并依此生成集合边缘点,而后由二者重新组成数据集合,用于OCSVM训练.该新建数据集不仅极大压缩了原有大规模数据集的样本数量,还可以保留原有大规模数据集的分布特征,从而有效解决了OCSVM在处理大规模数据集时所存在的训练时间长、模型复杂以及预测效率低等问题.最后,通过在典型数据集合上进行的对比实验,表明了所提方法的有效性.  相似文献   

2.
在数据交换技术的发展中,数据交换技术的实现往往作为研究的重点,而忽略了数据交换过程中数据才是核心。在数据交换过程中数据的生命周期的研究成为重点。因此,介绍了一种以数据集为中心的数据交换模式,采用元数据来记录数据信息在数据交换的整个生命周期中的流转状态。分析了数据交换技术,其关键是如何保持数据的完整性和一致性。设计了基于XML中间件的数据映射规则,满足源数据和目标数据的完整性。将数据集引入到数据交换中。  相似文献   

3.
4.
智慧检务是进一步发展检察信息化的重要步骤,它的实施和普及能更好地提升检察院工作质量和工作效率。实际上,检察官在办公流程中往往会处理大量的检察院法律文书,若不能有效地组织和利用这些文书中的信息,会降低其工作效率,信息检索技术恰好可以解决这一问题。在法律领域,中文信息检索数据集的缺失在一定程度上制约了法律信息检索的发展。在这一背景下,针对检察院法律文书的特点,提出了一种构建检察院法律文书检索数据集的方法,并构建了一个可用于法律领域信息检索研究的小型中文数据集。通过实验分析,验证了该数据集在不同检索模型上的性能。  相似文献   

5.
在智能互联网时代,关联数据是语义网的最佳实践。地学图书是地学研究人员在长期科研工作中对其科技成果、生产技术知识和经验的概括论述,是人类知识宝库的重要部分。传统的地学书目由于不具备关联数据特性,从而形成了信息孤岛,无法融入语义网和被计算机所理解。本文研究在数据集内发现隐含的实体关系,并自动构建实体-关系模型,实现基于D2R软件发布RDF格式地学书目关联数据。  相似文献   

6.
一种基于小数据集的贝叶斯网络学习方法   总被引:1,自引:0,他引:1  
 贝叶斯网络是用来表示不确定变量集合联合分布的图形模型,反映了变量间潜在的依赖关系.从完备数据集和不完备数据集上学习贝叶斯网络是研究的热点之一,要求有大数据集.针对实际应用中常常只能获得小样本数据,提出了基于Bootstrap抽样的网络结构学习的遗传算法,实验结果表明该方法在小数据集上学习贝叶斯网络具有一定的有效性.  相似文献   

7.
随着在线视频平台的快速发展,弹幕逐渐成为人们表达观点的一个重要途径,尤其受到年轻人的欢迎.与常规的文本不同,弹幕文本普遍较短,表达随意,网络词汇较多,一些常规的停用词被用于表达情感.提出了一种基于弹幕数据的舆情分析模型,针对弹幕数据生成和存储特点,提出了热点检测循环自适应弹幕数据获取算法;扩充了情感词典来区分弹幕中情感倾向数据和中性数据,以解决弹幕中出现的网络词汇较多的问题;基于卷积神经网络(Convolutional Neural Network, CNN)建立了情感褒贬分类模型,用来区分情感倾向弹幕的正负情感倾向,在此基础上得到了舆情分析的结果.实验表明,本文的舆情分析模型能有效地表达新闻类弹幕数据的舆情分析结果.  相似文献   

8.
在开展长白山生态数据智能分析时,需要爬取大量的网络数据,这些数据大概率会出现缺失、重复、异常、噪声等情况,因此需要对爬取到的数据进行必要的清洗的功能.设计了一种爬虫,并实现了数据清洗的功能,实验证明,100万条数据的爬取用时<30 min.  相似文献   

9.
针对智能制造中表面缺陷检测数据集不足问题,提出基于M-DCGAN的数据集增广方法。首先,向判别器添加上采样模块,搭建类U-Net结构并提升判别器与生成器的网络深度;设计基于Canny边缘检测的缺陷位置二值化掩膜提取方法;定义图像掩膜依赖的损失函数,建立缺陷目标位置关注引导机制;插入谱归一化层和Dropout层以提高训练稳定性,保持生成图像数据多样性。带钢缺陷数据集实验结果表明,该模型生成图片质量高于DCGAN、WGAN-GP和InfoGAN。采用本文M-DCGAN算法增广训练数据,能够显著提升并超过传统增广算法在YOLOv5、SSD、Faster R-CNN、YOLOv3等八种经典方法中的缺陷检测精度,验证了本文算法的有效性。  相似文献   

10.
在XML数据清洗中,模式约束语言提供的信息不能满足准确数据清洗过程对于领域知识的需要;同时,传统的树编辑算法在对XML实例数据进行清洗时,由于缺乏对XML结构信息的语义描述,造成了大量的数据匹配错误.基于此,引入参考本体和领域本体分别对上述问题进行解决,给出了模式约束的度量指标和一个XML结构感知算法,并构建了一个基于语义的XML数据清洗框架.  相似文献   

11.
关联规则挖掘是数据挖掘领域中一个非常重要的研究课题。本文对压缩数据的关联规则挖掘进行研究,提出了挖掘算法,与传统的关联规则挖掘算法相比,本算法不但效率高,而且具有较好的伸缩性。  相似文献   

12.
13.
基于S-粗集的粗数据规律识别   总被引:1,自引:0,他引:1  
利用S-粗集,给出粗数据的概念,粗数据具有动态特性;给出粗数据规律生成;提出粗数据规律生成定理,粗数据规律还原定理;给出粗数据规律识别准则与可分辨定理;给出粗数据规律的应用。  相似文献   

14.
针对在以数字化的方式传承和保护蓝印花布的技术中由于缺乏具有原始手工特征的蓝色印花图案数据集,极大地限制了深度学习技术在蓝印花布纹样识别领域的应用问题,构建了一个大规模蓝印花布纹样数据集。该数据集包含50 216张蓝印花布纹样,从动物、植物、中国神话传说及复合四大题材的角度将数据分为85个子类。该数据集的创建不仅涉及到蓝印花布的数字化建设,如蓝印花布纹样检索及相关纹样命名,还能使相关研究人员设计和验证机器学习算法。在所构建的数据集基础上,提供了4个典型深度学习网络的实验结果,以此作为其性能基准。  相似文献   

15.
有许多文献针对集中式集值决策信息系统进行了研究,但还没有针对分布式集值决策信息系统方面的研究。主要讨论了分布式环境下集值决策信息系统的属性约简问题。从概率角度给出了集值对象的相似性度量,定义了分布式集值决策信息系统中的粗糙集模型;以保持系统正域不变为准则,分析了分布式集值决策信息系统中子决策表和属性的可约性;随后,给出了分布式集值决策信息系统中属性对于系统可约的2个判定条件,并采用后向搜索策略提出了相应的属性约简算法;为了验证该方法的有效性,在5份数据集上进行了50组实验。实验结果表明,提出的方法可以在保持分布式集值决策信息系统分类能力基本不变的情况下约简掉冗余的属性。。  相似文献   

16.
基于生成对抗网络(generative adversarial networks,GAN),提出了面向肝脏肿瘤CT图像仿真数据集生成深度学习算法.首先,将CT图像数据文件进行格式解析,单独保存为PNG格式的图像文件;然后,将肝脏病变区域统一标注为白色,并结合肝脏CT原图组成配对图片;最后,用生成对抗网络的pix2pix架构仿真生成病变肝脏图像.为将生成图像与目标图像进行定量分析、比较,本文采用了峰值信噪比和结构相似性作为模型的评价指标.实验结果表明,本文算法所生成的肝脏肿瘤CT仿真数据集的平均峰值信噪比为64.72dB,平均结构相似性为0.9973,证明了所生成的仿真图像数据有着非常高的真实度.  相似文献   

17.
为了有效地从凸序列中约简数据和发现知识,解决Rough集集中的凸序列问题,在深入研究凸序列和Rough集理论的基础上,提出了凸Rough集模型,定义了凸Rough集和凸Rough集糊集,给出了凸Rough集糊集的隶属函数和应用凸Rough集进行数据约简及规则发现的算法,最后分析了一个应用案例,验证了模型的可行性,表明应用凸Rough集模型可以更好地进行数据约减和规则发现。  相似文献   

18.
基于数据场和水平集演化的图像分割   总被引:1,自引:1,他引:0  
为了充分挖掘图像内不同区域间的隐含关联性,并解决图像分割中自适应阈值选择问题,提出了一种基于数据场和水平集的图像分割方法。利用数据场能够有效地表示图像像素间的相互作用,根据势值能够得到对应的势值等势线,可以根据该等势线的分布情况,采用梯度下降法来得到图像的二值化分割结果。为了得到更为精确的分割边缘,还引入基于拉普拉斯边缘检测函数的水平集演化方法来对二值化结果进行边缘曲线演化。将二值化分割结果与传统的基于数据场的图像分割算法对比结果显示,所提出的算法在分割准确性上表现良好,并且能够使得图像边缘更加精确。实验结果表明,提出的方法能够较好地分割目标,且对噪声图像具有较强的鲁棒性。  相似文献   

19.
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战.因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存的必要策略.基于增量采集的研究和实践,详细介绍了增量采集的策略和技术实现,通过增量采集实例效果分析,说明增量采集不但可以使采集机制更加灵活,而且可以有效缓解服务器存储空间和网络带宽的压力.  相似文献   

20.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号