首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
利用Logistic分布的若干个样本分位数和广义最小二乘法,给出了基于Logistic总体Ⅱ型截尾样本分布参数的渐进置信估计,在样本足够大的情况下,该方法简单有效.  相似文献   

2.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

3.
一种基于样本配比的违约概率估计方法及其应用   总被引:1,自引:0,他引:1  
商业银行估计信贷资产的违约概率,是商业银行信用风险管理的基础性、本质性的工作,各种数量模型被广泛应用于这一领域的研究。然而相比于正常贷款,违约贷款在整个信贷资产中占据的比例非常小,如果直接对全样本进行数量建模,往往会低估违约的风险。本文提出一种对"好"、"坏"样本合理配比,然后进行逻辑(Logistic)建模的思路。实证表明,将这一思路应用于估计某大型商业银行省分行的中小型制造业的违约概率,预测"好"、"坏"样本的平衡性好,精度较高,并且有很好的区分性。  相似文献   

4.
简单介绍了高校科研管理系统和ASP技术及相关知识,重点介绍了应用ASP技术开发在线样本检索的设计开发思想.在科研管理系统中检索是用户经常使用的操作手段。同时用户在内容重复检索中涉及到大量字段,样本检索可以使用户避免这样的重复操作.在开发系统时采用了样本检索技术与普通检索结合,既发挥了普通检索的灵活性,又发挥了样本检索的高效性.  相似文献   

5.
在介绍设计样本的基础上,说明了软件开发各个阶段都存在可重用的样本的可能性,讨论了不同阶段样本间存在的层次性,并详细论述了各层样本的描述问题,包括样本共同属性的描述和与层次相关的特有属性的描述。作者还介绍了样本之间可能存在关系种类。最后给出了一个利用多样性协同实现的实际应用系统,该系统包括了若干不同层次,不同粒度的样本。  相似文献   

6.
主动学习算法可以有效减少样本标注的工作量,每次选取最有信息量的样本交由专家标注。样本的代表性与不确定性都是衡量样本信息量的重要因素,将两者综合考虑能够获得更好的综合效果,但在两者的结合方式上一直存在不少问题,导致算法的适应性不强。为解决该问题,本文提出了基于样本不同属性的鲁棒偏倚赖主动学习分类算法,通过引入偏倚赖权值系数函数,在综合考虑样本的代表性和不确定性的同时,更可以突出样本的特性。同时由于样本代表性模型的渐变,在选择样本过程中更能突出代表性样本与不确定性样本的学习层次,前期训练以代表性样本为主,后期训练以不确定性样本为主,使得算法的适应性大大提高。在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,与所提供的对比算法相比,本文的方法只需较少的标注样本便可以达到相同的分类正确率。  相似文献   

7.
8.
软件漏洞检测在信息物理融合系统中通常使用模糊测试(Fuzzing)技术。针对Fuzzing技术中存在大量冗余的测试样本,且样本探测异常的有效性较低的情况,提出一种面向软件漏洞检测的Fuzzing样本优化的方法。首先筛除随机样本中软件不接受的样本,并通过改进的动态规划算法获得初始样本的精简集,以减小初始样本的数量;然后在测试过程中跟踪污点传播路径,利用Simhash和海明距离的改进算法求解样本传播路径相似度,通过删除相似度较高的样本进一步降低样本冗余;最后对触发异常的样本进行遗传变异构建新的测试样本,以增加样本的有效性。通过实验结果可以看出,相较于利用基于贪心算法和基于异常分布导向的方法,这里提出的方法有效减小了测试样本冗余,并且提升了测试样本的有效性。  相似文献   

9.
面对小样本数据集,虚拟样本生成(virtual sample generation,VSG)技术已被证实能有效提升机器学习算法的性能,然而对于最优的生成数量并未有明确的结论。本文首先在给定训练样本标准方差上限的条件下,采用信息熵理论研究最优虚拟样本生成数量;其次将虚拟样本所产生的噪声加以考虑,在给定的置信水平(0.95)下建立了最优虚拟样本生成数量的一般概率模型及分析方法;最后以2016年浙江湖州某变电站历史监测故障数据建立小样本数据集,设计4次相关虚拟样本生成实验,结果表明,上述两种最优虚拟样本生成数量法则行之有效,相应的机器学习预测精度有所提高。  相似文献   

10.
对两组评酒员的平均打分进行双样本t检验及kendall协调系数W检验,最终确定第一组评酒员更可信;然后利用基于主成分的聚类分析和评酒员对酒样平均打分,实现酿酒葡萄分类定级;采用基于主成分的多分类Logistic回归建立酿酒葡萄与葡萄酒的理化指标之间的数学模型;通过制定葡萄酒分类标准,利用基于主成分的多分类Logistic回归建立酿酒葡萄和葡萄酒的理化指标与葡萄酒等级的数学模型.  相似文献   

11.
为快速对数据进行特征选择以实现精确分类,采用M-distance算法思想进行数据集簇聚类,对样本数据进行预处理;设计加权K近邻算法缩减样本间距并构建样本分类模型;采用模拟简谐振动的方法遍历样本数据,求解最优加权特征向量,实现样本分类.实验结果表明:设计的算法是正确的,分类模型是合理的.在样本数据特征中,分离出的消费者最为关心的前10个样本特征符合消费者的行为选择,说明算法设计有一定实用性.  相似文献   

12.
岩土力学参数Bayes统计推断存在验前和后验样本信息问题.在解决工程问题时,先验与后验分布信息的获取是靠样本容量的大小确定,而获取样本信息是要付出工程费用的.为了探讨岩土参数Bayes法推断中先验与后验样本的取值大小,采用贝叶斯推断简化方法,通过对某工程的岩土力学参数分析,得到先验样本数为30~35个和后验样本数不少于4个时,计算出的统计参数均值与方差的误差最小.本文的研究为岩土工程力学参数概率统计样本大小的确定提供了参考.  相似文献   

13.
针对微阵列癌症数据的特点, 提出一种能识别数据集中误标记样本和异常样本的广义CL stability算法. 该算法以CL-stability为基本算子, 通过样本的全局稳定性识别误标记样本或异常样本. 实验结果表明, 广义CL-stability算法对于识别微阵列癌症数据中的误标记样本优于已有算法, 并能给出区分误标记样本和异常样 本的信息.  相似文献   

14.
本文采用非配对样本,选择制造业上市公司前两年和前三年的数据并选取包含传统财务指标、现金流量指标和非财务指标在内的33个变量,通过正态性检验和显著性检验后,比较以逐步法筛选变量和以因子分析法筛选变量建立的Logistic回归模型。研究结果发现:后者预测效果更好,特别是在两个模型中对困境公司的预测精度达到100%,对健康公司的预测精度分别为98.3%和93.8%,总体上分别达到98.3%和94.7%。  相似文献   

15.
本文论述正态母体抽样中,样本方差及样本标准差的有关性质,并改进统计计算中的一个近似计算公式,通过具体计算,论证修正后的公式优于原来的公式。  相似文献   

16.
王玺 《中国西部科技》2010,9(30):76-76,86
样本统计量的自由度是统计学中的基本概念。不同的样本统计量有不同的自由度,其差别来自于样本统计量的结构。以样本方差为例,证明了样本统计量是统计量中包含的独立样本信息的个数。  相似文献   

17.
为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行有效裁剪优化,实现样本分布均衡,然后对经过样本均衡处理的数据样本执行传统k最邻近算法,根据权重获得分类结果,最后对不同k值的k最邻近算法进行实例仿真。结果表明,在相同的数据样本环境中,相比于其他分类算法,采用改进的k最邻近算法的分类准确度和分类效率更高。  相似文献   

18.
由样本书库藏书引起的思考   总被引:1,自引:0,他引:1  
本文主要论述了目前样本书库普遍存在的重藏轻用的弊端,为适应今后图书馆开放性发展的前景,必须适当改变样本书库的藏书原则,将样本书库部分图书进行分流,以最大限度地提高样本书库的藏书利用率。  相似文献   

19.
关于建立鞋子样本数据库的思考   总被引:1,自引:0,他引:1  
理想的鞋子样本库,应当是根据现场出现的鞋底花纹,经过网络查询,即可获得该鞋底匹配的鞋子样本、生产厂家、销售区域和鞋号等基本数据,以便于实际办案应用。各省可分别建库,然后全国联网。根据对样本收集的可行性分析和建立鞋子样本数据库的技术可行性分析,目前建立鞋子样本数据库是可行的。各地在采集鞋子样本时,要有严格、统一的标准。  相似文献   

20.
基于Banach空间中的l-范数的有关理论研究回归估计学习问题收敛性的界.利用l-范数,估计了在给定函数集上最小化经验风险的函数的风险与该函数集上的最小风险之差的界,也就是所谓的"样本误差"的界.同时,给出了基于l-范数的样本复杂性的界.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号