首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。  相似文献   

2.
考虑纵向数据的线性误差模型,其中协变量含有测量误差。使用2次函数推断方法得到回归参数的估计,证明所得到的估计渐近地服从正态分布;对参数的假设检验问题,证明所得统计量渐近地服从χ2分布,并通过数值模拟讨论方法的有限样本性质。最后,该方法被用于1组艾滋病数据的实证分析中。  相似文献   

3.
使用多元t分布,提出了一种分析带有异常值的连续纵向数据的同时建模方法.不同于已有主要推断回归均值的稳健方法,本文旨在通过稳健同时参数化建模来揭示位置参数,边际尺度参数和相依参数的动态变化机制.为了加速极大似然估计过程中EM算法的速度,采用一种基于ECME的最大似然估计求解算法,所得到的估计量被证明具有相合性和渐近正态性.数据分析表明所提方法是有效的.  相似文献   

4.
孙士兵  赵欢 《科学技术与工程》2007,7(15):3728-37303736
针对异常数据提出了一种有效的诊断方法。首先从实例分析入手,然后进行到理论推导,最后列出了该方法的算法步骤与应用领域。实验证明,随着信息与控制技术的发展,对异常数据的诊断要求与其处理越来越重要、越来越迫切,数据校正技术能有效地提高测量数据的质量。  相似文献   

5.
在贝叶斯估计框架下,通过模拟研究比较完全贝叶斯和部分贝叶斯方法对参数估计的影响.研究结果表明:随着缺失比例的增加,2种方法得到的均方误差(RMSE)都会增大;完全贝叶斯方法和部分贝叶斯方法在缺失比例较小时几乎相同,只在缺失比例为0.5时,前者明显优于后者.  相似文献   

6.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

7.
以纵向数据的半参数模型为基础,建立了半参数纵向数据的Logi st i c回归模型,对此模型中的参数进行了参数估计,讨论了它的信息矩阵,给出了似然方程的Newt on-Raphson迭代求解过程。  相似文献   

8.
文章针对聚类分析中部分数据缺失问题,提出了一种改进的K均值聚类算法,即改变原算法中计算每个数据到各簇距离的度量方法和新中心点生成方法,从而屏蔽空值数据的影响;通过选择UCI中Iris数据集,随机抽空部分数据进行测试表明,该算法可直接对存在数据空缺的数据集合进行聚类分析,并能有效屏蔽数据空缺对聚类结果的影响.  相似文献   

9.
文本数据的数据挖掘算法   总被引:11,自引:0,他引:11  
针对目前大量存在的文本数据,以已有的结构化数据挖掘技术为基础,提出了非结构化数据的知识发现方法-树形分层数据库方法,对文本数据进行分析,将非结构化数据准结构化,存放入树形分层数据库中,利用已有的数据库技术以及树形分层数据库特有的一些操作,实现在知识发现过程中对数据的抽取与控制,并给出了具体的模型与过程。  相似文献   

10.
针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。  相似文献   

11.
加权数据融合算法及其应用举例   总被引:10,自引:3,他引:10  
建立了一种基于格罗贝斯(Grubbs)准则和聚类分析的加权数据融合算法,即先用格罗贝斯准则剔除所测数据中的疏失误差数据,再用聚类分析的方法对剔除疏失误差数据后的测量数据进行聚类,并由此确定各类别的权数(加权因子),最后利用所得权数进行加权融合得出被测对象的融合估计值。实验证明,该算法简单有效,且适合计算机编程。  相似文献   

12.
针对汽轮机虚拟传感器数据前处理问题,根据DPS算法的基本原理编制C程序.为确保算法的通用性,由工程应用中各种原始参数对应的典型线形给出DPS算法的简化结果;给出影响数据取舍精度的公差准则.以某汽轮机组虚拟传感器数据前处理的一个实例为例,应用本算法有效地解决了虚拟传感器的实时仿真问题.结果表明:DPS算法应用于工程中大部分的数据精简都能够起到行之有效的作用,而所建议的公差准则对于工程中的大多数原始数据线形都是适用的.  相似文献   

13.
为了深入探究Logistic模型的统计推断问题,联合半参数混合效应模型和Logistic模型建立了纵向数据半参数混合效应的Logistic模型,进一步求出该模型的极大似然函数、Fisher信息阵,利用QLB(quadratic lower-bound)算法求解参数的极大似然估计.最后进行数值模拟,结果表明在此模型的求解问题上QLB算法是Newton-Raphson算法的合理替代.  相似文献   

14.
基于以往文献提出线性混合效应模型参数的三步估计方法,避免了繁杂的极大似然估计迭代步骤。同时为进一步解决海量数据下计算估计量时存在的存储瓶颈及计算时间过长问题,在海量纵向数据的两种不同数据格式下,分别基于三步估计方法利用分治算法计算模型参数的估计量。数值模拟和实证分析结果表明,本文所提出的三步估计方法和估计量的分治算法可以减轻计算负担,减少占用内存,解决内存不足的问题,并提高计算速度。  相似文献   

15.
分布式数据查询是分布式数据库管理系统的核心,而查询优化算法又是查询处理中的关键技术。分布式数据库管理系统的研究始于20世纪70年代中期,在30多年的发展中,取得了丰硕的成果。但由于分布式数据的分散性,使分布式数据查询比集中式数据查询复杂得多。本文对基于关系代数优化的算法进行了探讨和研究,并应用于实例,取得了较好的优化效果。  相似文献   

16.
利用傅里叶变换及内插外推方法对三维大地电磁资料偏移成像问题进行了研究。首先将大地电磁场满足的三维亥姆霍兹方程降维分裂成两个二维响应方程,然后对每一个二维方程进行傅里叶变换,使二维方程变为一维方程,通过大地电磁场垂向方向的导数在地面上所满足的边界条件,确定外推方程中的两个待定系数,从而得到一维外推方程的解。对横向非均匀地电介质,利用分段傅里叶变换方法进行偏移,同时将每一段内电阻率的平均值作为背景值。为了解决纵向介质的不连续问题,取相邻两频点的电阻率值的外推结果进行加权内插。对于横向各段的衔接,采用内插平滑处理。应用该方法对伊朗项目中T01-010测线资料进行了偏移处理,偏移结果除了反映浅层和基底明显的分界面之外,还能较好地反映局部地电异常体引起的异常。  相似文献   

17.
利用傅里叶变换及内插外推方法对三维大地电磁资料偏移成像问题进行了研究。首先将大地电磁场满足的三维亥姆霍兹方程降维分裂成两个二维响应方程,然后对每一个二维方程进行傅里叶变换,使二维方程变为一维方程,通过大地电磁场垂向方向的导数在地面上所满足的边界条件,确定外推方程中的两个待定系数,从而得到一维外推方程的解。对横向非均匀地电介质,利用分段傅里叶变换方法进行偏移,同时将每一段内电阻率的平均值作为背景值。为了解决纵向介质的不连续问题,取相邻两频点的电阻率值的外推结果进行加权内插。对于横向各段的衔接,采用内插平滑处理。应用该方法对伊朗项目中T01—010测线资料进行了偏移处理,偏移结果除了反映浅层和基底明显的分界面之外,还能较好地反映局部地电异常体引起的异常。  相似文献   

18.
针对纵向数据下的广义线性模型,为了有效控制离群点对估计的影响以及进一步提高估计的效率,利用二次推断函数(QIF)改进加权的指数得分函数,得到了模型参数有效且稳健的二次推断函数估计(ERQIF),并证明了在一定条件下所得估计的相合性和渐近正态性。数值计算结果进一步表明,当离群点存在或工作相关矩阵被错误指定时,所得估计有稳健的模拟结果。  相似文献   

19.
具有数据清理功能的交互式数据迁移及应用   总被引:7,自引:0,他引:7  
针对众多论文对数据迁移的研究多是泛泛地介绍数据迁移的方法,而没有考虑数据迁移过程中的数据清理问题,提出了一种具有数据清理功能的交互式数据迁移技术.该技术把数据迁移和数据清理紧密地结合在一起,具有开放的规则库和算法库.通过在规则库中定义规则以及从算法库中选择合适的清理算法,不仅能灵活、准确地完成数据的迁移,还能保证数据迁移后新系统的数据质量.该技术被应用于医疗保险信息系统再工程项目,取得很好的效果,从而说明这种数据迁移技术在实践中是可行的.  相似文献   

20.
采集的野外地震数据伴随有随机噪声干扰,需要将其消除。软硬阈值法能够压制地震数据的噪声信号,但是降噪效果并不理想。因此,提出了一种改进的软硬阈值算法用于地震数据降噪。首先利用软硬阈值法原理构建了一种新的阈值降噪法,并对新算法相关特性进行了研究,通过仿真实验确定了新阈值算法的小波基为sym 3,利用均方差和信噪比对新阈值降噪法的降噪效果进行了评价。最后,将新阈值降噪法用于实际地震数据降噪,结果发现新阈值降噪法能够去除地震数据中的随机噪声,降噪效果较软硬阈值法更理想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号