首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
对于专利价值的不确定性和影响因素的复杂性,以及评估工作中缺乏可操作性强并且科学高效的评估方法等问题,对价值评估指标体系进行分析,并使用随机森林算法选择最有效的指标集,同时基于DBSCAN(density-based spatial clustering of applications with noise)聚类选择高精度且一致性低的决策树子森林改进传统随机森林算法,使用改进前后的两种随机森林模型在专利数据样本上进行实验并比较。结果表明,改进的随机森林模型提升了传统模型的精度,在专利价值评估中具有一定的作用,总体上比较有效地反映了专利的价值度。  相似文献   

2.
基于随机森林与时空聚类的共享单车站点需求量预测   总被引:1,自引:1,他引:0  
为方便准确地预测出城市共享单车站点的需求量,根据站点需求量的随机性和时变性,提出了一种基于随机森林和时空聚类的共享单车站点需求量预测模型;该模型研究了时间因子、气象因子以及关联站点对需求量的影响;应用分层聚类对站点进行了时空分析;结合对数优化后的随机森林作为预测器。面向湾区共享单车出行数据进行需求量预测。结果表明:该模型相比极限学习机、支持向量机与随机森林等经典机器学习算法在需求量预测方面有较好的预测结果,可为实际车辆调度提供参考依据。  相似文献   

3.
对居民低碳意识的形成机理进行研究,可以为交通管理者引导城市居民选择低碳出行方式提供重要依据.运用数据挖掘技术对低碳出行问卷数据进行分析;将计划行为理论框架下的15维问题视为表征居民低碳出行意愿的内在原因变量,应用K均值聚类算法对居民低碳出行意愿强度进行归类,并将所得结果作为被解释变量应用于随机森林模型中,探讨居民的社会属性特征、出行特征等对其低碳出行意愿的作用机理.结果表明:基于Silhouette指标检验及t-SNE降维,居民低碳出行意愿可划分为3类:强烈、中立、不强烈;基于重要性指标显示影响最为显著的4项因素分别是居民的职业、居住地、家庭构成、通勤时间.研究结果从多个角度为城市交通低碳化发展及管理提供政策建议.  相似文献   

4.
为了解决聚类挖掘中隐私保护问题,提出一种基于随机投影的数据扰动方法.该方法首先生成投影矩阵,然后根据生成的投影矩阵对数据进行对称扰动,使得扰动后的数据和原数据在维数、聚类形状等多方面均有较大的不同,能很好地保护隐私信息,且扰动后的数据可用性较高,具备一定的抗攻击性.实例验证了所提算法的有效性.  相似文献   

5.
针对K-Means算法对初值敏感和容易陷入局部最优的缺点,本文提出一种基于概率的随机扰动聚类中心优化算法。首先,每次迭代后重新计算聚类中心,以聚类中心为圆心向外搜索一定邻域内的点,将聚类中心以概率随机定位到邻域内的某个点上,称该点为物理中心点;之后,选定的物理中心点以一定速率向聚类中心方向移动一定距离,计算出的位置即为新的聚类中心;最后,根据欧氏距离重新划分数据集。该算法通过概率扰动方式使聚类中心不再固定为某一点,而将其中心扩大到一定区域,搜索该区域内的最优解,从而极大地避免了K-Means算法陷入局部最优的可能;并且,即使计算进程已经陷入局部最优,优化后的算法也可以通过最优区域搜索,以一定概率的机会跳出局部最优。  相似文献   

6.
基于随机森林的不平衡特征选择算法   总被引:1,自引:0,他引:1  
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。  相似文献   

7.
基于Relief算法的特征学习聚类   总被引:3,自引:0,他引:3  
聚类作为数据挖掘常用工具之一,是按照事物间的相似性进行的一种无监督分类.然而传统的聚类方法较少考虑特征权值.为此,通过研究、分析Relief算法及其在聚类应用中存在的问题,提出了一种基于Relief算法的特征评价函数,并将此函数运用到特征学习聚类中,以解决特征权值取值不当对聚类产生的负面影响.  相似文献   

8.
针对基于降维的神经网络分类器预测模型在分析过程中存在特征丢失,并导致精度下降的问题,提出一种基于随机森林算法优化的多层感知器(MLP)回归预测模型.该优化模型通过在MLP回归模型网络的全连接层和逻辑回归层之间增加一个优化机制,利用随机森林算法对隐藏层状态的优化实现改进,从而解决了降维过程中神经网络丢失数据特征的问题.在...  相似文献   

9.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

10.
针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗...  相似文献   

11.
高维数据聚类问题是当前聚类分析研究的重点。笔者提出了一种改进的基于超网络的高维数据聚类算法。首先,将高维数据映射到一个大规模带权超网络中;其次,定义超网络中边的权重;再次,采用优化的超图划分方法划分带权超网络;最后实现高维数据聚类。这样有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。  相似文献   

12.
特征选择得到的识别特征可以用于聚类分析,提高聚类分析的质量.受数据自表示特性和双图规则化学习的启发,提出了一种新的特征选择聚类算法.利用数据和特征的自表示特性,不仅保留了数据的流形信息,而且保留了特征空间的流形信息.此外,为了充分发挥双图模型的作用和鉴别局部聚类的效果,加入局部判别特征选择聚类,大大提高了聚类的有效性和...  相似文献   

13.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

14.
提出了一种相对简单、有效的划分复杂网络社团结构的方法.该算法利用复杂网络的转移矩阵P和K均值聚类算法来划分社团结构,并且用F统计量判定最优的聚类结果,在探测社团结构明显的人工网时具有较高的准确度.  相似文献   

15.
基于小波变换和动态聚类的图象分割方法   总被引:3,自引:3,他引:0  
本文讨论了一种结合小波变换和非监督动态聚类的图象分割算法。在图象分割过程中,首先用小波变换提取图象中的边缘信息,再利用所得的边缘信息和原图象的灰度信息进行聚类。实验证明了这种方法是行之有效的。  相似文献   

16.
朱长江  柴秀丽 《科学技术与工程》2013,13(10):2863-2866,2870
模糊C-均值聚类算法是一种局部搜索算法,采用迭代的爬山技术,对初值敏感易陷入局部最小值。遗传算法是一种全局优化算法,能够克服模糊C-均值聚类算法陷入局部最小值的问题,但遗传算法收敛速度慢,易早熟。应用小生境思想对遗传算法进行了改进,以保护种群中基因的多样性,设计了基于最短距离的算术交叉算子、边界变异算子及双精英种子参与进化的策略。仿真实验结果表明,改进后的算法能够提高模糊聚类的收敛速度和聚类质量。  相似文献   

17.
一种基于改进遗传算法的文本特征选择方法   总被引:2,自引:2,他引:0  
文本特征选择对提高文本分类的速度和准确率,改善网络信息过滤效果至关重要.把特征选择看作优化组合问题,提出用遗传算法进行文本特征选择.传统遗传算法适应性较差,本文对传统遗传算法交叉概率、变异概率、更新策略等重要参数和关键环节作了改进,实验验证了该算法的有效性.  相似文献   

18.
基于资源分布矩阵的二分网聚类方法   总被引:1,自引:0,他引:1  
提出了一种直接基于原始二分网的聚类方法,该方法利用二分网上的资源分配过程得到资源分布矩阵,然后用模糊聚类方法对向量进行聚类,用F统计量判定最优的聚类结果.该方法在探测社团结构明显的人工网时具有较高的准确度.  相似文献   

19.
为了有效地提高矢量量化(VQ)码书的性能,提出了一种新的自学习特征映射(SLM)算法,并应用到图像VQ中,实验表明,与自组织特征映射(SOM)算法相比,SLM算法具有聚类特性好和峰峰信噪比高等优点,是一种非常有前途的码书设计算法.  相似文献   

20.
提出了一种基于分簇结构的混合分发算法,算法采用分簇的方法将流媒体中的节点资源进行簇划分,形成由簇头、簇内节点构成的分簇网络结构,簇头与簇内节点通过拉拽算法来获得数据,而簇头间采用推送分发算法.仿真结果表明,该算法能提高数据块复制速度,减少数据传播时延,有效降低系统的控制开销,提高了播放连续度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号