首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
通过研究对比不同网络爬虫策略的优缺点,提出了基于微博信息的关键词库爬虫策略,利用微博的特性以及数据挖掘算法的优势,生成关键词库指导爬虫模型进行微博信息的获取,解决了主题爬虫模型在数据获取时存在的时序性、正确性以及高效性的问题,提高了微博事件信息的覆盖率和准确率,最后通过设计实验系统Keys Crawler,验证了本文提出的策略的优越性.  相似文献   

2.
通过对集群制造系统结构特点的分析,提出了基于产品技术分割和技术模块价值选择的开放式模块化产品设计方法.该方法运用结构映射这一基于技术的功能和基于设计结构矩阵的技术单元聚类,实现了合理的产品技术分割;通过基于量化设计结构矩阵的技术结果关联分析和技术控制力评价实现了科学的技术模块选择;进而形成了面向集群制造的开放式产品模块化设计方法.最后以我国沿海注塑机企业集群为例,阐述了面向集群制造的开放式产品模块化方法的应用.  相似文献   

3.
通过探索知识图谱在产业集群的应用,提出了产业集群知识图谱整体设计框架,设计了产业集群知识图谱中实体及其关系本体模型。选取宁波市注塑机产业集群为例,通过互联网平台获取企业数据,经过数据预处理、知识抽取和知识融合,依据本体模型构建了宁波市注塑机产业集群知识图谱,将所构建的所有三元组存储于Neo4j图数据库中。根据所构建的知识图谱,分析注塑机集群整体特性,通过分析发现产业集群在地理位置临近关系上和业务往来有着密切的关系,验证本文提出方法的可行性。  相似文献   

4.
网络环境下地理空间信息的搜集与获取,是地理空间研究信息获取重要途径。网络环境中数据信息量大,主题门类多,如何高效快速地获取地理空间主题信息是一个亟待解决的问题。本研究提出了基于网络爬虫的地理空间主题信息采集方法,该方法能高效自动的采集目标网络上的地理空间信息,提高了地理空间信息采集效率,为进一步建立地理空间主题信息库提供数据支撑。  相似文献   

5.
通过对集群制造系统结构特点的分析,提出了基于产品技术分割和技术模块价值选择的开放式模块化产品设计方法.该方法运用结构映射这一基于技术的功能和基于设计结构矩阵的技术单元聚类,实现了合理的产品技术分割;通过基于量化设计结构矩阵的技术结果关联分析和技术控制力评价实现了科学的技术模块选择;进而形成了面向集群制造的开放式产品模块化设计方法.最后以我国沿海注塑机企业集群为例,阐述了面向集群制造的开放式产品模块化方法的应用.  相似文献   

6.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。  相似文献   

7.
随着分布式光伏集群的建设和集群控制的需求,不仅需要单个光伏站点的信息,而且需要光伏集群内各站点的综合信息,亟须发展光伏集群出力时空的随机模拟模型.而光伏集群内各站点出力在时间和空间上的相关性,使得光伏集群出力特性的随机模拟模型的准确性不能保证.为此,文章提出了一种基于特征聚类的光伏集群出力时空随机模拟模型.该方法基于k-means特征聚类方法,考虑不同站点出力时空相关性特征,将光伏出力以天气类型划分为4类,并依此构建单站点出力的马尔可夫链的时序模型,利用不同站点间时空的相似性完成对光伏集群的数据模拟,为分布式光伏集群的建设和集群控制提供数据参考.基于河北电网部分实际光伏电站的仿真计算,验证了所提数据模拟方法的正确性和有效性.  相似文献   

8.
当今时代,愈发庞大的数据难以有效处理运用和管理,需要一种更加合适的资源获取处理方式。该文基于大数据架构结合网络爬虫、数据清洗、信息检索等前沿技术,设计开发了地震科普知识资源库系统。其中运用了J2EE、Python、Hadoop、Elasticsearch、MySQL等技术。通过网络爬虫和人工上传的方式采集地震科普相关信息资源,经过数据清洗转换后对信息资源进行自动分类,最后将资源上传至资源库hdfs分布式文件系统并将文件信息保存至Elasticsearch分布式文件索引系统,由此实现大数据架构下的全文检索。同时,建立资源库的后台管理系统,用于网站的日常管理和维护。相比以前的集群文件系统更加高速便捷、更加的安全稳定。  相似文献   

9.
海量和高维大数据集的聚类对计算机性能提出了很高的要求.基于具有层次聚类特性的RSOM树方法提供了一种有效的手段以实现对高维大数据集的聚类索引,这种RSOM树可支持最近邻搜索且不需要对数据进行线性搜索.注意到RSOM模型具有内在的层次化、分布式结构特点,并可进行增量的训练,研究了基于高效并行集群的增量、分布式RSOM并行算法,并通过视频图像特征集实例证实了算法的可行性.  相似文献   

10.
为了差异化直接相邻和间接相邻的车站对信息传递效率的影响,该文建立了基于信息传递效率的聚类系数模型,构建了地铁网络小世界特性评价方法。通过对全球52个城市的地铁网络样本的小世界特征值计算,得到基于信息传递效率的聚类系数算法的聚类系数值在0.195~0.407之间,平均值为0.29,虽然小于以线路为演化单位的公共交通网络中P空间(Space-of-Stops)下的聚类系数值,仍然远大于相同规模的随机网络聚类系数值(0.01~0.16,平均值为0.06)。故认为基于信息传递效率的聚类系数算法能够更加严格地评价物理网络是否具有小世界特性。在此方法下,52个样本城市地铁网络仍具有小世界特性。  相似文献   

11.
通过分析无线Mesh网络节点空间属性,提出了一种改进的k-medoids网络节点聚类算法.该算法基于聚类思想,将无线Mesh网络中的网关部署问题转化为空间节点数据聚类问题.构建了网络拓扑图的邻接矩阵,并利用邻接矩阵选择具有最多一跳连接节点数的对象作为初始簇中心.然后以网络跳数代替传统聚类算法中的距离参数,将最小化跳数之和作为优化目标,通过迭代方法获得稳定的聚类和分组结果.实验结果表明,离散的网络节点在空间上具有聚类特性,利用该方法可以获得更小的平均跳数和最大跳数,因此可以较好地实现网络节点分组和网关发现.  相似文献   

12.
为了提升海量数据下社交网络推荐系统的性能,将传统聚类方法与蛋白质网络的新特性相结合,提出了一种竞争-抑制节点模型(CINM).该模型将数据的整个处理流程分为节点重构、膜外聚类、膜内聚类及内容推荐4个部分,分别完成数据预处理、数据清洗、精度匹配与数据输出.在数据预处理过程中,通过矩阵运算,将复杂多维数据集构成的用户信息转换成结构化定量数据,并产生数据摘要.数据清理通过判断竞争值来获取用户的特征数据.在精度匹配阶段,基于蛋白质相互作用网络的相似性匹配原理获取相似性最大的一组值,并结合与用户相关联的数据项进行最终内容或关系的推荐.实验结果表明,CINM模型可以通过数据预处理和特征值竞争抑制机制较好地完成数据过滤,从而提高数据处理效率并提升最终推荐结果的精确性.  相似文献   

13.
技术预见理论在产业集群创新能力分析中的应用   总被引:4,自引:1,他引:4  
结合当前产业集群发展存在的问题,应用技术预见理论与方法,从空间集聚、知识交流和相似文化价值三个层面,对产业集群的创新能力特征和创新机制进行了研究,提出应通过促使技术、信息和知识在产业集群内的传递、扩散,构建区域创新网络。  相似文献   

14.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

15.
针对传统的可视化空间数据库智能查询系统存在查询错误率高的问题,设计基于Python语言的可视化空间数据库智能查询系统.获取异构存储分布,通过融合度聚类分析,进行可视化空间数据库的异构样本特征分解,根据分解结果,采用模糊度检测和K均值聚类方法,对可视化空间数据库的差异性数据聚类,以聚类结果为基础,结合随机自适应调度和子空间压缩方法,实现对可视化空间数据库的智能查询.仿真实验结果表明,采用该方法进行可视化空间数据库智能查询的错误率较低,查准率较高,数据特征聚类性较强.  相似文献   

16.
大多数的聚类算法都只是针对数值型数据,而在现实世界中,经常会遇到混合了数值属性和分类属性的数据,因此对混合数据的有效聚类是一个非常有挑战的研究问题。针对混合数据的基于熵的相似矩阵,利用阈值法构造相对应的复杂网络,对生成的复杂网络进行社团结构划分,复杂网络的一种社团结构划分就对应混合数据的一种聚类结果。通过三个实际混合数据集上的测试发现,与混合数据五种聚类算法:DP-MD-FN(density-based clustering algorithm for mixed type data employing fuzzy neighborhood)、K-Prototypes、KL-FCM-GM、EKP(evolutionary K-Prototypes)、OCIL进行比较,实验结果表明利用复杂网络社团结构划分算法得到的混合数据的聚类结果的准确性更高。  相似文献   

17.
随着车联网技术的不断发展,产生了海量车辆轨迹数据。这些车辆轨迹数据可以通过聚类分析方法挖掘出车辆行驶的潜在规律,从而实现指导车辆出行的目的。提出一种基于密度的车辆轨迹聚类方法,对基于道路形状关键点位置选取的车辆轨迹信息进行重构,并考虑车辆在路网中移动的空间约束,分析聚类结果得到城市道路的交通状况,以此指导车辆出行以避免或减轻车辆拥堵。基于福州市真实的车辆数据对提出的车辆轨迹聚类算法进行验证,并对最后的聚类结果进行了详细的分析。实验结果表明,针对车辆轨迹聚类并结合道路网络的方法能够更加真实反映车辆的行为特征。  相似文献   

18.
电力负荷聚类分析研究是负荷特性模拟、需求侧管理等应用的基础。针对负荷数据日趋多样性、随机性,传统K-means算法无法有效处理高维数据,且存在人工给定聚类数目K值及随机选取初始聚类中心易收敛至局部最优的问题,本文提出一种基于自编码器(Auto-Encoder,AE)降维的电力负荷聚类方法。首先利用自编码器网络对采集的负荷数据提取特征,降低数据维度,然后通过密度权值Canopy算法对降维后的数据预聚类,得到初始聚类中心和最优聚类数目K值,将预聚类结果结合K-means算法进行聚类。算例结果表明,该方法能够有效对负荷数据进行特征提取,并减少聚类过程中的复杂度,提高了聚类结果准确度和聚类效率。  相似文献   

19.
为了探究华东地区冷链物流集群网络特性和发展路径,采集主要来自互联网的新闻报道数据,进行信息分析,构建了1981-2017年期间的华东地区冷链物流集群网络,利用社会网络分析方法(SNA)对密度、网络云集系数、中介度、接近度等网络特性指标以及小世界特性进行了历时研究和解释。研究主要发现,华东地区的冷链物流集群网络是一个稀疏网络;2007和2008年是该集群网络发生转折的重要时期,少量有影响力的中心节点企业开始涌现。该方法有助于冷链产业和企业的发展,加强竞争优势。  相似文献   

20.
网络中的社区结构有助于简化网络拓扑结构分析,揭示系统内部的规律,能够为信息推荐和信息传播控制提供有力的支撑.网络重叠社区结构与真实生活更加接近,但其分析较非重叠社区结构更加困难.因此,针对重叠社区发现问题,在对网络的边进行峰值聚类的基础上提出了一种基于边信任度的混合参数的自适应重叠社区发现算法.定义了网络边的邻居边集合及与其邻居边之间的信任度函数,通过信息传递获取边的总信息量,并且基于此引入混合参数的概念.基于k-means算法使用混合参数对网络中的边进行聚类,即将网络中的边划分为核心边集与非核心边集,每个核心边作为一个聚类中心.根据非核心边到核心边的距离将所有非核心边划分至距离其最近的聚类中心所在社区.再根据网络中边与节点的关系实现重叠节点发现,最终实现重叠社区的发现.该算法的优点是每条边通过独立地完成信息扩散找到社区的结构,相比于传统的峰值聚类算法,不需要人为设置相关参数,实现重叠社区的自适应发现.为验证算法的可行性,对算法复杂度进行了分析,并且使用两种社区划分评价指标——标准化互信息和模块度,分别在人工数据集及6种真实数据集上进行实验,通过与其他算法进行对比分析,实验结果表明该算法更具可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号