首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
提出基于知识图谱和数据驱动的电影分类推荐方法;首先基于数据驱动爬取互联网中的电影数据并进行去重及清洗,然后采用知识图谱将电影数据与用户情感偏好数据进行关联,对海量的数据信息进行中心聚类,并在数据聚类的过程中计算投影向量得到相似度矩阵,最后查询相似度值并计算分类推荐指标权重得到最终的电影推荐清单.  相似文献   

2.
在SIR传染病模型所提供的基本动力学机制基础上,引入微博社区的低活跃度特征和可信度函数,构建微博社区信息传播模型,提出各个参数的计算方法,并在此基础上通过爬取微博数据、利用Matlab进行计算和仿真,可以很好地描绘微博社区的信息传播规律,并对信息传播趋势做出有效预测.  相似文献   

3.
基于大数据分析的多关系社交网络舆情传播模型研究   总被引:1,自引:0,他引:1  
为了真实再现舆情在多关系社交网络中的传播过程,通过对爬取的新浪微博数据进行大数据分析,从中得到社交网络中多种关系对网络舆情传播的影响,基于复杂网络理论提出了一种适用于多关系社交网络的舆情传播模型,该模型根据多种关系对舆情传播的影响界定传播模型中各状态之间的转移过程和转移概率.仿真结果表明:与传统社交网络舆情传播模型相比,该舆情传播模型可以更好地描述真实互联网环境中的舆情传播规律.  相似文献   

4.
蔡迪阳 《科技资讯》2023,(13):31-34
基于大规模数据下载的需求,针对以往人工下载数据过程中存在的影响效率的问题,结合Python语言提出一种能够用于网页信息数据爬取的技术,用于减少数据下载前期的繁琐工作,提高网络信息系统和技术的开发效率。该文以网页信息爬取技术为主要研究对象,基于现代化信息数据的应用和发展需求,着重对融合了Python语言的网页信息爬取技术进行研究和分析。  相似文献   

5.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

6.
基于概念树的主题爬取技术研究   总被引:3,自引:1,他引:2  
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。  相似文献   

7.
该文章以云南省昆明市西山区为研究区域,利用WordView-2的4波段影像数据源,通过学习掌握ENVI软件中的决策树分类工具,以及利用不同地类的波谱信息的特征差异,分析了影像的各个地类的光谱特征,从中提取了4波段影像的NDVI(归一化植被指数),以此确定了不同地类之间的波段均值阈,根据不同地类在不同波段以及NDVI上的变化建立对应的决策树模型,最终得到其分类结果.本文最后采用已有的样本感兴趣区数据对其决策树分类结果进行了精度评价,并且评价分析了其结果精度在遥感数据中的作用.  相似文献   

8.
提出了基于本体概念图的web文档的主题爬取,采用本体概念图构造主题层次图,赋予待爬取的URL对象以层次语义信息,按照语义相关性与重要性选择爬取URL对象,搜索属于特定语义相关主题的重要web文档的WWW子集。  相似文献   

9.
在校园 BBS 的基础上研究了网络爬虫程序的4个关键模块:页面抓取、页面解析、任务调度和去重模块。探讨了 HTMLParser 和正则表达式在解析页面时的运用方法。在处理爬取数据时,改进了任务调度算法,提高了爬取速度,并针对校园论坛 BBS 经关键词搜索的页面进行了爬取。  相似文献   

10.
在移动互联网用户行为分析系统中,为了使深度包检测(deep packet inspection,DPI)进行有效地数据匹配,对用户行为进行更深层次的分析,达到不仅能识别出业务网站类型而且还识别出业务网站访问具体内容的目标,设计出一种能进行具体内容级别上特征爬取和提炼的爬虫模块.针对特定业务网站,考虑广义爬取对技术和存储要求高的缺点以及针对某一行业的爬虫系统得到数据有限的不足,设计并实现了一种基于特定页面分析的聚焦爬虫模块.该爬虫模块采用模块化的思想,使用多线程多任务,精确高效地爬取特定业务网站信息,为DPI匹配提供数据支持.经过测试验证,该爬虫模块达到了预期的要求,可维护性、可扩展性和实时性强,满足移动互联网用户行为分析系统对特征数据提取的需求.  相似文献   

11.
针对未知恐袭事件的相关数据,提出一种基于聚类优化的挖掘反恐信息方法,为反恐斗争提供重要情报;首先应用主成分分析对未知恐袭事件提取主要特征,采用"肘部法"选定聚类簇数确定k值,基于K-Means聚类算法对未知恐袭事件进行归类;然后通过非线性规划和聚类优化算法,将恐怖组织据点预测问题转化为无约束最优化问题,进而对恐怖主义组织据点位置进行准确估测,得到了典型事件与嫌疑人的相似度匹配,并用仿真实验推断了ISIL组织近几年在伊拉克进行恐怖袭击的据点位置;结果表明该方法对提前预警恐怖袭击有着一定的意义与价值。  相似文献   

12.
<正>Introduction Terrorists now have international networks with terror-ism potentially having catastrophic effects. Worldwide, domestic, and transnational terrorists threaten public safety as they create disorder for political, religious or other reasons. Terrorist events, even a single terrorist  相似文献   

13.
 恐怖袭击严重威胁地区的和平稳定,且正加速向全球各地蔓延。根据全球恐怖主义数据库(GTD)中1998-2017年恐怖袭击事件数据,基于投影寻踪评价模型(PPM)和灰色新陈代谢模型(GMM)对恐怖袭击事件的危害程度进行了量化分级,并预测了未来5年全球恐怖活动的蔓延趋势。研究显示,恐怖袭击事件危害程度量化后共分为5级,美国纽约“9·11”事件危害程度排名第一;恐怖活动已从重点地区逐渐向全球各地蔓延,但未来5年全球恐怖袭击总量呈现下降态势;中东、非洲等地区在未来5年仍是国际恐怖活动的高发区,非洲将沦为恐怖活动的“重灾区”,而东南亚、南亚等地区将成为恐怖主义新活跃区。  相似文献   

14.
提出了一种基于WRF模式的"脏弹"恐怖袭击辐射剂量计算方法。提出了对源项、地表干沉降、湿沉降量的放射性衰变修正方案;并利用该方法计算"脏弹"恐怖袭击造成的辐射剂量。选取某地点作为固定的"脏弹"释放位置,模拟了不同气象条件下的辐射剂量分布。结果表明,以干沉降为主的地表沉降分布,在风场作用下呈条状分布;以湿沉降为主的地表沉降分布,在降水作用下呈块状分布。模拟结果反映了降水对"脏弹"恐怖袭击污染物分布的重要影响。结论表明,模型对降水及沉降过程具有较好的刻画能力,可用于全部放射性污染物质的环境辐射剂量评估。  相似文献   

15.
针对目前手绘草图识别难度大,识别准确率低且主要以手工提取特征为主,提出一种新的卷积神经网络结构DCSN( Deeper-CNN-Sketch-Net) 进行手绘图像识别。DCSN 模型是根据手绘草图的特点进行设计,如在首层采用了更大的卷积核获取草图的结构信息和更小的步长尽可能多保留特征信息,通过增加网络层数加深网络深度等。为进一步提高识别准确率,针对手绘草图的特点提出了两种新的数据增强方法,小图形缩减策略和尾部移除策略增加数据集的多样性,并利用扩充的数据集训练DCSN 网络。经实验验证,所提出的模型在目前最大的手绘图像数据集上可以取得70. 5% 的识别准确率,超过了目前存在的几种主流的手绘草图识别方法。  相似文献   

16.
为确保大数据云存储下海量数据传输的完整度,提出了一种基于属性特征匹配和关联规则的海量数据传 输完整度控制方法。构建海量数据的属性特征高维重组模型,得到关键信息的特征分布状况,据此设计海量数 据的关键信息存储分布结构模型,采用关联规则方法进行海量数据的关键信息特征挖掘提取,利用关键信息进 行海量数据的特征分析和数据聚类处理,采用属性特征匹配方法设计海量数据关键信息存储节点后,利用模糊 减法聚类对关键信息存储节点进行聚类处理,在海量数据传输中,以数据关键信息存储节点传输的完整度实现 海量数据的传输完整度控制。仿真结果表明,采用该方法进行海量数据传输完整度控制,能提高云存储下的空 间利用效率,数据传输完整度高。  相似文献   

17.
为了对恐怖事件实现早期预警,通过分析恐怖事件的网络结构,构建了恐怖事件的预测模型。利用隐马尔可夫模型与贝叶斯网络方法,通过分析一些先前发生的事件来预测恐怖分子在未来一段时间可能发动的恐怖活动,实现对相关情报的侦测,预防可能发生的恐怖事件。同时,对完备数据与不完备数据条件下的恐怖事件的预测算法进行分析。结果表明,提出的预测方法与使用监测软件得到的结果相近,验证了隐马尔可夫模型的合理性和贝叶斯网络方法的有效性。不足之处在于,监测过程获取的情报信息较少,一定程度上影响了模型结果的精确度。  相似文献   

18.
为解决跨语言信息检索中多语言知识组织问题,根据本体术语学中概念具有独立于语言多样性的稳定性,不同语言或文化背景下的术语可表示同一个概念的核心观点,结合教育领域的需求,依据《教育主题词表》构建出支持多语言检索的标准化本体模型。将对术语的检索提升到概念层面,从而消除由不同语言相互转换所带来的歧义,很好地解决了教育领域跨语言语义信息检索问题。最后,利用Jena API 实现对该本体的查询并构建出跨语种语义检索原型系统,结果证明了所提出的方案的可行性。  相似文献   

19.
为了对铁路系统涉恐事件进行风险管理,遏制铁路系统恐怖袭击事件的发生,提出基于DBSCAN(density-based spa-tial clustering of applications with noise)算法的铁路系统恐怖袭击风险评估方法.首先对1970—2017年发生的铁路系统恐怖袭击案件进行统计分析,然后采用DBSCAN算法对恐怖袭击发生次数、死亡人数和受伤人数3项风险评价指标进行聚类分析,最终客观计算出几类袭击方式、袭击目标和86个国家的风险.结果表明,该方法的分析过程避免了人工赋值和专家打分策略,评估结果更具客观性和真实性,适用于反恐情报工作的风险评估领域.  相似文献   

20.
传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和 本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体BabelNet 等减 少语义关联度损失。由于本体包含大量概念联系,因此使用本体作为语义层表示设计了语义权重算法,并将其 构建在BM25F 统计信息检索模型上作为用户反馈的排序算法。最后根据建立的模型设计实现了多语言信息检 索原型系统,并用基于爬虫技术获取的数据测试集对模型进行测试,实验结果表明,该模型平均查准率高于传 统的基于机器翻译的信息检索模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号