首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
随着技术预见定量分析方法以及文本挖掘技术的发展,通过主题模型挖掘专利文献的潜在语义来获取技术发展趋势逐渐成为研究热点之一。尽管LDA(Latent Dirichlet Allocation)模型依然是文本主题建模领域应用最广泛的方法,但传统LDA建模存在主题可解释性差以及未能充分利用专利文本上下文的语义关联等问题,导致部分有价值的技术情报未能完全呈现。为了进一步拓展传统LDA方法在专利文本挖掘和技术预见领域的应用,综合集成LDA模型的文本聚类功能与KeyBERT算法的关键词生成与语义分析能力,构建了一种面向技术预见量化分析的集成框架,并通过对工业互联网领域的技术预见分析验证了所提出模型的有效性,从而进一步丰富了当前基于文本建模和语义计算的技术预见方法体系。  相似文献   

2.
文本挖掘是数据挖掘的重要内容之一,对于信息的获取和知识的发现具有十分重要的意义,同时也是维护互联网信息内容安全的重要手段。对文本挖掘技术和信息内容安全的基本概念和理论进行系统地归纳并对相关前景进行了展望。研究分析了文本挖掘和信息内容安全的定义及文本挖掘与现有的数据挖掘和自然语言处理进行了对比;深入总结分析了文本挖掘的数据预处理、挖掘分析以及可视化过程中涉及到的关键技术和文本挖掘在信息内容安全领域的相关应用;研究新的文本特征表示模型、发展全新的非结构化的文本挖掘算法和构建融合大数据处理、自然语言处理、数据挖掘、图像处理、模式识别相集成的文本挖掘综合系统是提升文本挖掘性能的重要方向。  相似文献   

3.
生物医学复杂关系提取已经成为文本挖掘领域的焦点,而用于训练预测模型的注释语料库高度非平衡,且大多是针对单个注释语料库训练的监督模型,极大地限制了系统性能。因此,提出一种显著空间SVM自训练半监督学习方法,通过平衡初始模型诱导未标签训练数据,将领域知识纳入事件提取模型,识别多数类子集,构建预测模型。通过设计实验评估证明了训练语料库的有效性。  相似文献   

4.
云计算模型在铁路大规模数据处理中的应用   总被引:1,自引:0,他引:1  
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性.  相似文献   

5.
在如何快速发现大规模网络的结构和特性问题中,网络规模及复杂度的快速增长给其分析研究带来了新的挑战.MapReduce及其开源实现Hadoop给大规模图的高效处理带来了希望.基于MapReduce框架的集群系统,提出了1种新的计算模型用于大规模图形的3-clique计算,来实现图挖掘.计算的基本步骤是:首先获取每个节点的第1跳信息,然后是第2跳信息,最后得到所有基于该节点的3-clique.该计算模型可以用来计算聚集系数,并且可以用于三大通话网络的挖掘.实验结果证明这种计算模型具有良好的可扩展性和性能.  相似文献   

6.
幽默作为一种特殊的语言表达方式,是生活中活跃气氛、化解尴尬的重要元素。随着人工智能的快速发展,如何利用计算机技术识别和生成幽默成为自然语言处理领域热门的研究内容之一,并逐渐形成一个新兴研究领域:幽默计算。幽默计算致力于利用自然语言处理技术理解和识别包含幽默的文本表达,挖掘幽默表达潜在的语义内涵,构建面向幽默表达的计算模型。首先对当前幽默计算的背景进行概述,阐明幽默的可计算性和幽默计算对于人工智能的意义;在此基础上,对幽默研究的发展情况进行回顾,给出幽默研究的语言学基础;然后综述当前幽默计算在幽默识别和幽默生成两个方面的进展情况,分别给出针对幽默识别和幽默生成的计算框架;最后,对幽默计算在聊天机器人、机器翻译、儿童教育软件和外语教学等多个自然语言处理任务中的应用前景和应用模式进行展望。希望通过对幽默计算及其应用研究的总结和概述,完善现有幽默计算模型,增进计算机对于自然语言的理解,推动人工智能的进一步发展。  相似文献   

7.
分布式网络环境中基于MapReduce的WordCount实现   总被引:1,自引:0,他引:1  
基于Hadoop的MapReduce分布计算模型,在伪分布模式下以Word Count实现为例,研究了MapReduce系统架构及运行机制、编程模型以及它作业的生命周期,实现了基于MapReduce的文本文字计数功能。  相似文献   

8.
研究借助云的计算向数据迁移机制及MapReduce并行处理海量数据的优势,解决BP神经网络在处理大规模样本数据时计算量大、网络训练时间长的瓶颈问题.构建了影响骆马湖水质的多污染因素评价网络模型,在Hadoop下应用并行BP网络算法,实现了对骆马湖水质分类挖掘,挖掘分析结果对骆马湖水质优化及生态修复具有决策支持性意义.  相似文献   

9.
为保障考试的公平性和客观性,需在测试前获取试题难度参数.提出一种基于题目关联知识的试题难度预测模型(MR-ABNN).首先,构建文本信息摘要抽取模型,获取题目的关联知识来丰富题干的上下文;然后利用加入注意力机制的双向循环神经网络模型挖掘试题文本信息的逻辑关系,限定语句对问题的难度贡献来实现试题难度的自动评估;最后在大学...  相似文献   

10.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.  相似文献   

11.
基于国家知识产权局专利检索平台与中国专利全文平台,利用组合赋权-关联网络模型设计一种专利挖掘分析技术路径,通过构建专利数据库对打包机械技术相关专利进行量化研究.结果 表明,中国打包机械技术发展历经五个阶段,目前处于技术再发展阶段且逐步受到关注.产业技术创新研发趋势在宏观区域层面,区域研发实力由弱到强可划分为5个聚类,且呈现局部集中度高、发展及分布不均的特点,长江与珠江三角洲区域研发实力强劲;在中观省市层面,江苏省、浙江省、广东省为技术输出重镇;在微观竞争主体层面,该领域核心技术主要掌握在民营和股份制企业手中,各竞争个体研发实力集中度分散,整体创新程度不高,尚未形成研发技术联盟.产业技术机会分析显示,该技术领域的创新难度较以往相对增大,整体发展潜力有所下降;其中捆扎机械零部件和打包箱是现阶段该领域聚焦关键技术;其关联项有可能成为未来技术机会.  相似文献   

12.
基于卷积神经网络与随机森林算法的专利文本分类模型   总被引:1,自引:1,他引:0  
为解决专利文档的自动化分类,根据机械领域专利文本的特点,提出了一种基于卷积神经网络与随机森林的机械专利文本分类模型;该模型应用卷积神经网络作为有监督的文本特征提取器,结合随机森林作为分类器,面向机械领域专利文本进行专利文本分类。该模型被应用在包含96类的107 302份英文机械专利文档的数据集上。实验结果表明,该模型相比k近邻、Na6ve Bayes、随机森林等经典机器学习算法在准确率、召回率以及查全率方面均有显著提高。  相似文献   

13.
应毅  任凯  曹阳 《科学技术与工程》2013,13(5):1205-1209
基于单一服务器的Web挖掘系统在处理海量数据集时计算能力不足,针对该问题,提出了一种基于云计算的挖掘方法。将大数据集和挖掘任务分解到多台计算机上并行处理。实现了一个基于Hadoop开源框架的并行Web挖掘平台,同时提出了一种改进的MapReduce模型——MapReduce-LP。并通过对电子商务系统中Web日志的挖掘工作验证了系统的有效性和新模型的高效性。实验表明,在集群中使用云计算技术处理大数据集,可以明显提高挖掘效率。  相似文献   

14.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

15.
一个网络并行计算的性能预测模型   总被引:1,自引:0,他引:1  
并行针对网络并行系统中的树状结构的计算提出了一个性能预测模型框架,在此框架的基础上,提出了一个针对分而治之并行程序高度范例的性能预测模型,并给出了应用实例。还讨论了如何使用这一模型评估性能以获得最佳计算规模。  相似文献   

16.
针对基于最优加权法的ARIMA-BP组合预测模型在对混凝土坝位移变形进行预测时模型权重固定、时效性不强的缺点,引入时效函数自适应优化方法(TESAOC),挖掘监测样本的时效特征,从而实现单一模型权系数随时间的动态变化;利用移动算术平均法筛选出最佳计算样本,减小数据突变等因素带来的不利影响,同时对预测偏差落在不同范围内的时间序列权重进行模糊补偿处理,控制其对组合预测结果的影响,最终建立基于TESAOC的ARIMA-BP组合预测模型.实例分析表明,该组合模型的预测效果在精度和时效性方面均优于最优加权法,更符合工程实际情况,有更好的应用前景.  相似文献   

17.
针对现有推荐与预测方法中存在的不足,提出了一种基于数据挖掘的社交网络信息推荐与预测方法.该方法在传统预测模型的基础上构建了双向社交网络推荐与预测框架,并在框架内整合了用户类别、行为和内容相似性特征构建广义的拓扑特征集合,通过协同过滤算法对用户的权重特征进行聚类分析,提升模型的预测效果.实验结果表明,该方法有效提升了静态数据环境下的挖掘精度.  相似文献   

18.
现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能.然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系.为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系.在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法.在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.  相似文献   

19.
对互联网海量短文本进行分类挖掘是网络内容安全的一种主要方法。然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对常规文本的分类算法。为此,使用逻辑运算数学模型和统计方法等对互联网海量短文本进行规则建模,并对互联网海量短文本的样本进行分析后建立一系列分类规则,然后与基于KNN+SVM混合模型进行测试比较。测试结果表明,针对互联网海量短文本,基于规则的分类模型更适用于互联网海量短文本的分类挖掘,同时该模型已经成功应用在上百个项目上,应用效果较好。  相似文献   

20.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号