首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
多文化交流平台(intercultural-collaboration-environment,ICE)是亚洲多所大学与研究机构参与的、开发多语种在线交流翻译平台的国际合作项目.针对目前该项目中底层翻译软件AnnoChat翻译质量较差的问题,提出了一种基于Agent的上下文推理机制,以访问领域本体库,辅助选择语义模糊文本的正确意项.通过在ICE中的应用,验证了该机制的有效性.  相似文献   

2.
文本挖掘技术综述   总被引:17,自引:0,他引:17  
文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程.对其进行深入的研究势必将极大地提高人们从海量的文本数据中提取信息的能力,具有很高的商业价值.首先介绍了文本数据挖掘的研究情况,然后给出了文本挖掘的框架,对文本挖掘中信息的抽取技术以及文本挖掘中使用的相关技术、评估方法等都作了详细的介绍,最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景.  相似文献   

3.
设计和实现了一个面向blog的兴趣挖掘和推荐系统blog-digger,该系统采用兴趣挖掘技术,主要根据用户在一定时间段对blog页面的浏览行为,判断出用户对blog网页的感兴趣程度,并采用文本分类技术对用户的兴趣进行挖掘,取得较好的兴趣挖掘结果.另外,结合页面重要度对网页进行排序,以确定最终推荐给用户的blog.实验表明该系统推荐的blog具有较高的主题内容相关.  相似文献   

4.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。  相似文献   

5.
现有技术机会挖掘结果的应用性较低,究其原因,一是样本量较小,二是挖掘过程缺乏对技术应用前景的评估.为解决这一问题,以提升挖掘结果的应用性为目标,以海量专利为样本,在现有研究的基础上,加入对技术应用前景的评估,提出三维的专利预测模型.采用机器学习下的PLSA算法,结合Hadoop平台下的MapReduce计算框架,运用专利文本挖掘,构建专利预测模型的技术维和功效维;采用熵权和TOPSIS法构建专利预测模型的价值维;基于MapReduce计算框架填充专利预测模型的单元项.并以DII数据库中钛领域1999~2018年133 508例专利文本为样本应用了专利预测模型.结果显示,该模型在钛领域内共挖掘出了3个优先级和2个次级的技术机会,可以按优先顺序对技术机会进行开发.该模型丰富了技术机会挖掘的方法,为创新主体指明了更为准确和前景化的技术研发方向.  相似文献   

6.
WEB文本挖掘中用户兴趣模型的建立和更新   总被引:5,自引:0,他引:5  
面对因特网的海量信息,为实现web文本挖掘,可建立用户兴趣模型,使用户很方便地获取所需的有用信息,排除无用信息。在建立这一模型之初,要通过观察用户行为,分析web页面与用户兴趣的相关度,利用静态和动态相结合方法给出一个“兴趣指数”,在此基础上,运用Web文本挖掘技术,通过计算与文本的匹配程度,将满足约定条件的文本推荐给用户,从而利用相关反馈建立和更新用户兴趣模型。  相似文献   

7.
张杨 《科技信息》2009,(12):183-183
本文对当前主要的Web挖掘技术和高校图书馆用户兴趣建模技术进行了分析,提出了以高校图书馆用户在高校图书馆网站浏览内容分析为主,浏览行为分析为辅的高校图书馆用户兴趣挖掘过程模型。而基于Web浏览内容挖掘所得到的用户兴趣模型能较准确地描述用户的兴趣。  相似文献   

8.
信息获取已成为药商经营活动的重要组成部分和市场判断依据,网络大量非结构化、半结构化信息的出现为药商个性化服务提供了技术空间和实证依据.文章通过对个性化服务中文本挖掘的关键技术进行设计,并应用了中药材信息网站文本挖掘流程,把文本挖掘技术应用于中药材信息网站的用户兴趣获取实例中,实现用户兴趣的自动获取功能.  相似文献   

9.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

10.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

11.
分类规则挖掘的免疫算法   总被引:4,自引:0,他引:4  
为了高效地从数据库中挖掘分类规则,提出了一种基于免疫算法的分类算法.该算法的核心思想为:对规则的前件进行固定长度编码,适应度函数的计算由分类规则的较小分类错误率、简洁性、一致性和训练实例的覆盖性构成,通过把适应度最小的个体作为先验知识来修改个体的某些分量的方法进行疫苗接种,并通过检测个体是否出现退化和模拟退火来实现免疫选择,同时还采用了基于信息增益的规则剪枝策略.在美国加州大学标准数据集中的5个数据集上将该算法与RISE和OCEC算法进行了实验比较,结果表明该算法不仅具有更快的收敛速度,而且获得了更高的预测准确率及更小的规则集。  相似文献   

12.
基于相似度的离群模式发现模型   总被引:5,自引:0,他引:5  
提出了基于相似度的离群模式发现模型,该模型主要利用知识属性集分析离群点,既能够处理离群点的数值属性,又能够处理其类别属性;通过组间相似度从中发现离群模式,不仅回避离群点数量少的缺陷,还利用了离群点的隐含语义.给出了在银行结售汇交易数据上进行的实验分析结果,模型发现了某地区的3个可疑模式,该结果为金融犯罪分析提供有利线索;利用不同子空间角色划分,可以发现个人、地区等不同对象间的异常资金流动;模式发现算法具有线性时间复杂度,在实际应用中具有较好的性能.结果表明模型能检测出可疑资金流动序列,为反洗钱工作提供有意义的线索.  相似文献   

13.
信息时代,知识的更新换代进一步加快,对翻译人才的要求越来越高,翻译课的传统模式以及方法已不能适应新的需要。随着机器翻译技术的不断发展,机器翻译、翻译记忆等产品也逐步地以各种方式应用到了翻译教学当中。构建一个面向翻译教学的机器翻译系统,整体、系统地将机器翻译技术应用于翻译教学,提高翻译教学的质量,全面提高学生的翻译能力。  相似文献   

14.
通过直接学习和反馈学习来挖掘智能搜索引擎用户的兴趣特征信息,并建立了兴趣特征库。提出了通过用户兴趣特征增量算法自动修改用户的兴趣特征权值。最后通过实例验证了用户兴趣特征模型在检索中应用的意义。  相似文献   

15.
针对个人基本信息和体检结果,开发一套疾病预防与监测,提供个人健康计划,发现医学健康知识的管理系统.该系统可将体检的信息以数据的形式存储到数据仓库中,在需要时将用户的历史数据传输、汇总,方便地得到个人健康状况的信息及饮食、起居、医疗等情况的建议.通过数据挖掘模块可对存储在数据仓库中的海量数据进行挖掘,得到相关于生活习惯和...  相似文献   

16.
大型的数据库和数据仓库中的数据往往是有噪声和不一致的,应用经典的粗糙集理论对其进行数据挖掘处理时,效果不够理想.引入信息颗粒的概念,给出了属性子集引导的信息颗粒的构造方法及基于信息颗粒的知识描述,并应用粗糙集的扩展模型讨论知识的粗糙度问题,提出了基于粗糙信息颗粒的属性约简算法,该算法在给定最小置信度阈值的情况下,可实现对不一致数据集的简洁知识提取.图1,表2,参8.  相似文献   

17.
Because data warehouse is frequently changing, incremental data leads to old knowledge which is mined formerly unavailable. In order to maintain the discovered knowledge and patterns dynamically, this study presents a novel algorithm updating for global frequent patterns-IPARUC. A rapid clustering method is introduced to divide database into n parts in IPARUC firstly, where the data are similar in the same part. Then, the nodes in the tree are adjusted dynamically in inserting process by "pruning and laying back" to keep the frequency descending order so that they can be shared to approaching optimization. Finally local frequent itemsets mined from each local dataset are merged into global frequent itemsets. The results of experimental study are very encouraging. It is obvious from experiment that IPARUC is more effective and efficient than other two contrastive methods. Furthermore, there is significant application potential to a prototype of Web log Analyzer in web usage mining that can help us to discover useful knowledge effectively, even help managers making decision.  相似文献   

18.
利用2D-σ程序对深部矿体不同开采顺序的应力场和位移场进行数值模拟.研究结果表明,采用上行式阶段开采顺序,采场顶板破坏度、位移值和垂直方向应力值均小于下行式开采,在矿床开采末期,地表的沉陷范围及各阶段顶板和边帮的位移均小于下行式开采.因此,采用上行式阶段开采顺序有利于改善采场的稳定性及减轻或避免深部硬岩开采诱发的岩爆灾害,从回采工艺过程方面分析,更有利于矿山实现的无废开采新技术,具有显著的经济效益和社会价值.  相似文献   

19.
如何从各类数据仓库海量的数据中发现有用的知识是一个迫切需要研究的课题.因此,数据挖掘应运而生,成为一个全新的研究领域.而随着目前WWW的广泛应用及相应的Web技术的出现,也使数据挖掘的研究进入了一个新的阶段;综述了Web挖掘的主要技术及其实际应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号