首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
一种基于XML的Web数据挖掘模型   总被引:27,自引:0,他引:27  
随着 HTML格式的出现 ,Internet得到了迅猛发展 ,面对着浩瀚如烟的数据 ,为了从中发现潜在的、有价值的信息 ,必须对 Web信息进行挖掘 ,但由于 HTML语言特点 ,使得 Web信息的组织结构性很差 ,对于进行 Web数据挖掘工作有很大的阻碍 ,XML语言的出现从根本上解决了这个问题 ,XML语言具有良好的结构 ,层次性好 ,用其对 Web页面信息进行组织 ,有利于进行数据挖掘工作 .本文通过对XML语言的认识提出了一个基于 XML的 Web Miner模型 ,以帮助用户快速、有效的挖掘 Web上的信息.  相似文献   

2.
Web日志挖掘技术进展   总被引:14,自引:0,他引:14  
用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。概述了Web挖掘的概念、分类及其主要应用领域,详细介绍了Web日志挖掘的主要方法和用户访问模式挖掘算法及国内外最新研究进展。最后提出了Web用户访问信息挖掘研究的发展方向和趋势。  相似文献   

3.
大量移动手机应用(Apps)存在重叠性功能特征,大量用户评论和多个标签,给市场机会发现、开发应用集成和应用选择带来困扰.本文提出基于文本挖掘和相似度网络融合的移动信息服务模式挖掘框架:基于功能描述文本、用户评论、分类标签分别构建个体相似度网络;将从不同信息视角得到的相似度网络进行非线性融合;用聚类验证融合网络有效性,将其用于发现不同移动信息服务模式.最后实验抓取2451个Apps,多视角特征融合方法克服数据水平差异和噪音,集成互补信息.融合结果用于聚类,在归一化互信息和准确率指标上都有显著提升,准确发现地图导航、火车汽车票、打车专车、公交查询等主流移动信息模式.研究成果为发掘市场机会和竞争者提供事实证据.  相似文献   

4.
随着Web 2.0技术的发展和推广,社会化标注系统为用户提供了有效表达自我和抒发感情的机会。针对社会化标签的特征,本文提出了一种考虑用户兴趣变化和用户标注信息的协同过滤推荐方法。首先,基于用户的历史记录信息构建了用户原始数据模型;然后将基于艾宾浩斯遗忘曲线的遗忘函数引入原始数据模型构建了用户兴趣模型,其中,利用融合时间权重的文本挖掘技术TF-IDF建立了基于项目类别标签的用户兴趣模型,综合标注标签加权频数和用户评分构建了基于标注标签的用户兴趣模型,融合时间权重和项目评分构建了基于评分的用户兴趣模型;进一步,基于用户兴趣模型并利用余弦相似性以及改进的Pcarson相关系数可计算融合用户评分和标签的用户兴趣相似度,根据用户兴趣相似度可为目标用户构建近邻集合从而生成推荐。实验结果表明,本文所提方法可以较好的考虑到用户的兴趣变化以及用户对标注标签的偏好,并通过对比实验证实该方法比传统的协同过滤方法推荐质量更高。  相似文献   

5.
Web日志挖掘可以发现访问者兴趣和需求, 提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法. 首先以Web日志为基础构建相关矩阵, 使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度, 最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类. 实证分析结果表明该算法能较好地解释用户的实际访问兴趣, 从而为网站提供相应的运营建议.  相似文献   

6.
插件(Plug-in)结构能使软件动态寻找和加载特定代码模块,被越来越广泛地采用.在基于B/S体系结构中采用Plug-in技术可以有效地增强浏览器功能.从基于Web的安全认证出发,研究了浏览器中Plug-in程序设计方法,提出了浏览器中采用Plug-in技术实现基于IC卡的用户身份认证方案,通过对服务器资源设定和Web页面改造,实现了用户对服务器Web资源访问控制功能.  相似文献   

7.
一种基于会话聚类算法的Web使用挖掘方法   总被引:1,自引:0,他引:1  
Web使用挖掘作为数据挖掘的一个重要任务,有助于了解用户群体的特征,从而为其提供个性化服务.提出了一种基于用户会话聚类的Wei使用挖掘算法.首先,对Web日志预处理采用基于时间窗的用户会话识别方法,提出了一种基于三元组的用户会话表示方法,并在此基础上给出了基于网页语义相似性的会话处理方法,该方法能够在保持用户兴趣不变的情况下有效降低会话维度;其次,提出了一种基于时间及频次的用户会话相似性度量方法;最后,设计了一种两阶段PS-KM会话聚类算法,先用PSO方法进行全局搜索再转入基于K-means方法的局部聚类过程.仿真表明了算法的有效性.  相似文献   

8.
企业社区中的用户专家对企业产品创新和改进具有重要作用,了解用户专家个人知识对于企业更好地利用用户创新具有重要意义.本文提出一种基于加权知识网络分析的企业虚拟社区用户专家个人创新知识发现方法,以用户社区帖子为对象进行Web文本挖掘,以加权知识网络模型(WKN)对挖掘的碎片知识进行整合和建模,进而综合利用WKN模型中的点、边、权重,以及社会网络分析方法,识别出基于派系的基本型创新知识模式、基于非派系的成长型创新知识模式以及核心创新知识模式.从模型及实例可看出,该方法识别出的知识模式,包含了知识点之间的关系结构,因而比零散的知识点更系统、深入,更易理解和应用.  相似文献   

9.
Web站点的个性化服务功能,可以帮助用户快速找到其所需的信息。基于推荐系统是当前实现个性化服务的主要方法。这种个性化服务方法存在显示不直观和重复计算的缺点。本文给出了基于Petri网的Web个性化服务方法,克服了基于推荐方法的缺点,并讨论了进一步的研究工作。  相似文献   

10.
特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,进而实现对特征词重要性排序.分别在公共语料集和补充语料集上与其它多种特征词排序方法进行数值实验对比,实验结果验证了方法的有效性.该方法拓宽了流形排序思想和图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略.  相似文献   

11.
High-frequency stock trend prediction using machine learners has raised substantial interest in literature. Nevertheless, there is no gold standard to select the inputs for the learners. This paper investigates the approach of adaptive input selection(AIS) for the trend prediction of high-frequency stock index price and compares it with the commonly used deterministic input setting(DIS) approach.The DIS approach is implemented through computation of technical indicator values on deterministic period parameters. The AIS approach selects the most suitable indicators and their parameters for the time-varying dataset using feature selection methods. Two state-of-the-art machine learners, support vector machine(SVM) and artificial neural network(ANN), are adopted as learning models. Accuracy and F-measure of SVM and ANN models with both the approaches are computed based on the high-frequency data of CSI 300 index. The results suggest that the AIS approach using t-statistics,information gain and ROC methods can achieve better prediction performance than the DIS approach.Also, the investment performance evaluation shows that the AIS approach with the same three feature selection methods provides significantly higher returns than the DIS approach.  相似文献   

12.
GeGeM:一种人工免疫系统通用基因模型及实现   总被引:3,自引:1,他引:2  
一个通用的基因模型对于人工免疫系统AIS(ArtificialImmuneSystem)软件设计是必需的。从AIS软件架构设计的角度出发,基因模型应具有一般性、可扩展性、高效率和可用性。提出一个基因模型GeGeM(GeneralGeneModel),通过基因操作实现免疫计算。该模型基于三层结构:元基因、基因序列和基因数据集。其中元基因提供基因序列的规范,基因序列提供基本的公共的基因操作,而基因数据集在此基础上实现训练和检测。进一步,该模型实现并给出实验结果,结果分析表明该模型的可用性和算法的有效性。经讨论比较,该模型具有一般性和可扩展性,可用于建立多用途的AIS软件,也可用于构建特定领域的复杂多样的检测系统。  相似文献   

13.
为了提高时差型卫星定位系统对舰船的定位精度,提出了一种基于船舶自动识别系统(automatic identification system,AIS)信息的舰船位置标校方法,该方法将具有AIS信息的民船作为标校源对军舰位置进行校正。首先,针对AIS信息无法直接用于位置标校的问题,提出了标校源雷达位置及其误差估计方法;其次,针对标校源雷达位置存在的误差,建立了标校方法的误差分析模型和标校源有效性分析方法,理论分析了标校定位精度及其改善程度,为标校源的选择提供了依据。最后,仿真分析验证了提出的标校方法的有效性。  相似文献   

14.
Heuristic optimization methods provide a robust and efficient approach to solving complex optimization problems. This paper presents a hybrid optimization technique combining two heuristic optimization methods, artificial immune system (AIS) and particle swarm optimization (PSO), together in searching for the global optima of nonlinear functions. The proposed algorithm, namely hybrid anti-prematuration optimization method, contains four significant operators, i.e. swarm operator, cloning operator, suppression operator, and receptor editing operator. The swarm operator is inspired by the particle swarm intelligence, and the clone operator, suppression operator, and receptor editing operator are gleaned by the artificial immune system. The simulation results of three representative nonlinear test functions demonstrate the superiority of the hybrid optimization algorithm over the conventional methods with regard to both the solution quality and convergence rate. It is also employed to cope with a real-world optimization problem.  相似文献   

15.
一种基于Web的客户信息获取模型框架   总被引:3,自引:0,他引:3  
研究了CRM中的客户信息获取问题。在分析了客户信息和Web技术的特点的基础上,给出了一种基于Web的客户信息获取框架,同时还进一步分析了该模型框架中各组成部件的功能和实现技术。运用此信息获取模型框架有助于分析和发现客户知识,对制定企业的经营策略具有支持作用。最后通过一个实例说明了该模型框架的应用。  相似文献   

16.
为提高战场透明度,需研究和发展以卫星信息为支持的战场环境保障技术。深入分析了卫星支持的战场环境保障的特点及信息处理流程;构建了面向服务的战场环境保障信息集成框架,提出基础平台层、数据组织层、核心服务层和作战应用层的4层框架结构;研究了支持该框架的关键技术体系及接口,实现了原型系统。框架打破目前纵向的各卫星系统自成体系、数据共享困难的局面,使得系统具有更好的动态性和可扩展性,便于用户根据不同的作战需求建立不同的服务模式。  相似文献   

17.
基于Web的半结构化信息抽取技术研究   总被引:1,自引:0,他引:1  
对信息抽取技术的发展和趋势作了一定分析,并讨论了当前半结构化信息检索领域的先进抽取技术。从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。通过建立标记树来进行网页结构分析,利用实例路径归纳学习出用户需求信息的公共路径,将效用的抽取结果提交用户,减少了用户负担,提高了查全率和查准率,为进一步满足Web信息抽取提供了一种新的高效信息抽取工具。  相似文献   

18.
基于Web Services技术实现物流动态联盟   总被引:6,自引:0,他引:6  
提出了利用Web Services技术实现物流动态联盟的方案。首先利用XML技术建立物流信息的规范,然后对每个物流企业设立UDDI代码,通过SOAP对物流企业进行集成。通过物流动态联盟的建立,可有效地节约资源。  相似文献   

19.
WWW上智能信息搜索技术研究   总被引:5,自引:0,他引:5  
用户在Web上检索信息时 ,通常使用门户网站所提供的搜索引擎工具 ,但目前的搜索引擎普遍存在精度低、返回信息太多、不具备个性化等问题。介绍了智能搜索引擎的主要新技术以及相关研究热点 ,提出了智能搜索引擎的总体框架 ,详细介绍了原型系统的实现。该系统的实现对提高搜索引擎的智能化和个性化是十分有效的  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号