首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果.  相似文献   

2.
高煜欣 《科技资讯》2009,(30):175-176
本文通过介绍个性化页面的生成,阐述了整个网站页面生成系统的结构及工作原理,并基于开放模式,设计和实现了客户登录客户信息提供、客户在线提交各类信息服务、客户信息统计等程序模块,分析并解决网页实现中的若干技术问题,提出了今后该网站发展的一些建设性意见和措施、方案。  相似文献   

3.
随着Internet技术的发展和普及,W eb上的信息量猛增,使信息抽取更具有挑战性.从网站的拓扑结构入手,提出了信息抽取中网站结构树的生成算法,该算法首先根据网页结点URL所在目录的层次关系,去掉网站结构图中的部分回溯边;然后在宽度优先遍历的过程中去掉已经遍历过的重复结点,生成网站结构树.最后引入编辑距离对算法生成的网站结构树与实际的网站结构树的相似程度进行评价,两棵树的相似程度比较高,均达到了90%以上.利用生成的网站结构树可以对网站的内容页面(即结构树的叶子结点)进行聚类,最后进行信息抽取,大大提高抽取的准确率与召回率.  相似文献   

4.
为解决网站内部公开信息发布困难的问题,研究并实现了一种基于内部信息融合的网络信息发布系统.给出了该系统的结构模型,功能模块,关键算法以及运行流程.该系统通过内外搜索排名与内部信息融合技术破除信息孤岛问题,实验性能分析证明该系统具有较高的自动信息发布能力和较高的客户满意度.  相似文献   

5.
基于混合向量空间模型的主题网站识别   总被引:1,自引:0,他引:1  
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析.结果表明该模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性.  相似文献   

6.
针对客户的需求如何最大可能地发掘客户的兴趣,是一个电子商务网站所最为关心的内容。基于关联规则的挖掘技术可以从大量的数据中抽取潜在的、有价值的信息,而通过人工神经网络技术中的优化算法,则可以明显地提高数据挖掘的效果。  相似文献   

7.
杨锦宣 《科技信息》2011,(20):I0212-I0213
在商务网站中为了调查客户对商品信息或网络资源的兴趣可采用客户在检索网站信息的同时,记录客户对信息的检索情况,并对记录的数据进行分析处理的方式。根据处理结果网站管理员可以及时调整网站资源,以满足客户需求。而对数据进行分析处理的过程中就需要使用重复数据统计算法处理重复出现的数据。本文阐述了重复数据统计算法及在商务网站中的应用。  相似文献   

8.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

9.
药物相互作用是指药物之间存在的抑制或促进等作用. 针对目前方法在不同关系类别上的抽取结果差异较大的问题,论文提出了一种利用外部知识的关系抽取模型,该方法首先对外部药物数据库中的信息进行处理,构建带有药物描述信息的数据集,然后在该数据集上进行模型训练,并保存最优模型,最后将该最优模型与药物关系抽取模型相结合,进行药物关系抽取,从而更好的利用了药物数据库中已有的知识,缓解了不同关系类别抽取结果差异较大的问题,提高了抽取效果. 在DDIExtraction 2013数据集上的实验结果表明,论文方法的F1值优于目前最优方法2.47%.  相似文献   

10.
Web中的客户评论信息挖掘是大数据分析中的一项重要内容.分析客户评论中所包含的产品特征情感倾向,不仅可为消费者购买产品提供更具体的决策支持,还能有效帮助企业改进产品质量.针对商业应用的实际需要,提出了一种自动从中文客户评论中抽取产品特征并判断其情感倾向的方案.基于frequent pattern-tree (FP-tree)方法提取产品特征,结合基于语料库的方法和依存句法分析方法识别关于产品特征的主观评论语句、情感词及其情感词的依存关系,综合考虑情感词、否定词、程度词计算产品特征的情感倾向值.采用公开数据中的600篇手机评论作为实验数据,检验了算法的准确性.对比分析的结果说明,算法有很好的应用潜力,能够有效地从网络评论中获取有价值的商业信息.  相似文献   

11.
语义Web对比三层网络架构的体系结构模型的研究   总被引:2,自引:0,他引:2  
给出了语义Web基于元数据的数据存储结构模型和基于SOAP的异构Web数据源的集成模型,并通过语义Web与当前三层网络架构模型的对比研究,给出了一种语义Web体系结构的可能模型。  相似文献   

12.
13.
通过分析传统的两层 C/ S模型的局限和基于 Web的三层 C/ S模型的优点 ,提出将基于 Web的三层 C/ S模型应用于网络管理系统 ,在原有网络管理系统基础上提供了一种强有力的辅助管理工具 ,使不同层次的网络管理人员能更快、更详细地了解网络运行状况和信息 ,并着重介绍了该模型在本地网网管系统中的应用  相似文献   

14.
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法.分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率.  相似文献   

15.
基于结构与内容的网页主题信息提取研究   总被引:11,自引:0,他引:11  
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.  相似文献   

16.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能.  相似文献   

17.
开放式Web信息抽取系统研究与实现   总被引:2,自引:0,他引:2  
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的"硬编码",而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围.  相似文献   

18.
基于特征相关学习的网页信息提取方法   总被引:1,自引:0,他引:1  
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率.  相似文献   

19.
为实现简捷的信息抽取和信息利用,提出一种采用树型结构实现Web数据到XML文档的转换算法.使用基于树型结构的类型定义和信息抽取方法,可有效将Web文档中的数据抽取出来并表示为XML格式的文档,形成可用的XML数据源,便于其他应用程序使用结果数据,为实现Web中的信息共享与数据交换提供便利条件.  相似文献   

20.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号