首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于源网页的信息比目标网页的更具有区别性,提出通过提取源网页扩展的锚文本,进行目标网页特征识别。分析了不同位置的扩展锚文本,获取其XPath表达式,用于提取网页特征,并通过实验分析其性能。  相似文献   

2.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

3.
藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.  相似文献   

4.
近年来,Pawlak粗糙集理论在研究不完整、不确定知识和数据的表述、学习、智能信息处理、数据挖掘方面受到广泛的关注,并取得了一系列成果.S-粗糙集是Pawlak粗糙集的推广.利用S-粗糙集理论,知识过滤原理分析了从海量Web网页信息中获取感兴趣的Web网页的实质.  相似文献   

5.
基于证券行业半结构化数据的抽取技术   总被引:1,自引:1,他引:1  
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力.  相似文献   

6.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

7.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

8.
网页布局优化设计方法探析   总被引:1,自引:0,他引:1  
随着网络应用的日益广泛,网页作为传播信息载体,其布局直接影响着网页整体视觉效果和信息的有效传达。基于网页布局的理念,分析了现代网页布局设计中不足之处,提出优化网页布局的方法,从而设计出既美观又实用的网页。  相似文献   

9.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

10.
CSS将网页上的内容和格式分开控制,能够简化网页的格式代码.但目前网页布局多用表格、层等,CSS元素多是嵌入到HTML标记中使用,不能自如地改变网页的版面布局,也不能充分发挥CSS在版面布局中的强大作用.WEB信息网页的制作日益成为大众化的技术,对于电子信息管理人员来说,掌握这门技术已经成为趋势.介绍通过使用HTML的DIV标记和CSS设计易于改版的信息网页的方法.  相似文献   

11.
0 IntroductionThe rapid growth of the Internet has greatly changed ourway of sharinginformation,speeded up the pace of in-formation exchange, and most of information systems havebeen built by Webtechnologies with data sharing and exchan-ging via the Internet . Classic Web application models are es-sentially based on positive information producers and passiveusers ,and have basically a non-center and one-way transmis-sion of information. Since early 2005 , a new generation ofWebtechnologies c…  相似文献   

12.
为了使Web站点进一步适应当前复杂的电子商务,必须引入智能技术,通过融合XML信息交换、智能文档分析与搜索、数据库动态网页、数据仓库,虚拟现实和流式多媒体等技术,将能够建立起支持生动的个性化服务、智能搜索与信息推送、实时交互与协同工作、事务处理与决策支持、通用数据访问与数据挖掘等功能的智能站点。  相似文献   

13.
Deep Web数据集成系统中的查询效率优化   总被引:1,自引:0,他引:1  
Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略,并给出了算法分析。  相似文献   

14.
基于结构与内容的网页主题信息提取研究   总被引:11,自引:0,他引:11  
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.  相似文献   

15.
针对日志分析软件发展过程中面临的问题,提出了用JAVA语言,XML(可扩展标志语言),以及XSL(可扩展样式语言)进行日志分析的设计方法,运用JAVA语言把网络日志转换为XML的标准格式,通过XSL对XML文件进行统计分析,提取日志中有价值的信息,方便地完成对日志文件的分析,并使日志分析的程序与数据能够在平台间进行无缝移植。  相似文献   

16.
随着Java Web的广泛应用,系统中的信息安全性也显得越来越重要。原来单纯的用户名和口令鉴别用户身份及授权使用等方式已经难以保证信息安全,采取其它更为保险的方法已势在必行。其中,消息摘要算法就是一种比较有效的方法。据此,本文详细介绍消息摘要算法在Java Web系统的使用,以进一步提高系统的安全性。  相似文献   

17.
由于网页中存在着许多“噪声”信息,所以相对于传统的纯文本分类来说,中文主题网页分类是一项更为困难的工作. 但网页可以划分成不同的块,对分类 而言每个块的重要度是不同的,可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术,并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.  相似文献   

18.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

19.
异构信息源集成技术   总被引:12,自引:0,他引:12  
异构信息源集成技术提供统一接口,使各种基于因特网的应用能迅速、准确地提取所需信息,为用户屏蔽各种信息源的异构性.这种异构信息源的集成技术从传统的结构化的异构数据库扩大到半结构化的大量Web页面信息及无结构的信息.对集成技术的方法,如数据模型、Web信息、描述语言XML、主流软件开发技术及信息智能搜索、查询重写、查询分析等进行了分析,给出了半结构化异构信息源集成的系统架构,并指出该项技术未来发展趋势.  相似文献   

20.
Web3.0环境下个性化信息服务研究   总被引:1,自引:0,他引:1  
在介绍Web3.0的概念、特征的基础上,讨论了Internet上的个性化信息服务,结合Web3.0的几种主要信息服务形式,深入分析了其个性化信息服务的特征,并阐述了Web3.0目前面临的问题,对其未来发展进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号