首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
在编制一些 HTML页面脚本时 ,我们常常需要部分站点允许访问非 HTML 格式的文档 ,比如Adobe PDF、Microsoft Word和 Microsoft Excel等等。笔者将以 Adobe PDF文档为例 ,介绍如何使用 JAVA语言向 Web客户端发送非 HTML格式文档的方法  相似文献   

2.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

3.
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

4.
WWW网站分类体系包装器WCSW   总被引:1,自引:0,他引:1  
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

5.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

6.
由于HTML只描述数据怎样显示而不描述数据的内容,因此识别HTML表格并抽取其数据是Web信息抽取领域中重要的研究课题之一,针对现在包装器技术的不足提出了一种新的基于领域本体的HTML表格结构识别技术,为构造HTML表格信息抽取系统打下基础。  相似文献   

7.
基于混合条件模型的Web信息抽取   总被引:2,自引:0,他引:2  
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.  相似文献   

8.
1.ASP技术简介 ASP(Active Server Pages)是Microsoft推出的WEB应用程序开发技术,是一种将脚本语言集成到HTML主页并作用于服务器端的脚本环境.利用ASP可以在服务器端执行VBScript或JavaScript编写,嵌入HTML文件程序,允许开发者创建包含一部分是静态内容而其余部分是动态内容且具有强大交互功能的Web页面.其主要特征是可以由任何编程语言来编写,能够把HTML语言、脚本语言、COM(Component Object Model)组件等有机组合,由服务器解释执行,并根据用户要求制作标准的HTML页面送到客户端.  相似文献   

9.
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。  相似文献   

10.
通过分析跨站脚本攻击的特性, 提出一种基于分隔符的跨站脚本攻击防御方法, 该方法适用于UTF-8编码的Web应用程序。首先, 仅对可信数据中的分隔符进行积极污点标记; 然后, 利用字符UTF-8编码值的转换轻量级完成污点标记, 该污点信息可随着字符串操作直接传播到结果页面; 最后, 根据结果页面中分隔符的污点信息及页面上下文分析, 检查脚本执行节点的合法性和脚本内容的可靠性, 精确地检测并防御跨站脚本攻击。针对PHP平台实现了原型系统XSSCleaner。实验证明, XSSCleaner可轻量级地完成污点分析, 并且能够对跨站脚本攻击进行精确防御, 页面生成的时间开销平均为12.9%。  相似文献   

11.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

12.
提出了一种网页篡改检测定位的方法,该方法首次实现对目标HTML网页被篡改位置的定位。此方法将原始HTML网页源代码的每一列和每一行分别进行PCA数字水印和ULC嵌入处理,通过对网页源代码行与列的计算结果和抽取出的认证信息进行比较,实现对目标HTML网页篡改范围的定位。实验结果表明,该方法能检测网页篡改并较好地定位出篡改范围。  相似文献   

13.
对Web站点的主页设计进行了讨论,提出一种把超文本标记语言HTML与JAVA语言相结合来设计网页的方法,既能使页面富有动态感,又能使页面与用户间有较强的交互性。  相似文献   

14.
本文阐述了ASP使用VBScript脚本语言结合HTML代码及ODBC数据库完成网站交互应用程序的方法。将该ASP程序放在WEB服务器虚拟目录下(该目录必须有可执行权限),就可以通过WWW的方式访问ASP程序。ASP是一套微软开发的服务器脚本环境,一种使嵌在HTML页面中脚本程序得以运行的环境。  相似文献   

15.
通过对微内容类网页正文内容块自动填充的研究,利用网页区域分块技术与HTML的结构特征,提出了一种基于区域分块和内容块自动填充(RAF)的正文提取方法,可用于微内容类网页正文的自动提取,同时运用编程实现提取工具进行实验.结果表明,该方法能够有效、准确地提取微内容类网页的正文信息.  相似文献   

16.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

17.
基于XML的多数据库系统集成数据模型   总被引:2,自引:0,他引:2  
随着网络信息的大量积累,如何充分利用网络资源已成为一个亟待解决的问题,将数据库技术应用到Web数据中是一种较好的解决办法,而其中则牵涉到Web数据的结构抽取以及采用什么形式描述这种结构。基于上述情况,提出了如何将一个典型的半结构化数据(HTML网页)经过模式抽取并转换为XIDM描述形式的方法,从而实现了自行研制的多数据库系统Panorama与文件系统的集成。  相似文献   

18.
Java语言与Web页面设计   总被引:1,自引:1,他引:0  
论述了Java Applet方法和多媒体Web页设计。该方法制作的Web页具有很强的交互和动态功能,是目前采用HTML,Scrip和Java Applet三种语言工具制作Web页最有发展前途的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号