共查询到20条相似文献,搜索用时 15 毫秒
1.
实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率. 相似文献
2.
基于MEDL模型提出了一种以内容为导向的,将HTML转换为XML数据的方法.在该方法中,根据网页中值域和属性域的识别,并结合MEDL模型对HTML中的数据进行提取,并将其转换为符合要求的格式.该方法具有提取信息精确、转换格式统一等优点,且具备很好的扩展性,能够为深入开展Web数据挖掘提供很好的支持. 相似文献
3.
林晓莉 《科技情报开发与经济》2011,21(20):80-83,92
在数字图书馆建设过程中,为有效利用早期直接存储于HTML表格中的图书资料信息,提出了一种将HTML表格转换为XML文档的方法。该方法利用HTML表格的格式化信息及其蕴涵的结构信息,对HTML表格的语义层次进行理解,然后将HTML表格数据转储于关系数据库中,最后利用关系数据库对XML文档的支持将数据库文件转换为XML文档。 相似文献
4.
提出了一种将网页注册信息以文本文件的形式保存在本地主机上,通过读取该文件的内容将其中的注册信息填写在网页中的方法.在网络暂时故障或无法连接服务器的情况下,利用该方法可以实现将用户注册信息保存在本地主机上的功能.当网络连通后,通过读取本地保存的用户注册信息文件,完成注册任务,有时可为用户的注册提供方便. 相似文献
5.
提出了针对小范围的网页文本提取的一种方法.结合对东方财富网的股评网页的HTML文件进行网页文本分析,设计出基于特定领域的网页结构特征的网页文本提取算法.该算法的设计与普通的广义网页提取算法的设计相比,设计简单,针对性较强,提取效率较高,且对股票市场的网页信息的识别与处理起到基础性的作用. 相似文献
6.
潘敏 《湖北师范学院学报(自然科学版)》2014,(4):21-24
提出了一种网页篡改检测定位的方法,该方法首次实现对目标HTML网页被篡改位置的定位。此方法将原始HTML网页源代码的每一列和每一行分别进行PCA数字水印和ULC嵌入处理,通过对网页源代码行与列的计算结果和抽取出的认证信息进行比较,实现对目标HTML网页篡改范围的定位。实验结果表明,该方法能检测网页篡改并较好地定位出篡改范围。 相似文献
7.
含有位置坐标树的Web页面分析和内容提取框架 总被引:6,自引:0,他引:6
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率. 相似文献
8.
9.
动态生成静态网页技术探索 总被引:1,自引:0,他引:1
本文介绍了利用动态网页技术生成静态HTML页面的方法.利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点.这种技术对于访问量大的网站尤其适用,可以减轻服务器端运行程序和读取数据库的压力,提高了网站的数据存取效率,生成的静态页面也更利于搜索引擎收录. 相似文献
10.
Docbook是一种优秀的可将文件内容与文件样式信息分开处理的文件规范.Docbook提供了单一的源文件维护及版本控制,讨论了一种通过将非规范的XML和HTML文件转换为Docbook规范的文档,然后将Docbook规范文档转换为多种格式的文档,来实现一种更高效并具有扩展性和容错性的文档处理机制。 相似文献
11.
网页正文信息抽取新方法 总被引:6,自引:0,他引:6
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性. 相似文献
12.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 相似文献
13.
魏宗秀 《淮北煤炭师范学院学报(自然科学版)》2006,27(3):40-42
CSS将网页上的内容和格式分开控制,能够简化网页的格式代码.但目前网页布局多用表格、层等,CSS元素多是嵌入到HTML标记中使用,不能自如地改变网页的版面布局,也不能充分发挥CSS在版面布局中的强大作用.WEB信息网页的制作日益成为大众化的技术,对于电子信息管理人员来说,掌握这门技术已经成为趋势.介绍通过使用HTML的DIV标记和CSS设计易于改版的信息网页的方法. 相似文献
14.
基于DOM树及行文本统计去噪的网页文本抽取技术 总被引:1,自引:0,他引:1
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。 相似文献
15.
《海南师范大学学报(自然科学版)》2015,(1)
文章从保护服务器中文件信息的角度,研究一种利用混合加密实现隐藏文件的方法,防止非法权限的用户窃取、拷贝和破坏文件.其过程首先用一款文件转换数字文本的软件将文件转换为数字文本,按照一定算法在数字文本中添加一串特征值,利用DES加密混合特征值的数字文本,实验结果只保存DES加密后的密文,删除源文件.实现隐藏服务器中重要文件,防止非法用户得到文件信息的目的. 相似文献
16.
三种最新的网页制作工具 总被引:1,自引:0,他引:1
当今,网络已经逐渐变成我们生活的重要组成部分。各个网站为了提高自己的知名度,就要制作精美的网页来吸引浏览者的目光。因此,人们对网页制作技术的需求越来越大,而各种各样的网页制作工具就纷纷涌现了。 所有在浏览器中使用的文件都是用HTML语言(Hyper Text Markup Language超文本标记语言)写的。在早期,人们一般 相似文献
17.
宋葆华 《中国人民公安大学学报(自然科学版)》2003,9(6):76-79
ASP是一种服务器端的命令执行环境,它把HTML、脚本、组件等有机结合在一起,形成一个能够在服务器上运行的应用程序。网页加密由三个文件组成:加密的数据库文件、登录表单及密码验证的动态网页、需加密网页的制作。 相似文献
18.
《湖北民族学院学报(自然科学版)》2021,(1)
随着恶意网页数量的逐年递增,传统恶意网页检测技术表现出了较大的局限性.因而基于机器学习的检测技术被引入,该技术的关键是有效网页特征的选取.在分析提取传统网页特征URL、HTML和JavaScript代码特征的基础上,融合网页文本内容特征(Text特征),基于机器学习提出一种多特征融合的恶意网页检测方法.通过互信息法、F-检验法、递归特征消除法3种特征选择算法验证得到所提Text特征更具强相关性.其中,RF算法在URL、HTML、JavaScript与Text特征的混合特征集上对恶意网页检测的效果最好,该方法与前人工作相比具有更高的准确性与可靠性. 相似文献
19.
20.
JSP技术的特点与应用 总被引:1,自引:0,他引:1
宋超英 《牡丹江师范学院学报(自然科学版)》2005,(2):16-17
JSP是Java Server Pages(Java服务器页面)的缩写,是由Sun Microsystem公司倡导、有许多公司参与一起建立的一种动态网页技术标准(http://www.javasoft.com/products/JSP).它的实现是在传统的网页HTML文件中加入Java程序片段(Scriptlet)和JSP标记(tag),从而构成了JSP网页(*JSP).Web. 相似文献