首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
传统的Web包装器语言通过单一的路径表示方法对数据在HTML页面中的位置进行定位。当页面的变化超出其容忍范围时,只能由人工或者智能程序重新生成包装器脚本。本文提供了一种基于交叉定位的数据定位方法,当HTML页面发生变化时,在包装器层次上实现包装器脚本的自我修复。实验结果表明,使用交叉定位的Web包装器在没有降低信息抽取性能的情况下,大幅提高了包装器脚本对HTML页面变化的容忍度。  相似文献   

2.
本文讨论了一种决策系统的自动生成工具的设计原理与实现方法.该工具能够辅助人们去建立一种基于决策表的决策模型,自动进行各种检验,并能将此模型转换成另外两种决策模型.此外,该工具还能够进一步自动生成决策处理系统.  相似文献   

3.
目前市场上有很多股票交易软件,这些软件会根据股票交易的实际情况定期产生股票交易信息数据,并将这些信息数据写入二进制格式的文件中,如DAY文件等.由于这些文件不是文本文件,无法直接使用常规的文件读写进行数据的抽取,而必须设计一种数据抽取算法完成相应操作.对DAY文件进行了分析和研究,在此基础上设计了一种数据抽取算法,并利用JAVA语言实现了数据抽取算法程序,利用该程序完成了从DAY文件中抽取数据并写入数据库的实验.实验结果表明,该程序能够正确地从DAY文件中抽取数据,为后期的股票信息处理和数据挖掘提供了重要的基础.  相似文献   

4.
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。  相似文献   

5.
基于图像法的点云数据边界自动提取   总被引:16,自引:2,他引:16  
提出了一种反求工程中基于图像法的点云数据边界特性的自动提取方法,采用图像处理中梯度求解方法,对点云中每一点处的法矢和曲率进行估计,通过阈值得到候选边界点,再利用曲率极值法得到最终边界点。通过这些边界点可以进一步拟合边界曲线,达到对点云数据进行自动分片的目的。该方法具有较强的可操作性实用性,对于反求工程的自动化和智能化研究具有实际意义。  相似文献   

6.
【目的】表格文档作为数据信息的主要载体,如何从海量表格中准确提取关键信息也是技术难点之一。【方法】现有的端到端方法和基于预训练模型的方法在训练过程中并未有效利用表格单元格的结构信息,影响了文本在模型中的向量表示,从而影响了最终的语义信息抽取精确率。故本文针对两类方法都存在的问题,提出了进一步利用单元格结构信息来改进OCR识别效果的端到端方法和增加单元格序列预测任务的预训练方法。【结果】实验结果表明,改进后的两种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。【结论】加强了单元格结构信息在表格中的重要性, 提高了表格语义信息抽取的精确率。  相似文献   

7.
针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法.该文主要阐述了广告抽取系统核心模块的实现机制和系统架构.实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广告记录信息,具有一定的实用价值.  相似文献   

8.
Hidden Web provides groat amount of domain-specific data for constructing knowledge services. Most previous knowledge extraction researches ignore the valuable data hidden in Web database, and related works do not refer how to make extracted information available for knowledge system. This paper describes a novel approach to build a domain-specific knowledge service with the data retrievedfrom Hidden Web, Ontology serves to model the domain knowledge. Queries forms of different Web sites aretranslated into machine-understandable format, defined knowledge concepts, so that they can be accessed automatically. Also knowledge data are extracted from Web pages and organized in ontology format knowledge. The experiment proves the algorithm achieves high accuracy and the system facilitates constructing knowledge services greatly.  相似文献   

9.
HTML数据内容的抽取与集成   总被引:11,自引:0,他引:11  
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。  相似文献   

10.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

11.
商业竞争日趋激烈的今天,单纯的联机事务处理系统已经不能满足管理者的决策支持要求,联机分析处理(OLAP)技术的出现具有重要意义.研究了目前联机分析处理的关键技术,数据仓库的经典解决方案,数据预处理的相关方法,提出了一种面向商业OLAP的并行数据抽取接口设计方案,并对设计过程中的数据清理、数据集成和变换、数据归约等数据预处理技术作了重点介绍和应用研究.最后结合实际应用阐明了提出的数据抽取方案对于实现商业OLAP功能的有效性和实用性.  相似文献   

12.
文章分析了AutoCAD的DXF文件格式,介绍了基于DXF文件提取所需数据的接口程序设计,并给出了一种从AutoCAD图形中提取数据的Delphi程序实现方法。应用此方法提取地形等高线、地质地貌特征和钻孔柱状图等数据用于建立三维地质模型取得了很好的效果,有效的解决了AutoCAD系统与三维地质建模及信息可视化系统的图形、数据的相互转换问题,为三维地质建模数据的获取提出了一条新的途径。  相似文献   

13.
网络舆情中的信息预处理与自动摘要算法   总被引:1,自引:0,他引:1  
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.  相似文献   

14.
针对高原射表编制问题,提出了随马赫数与海拔高度变化的弹丸阻力系数二元函数表达式和利用雷达测速曲线中提取阻力系数二元函数的方法.该方法以非均匀B样条函数作为拟合函数,使阻力系数的变化规律更接近真实情况.详细推导了提取二元阻力系数的具体算法,并提供了计算机程序框图.将对雷达实测数据进行处理得到的阻力系数用于弹道解算,与高原试验结果比较,在20°和50°射角下,传统方法与试验射程相差-1.30%和-2.28%,新方法相差-0.21%和-0.26%.按照新方法解算弹道,精度明显提高,该方法是实际可行的.  相似文献   

15.
对Web网页的查询及信息提取   总被引:4,自引:0,他引:4       下载免费PDF全文
比较Web查询与传统数据库查询的区别 ,提出一种对Web查询计算的新模型 ,基于这一模型 ,可针对网页结构和内容进行查询 ,再根据HTML的特点 ,从网页中提取数据库数据 .  相似文献   

16.
抽取音频数据特征的快速离散余弦变换方法   总被引:2,自引:0,他引:2  
针对音频数据库中存原在的问题,提出了一种基于索引的变换,分析了离散余弦变换的特点,得出Ⅱ型和Ⅲ型快速主散余弦变换算法,并把这两种算法用于数据索引特征的抽取和音频信号的重构,所提算法具有搜索速度快、回取精度高的特点,同时也使得音频数据的索引对噪声不敏感,与原数据搜索相比,具有更高的成功率,通过对峰值信号噪音率和回取精度两个指标的评估,验证了这种方法对加快音频数据的搜索速度和提高回取精度的有效性,为音频数据自动分析和分类、基于内容的数据索引和查询、基于近似的搜索提供了快速而有效的手段。  相似文献   

17.
通过对Auto Cad软件提供的Active X-Automation开放接口对象的属性和方法进行分析,项目实现运用面向对象的Visual Basic.net可视化软件编程语言对Auto Cad软件进行二次开发,从Autocad软件绘制的DWG格式电子图纸文件中提取可供管理人员使用的标题栏和明细栏信息,项目研究结果实现了把电子图纸标题栏和明细栏信息智能提取到数据库中供有效管理图纸的目的,具有一定实用价值。  相似文献   

18.
汽车图象中字符目标的提取算法   总被引:16,自引:0,他引:16  
针对汽车图象的复杂背景和多变的光照条件,提出一种用于汽车图象的字符目标提取算法,该算法采用了基于边缘分析的二值化算法结合自适应的形态滤波方法,对字符图象的灰度和纹理分布进行了分析,设计了一种基于一维边缘分析的二值化方法,与其他传统分析方法比较,该方法在运算速度和抗干扰能力上明显优势,在对二值化图象进行分割时,不采用固定形态滤波结构元素,而是根据子域及其邻域关系自适应地调整用于滤波的结构元素,更有效  相似文献   

19.
为了获得更多的信息,越来越多的数据利用多路传感器进行采集,由此产生了大量的超高维时间序列。特征的提取在处理和传输这些数据中起到至关重要的作用。为此,提出一种最优鉴别平面(ODP)技术以消除数据冗余。该平面由两个在Fisher准则基础上建立起来的相互垂直的矢量组成,将模式样本投影到ODP上可得到二维特征矢量。为了衡量特征的有效性,分别用二次判别函数分类器和阈值矢量分类器对特征进行分类测试。同时,以心电信号为例对ODP方法进行测试,结果表明,该方法应用于超高维数据的特征提取是行之有效的。  相似文献   

20.
基于RANSAC模型的机载LiDAR数据中建筑轮廓提取算法   总被引:1,自引:0,他引:1  
使用正交多项式分带滤波方法对机载LiDAR点云数据进行滤波处理,通过迭代不断剔除非地面高点数据,最终得到由贴近地面的数据拟合而成的正交多项式.通过设定高程阈值将数据分成地面部分与非地面部分.提出了一种基于随机抽样一致性(RANSAC)算法模型的建筑物面片识别和轮廓提取算法,实现在包含噪声的点云数据中快速准确地识别和提取建筑物轮廓.在实验中对长春市的机载LiDAR数据进行了滤波、建筑屋顶面及其轮廓的提取,验证了本文算法的较高效率和精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号