首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
数据挖掘过程中,对数据文件进行数据抽取是构建数据仓库的重要过程.目前在抽取大容量数据文件时会出现很多局限性问题,如抽取操作出错、数据量无法自动匹配获取及数据库写入速度较低等.为了解决这些局限性问题,对大容量数据文件抽取算法进行了优化研究,提出并设计了一种大容量数据文件抽取算法.实验结果表明,该算法能够优化常规算法的效率,并具有数据容量自适应抽取及数据库快速写入等特点.  相似文献   

2.
为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效...  相似文献   

3.
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息.  相似文献   

4.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

5.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

6.
针对VBScript在输入大批数据时所表现出的不足,提出了以XML文件为载体,利用VB.net设计的交互程序将大批数据写入XML文件完成参数预定义,VBScrip程序通过查询XML文件获取参数值,从而取代inputbox函数的单一交互方式,实现了VBScrip交互性能的优化。该优化方法在域环境下的登录脚本中已成功使用,...  相似文献   

7.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

8.
针对实际应用的问题,提出一种基于数据库的文件上传方法,该方法通过表单提交文件信息,服务器端程序从多域数据流析取文件内容并直接写入数据库.给出其实现算法.  相似文献   

9.
胡琼 《佳木斯大学学报》2021,39(6):73-75,128
为解决大数据环境中计算机网络存储隐私问题,提出一种崭新的数据存储与加密方案.基于HDFS设计了大数据环境下计算机网络信息的分布式存储架构,基于文件指纹与元数据信息去除文件存储前的冗余数据;基于Lorenz超混沌系统生成随机性较强的序列,作为计算机网络大数据加密与解密密钥,在HDFS文件系统中完成大数据安全存储.最后,在实验中验证了该存储方案的安全性与高效性,人为攻击后数据受损度为0,数据存储效率远超AES安全存储算法、DES安全存储算法,为该方法在计算机网络大数据安全存储中的应用增添了有利证据.  相似文献   

10.
针对海量数据中存在的大量冗余信息,本文设计并实现了一种基于重复数据删除的文件备份与恢复系统,该系统采用改进的Winnowing动态分块算法,将文件分割成不同长度的数据块,并结合摘要算法、索引表、数据压缩等技术,确保服务器仅存储数据块唯一副本,以达到重复数据的删除目的.实验表明,该系统相比cwRsync能较更好的减少网络流量,并且相比传统的压缩技术能更进一步减少磁盘空间占用率.  相似文献   

11.
本文设计了一种新的数据文件组织形式,既直接存取链接方式,这种方式可以保证预算软件的快速执行,同时节省大量存储空间.  相似文献   

12.
将红外光谱图输入计算机可便于谱图的分析,建库和检索,该文提出,在AutoCAD软件支持下,用数字化仪将红外谱图输入计算机,谱图以DWG图形压缩文件存储,将DWG文件转换为DXF数据文件能使用户程序直接调用谱图以实现DOS下的显示,为减少DXF文件的内存占用,该文分析了DXF文件的结构,并编制程序对DXF文件进行压缩和修改,提高了数据处理的效率和效果,为类似谱图的处理提供了新方法。  相似文献   

13.
本文介绍了电脑嵌花横机的控制和花型准备系统的组成,分析了控制系统所需要的编织信息的数据格式,并提供了在CAD系统上由原始花纹意匠文件生成编织信息文件的方法.  相似文献   

14.
针对计算机使用过程中经常遇到的误删文件之类的问题,介绍了恢复丢失数据的几种常用方法,包括Easy Recovery恢复误删文件,Digital Image Recovery恢复移动设备中的误删文件,Offce Recovery系列拯救Office系列文档,用Network Undelete恢复网络被删除的文件等。  相似文献   

15.
无损数据压缩系统非常容易出现传输误码,随着译码进行码本和数据误码的影响呈现出扩散态势,这限制了其在有噪无线信道和文件系统等可能被损坏领域的适用性.针对在GIF、PDF和TIFF等文件格式中广泛使用的无损数据压缩算法LZW,通过利用LZW压缩数据的冗余提出了误码修复算法的设计方案,并给出了相关理论依据.该方案能够兼容标准LZW算法,即用本文提出的具有误码修复能力的算法压缩文件仍然可以被标准LZW解码器解压.实验结果验证了算法的可行性和有效性.   相似文献   

16.
论述了制丝工艺CAD系统的新配置、软件工艺流程及系统文件与数据库结构设计方法.用18个文件(包括8个数据库文件和10个程序文件)编译成对应的fox文件.所设计软件可执行茧质调查数据录入、自动缫丝工艺设计及相应的煮茧工艺设计等任务,并给出茧质调查数据分析结果,可生产等级生丝产品的规格及全套煮茧、缫丝工艺单  相似文献   

17.
张宫  何宗斌 《科学技术与工程》2011,11(16):3775-3778,3782
用Forward测井解释平台自带的格式转换器将WIS数据转换成其他格式数据的时候,二维数据不能成功地转为TXT等文本格式。剖析了WIS格式的存放方式,并在.Net平台下用C#语言编写了WIS格式转储为TXT或Excel格式的软件。此软件不但可以轻松地对测井数据进行转换,而且能够正确地解析出WIS文件中的二维波形测井曲线。  相似文献   

18.
熔融沉积(Fused Deposition Modeling,FDM)工艺通过逐层堆积实体材料构成三维模型,因此需要获得模型的数据对模型进行后期的数字化处理,如模型分块,修复,切片,层片内路径规划等。在现阶段,大多数数据处理采用的都是基于STL文件的数据格式,但STL文件数据存在数据冗余,几何精度低,容易产生错误等缺点,在一些对精度要求高的场合不适用。为了弥补以上的不足,出现了直接对参数化的三维模型进行数据处理的技术。该技术基于IGES文件数据,实现对模型的数据处理。而要想实现对IGES文件的处理,必须实现对IGES文件的解码工作。针对以上问题,提出了基于VS2008平台,实现对IGES文件进行数据解析,存储,并将提取的实体信息用NURBS曲线曲面统一表示的方法,最后基于OpenGL实现对模型的再现功能,为后面模型数据处理提供平台。  相似文献   

19.
当前大数据交互的不透明性以及数据文件访问形式的不合理性, 导致大数据存储存在存储延时长、 安全性较差的问题, 为此提出基于区块链的非结构化大数据动态安全存储技术。 构建多用户规则调度模型, 利用存储数据包生成独立的行向量与 n 阶矩阵, 基于列不满秩概率完成存储算法设计; 采用区块链非对称加密技术的公私钥, 实现透明与完整的数据交互, 对次要信息与数据访问形式实施记录。 引入分布式文件系统, 将其与Mongo DB 非关系型数据库有效结合, 从而使非结构化大数据得到安全存储。 仿真实验结果表明, 该方法不仅具有理想的存储速率, 而且使大数据的完整性得到了保证, 具有理想的有效性与实践性。  相似文献   

20.
本文用BASIC程序剖析了SPT图形文件的文件头、图形数据和图形数据压缩存储格式。进而提出了用BASIC语言直接访问SPT图形文件的程序设计技术。并提出了根据任意曲线方程式绘制曲线的程序思路。这种方法可以在普通打印机上方便的实现图形输出。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号