首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
任秀月 《海峡科学》2008,(6):14-15,21
信息集成是环境数据中心建设过程中最重要的环节.信息集成包括数据的抽取(Extract)、转换(Transform)、装载(Load)三个过程.传统的信息集成模式中,数据抽取对业务系统影响较大,数据转换不易扩展,数据装载一直是系统的性能瓶颈.该文提出了基于元数据的信息集成模式,通过增加中间数据层,减少了对业务系统的压力,提升了数据装载的效率,同时利用元数据对信息集成过程和规则进行配置,提高了信息集成的可扩展性.  相似文献   

2.
从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.  相似文献   

3.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

4.
基于 DOM 的 Web 信息抽取规则的构造与实现   总被引:1,自引:0,他引:1  
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.  相似文献   

5.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

6.
7.
基于语义标注的信息抽取   总被引:8,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

8.
Web信息抽取技术研究进展   总被引:14,自引:0,他引:14  
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.  相似文献   

9.
电子病历中蕴含着大量的医疗知识和患者的健康信息,而产科电子病历的结构化及信息抽取对临床决策支持及提高人口的生育健康水平具有重要意义.首先对中文产科电子病历的结构特点及内容进行了分析,并采用基于规则的方法对电子病历数据进行了清洗和结构化;其次采用最大熵(ME)模型及基于规则方法按治疗类型对电子病历进行分类,分类的F值达到88.16%;最后,为了进一步利用电子病历进行信息抽取和知识挖掘,以短句为单位,相似度为衡量标准,采用支持向量机(SVM)模型对首次病程记录进行去重处理及自动差异化分析,从分析的结果中筛选出68.6%的重复及相似短句.  相似文献   

10.
开放式Web信息抽取系统研究与实现   总被引:2,自引:0,他引:2  
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的"硬编码",而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围.  相似文献   

11.
高维调制作为一种新型调制格式,很好地解决了谱效率与功率效率之间的矛盾。但晶格编解码时间复杂度高带来的传输延迟,严重影响了高维调制技术在高速大容量光通信系统中的应用。针对此问题,笔者提出一种基于树结构的低复杂度高维晶格编解码方法,由晶格的分布规律构建树结构,通过树结构索引算法完成晶格编解码。该方法可以有效实现高维晶格编解码,当信噪比为16 dB 时,误码率可达到3. 1 × 10 - 4 ,同时可将点数为M 的晶格编解码复杂度由O( M) 降低为O( log M) ,并具有通用性。  相似文献   

12.
振动触觉数据腰带是将环境信息(主要是方位信息)按照一定规则转换为振动触觉刺激并作用于人腰部的装置.以穿戴型振动触觉数据腰带实验系统为基础,进行触觉提示定位实验,验证了触觉方位提示的有效性和准确性,并在此基础上提出有效的振动触觉编码方式.从人对触觉刺激的主观感知适应性角度,分析比较了有训练和无训练情况下使用者对触觉提示方向定位的准确性.结果表明,适应性训练有助于受试者快速熟悉触觉编码规则,提高辨识准确率.在改进振动触觉编码模式方面,由用单一电机振动表征方位信息,改变为用多个电机同时振动的动态编码方式表征方位信息.实验结果表明,采用动态编码方式的信息提示准确率总体高于单一振动编码,但在某些方向上,人的触觉提示辨识准确率有一定降低.因此今后的改进设计可以针对不同的方位采用混合编码.  相似文献   

13.
根据分布式水文模型对子流域编码的要求,对文献中河流和流域编码方法进行研究。研究发现只有5种编码方式符合要求,分别是:拓扑属性表法、二叉树编码、多叉树编码、Pfafstetter法、干支拓扑编码。在深入研究这5种编码规则的基础上,对比分析其优缺点,并以第二松花江作为实例进行子流域划分及编码。结果表明:拓扑属性表法、多叉树编码和干支拓扑编码方法在河段单一汇流、多河段汇流支持方面优于其他编码方法;在直接计算相邻上下游子流域编码方面,拓扑属性表法可以直接查找获取,二叉树编码和干支拓扑码编码方法可直接计算,Pfafstetter编码和多叉树编码均需要遍历整个编码体系进行搜索获取;在判别任意2个子流域上下游关系方面,Pfafstetter编码和干支拓扑码均优于其他3种方法。不同编码方式具有各自的优缺点,在实际应用中需要根据不同分布式水文模型具体研究内容和编码要求选择适宜的编码方式。  相似文献   

14.
设计了一种存储哈夫曼码表的数据结构,给出了O(n)时间的生成算法。该方法通过先序遍历哈夫曼树,记录遍历过程,得到存储哈夫曼码表的一种数据结构。本文最后定量地分析了该数据结构的存储性能,并证明了该数据结构具有最小冗余。  相似文献   

15.
为应用 GIS技术建立成矿区带矿产资源评价的多源地学信息系统 ,对地质矿产信息按 GIS技术上的要求 ,建立了科学、规范、实用的数据分层标准及数据纪录格式 .将地质矿产信息分成区域构造地质、固体矿床 [点 ]地质、钻孔地质等 3个大类 ,及 1 4个主题图层 ,对于主题图层中的不确定性要素通过建立基础表的方式设立了 1 7个亚图层 .制定了分层和命名规则 .在此基础上系统地编制了数据纪录格式  相似文献   

16.
为了改善现有linux系统内核iptables模块在数据包过滤中线性匹配规则的效率。采用了散列表和动态平衡树来组织过滤表,提出了按照三层递进式的搜索规则,减少了原来的线性查找重复匹配的次数,改进了过滤效率,并确保原有功能不变。把A个IP地址、B个网络设备和C个协议规则的过滤表查找时间复杂度从O(A*B*C)降低到m*O(log2A)+n*O(B)+k*O(log2C),(m,n,k为系数因子)。通过适当增加数据结构,安排合理的搜索规则,在有限的系统开销内,可以提高数据包过滤的规则匹配效率。  相似文献   

17.
汉字编码是中文信息处理的关键之一,也是最棘手的问题。手工编码工作量大,周期长,一个方案的实现要耗费大量的时间和人力。本文介绍一个根据汉字编码的PTIC模型开发的计算机辅助汉字编码系统——“CC-1”机助编码软件包。“CC-1”软件包的实现所涉及的三个关键问题:汉字信息基元库、编码语言和生成矩阵的优化在文中给予了较详细的论述。在机助编码系统中,使用了一些新的算法。在“CC-1”软件包的支持下,从编码方案规则的输入到正码表的产生,绝大多数工作都由计算机在十小时内完成。这个软件包可以处理种类繁多的汉字输入方案。它是优化汉字编码实现标准化的强有力工具。  相似文献   

18.
杨栋  刘丙才 《科技信息》2013,(1):199-200
本文提出一种具有初始相位信息的RGB彩色编码方法。此法充分利用了彩色图像R、G、B三个分量携带的信息,即对三个分量分别进行相移为-120°、0°、120°的正弦调制,从而代替传统三幅相移法中的三幅相移图。首先投射一幅彩色RGB正弦条纹来调制被测物体的三维信息,摄像机拍得物体表面的变形条纹图,用数字方法把彩色变形条纹分为三幅灰度图像,然后应用三步相移方法获取截断相位,根据编码特征进行解码来指导截断相位的展开,获得展开相位,进而恢复出物体的三维面形。该方法编码稳定,解码方法可靠,只需要拍摄一幅图,就可以较好地重建空间分离物体的三维面形。通过实验证明了该方法的正确性。  相似文献   

19.
针对管线信息可视化过程中,信息数据量庞大,离线查询比较困难的现状,设计了一种应用于管线重要信息的可视化编码方法。对图像颜色的三基色红、绿、蓝(R、G、B)分量,采用其百位数、十位数、个位数的数位及其不同取值,关联管线的相关参数数据,自动生成可视化图像。应用时,利用专用软件模块读取颜色分量值,即可方便地还原管线信息。使信息查询更便捷,而且可以进行离线查询。  相似文献   

20.
Network fault diagnosis using DSM   总被引:1,自引:0,他引:1  
Difference similitude matrix (DSM) is effectivein reducing information system with its higher reduction rate and higher validity. We use DSM method to analyze the fault data of computer networks and obtain the fault diagnosis rules. Through discretizing the relative value of fault data,we get the information system of the fault data. DSM method reduces the information system and gets the diagnosis rules.The simulation with the actual scenario shows that the fault diagnosis based on DSM can obtain few and effective rules.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号