首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于特征相关学习的网页信息提取方法   总被引:1,自引:0,他引:1  
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率.  相似文献   

2.
基于填充标记的自适应Web信息提取   总被引:1,自引:0,他引:1  
提出一种自适应Web信息提取算法,基于自底向上规则模块层叠,通过在提取模板中填充一定数量有助于识别信息类别的SGML标记,较好地覆盖Web页中不可见信息,有效控制自适应过程中信息的过少和溢出,实现智能化Web信息提取.  相似文献   

3.
一种Web信息抽取规则的优化方法   总被引:2,自引:0,他引:2  
提出一种Web信息抽取规则的优化方法,用于提高信息抽取的效率.采用分级制的思想,将原有规则中的限制条件分为粗规则和细规则两部分.粗规则面向网页中所有的信息片断,用于信息的初步过滤;细规则面向过滤后的信息片断,用于抽取最终的信息.由此,避免了将规则中的限制条件应用于网页中的所有信息片断,达到了减少计算量、提高抽取速度的目的.  相似文献   

4.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

5.
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法.分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率.  相似文献   

6.
按照MEPG-7的音频特征规范,设计了帧层次和段层次上的音频特征提取算法.在深入分析足球比赛中各类音频信息的不同特点的基础上,通过有针对性地选取特征,构造特征向量,设计并实现了一种基于决策树的层次化分类算法.该算法可以自动将足球比赛中的音频信息分为噪音、解说员语音、哨音、欢呼声和带背景音的解说员语音等5个类别.实验表明:该算法提取的特征有效,分类效果良好.  相似文献   

7.
Orientl: A strategy of Web information integration   总被引:1,自引:1,他引:0  
We propose the OrientI approach for effectively building flexible applications on information integration. The system presents a fully visual development environment tobuild applications. With Orient I system, a user only needs to concentrate on the composition of components for building the InterPlan. and the detailed underlying operations and data streams are invisible to the user. A prototype system has been implemented and has partially proved the convenience hrought by the Orient] approach.  相似文献   

8.
通过利用方向可控滤波器(steerable filter)和轮廓波(contourlet)分解的方向性及能量变化特性,提出了一种适用于纹理图像的特征提取方法.利用基于轮廓波方向性与分解系数能量的性质可以很好地表示一个旋转纹理图像的特征,而且轮廓波的方向性和分解层次可以根据需要灵活地调节.使用这样的特征并运用简单的分类方法可以对旋转纹理图像进行较为准确的分类.最后通过对标准纹理库(Brodatz)图像的测试,验证了算法的有效性.  相似文献   

9.
通过基于柯尔莫诺夫-斯米尔诺夫检验的自适应特征提取法,提取出对大脑ERPs信号分类具有可辨识性的特征信息.应用具有良好模式分类性能的SVM在提取的特征属性基础上构造分类器,对ERPs信号分类.实验表明:自适应特征提取法不仅能有效地提取出分类特征属性,还极大地降低了数据空间维数;自适应特征提取与SVM相结合的分类准确率达...  相似文献   

10.
传统的Web包装器语言通过单一的路径表示方法对数据在HTML页面中的位置进行定位。当页面的变化超出其容忍范围时,只能由人工或者智能程序重新生成包装器脚本。本文提供了一种基于交叉定位的数据定位方法,当HTML页面发生变化时,在包装器层次上实现包装器脚本的自我修复。实验结果表明,使用交叉定位的Web包装器在没有降低信息抽取性能的情况下,大幅提高了包装器脚本对HTML页面变化的容忍度。  相似文献   

11.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

12.
文本分类中的类别信息特征选择方法   总被引:3,自引:0,他引:3  
随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类嚣的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,谊方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.  相似文献   

13.
提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。  相似文献   

14.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。  相似文献   

15.
一种高分辨率遥感影像道路提取方法   总被引:1,自引:0,他引:1  
文章采用了基于核的Fisher线性判别特征分类和形状特征相结合的方法进行道路提取.首先,对标记的样本进行色彩信息的抽取;其次,利用基于核的FLD根据抽取的信息对遥感影像进行特征训练分类,将影像分为道路和非道路两类;接着利用道路的形状特征去除误提的信息;最后利用形态学对道路网进行优化处理.实验证明,本方法可以实现具有颜色信息的遥感影像道路的提取.  相似文献   

16.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

17.
运用面向对象分类法中的基于监督分类和基于规则的滑坡识别方法,选择合适的特征属性,利用Aster和Geoeye的融合影像对构林坪流域进行滑坡信息提取,并对分类结果进行精度评价和比较.结果表明:基于监督分类的滑坡信息提取总体精度为66.58%,Kappa系数为0.65,具有较高的分类精度;基于规则的滑坡信息提取方法也取得了84.7%的识别结果,但是区域特殊地形地貌和引发滑坡因子的复杂性导致了72.6%的分歧因子.总体上基于面向对象分类法的高分辨率遥感滑坡信息提取在白龙江流域具有良好的适用性.  相似文献   

18.
一种面向科技文献引言的信息抽取方法   总被引:1,自引:0,他引:1  
分析了引言部分写作模型,将文本按照句子级别划分为背景知识、问题分析、工作描述三个类别。统计每个部分句子的引导词、句型表达、线索词、所处位置的特征,并构建相应规则库。在分词和词性标注基础上,利用规则匹配每个句子得出所属的类别,从而抽取出三个部分的信息。以石油勘探开发类科技文献和数据挖掘类科技文献为例,进行人工判别和本文方法抽取试验,结果表明本文方法能准确获取相应信息。  相似文献   

19.
开放式Web信息抽取系统研究与实现   总被引:2,自引:0,他引:2  
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的"硬编码",而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围.  相似文献   

20.
霍滨焱 《应用科技》2009,36(7):37-40
提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率.设计并实现了一种最小节点信息树抽取规则的可视化实现方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号