首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.  相似文献   

2.
李洋  栾吉华 《科技资讯》2007,(35):80-81
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取.  相似文献   

3.
基于信息量的Web表格信息抽取方法   总被引:1,自引:0,他引:1  
提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

4.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

5.
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

6.
WWW网站分类体系包装器WCSW   总被引:1,自引:0,他引:1  
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

7.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

8.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

9.
针对Web同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.提出一种新的Web对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同一对象,与Web文档的表示无关.通过Web页的文档对象模型(DOM)获得不同信息成分之间的位置关系,进而判断这些信息组件是否属于同一对象.实验结果表明,该方法对于多个领域中不同结构的Web文档具有很好的适应性.对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到100%.  相似文献   

10.
Web信息查询研究进展   总被引:3,自引:1,他引:2  
Web上大量、分布、动态的信息,造成了用户在查询Web上的信息时产生的"信息过载”和"信息迷向”现象.Web信息检索与查询是目前的研究热点,本文分析和比较现有Web信息检索和查询语言技术的发展现状,介绍了基于人工智能领域中机器学习方法的Web信息检索和查询以及信息抽取技术的研究,以供研究者参考.  相似文献   

11.
提出一种新的基于ROI(regions of interesting)的多分辨率网格框架的图像检索方法。先利用网格对图像进行分块,并利用小波变换对分块进行多分辨率分析,以提取图像各分块的颜色和纹理特征信息,然后根据用户指定的感兴趣的区域得到查询子图,最后使用一种融合子图(integrated sub-images matching,ISM)的匹配方法进行图像检索。通过对比实验,证明该方法能够有效地得到降低图像检索的语义鸿沟,并取得很好的检索效果。  相似文献   

12.
针对光照、姿态、表情等复杂情形下人脸识别率较低的问题,提出基于不同分块多特征优化融合的人脸识别方法.首先考虑了局部二值模式、局部相位量化特征和小波变换特征.进一步,考虑单一分块算法会使分割线周边信息不能完整提取,从而丢失对人脸识别的有用特征,提出了人脸灰度图像多重分块的方法.最后,采用遗传算法对不同分块多特征进行权值寻优,得到最优权值.在大规模人脸数据集FRGC2.0数据库上进行实验四验证,验证率达到95.31%(FAR0.1%),首选识别率为99.06%,相比于前期文献,该算法能多方位提取人脸特征信息,提高人脸识别率,且所用特征较少.  相似文献   

13.
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息.  相似文献   

14.
针对不同故障特征属性交互重叠导致的故障类别辨识困难问题,提出一种基于Manhattan距离作为特征之间相似度信息测度的权值判别拉普拉斯分值特征选择方法.该方法采用Manhattan距离衡量高维特征矢量之间的相似度,并将数据样本标记信息融入权值计算中以增强权值的判别性,提升了LS算法的敏感特征筛选性能.将M-WDLS和主成分分析相结合,提出基于M-WDLS和PCA的转子故障诊断方法.首先提取原始振动信号的时域、频域、时频域特征构造混合域特征集;然后利用M-WDLS选择敏感特征组成敏感特征矩阵;最后对敏感特征矩阵进行PCA降维处理,并将结果输入到K-近邻分类器中进行模式识别.对比实验的结果表明,该方法能有效提取转子系统振动信号的状态特征,有助于提高故障辨识的准确率.  相似文献   

15.
基于几何特征的兵马俑断裂面匹配方法   总被引:1,自引:0,他引:1  
针对兵马俑碎块的三维数据模型中噪声含量大、断裂面存在缺损等问题,提出一种基于断裂面上几何特征的碎块精确匹配方法.首先从兵马俑碎块的外表面中分割并识别出断裂面;然后提取断裂面上凸凹不平的特征区域,并根据其相似性实现碎块的粗匹配;最后计算断裂面的曲率、法线以及点云密度等几何特征,并采用基于该几何特征的改进迭代最近点(iterative closest point,ICP)算法实现碎块的细匹配.实验采用大量兵马俑碎块验证该匹配方法,结果表明该匹配方法可以实现兵马俑碎块的匹配,特别是提出的细匹配算法,与ICP算法和MICP算法相比,其匹配精度分别提高了约40%和10%,耗时分别降低了约50%和25%;该基于几何特征的断裂面匹配方法是一种有效的兵马俑碎块匹配方法.   相似文献   

16.
基于多示例学习方法对题库重复性检测算法进行了改进,其基本思想是:将包含多个子问题的试题重复性检测转化为多示例学习问题.采用基于前缀树的高频词抽取算法抽取试题的内容特征,避免了对同义词典的依赖.在此基础上,结合试题的元数据特征提出试题相似度计算方法.在真实题库基础上进行的实验结果显示,该方法简便可行,正确率和查全率分别达到91.3%和92.3%,为进一步实现题库系统的整合奠定了基础.  相似文献   

17.
A lexicographic image hash method based on space and frequency features was proposed.At first,the image database was constructed,and then color and texture features were extracted from the image blocks including information for every image in the database,which formed feature vectors.The feature vectors were clustered to form dictionary.In hash generation,the image was preprocessed and divided into blocks firstly.Then color and texture features vectors were extracted from the blocks.These feature vectors were used to search the dictionary,and the nearest word in dictionary for each block was used to form the space features.At the same time,frequency feature was extracted from each block.The space and frequency features were connected to form the intermediate hash.Lastly,the final hash sequence was obtained by pseudo-randomly permuting the intermediate hash.Experiments show that the method has a very low probability of collision and a good perception of robustness.Compared with other methods,this method has a low collision rate.  相似文献   

18.
该文给出一种汉字子笔划的提取方法 ,较好地解决了因子笔划相交 ,使提取的同类字符子笔划不稳定问题。引入了字符的固定部件划分方法及特征矩阵的概念。字符部件中包含各类子笔划的位置、长度等信息 ,特征矩阵是这些信息的集中体现。设计了一种新的遗传算法 ,由未知字符一个部件的一类子笔划表示的字符与某类模型的相似度 ,既由与其它 3类子笔划相应的相似度调节 ,又由与周围部件同类子笔划相应的相似度调节。实验表明 ,该手写体汉字识别方法是有效的  相似文献   

19.
提出一种新的纹理合成技术,该方法对样本纹理图像进行采样,逐块合成纹理图像.在寻找最优候选匹配块时改变以往算法中仅匹配颜色相似度的做法,加入结构信息,提高了块边界结构的相似度.用该算法选择的最优匹配块更符合人的视觉特性,合成图像接缝区域的过渡更为流畅,结构单元的完整性明显优于原有方法.实验结果表明,该算法对结构性强的纹理具有良好的合成效果.  相似文献   

20.
杂波环境下基于视听信息融合的目标跟踪   总被引:1,自引:1,他引:0  
以监控系统为研究背景,充分利用场景中视听媒体间存在的天然时空相关性,将视觉信息和听觉信息有效地融合从而实现对目标的快速跟踪.利用机器视觉相关理论提取视觉运动特征,利用计算听觉场景分析技术抽取音频场景特征,建立视听信息特征级融合模型并进行联合场景事件判断.仿真结果表明,应用视听信息融合对目标进行跟踪,预测误差小于单独基于视觉的目标跟踪,同时听觉信息的引入有助于克服图像噪声.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号