首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
通过对微内容类网页正文内容块自动填充的研究,利用网页区域分块技术与HTML的结构特征,提出了一种基于区域分块和内容块自动填充(RAF)的正文提取方法,可用于微内容类网页正文的自动提取,同时运用编程实现提取工具进行实验.结果表明,该方法能够有效、准确地提取微内容类网页的正文信息.  相似文献   

2.
随着网络的迅猛发展,web服务已经成为研究的热点之一.本文介绍了一种文件类型网页文件的文本信息预处理技术.该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理.测试表明该方法能快速有效地得到大部分HTML网页的主体部分.  相似文献   

3.
为解决粒子滤波算法中存在的权值退化和实时性差的问题,提出了一种改进的权值优化组合粒子滤波算法(impWOPF),该算法通过对粒子权值设定门限Thershold,剔除权重小于Thershold的粒子,减少不必要的粒子运算,然后对小于粒子群权值均值的粒子进行权值优化组合,以增大小权值粒子的权值,保持了粒子多样性,提高了算法的实时性。仿真结果表明,该算法能够在保证估计精度的同时,有效降低重采样过程中的计算量,有利于实时信号的处理。  相似文献   

4.
基于特征串的网页去重算法   总被引:1,自引:0,他引:1  
用户在互联网中网页检索时,经常会得到大量内容相同的冗余页面,不仅浪费了存储资源,而且给用户带来许多不便。本文对现有的几种重复网页识别技术的优缺点进行了比较,并且重点讨论了基于特征串的网页快速去重算法。  相似文献   

5.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

6.
当计算人脸特征点相似度时,弹性图匹配算法认为每个特征点对于人脸识别都起到相同的作用,因此分配相同的单位权值.然而,事实并非如此.基于特征点的统计特征,提出一种新的人脸识别优化算法.利用统计理论和提取的HOG特征,可以把特征点分成主要和次要两类,并且赋予不同的权值.仿真结果表明所提出的方法不但性能较好,而且识别率较高.  相似文献   

7.
个性化搜索引擎研究的目的是使搜索结果尽可能满足不同用户的信息需求,而排序算法在搜索引擎技术中占有着核心的地位.提出了一种基于改进的DBSCAN聚类的个性化排序算法,在全文搜索包Lucene与开源搜索引擎Nutch的基础上,实验证明该方法提高了用户搜索的准确率和召回率.  相似文献   

8.
9.
研究了中文网页体裁分类的特征项选取问题及权重计算方法,探讨不同特征空间对体裁类别的判别能力问题,给出了一种评价方法。据此,提出一种特征项的权值调整策略,实验结果验证了该方法的有效性。  相似文献   

10.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

11.
针对传统Otsu算法在藻类养殖区分布信息的自动化提取过程中存在欠/过分割、计算量大和运算效率低等问题,提出一种优化的藻类养殖区自动化提取Otsu算法(GA-Otsu).GA-Otsu算法在最大类间方差的基础上,引入类内方差,共同参与阈值选取,提高藻类阈值选取的准确性,并用遗传算法代替遍历法快速搜索最优解,实现藻类养殖区...  相似文献   

12.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

13.
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

14.
基于HTML Parser的网页信息提取技术研究   总被引:1,自引:0,他引:1  
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

15.
使用HTML和JsavaScript,可以使Web页产生良好的效果。本从介绍HT-ML和 JsavaScript着手,就使用HTML和 JsavaScript其中的几种方法及举例,来谈如何修饰Web页。  相似文献   

16.
在已有嵌套数据挖掘算法的基础上,加人了数据区域挖掘算法,根据构造出的嵌套数据列表页的标签树,找出所有的数据区域,再对数据区域进行统一处理,对所有子树应用部分树对齐算法进行匹配,生成全局模式,进而抽取出所有数据记录.与原算法相比,改进后的算法在确保准确性的基础上,有效地提高了原算法在处理多数据区域时的效率.  相似文献   

17.
基于语义联系的新闻网页关键词抽取   总被引:1,自引:0,他引:1  
提出一种基于语义联系的新闻网页度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词.对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于<知网>语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%.  相似文献   

18.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

19.
以三角剖分原理和传统基因遗传算法为基础,提出了一种优化三角剖分的改进基因遗传算法.该算法采用下三角矩阵表示三角剖分问题,并设计出相应的适应度函数、改进的算子以及控制参数,以弥补传统基因遗传算法的不足,提高了执行速度和进化效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号