首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
本文提出了一个基于网页分块的信息采集系统模型。在页面分析阶段,引入了改进的基于视觉的页面分块方法,这是一种自顶向下的、标签树独立的方法,其目的是检测出Web内容结构,实验结果令人满意。基于分块后的页面,利用一个经验交互式的噪音去除算法Page_CN,定义页面的噪音区间,去除噪音区域,得到更加明确的主题区域。  相似文献   

2.
苏炜  李正权  黎有 《广东科技》2010,19(16):41-45
通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。  相似文献   

3.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

4.
基于视觉单词树的快速图像检索   总被引:1,自引:0,他引:1  
建立了一种分层的视觉字典树.首先提取图像特征,定义树的分支因子k和层数L,采用分层聚类算法进行逐层聚类,生成树型结构的视觉单词本,并对每个树节点计算逆向文档频率作为权值,定义得分准则进行图像的相似度匹配.新的视觉单词树由于建立了分层结构,较之传统平面结构的视觉单词本具有计算负荷小、单词个数不受约束、搜索速度快等优越性.在Caltech-101图像库的检索实验中验证了本文算法的快速性和高效性.  相似文献   

5.
协同标签系统的应用研究   总被引:1,自引:0,他引:1  
协同标签系统在帮助用户管理标签的同时,也为用户的导航和检索提供了便利.本文在分析了协同标签系统现状的基础上,提出了一种建立分类标签树的算法,将混乱的标签进行整理,转换成为有序的、层次的、分类的标签树,使标签提供的信息能被用于检索、导航,使用户更好的协同组织管理和利用网上资源,最后对算法进行了测试.  相似文献   

6.
基于标记树的WEB页面净化技术研究   总被引:2,自引:0,他引:2  
根据Web页面标记建立标记树,通过分析,保留有用信息的标记子树,达到获取页面主要内容,净化页面的效果.  相似文献   

7.
针对标签特定特征多标签学习算法(multi-label learning with label-specific features, LIFT)未能在聚类以及分类阶段考虑标签相关性问题,提出一种基于标签相关性的标签特定特征多标签学习算法(multi-label learning with label-specific features via label correlations, LFLC).将标签空间加入特征空间进行聚类构建分类模型,采用考虑标签相关性的聚类集成技术为每个标签构造标签特定特征,使用相关性矩阵构建无向完全图并挖掘图中标签集合相关性,通过树集成表达标签间多种不同结构的强相关性.在试验部分,采用涵盖不同领域的10个数据集,以Hamming Loss、Ranking Loss、One-error、Coverage、Average Precision和macroAUC为评估指标,进行了参数敏感性分析和统计假设检验.结果表明:结合聚类集成与标签间强相关性的LFLC算法较其他对比多标签算法整体上能取得较好的效果.  相似文献   

8.
社区发现的目标是发现复杂网络的结构、行为和组织形式。标签传播算法是一种快速有效的社区发现算法,然而在初始的标签传播算法中,节点的结构信息和特征信息没有得到充分利用,且存在标签传播过程不稳定的问题。针对上述问题,文章提出了一种基于改进的密度峰值聚类算法和标签传播算法的有向加权复杂网络社区发现算法(DPC-LPA)。该算法首先根据节点的结构和特征对其进行加权,充分利用了结构信息和特征信息;然后,采用改进的密度峰值聚类算法来寻找网络的社区中心,并据此构建初始社区,提高了社区划分的质量;其次,基于节点相似度和节点权重,合理确定标签传播的更新顺序,并通过衡量节点间标签传播的强度来完成标签传播,解决了标签传播算法不稳定的问题。最后,在CiteSeer、Cora、WebKB和SCHOLAT真实数据集上,将DPC-LPA算法与DCN、WCF-LPA、CLPE算法进行对比实验。实验结果证明了DPC-LPA算法的可行性和有效性:从模块度来看,利用DPC-LPA算法划分的社区具有更加显著的社区结构;从调整兰德系数来看,DPC-LPA算法的社区划分质量更稳定;从运行时间来看,DPC-LPA算法具有较高的效率。  相似文献   

9.
含有位置坐标树的Web页面分析和内容提取框架   总被引:6,自引:0,他引:6  
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率.  相似文献   

10.
多时隙的二进制搜索防冲突算法   总被引:1,自引:1,他引:0  
针对RFID系统的标签冲突问题,文章在二进制搜索树算法和Aloha算法的基础上,提出了一种新颖的算法,在二进制树的每个节点处动态地估计标签的数量,根据标签的数量使用相应的时隙数;进一步对算法的性能进行了理论分析,并且通过仿真比较了该算法与二进制搜索树算法的性能,结果证明该算法能够有效地节约能量。  相似文献   

11.
针对GIS系统中实现无拓扑信息多边形叠置过程复杂的问题,提出了一种新的快速多边形叠置方法.通过在无拓扑矢量数据中局部引入拓扑关系,对同一结点连接的弧段,采用二叉树方法进行排序,构建最小多边形,完成无拓扑信息的矢量图形的重组,并对新算法与已有算法的结构进行了对比.研究结果表明,这种新的叠置算法实现过程简单,速度快,避免了全局构建拓扑关系数据量大、空间和时间关系复杂、维护和更新困难等问题.  相似文献   

12.
为了提高入侵检测的准确度和速度,针对入侵规则属性相关性的特点,将属性与类间的互信息与属性间的互信息结合,提出了一种新的混合互信息的决策树分类算法.在对此算法进行了算法设计和分析的基础上,将由此算法构造的决策树分类方法对入侵规则进行组织,改变了传统的入侵规则逐条串行检测,以增加预处理时间为代价,提高了数据包的过滤速度和准确度.实验分析表明,应用该算法的入侵检测系统比使用传统方法具有更高的准确率和速度.  相似文献   

13.
CRUISE 2D决策树分类算法作为一种数据挖掘和知识发现的监督分类方法,综合了FACT,CART,QUEST决策树分类的思想.通过单因子和双因子交互检验和引导校正,快速有效地降低分割变量选择时产生的偏差,提高树的可读性,建立简单、高效、准确的决策树模型.基于CRUISE 2D决策树方法,以藏南地区为研究区,综合利用TM影像6个波段、NDVI,NDWI,SBI,GVI等波段信息,基于相同的训练样本和检验样本,利用判别规则建立决策树对影像进行分类;并将其与传统的监督分类方法 QUEST,SVM相比较,CRUISE 2D决策树分类方法总精度94.09%,比QUEST,SVM分类分别高10.86%,10.24%;Kappa系数0.931 0,比QUEST,SVM分类分别高出0.126 8,0.119 6.结果表明:CRUISE 2D能有效的改善传统监督分类中的错分漏分现象,在遥感分类上具有很高的稳健性和鲁棒性.  相似文献   

14.
内-递推信息与内-递推二叉树特征-辨识   总被引:1,自引:0,他引:1  
引入树结构于内-递推信息的递推结构中,提出内-递推二叉树概念,获得内-递推二叉树的结构与特性。定义了内-递推二叉树的内-递推度与递推损失度;给出内-递推二叉树存在性定理、满二叉树存在与惟一性定理、完全二叉树定理,包括内-递推二叉树结点的辨识定理与辨识准则。内-递推二叉树是内-递推信息的一种重要组织结构,内-递推二叉树的研究过程与结果,为具有内-递推特性的信息处理提供了一种新方法。  相似文献   

15.
文章基于信息熵理论,将模糊聚类评价方法和决策树分类算法联系起来,提出从信息熵角度用决策树分类算法来评价聚类算法结果的有效性,从而确定最佳的聚类个数;并将该方法应用到证券行业客户忠诚度分析模型的建立中.实验结果表明,该方法可以明显提高聚类的效果,并且使得聚类结果的可解释性强,具有良好的实用价值.  相似文献   

16.
按照MEPG-7的音频特征规范,设计了帧层次和段层次上的音频特征提取算法.在深入分析足球比赛中各类音频信息的不同特点的基础上,通过有针对性地选取特征,构造特征向量,设计并实现了一种基于决策树的层次化分类算法.该算法可以自动将足球比赛中的音频信息分为噪音、解说员语音、哨音、欢呼声和带背景音的解说员语音等5个类别.实验表明:该算法提取的特征有效,分类效果良好.  相似文献   

17.
基于决策树的智能信息安全风险评估方法   总被引:1,自引:0,他引:1  
为了解决信息安全风险评估方法主观性大、建模时间长、分类正确率低的问题,提出了基于决策树的智能信息安全风险评估方法。该方法利用层次分析法对信息安全风险评估因素进行层次分解,利用机器学习中的决策树分类算法对数据进行分类。实例分析表明:与基于支持向量机的信息安全风险评估方法相比,在处理央企、银行、政府等单位风险评估过程中得到...  相似文献   

18.
霍滨焱 《应用科技》2009,36(7):37-40
提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率.设计并实现了一种最小节点信息树抽取规则的可视化实现方法.  相似文献   

19.
着重阐述在数据挖掘阶段提出并改进基于关联规则的Apxioxi并行算法、基于分类的判定树归纳算法和基于聚类的K簇算法,并将几种算法综合应用到智能信息处理过程中。  相似文献   

20.
用于信息流分析的信息流树结构   总被引:3,自引:0,他引:3  
在根据系统源代码进行隐通道搜索的分析方法基础上,针对目前隐通道搜索方法仍然采用人工分析系统中的语句信息流所带来的工作量巨大问题,将已提出的较为简单的高级语言语句信息流规则加以扩展,依据扩展得到的语句信息流规则,构造出一种可以描述并记录语句信息流且易于实现的二叉树结构——信息流树,给出自动分析信息流的遍历信息流树算法,并以自行开发的VISTA空间数据库系统中的一段源代码为例,通过构造并遍历其信息流树,说明用信息流树描述信息流并进行信息流分析的有效性和正确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号