首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 934 毫秒
1.
分析分布式实时网络行为监控系统中Web网页安全性挖掘问题,设计实现一个基于Web挖掘的自动分类器,并构造一个实验环境来检测分类器的性能.该自动分类器利用特征提取算法实现对每个样本的特征向量提取和待分类文本的特征向量提取,利用基于k个"最近邻"(KNN)分类算法实现对网页的分类,能够提取出带有不安全信息的网页,分类效果良好.  相似文献   

2.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

3.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

4.
针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区域的网页结构和内容上的多个特征分类网页DOM节点,定义节点的扩展、整合规则获得正文候选块,引入密度值和影响因子从各候选块中甄别正文块;利用发布时间与标题、正文之间的位置关系,通过正则表达式实现发布时间的提取。对国内新闻网站、博客、论坛及贴吧进行抽取试验,结果表明该方法具有较好的效果。  相似文献   

5.
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。  相似文献   

6.
针对基于文本内容的主题爬虫算法引入过多无关特征属性以及没有考虑出现频次不同的特征属性对相关性判定影响的不足,提出一种基于候选链接主题边缘文本的主题爬虫.使用杜威十进分类法提取锚文本关键词和与锚文本关键词词义相近的网页正文中的关键词,称为候选链接主题边缘文本.在使用朴素贝叶斯分类器进行相关性判定时,对出现频次不同的特征属性进行加权,获取的候选链接按照判定结果的大小顺序存入队列等待下一轮的访问.实验结果表明,该爬虫有效提高了相关网页获取的准确性.  相似文献   

7.
随着恶意网页数量的逐年递增,传统恶意网页检测技术表现出了较大的局限性.因而基于机器学习的检测技术被引入,该技术的关键是有效网页特征的选取.在分析提取传统网页特征URL、HTML和JavaScript代码特征的基础上,融合网页文本内容特征(Text特征),基于机器学习提出一种多特征融合的恶意网页检测方法.通过互信息法、F-检验法、递归特征消除法3种特征选择算法验证得到所提Text特征更具强相关性.其中,RF算法在URL、HTML、JavaScript与Text特征的混合特征集上对恶意网页检测的效果最好,该方法与前人工作相比具有更高的准确性与可靠性.  相似文献   

8.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

9.
针对金融服务领域面临的严峻信息安全挑战,以及现有钓鱼网页检测方法的不足,提出一种基于支持向量机(support vector machine,SVM)的金融类钓鱼网页检测方法.采用网页渲染去除常见的页面特征伪装,提取统一资源定位符(uniform resource locator,URL)信息特征、页面文本特征、页面表单特征以及页面logo图像特征,构建特征向量训练SVM分类器模型,实现对金融类钓鱼网页的识别.在特征提取过程中,利用适合中文的多模式匹配算法AC_SC(AC suitable for chinese)提高文本匹配效率,并采用加速鲁棒特征(speeded-up robust feature,SURF)算法实现logo图像的特征提取与匹配.多方法实验结果对比表明,该方法针对性更强,能达到99.1%的检测准确率、低于0.86%的误报率.  相似文献   

10.
模板化网页主题信息的提取方法   总被引:37,自引:0,他引:37  
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高.  相似文献   

11.
图集的统一协调,对图集质量有很大影响。本文是作者在编制北京市农业区划地图集的实践基础上,根据地图信息传输论的观点,对农业区划地图集的统一协调的内容及方法进行了探讨。试图总结编制这类图集的统一协调模式,以供读者编图时参考。  相似文献   

12.
研究了国家法的抽象正义观与民间法的情理正义观,认为西方国家法的抽象正义观与东方民间法的情理正义观存在实质的不同,原因在于思维方式、超验与经验传统、政治结构的差别。在现代法治理念下,传统民间法所代表的正义观将向混合正义观转型,西方法治所代表的国家法抽象正义观是其骨架。  相似文献   

13.
给出了一维非自治时滞系统点态退化的一个例子,拓宽了该领域的研究。  相似文献   

14.
利用对位异构体的对称性由核磁共振氢谱测定了工业十二烷基苯在硝硫混酸中的硝化选择性,发现一硝化产物中对位异构体的比例为75% ̄80%。以月桂酸和苯为原料,经氯化、酰化和还原合成了正十二烷基苯。在同样条件下研究了正十二烷基苯的硝化,由核磁共振氢谱和气相色谱分析,发现一硝化产物中对位异构体的比例仅为60%。根据空间位阻效应,对结果进行了讨论,并与甲苯,乙苯,异丙苯等短链烷基苯的硝化结果进行了比较。  相似文献   

15.
YBCO掺杂效应研究   总被引:3,自引:0,他引:3  
介绍了YBCO掺杂的基础知识,总结了YBCO各个位置采用典型元素掺杂而导致的超导电性和结构的变化,阐述了掺杂对YBCO的重要影响,并简介了当前YBCO掺杂效应研究中的几个热点问题.  相似文献   

16.
由于有限群的Lagrange定理的逆不成立,因此,n较大时要确定n次交代群An的所有子群或对An阶数的每一个正因数,确定是否存在这个阶数的子群是较困难的问题.文章通过对5-循环置换各次方幂的计算及其研究,构造出了A5的5个12阶子集,并证明了每一个子集都是A5的12阶子群,最后对A5的部分阶的子群做了总结.  相似文献   

17.
18.
为了找出诱发高频机组基础不良振动的原因,从基础计算模型方面对基础激励与响应进行了分析,以两个高频机组基础为动测实例,经模态分析得出钢筋混凝土构架式基础竖向1阶振动与电机产生共振;应用功率谱法对动力机组及基础平台进行动测,得出平台异常响应频率66Hz为水泵工作频率,调整机器的工作频率可避开不良振源影响,达到明显的减振效果。由此而知,动力机器基础出现不良振动时,不可盲目改变结构的动力特性,应在机器不同工况比如:停机、起机及正常转速下,对机器及基础进行动测并对振动信号进行比较分析,以制定出行之有效的减振方法。  相似文献   

19.
报告鸡法氏囊病的流行状况,主要症状,剖检情况及诊断,提出了综合性防治措施。  相似文献   

20.
基于“前沿分支”的观点研究了圈幂补图的树宽,首先确定了它的树宽下界,又给出了达到此下界的标号,从而得到了它的树宽表达式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号