首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
分析分布式实时网络行为监控系统中Web网页安全性挖掘问题,设计实现一个基于Web挖掘的自动分类器,并构造一个实验环境来检测分类器的性能.该自动分类器利用特征提取算法实现对每个样本的特征向量提取和待分类文本的特征向量提取,利用基于k个"最近邻"(KNN)分类算法实现对网页的分类,能够提取出带有不安全信息的网页,分类效果良好.  相似文献   

2.
苏炜  李正权  黎有 《广东科技》2010,19(16):41-45
通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。  相似文献   

3.
信息抽取技术是深层次分析文本语义信息的基础.随着数据量的增加,尤其是针对海量网络信息分析的需求,传统的基于手动标注或人工干预的训练分类方法已不能满足要求.以“大学生心理健康”相关网页作为信息语料,提出一种基于案例分析的文本数据抽取方法,可以实现跨领域信息自动抽取,能够快速有效地获得满足用户需求的信息.  相似文献   

4.
Web网页知识获取技术   总被引:2,自引:0,他引:2  
描述一种基于类自然语言理解的Web文本知识自动获取技术. 用领域文法描述Web网页文本,将该领域文法转换成描述句子信息的、符合正则表达式规范的规则,使用该规则把Web网页文本转换为表示网页知识的语义三元组,最后形成领域知识库. 试验数据表明,通过本技术生成的领域知识库中不同类型网页数据的召回率平均值是71.5%,准确率平均值是79.1%.  相似文献   

5.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

6.
网页分类技术   总被引:17,自引:0,他引:17  
网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.  相似文献   

7.
藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.  相似文献   

8.
随着互联网的发展,Web信息服务越来越广泛,目前,Web技术大量使用交互式网页技术。主要介绍了如何在ASP环境下通过ASP的内建对象去实现动态网页,以及ActiveX组件及ADO组件技术在ASP中的应用。  相似文献   

9.
探讨了中文网页倾向性分类的原理和实现方法,利用文本自动分类技术结合Web页面中的结构信息,提出了LSI-KNN-Naive Bayes的褒贬分类模型.并在部分网页数据集上,对上述理论进行了实验验证,取得了较好的成效.  相似文献   

10.
Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.  相似文献   

11.
基于IIS和web日志的关联关系的挖掘   总被引:4,自引:0,他引:4  
针对隐藏在web日志的大量记录中的规律性开展研究,提出了一种基于微软的ⅡS合理构建web日志并进行数据预处理的方案,在此基础上运用Apriori算法挖掘用户访问的页面间的关联关系,将数据预处理过程提前到web日志的建立过程中,可极大地降低数据准备的复杂性,将日志数据导入关系数据库中进行净化处理,大幅度减少了工作量,该方案可用于ⅡS下的商业网站。  相似文献   

12.
随着网络的迅猛发展,web服务已经成为研究的热点之一.本文介绍了一种文件类型网页文件的文本信息预处理技术.该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理.测试表明该方法能快速有效地得到大部分HTML网页的主体部分.  相似文献   

13.
徐长春 《科技信息》2009,(3):78-78,113
网页设计的人性化问题是当前网页设计界一直都在探讨的问题,但是大都停留在功能、技术方面的实践,而忽略了艺术层面的人性化关照。本文依据设计的美学原则,从色彩搭配、版式设计、页面格调等方面进行阐述,旨在使网页设计者能够对艺术因素方面有所重视,使网页设计能够真正的达到技术性与艺术性的完美结合.发挥网络的更大功效。  相似文献   

14.
基于语义Web的网页推荐模型   总被引:4,自引:1,他引:4  
如何使用语义 Web技术构建网页推荐模型是一个有着广泛应用前景的研究课题。语义 Web下的网页用本体标注 ,该模型自动采集被标注网页上的语义信息 ,利用网页中的标注信息和相应的本体概念对网页进行分类 ,将分类结果存放在数据库中。同时 ,在这个模型下 ,用户的兴趣存放在DAML (DARPA agent markup language)格式的文件中。通过用户兴趣和网页类别的匹配 ,就能够给用户推荐需要的网页 ,在推荐网页时 ,该模型还采用支持向量机用于分类用户。实验结果显示了该模型比传统的网页推荐模型准确率更高  相似文献   

15.
SVM-KNN分类器在网页分类中的应用   总被引:1,自引:1,他引:0  
为了提高中文网页自动分类的分类精度,将SVM-KNN方法用于中文网页分类.提出了一种中文网页的表示方法,在将下载的网页全部表示为向量空间的向量后,用SVM构造了一个多类分类器.在分类时通过在特征空间计算网页所表示的向量和分界面的距离决定采用SVM方法还是KNN方法对其分类.实验证明该方法是一种有效的方法,对网页分类的各类,使用该方法均比使用SVM方法具有更高的分类精度,同时能缓解SVM训练时对核参数的选择困难问题.  相似文献   

16.
欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性.  相似文献   

17.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

18.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

19.
基于正则式的CNKI网页全自动包装器   总被引:1,自引:0,他引:1  
当数据源的查询和访问能力受到限制时,如何设计与实现自动化的网页包装器是一个值得研究和需要解决的问题.分析了CNKI网页的结构,描述了网页元素的标记与内容特征,给出了一组匹配CNKI网页内容的正则式,并用Visual C^++实现了一个包装器.实际应用结果表明,基于正则式匹配方法的全自动包装器可以精确抽取CNKI网页的全部检索内容.  相似文献   

20.
网络舆情追踪中热点关键词的提取   总被引:1,自引:0,他引:1  
传统的基于文本聚类的网络舆情热点追踪算法,在处理海量网页时,文本聚类速度过低,聚合结果较差.提出了一种基于关键词提取的网络舆情热点追踪方案,并根据新闻、论坛和博客的不同特点分别设计了热点分析模型.通过在笔者开发的啄木鸟网络舆情系统上的实际验证表明,该方案行之有效,热点分析模型识别热点准确率高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号