共查询到18条相似文献,搜索用时 93 毫秒
1.
蔡爱杰 《哈尔滨师范大学自然科学学报》2010,26(2):90-94
Web是一个巨大的知识库,作为知识的载体,Web上的海量网页数据包含了各种各样的内容,在这些内容中,命名实体(named entity)是一类重要的内容.随着Web规模的指数级膨胀,如何在海量Web信息中定位自己所需的信息,成为一个非常紧迫的需要.本文结合大量相关文献,对Web命名实体提取的研究工作进行了介绍、分析与比较,并指出了以后努力的方向. 相似文献
2.
本介绍何为Web网页恶意代码;探讨Web网页恶意代码产生的原因及其与计算机病毒的区别;对典型的Web网页恶意代码进行分析并提出处理方法;探讨了如何防范Web网页恶意代码。 相似文献
3.
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词. 相似文献
4.
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接. 相似文献
5.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率. 相似文献
6.
7.
8.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法. 相似文献
9.
加权Web访问模式聚类算法 总被引:4,自引:0,他引:4
针对Web应用挖掘中聚类算法中的问题,提出加权Web访问模式聚类算法,该算法利用服务器日志库中保存的网页访问次数信息,提高了聚类的客观性和准确性。 相似文献
10.
以模型验证为目标,提出一种Web应用FSM(finite state machines)模型的抽取方法. 该方法将模型抽取划分为链接提取、模型构造和结果显示. 通过建立标签库和对标签的定位,并结合正则表达式的方法,对Web应用进行逆向分析,从源代码开始进行链接及相关信息的提取、规整和存储. 对Web应用中的页面、链接等建模元素进行分析,应用映射与聚合等抽象技术对获得的信息进行重构,得到适用于验证的Web 应用的FSM模型. 相似文献
11.
本文提出了一种使用Internet实现远程文件共享的新方法,给出了使用端口80来进行网页访问的文件共享系统的构筑方案及实验程序。本文给出的方案是哈尔滨师范大学计算机系和日本弘前大学理工学部电子情报系统工学科正在合作研究的“利用Internet进行文件共享”课题的一部分。 相似文献
12.
中文命名实体识别(named entity recognition, NER)字符级别模型会忽略句子中词语的信息,为此提出了一种基于知识图谱中实体类别信息增强的中文NER方法。首先,使用分词工具对训练集进行分词,选出所有可能的词语构建词表;其次,利用通用知识图谱检索词表中实体的类别信息,并以简单有效的方式构建与字符相关的词集,根据词集中实体对应的类别信息生成实体类别信息集合;最后,采用词嵌入的方法将类别信息的集合转换成嵌入与字符嵌入拼接,以此丰富嵌入层生成的特征。所提出的方法可以作为嵌入层扩充特征多样性的模块使用,也可与多种编码器-解码器的模型结合使用。在微软亚洲研究院提出的中文NER数据集上的实验展现了该模型的优越性,相较于双向长短期记忆网络与双向长短期记忆网络+条件随机场模型,在评价指标F1上分别提升了11.00%与3.09%,从而验证了知识图谱中实体的类别信息对中文NER增强的有效性。 相似文献
13.
提出一个具有随机性的伪分形无标度网络,其中含有可调参数q.利用率方程方法,给出了网络的集群系数C(q),并当q=2、q=3和q=4时,计算了C(q)的具体值,说明了网络是高集群的. 相似文献
14.
基于Web SerVices的无线CRM 总被引:1,自引:1,他引:0
阐述了将Web Services技术运用于无线CRM系统的方案、优势和存在的问题,认为Web Services是下一代Web的主流技术,将Web Services技术运用于无线CRM系统之中,能更好地实现CRM系统内部的集成以及CRM系统与ERP、SCM等系统的集成,更好地利用现有的服务资源,降低企业的投资成本。 相似文献
15.
PHP是开发动态网站的主流技术之一,交互式网站的关键技术是数据库访问。通过动态网站开发过程中类的构造、变量和函数的使用,说明了PHP中类在数据库访问中的应用以及编程方法在软件工程上的重要意义。 相似文献
16.
17.
18.
宋春晖 《海南师范大学学报(自然科学版)》2005,18(1):46-49
随着人们对网络信息要求的提高,网页设计中越来越多地融入了美学的平面设计技术.网页设计不仅是网页制作技术的简单运用,而且更是视觉艺术设计的体现.在网页设计中运用美学的理论与设计方法是信息时代对信息表现形式提出的客观要求. 相似文献