期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于DOM树及行文本统计去噪的网页文本抽取技术 总被引：1，自引：0，他引：1

李霞蒋盛益《山东大学学报(理学版)》2012,47(3):38-42

首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。相似文献

2.

一种基于决策树的新闻内容抽取方法

胡俊坤王浩杨静《合肥工业大学学报(自然科学版)》2009,32(6)

文章提出了一种针对中文新闻网站的新闻内容抽取方法,该方法使用特征向量抽取和决策树学习算法来建立新闻网页节点分类模型,并把模型根据不同的网站进行分类,构建一个模型库.当输入一个新闻网页url时,先通过url判断是哪个新闻网站,再从模型库中选择相应的节点分类模型,如果没有对应的模型就使用通用的节点分类模型对其进行抽取,实验证明这种方法可以达到很好的效果. 相似文献

3.

基于自动生成模板的Web信息抽取技术

张彦超刘云李勇沈波《北京交通大学学报(自然科学版)》2009,33(5)

在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率. 相似文献

4.

基于标签和分块特征的新闻网页关键信息自动抽取

王雪梅陈兴蜀王海舟王文贤《山东大学学报(理学版)》2019,(3)

针对抽取新闻关键信息需要人工构造或训练生成模板的问题,提出了基于标签和分块特征的新闻关键信息自动抽取方法。该方法首先通过计算新闻网页相关特征来定位新闻正文标签块,然后通过编辑距离定位新闻标题标签块,最后根据正文块和标题块定位新闻发布时间和来源标签块,并通过抽取各块的文本获得目标新闻关键信息。在该方法的基础上提出了针对新闻站点的目标新闻自动抽取框架,并用该框架对10个新闻站点的30个新闻栏目进行了新闻抽取。对抽取到的1 597条新闻随机选择了1 000条进行了实验。实验结果表明,该方法对新闻标题、发布时间、来源、正文均表现出良好的抽取效果,且优于实验对比对象。相似文献

5.

基于模板的网页信息抽取技术研究

杨一柳《渤海大学学报(自然科学版)》2013,(3):320-322,327

准确挖掘网页中的信息对检索系统非常重要．提出了一种基于模板的网页信息抽取方法进行网页信息抽取．该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取．在Yahoo网站上的实验结果表明,该方法具有较好的检索效果．相似文献

6.

一种基于文本相似度的网页新闻标题自动抽取算法

何春辉《湖南城市学院学报(自然科学版)》2019,28(1)

随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒ 相似文献

7.

基于向量空间模型的中文网页主题特征项抽取

代宽赵辉韩冬宋天勇《吉林大学学报(信息科学版)》2014,32(1):88-94

为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。相似文献

8.

电熔爆机床噪声测控研究

吴国庆《南通工学院学报(自然科学版)》2002,1(2):65-68

章分析了电熔爆机床噪声产生的原因，并对其噪声的测量和控制进行了研究。在对噪声源的频谱曲线进行分析后，优化设计了隔声降噪罩体，通过对样机测量验证，采用复合材料制成隔声罩是一种有效的隔声降噪措施，能降低噪声20分贝以上。相似文献

9.

在超声检测中利用小波分析降噪并提取伤信号

王群宋文爱《科技情报开发与经济》2005,15(3):186-187

利用小波和幅度阈值与宽度阈值联合识别定量的方法，对火箭发动机药柱内部缺陷的超声信号进行降噪处理，同时提取缺陷信号。经实验验证，所提出的降噪和缺陷信号提取方法能有效地降低高频噪声的干扰，并正确地提取出缺陷信号。相似文献

10.

基于分块的网页主题文本抽取 总被引：2，自引：2，他引：0

任玉樊勇郑家恒《广西师范大学学报(自然科学版)》2009,27(1)

根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法. 相似文献