首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

2.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

3.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

4.
基于特征相关学习的网页信息提取方法   总被引:1,自引:0,他引:1  
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率.  相似文献   

5.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。  相似文献   

6.
基于粗集的空间对象分类学习算法   总被引:1,自引:0,他引:1  
针对二维空间对象分类问题,提出将粗集方法应用于分类规则的学习.首先建立空间分类信息表,然后采用粗集方法约简条件属性、提取分类规则,并采用多种指标对规则进行评价.通过实验结果分析,证明粗集方法能够有效用于学习空间对象分类规则.  相似文献   

7.
从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.  相似文献   

8.
模板化网页主题信息的提取方法   总被引:37,自引:0,他引:37  
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高.  相似文献   

9.
为提高垂直搜索引擎中面向服务行业的页面搜索查准率,提出了一种语义模型的设计与实现方法.该模型以面向服务行业的垂直搜索引擎为研究对象,根据服务行业领域知识将查询词分成三种语义(品牌词、类别词、服务项目),针对三种语义设计差异化搜索方案;并改进了页面搜索排序方法.该语义模型首先通过识别查询词的类型,得到相应的过滤条件;然后由过滤条件限制搜索范围,去掉不相关的搜索结果;最终通过改进页面搜索排序算法,提高搜索准确率.实验结果表明,应用该语义模型得到搜索过滤条件,使用过滤条件限制搜索范围,搜索的正确率提高了2个百分点~7个百分点,有效提高搜索引擎的查准率,提升用户体验和工作效率,对其他领域或行业也有一定的借鉴意义.  相似文献   

10.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

11.
霍滨焱 《应用科技》2009,36(7):37-40
提出了最小节点信息树概念,将抽取规则分为粗略规则和精细规则,降低了DOM树的高度,提高了信息抽取效率.设计并实现了一种最小节点信息树抽取规则的可视化实现方法.  相似文献   

12.
基于粗糙集和证据理论的决策规则提取   总被引:2,自引:1,他引:1  
提出一种基于粗糙集和证据理论的两阶段决策规则提取算法, 该算法首先利用粗糙集中属性缩减的思想, 找出每条规则中的重要条件属性集合, 然后再基于证据理论中证据结合的思想进一步去掉重要条件属性集中的冗余条件属性, 从而得到最终的决策规则. 所给算法简化了属性集的约简, 对高维数据也是可行的. 实验结果表明, 利用该算法能够挖掘出高质量的决策规则.  相似文献   

13.
研究基于局部粗糙集模型下的决策规则提取.对经典粗糙集的决策规则提取进行改进,给出局部粗糙集模型下的决策规则公式,并研究相关性质.结合局部粗糙集模型给出的规则提取公式,引入参数值α,α∈(0,1],使规则提取公式的泛化能力更强,适用性更广.通过3个实例对局部粗糙集模型决策规则提取的运用进行说明.  相似文献   

14.
一种变粒度的规则提取算法   总被引:1,自引:0,他引:1  
属性约简和值约简是粗糙集理论中知识获取的重要组成部分。通常,在知识获取的过程中先进行属性约简,然后在其基础上进行规则提取。但在实际应用中,属性约简在简化信息系统与提高规则提取效率的同时,原始信息系统中有些重要的条件属性可能被丢弃,从而导致属性约简后对信息系统进行知识获取得到的规则其数量与简化程度并不占优。针对上述问题,提出一种基于粒度变化的规则获取算法,通过属性粒度从粗到细的变化,直接从原始信息系统中提取规则;采用该方法得到的规则与属性约简后得到的规则相比,它们的数量与平均每条规则包含的特征属性数相对较少。最后,在理论分析的基础上,通过实例验证了算法可行性,并通过实验验证了算法的正确性和高效性。  相似文献   

15.
针对现有的基于不可分辨关系的数据约简算法在地震数据处理中存在的缺点,提出一个新的优势区分矩阵的定义,并在此基础上给出相应的具有更好约简效率的数据约简算法和规则提取算法.在运用该算法对全国小震目录数据进行的实验中,从上海市地震局提供的44 381条样本数据中挖掘出272条确定性规则,取得了有实际意义的结果.  相似文献   

16.
基于粗糙集的茶饮料味觉信号识别   总被引:4,自引:0,他引:4  
把粗糙集理论应用于茶饮料味觉信号分类规则的抽取,采用模糊C-均值聚类算法实现味觉信号的离散化,提出了一种新的规则强度定义。该定义同时考虑了支持规则的对象数和规则的不确定性因子,具有很好的普适性,同时给出一种规则提取算法和用于识别的决策算法,提取算法在获取全部有效规则的条件下.能有效减少核属性内的冗余。  相似文献   

17.
提出了一种基于Routh有限概念格的规则发现方法(RRLIRD),以揭示数据集中的蕴涵规则。首先引入有限概念格的简化表示形式,由用户选择数据集中感兴趣属性集创建概念格结构,提高用户的交互性和挖掘的效率;然后运用有限概念格与Rough集理论相结合形成Rough有限概念格,蕴涵规则则由其特有的上、下近似运算得到,不需计算繁琐的频繁项目集。算法运用大型超市的交易流水数据进行仿真实验。结果表明,执行时间比经典的Apriori算法大大降低。该算法也适用于证券行情分析和农业数据库的病虫害分析等。  相似文献   

18.
In this paper, we study the problem of rule extraction from data sets using the rough set method. For inconsistent rules due to improper selection of split-points during discretization, and/or to lack of information, we propose two methods to remove their inconsistency based on irregular decision tables. By using these methods, inconsistent rules are eliminated as far as possible, without affecting the remaining consistent rules. Experimental test indicates that use of the new method leads to an improvement in the mean accuracy of the extracted rules.  相似文献   

19.
一种基于粗集理论的概念格构造方法   总被引:1,自引:0,他引:1  
概念格是数据分析与规则提取的一种有效工具,但是在实际应用中由于需要处理的数据是海量的,使得直接基于概念格上提取规则的冗余度过大,造成机器计算时间和空间的浪费,而粗集理论在数据预处理和不确定性规则提取等方面表现出很强的优势,因此,为了减少人力物力的浪费,本文提出了一种应用粗集理论构造概念格的算法,且指出了该算法的优点及存在的不足。  相似文献   

20.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号