共查询到19条相似文献,搜索用时 69 毫秒
1.
2.
基于特征相关学习的网页信息提取方法 总被引:1,自引:0,他引:1
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率. 相似文献
3.
基于DEM和ArcGIS的水文信息提取方法研究 总被引:3,自引:0,他引:3
主要介绍了利用ArcGIS 9.0 Hydrology水文处理工具包在DEM中提取河网水系的方法,阐述了其基本原理,并以米角河流域为研究区域进行了河网生成实验, 相似文献
4.
5.
web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。 相似文献
6.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法. 相似文献
7.
8.
基于HTML Parser的网页信息提取技术研究 总被引:1,自引:0,他引:1
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。 相似文献
9.
根据网页中主体属性上下文环境及其结构特征,提出了一种基于主体知识库的信息提取方法,该方法根据主体属性的上下文和结构特征对主体信息进行提取。试验表明,该方法具有较高的通用性和准确性。 相似文献
10.
STEP-NC是一种遵从STEP标准的新型数控机床编程接口。分析了STEP-NC程序结构特点,提出基于模式和实体的信息提取方法,并通过实例进行验证。 相似文献
11.
基于同义词词林的中文文本主题词提取 总被引:3,自引:0,他引:3
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本 相似文献
12.
基于综合方法的文本主题句的自动抽取 总被引:2,自引:0,他引:2
提出了基于综合方法的主题句的提取方法,并着重讨论了文本主题概念的提取以及相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并,对上下位概念进行语义聚焦,模拟人工标引专家在分析文本主题时的“兼顾各个方面的主题,同时又有所侧重”的原则.在调整文本主题上下位概念的权值时,既考虑下位概念对上位概念的增强作用,同时又考虑到这种调整不影响整个文本主题的分布,从而更精确地抽取出文本的主题概念.采用多种权重度量方式,综合评估句子反映主题的价值.在此基础上,采用主题句选择算法将文本的主题数与所抽取的主题句的数量关联在一起,保证每一个主要的主题都有对应的主题句被选中,并解决主题句的去重问题,从而进一步提高所抽出主题句的主题覆盖性和概括性. 相似文献
13.
14.
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。 相似文献
15.
16.
基于交叉点提取的工程图矢量化方法研究 总被引:1,自引:0,他引:1
介绍了一种自适应窗口跟踪提取图中存在的交叉点,并依窗口内外图线的联系关系对工程圉进行矢量化的方法,分析了自适应窗口的构造条件,图线矢量储存的数据结构,还介绍了依矢量图线属性进行整图矢量合并的方法。 相似文献
17.
对高阶统计量用于机械故障特征提取进行了研究.
首先利用Hilbert变换构造原始信号的解析信号,求取信号的包络,然后计算包络信号的高
阶统计量.研究表明,用高阶统计量提取信号特征,可以容易地将正常齿轮信号和齿轮裂纹、
断齿的信号分离. 相似文献
18.
一种基于本体的文本聚类方法 总被引:2,自引:0,他引:2
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性. 相似文献
19.
首先, 基于点互信息与信息检索(PMI IR)算法, 提出一种Laplace平滑情感判定(LS-SO)算法, 对情感词典与表情符号情感词典进行自动扩充, 得到了具有一定规模、 高质量的情感词典, 包括基础情感词典、 目标情感词典、 网络用语情感词典、 表情符号情感词典、 否定词词典、 疑问词词典、 程度副词词典和连词词典. 其次, 通过细化文本语义分析规则计算文本情感值. 实验结果验证了该方法的有效性. 相似文献