首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 984 毫秒
1.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

2.
对FOIL算法进行了深入剖析,提出了一种基于该算法利用Visual Prolog实现一阶规则集学习器的设计方法,给出了实现学习器的关键代码和试验结果,验证了该方法在一阶规则集提取中的有效性。  相似文献   

3.
分析了Web文档的结构特征,并利用知识树快速高效等特征,设计了Web文档知识树;基于Web文档知识树结构,提出了构建Web文档知识树的构造算法、创建知识结点算法以及知识树访问算法.并对上述算法作了分析和评价,说明了这些算法对提高Web信息检索的准确率以及信息查找的速度是有益的.  相似文献   

4.
针对Web同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.提出一种新的Web对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同一对象,与Web文档的表示无关.通过Web页的文档对象模型(DOM)获得不同信息成分之间的位置关系,进而判断这些信息组件是否属于同一对象.实验结果表明,该方法对于多个领域中不同结构的Web文档具有很好的适应性.对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到100%.  相似文献   

5.
识别和抽取XML文档中的关系信息及其出现模式   总被引:3,自引:0,他引:3  
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据.  相似文献   

6.
田源 《科技资讯》2008,(12):192-192
目前最流行的电子文档格式——PDF文档,集多媒体信息于一身,交互方式丰富,并且可在Web上发布和传递具有独特优势。本文在分析PDF文档和Web数据库进行双向数据传递机理的基础上,对如何利用PDF文档结合ASP技术开发网络学习资源进行了探讨。  相似文献   

7.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

8.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

9.
基于本体的文档语义标注改进方法   总被引:2,自引:0,他引:2  
在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签一文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.卖验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.  相似文献   

10.
为实现简捷的信息抽取和信息利用,提出一种采用树型结构实现Web数据到XML文档的转换算法.使用基于树型结构的类型定义和信息抽取方法,可有效将Web文档中的数据抽取出来并表示为XML格式的文档,形成可用的XML数据源,便于其他应用程序使用结果数据,为实现Web中的信息共享与数据交换提供便利条件.  相似文献   

11.
Introduction ThecurrentHTML basedWebismainlydesignedfor humanstobrowseanduse.Themajorityofthewebpages areinhumanreadableformatonly,somachinescannot understandandprocessthisinformation,andmuchofthe potentialofthewebhassofarremaineduntapped.The traditionalwebhasreacheditscrucialpoint.TimBerners Lee,inventoroftheweb,hascoinedthetermSemantic Webtodescribetheapproachthataugmentthewebwith languagesthatmakethemeaningofwebpagesexplicit[1].Thevisioninthesemanticwebcanberegardedasdata interoperation…  相似文献   

12.
提出了基于两步策略的3种多类多标签英文文本分类方法:①以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法;②以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法;③以ID 3、C 4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法②进行二次分类的混合两步方法。实验表明,3种方法中方法③具有最好的性能。  相似文献   

13.
在文本分类中,当两个多属性类别发生属性重叠时,采用传统的文本分类算法m acro F1值仅为45%左右.为了提高文本分类算法的m acro F1值,提出了基于结果修剪的方法.在该方法中,分类器由多个子分类器组成.每个子分类器对应于类别中的一个属性;在每一个阶段中,每一个子分类器将不属于该属性的文本剔出.当所有子分类器运行结束后,留下的文本即属于该分类的文本.实验数据表明,基于结果修剪的文本分类方法在解决属性重叠问题时能够将m acro F1值提高到65%左右.  相似文献   

14.
提出一种基于多重假设检验的特征加权朴素贝叶斯分类算法, 该算法通过特征选择方法得到多个特征词集合, 再按多重假设检验错误率为每个特征词集合配以不同的权重系数并参与到分类器的构建中. 该方法已经应用到市长公开电话的文本分类中, 通过构建的3个特征加权朴素贝叶斯分类器实现了投诉文本的计算机自动分类, 且相对传统方法提高了分类器的效率和精度.  相似文献   

15.
针对某一类产品的文本倾向性分析成为了现在研究的热点.该文以搜索引擎的媒体报道为出发点,使用已有的情感词典集合,以及通过信息熵的方法从训练集合中提取特征词,采用贝叶斯分类方法对文本进行倾向性分析,将媒体新闻分为正面报道、负面报道和无倾向性3类,得到了比较理想的正确率.  相似文献   

16.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

17.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

18.
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法. 首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类. 这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点. 试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.  相似文献   

19.
一种在图像和视频帧中检测文本的新方法   总被引:1,自引:1,他引:0  
提出了一种在带有复杂背景的图像和视频帧中检测文本的由粗到细的新方法.首先用连通分量(Component Connect,CC)方法对可能是文本的区域进行粗定位,然后再进行纹理分析,得到特征向量后,用统计图的方法对其进行筛选,并对筛选后的特征向量使用BP神经网络进行分类,从而得到真正的文本区域.经过测试,提出的算法在图像和视频帧中的检测率达到95.3%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号