首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持。在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度。  相似文献   

2.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

3.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

4.
对电子商务网站的评论文本进行分词、去停用词等整理,通过词频统计提取特征词,应用词频-逆文档频率提高特征词的类别区分能力以增加特征词的准确性.在收集大量的电子商务网站的评论文本及一系列预处理后构建了特征词词库.采用词语相似度计算方法用于关键词向量与特征词词库相似度的计算.根据相似度计算结果对用户评论的商品进行排序以实现对用户商品的推荐.设计了商品推荐系统并完成了实验程序.利用收集到的用户评论文本完成了对商品的推荐实验,并对实验结果进行了考察与分析.  相似文献   

5.
介绍了情感分析中情感特征提取的难点,提出了利用模糊理论和语义模糊化对提取的特征词进行扩充,建立模糊情感语料库,通过与基于句法分析的词性选取的特征词组成的情感特征词典作对比实验,说明模糊理论适合用于网络新闻评论中情感特征词库的提取和扩充.  相似文献   

6.
基于DOM的WEB主题信息抽取   总被引:7,自引:1,他引:6  
随着Internet 的发展及其广泛应用,WEB上的信息呈爆炸式增长趋势,但是WEB页面通常包含了很多与主题内容无关的信息,影响了对主题内容的快速获取以及对WEB信息的各种应用.本文提出了一种基于DOM的WEB页面主题抽取方法,快速准确的提取出WEB页面的主题内容,并对1000个网页进行了测试.实验结果表明该方法切实可行,可达到92.46%的准确率.  相似文献   

7.
基于web的多媒体cai课件是多媒体cai课件与web技术的结合,它将成为网络教学多媒体cai课件的主要形式.本文介绍了在基于web的多媒体cai课件开发过程中对课件页面进行页面优化的原则和方法,并详细阐述了其中的关键技术和课件中导航、查询、测试等各项功能的实现方法.  相似文献   

8.
张云雷 《科技资讯》2012,(22):12-12,14
web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。  相似文献   

9.
W eb日志挖掘是将数据挖掘技术应用到W eb服务器的日志中,发现web用户的行为模式.在介绍了典型的数据预处理技术的基础之上,指出Fram e页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Fram e页面过滤算法消除其影响.通过实验数据对该算法进行验证,说明Fram e页面过滤算法可以显著地提高W eb日志挖掘结果的兴趣性.  相似文献   

10.
面向读者信息需求的浏览空间   总被引:1,自引:0,他引:1  
提出面向读者信息需求的浏览空间 .该浏览空间是由基于读者的信息需求所生成的web页面构造的 ,并且web的信息显示方式和页面之间的链接都是以读者的逻辑思维为依据 .最后 ,给出实现面向读者信息需求的浏览空间的一个应用实例  相似文献   

11.
通过对微内容类网页正文内容块自动填充的研究,利用网页区域分块技术与HTML的结构特征,提出了一种基于区域分块和内容块自动填充(RAF)的正文提取方法,可用于微内容类网页正文的自动提取,同时运用编程实现提取工具进行实验.结果表明,该方法能够有效、准确地提取微内容类网页的正文信息.  相似文献   

12.
如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题.本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略.该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率.通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性.  相似文献   

13.
基于特定领域的Web文本信息获取系统的研究   总被引:2,自引:0,他引:2  
从特定领域用户获取Web文本信息的实际应用角度出发,在分析了系统相关开发理论基础上,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,并从实现技术上提出了开发这个系统的体系结构,分析了各组成模块的主要特点及其功能。着重研究了该系统的几项关键技术:Robot技术、Web页面内容的分析和站点结构的分析技术、中文文本的分类问题,包括中文的分词、特征提取、特征匹配及权值计算等的综合应用技术。  相似文献   

14.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

15.
提出一种基于向量空间模型的多层网页分类方法.该方法用主题词、修正主题词和主题概念从3个层次构建网页表示向量,从而在概念层次上更贴近网页的语义,且向量维数低于传统的特征向量.实验结果表明,该方法降低了分类时的计算量,提高了网页分类速度和分类精度.  相似文献   

16.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。  相似文献   

17.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

18.
基于聚类的智能网页推荐系统研究   总被引:1,自引:0,他引:1  
设计了一种智能网页推荐系统的架构,其中包括数据预处理、聚类分析和网页推荐3个子系统,可以根据网站的访问日志来对用户进行自动分类,进而对网站的新用户在线提供网页推荐。提出了路径间距离的计算方法,进而研究了聚类子系统的结构,并通过对微软网站中用户访问日志的仿真实验,说明了所述方法的有效性。  相似文献   

19.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号