首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
研究了典型的特征加权方法,分析了词频权重以及tf*idf权重等特征加权方法在表现特征重要性上的不足,提出了一种新的特征权重计算方法tf*idf*cf.该方法综合考虑了特征频率、文档频率以及特征类别信息,更为全面准确地描述了特征在文本中的重要程度.实验结果表明,该方法可以有效地改善分类性能.  相似文献   

2.
提出了一种基于特征项扩展的中文文本分类方法.该方法首先对文档的特征词进行分析,然后利用HowNet抽取最能代表主题的特征义原,接着根据这些义原对特征项进行扩展,并赋予扩展的特征项适当权值来说明其描述能力.最后利用扩展的特征项集提取特征进行分类.该文重点研究了如何抽取特征义原,如何给扩展项设定一个合适的权值.实验证明,该文方法能增加有效的特征项的数目,使分类正确率和稳定性均得到提高.  相似文献   

3.
针对WWW的HTML结构,采用TFE表示,给出一种新的TFE实现方法,在此基础上,探讨了基于向量空间模型的词元权重函数的构造方法,描述了权重函数,研究了先前比较典型权重函数,把整个文档作为一个空间,提出一种更有效的文本权重调整方法,试验结果表明,该算法对文本分类的准确率有明显提高。  相似文献   

4.
系统地探讨了在范例库中引入一系列可以使用的数据挖掘技术,以期提高范例推理系统中知识获取的自动化程度。为了准确地表达范例比较间的本质特征,重点讨论了应用于范例库上特征项赋权的基本技术,并提出了一个自适应发现算法,然后进行了实验,结果表明此方法要优于其它方法。  相似文献   

5.
为提高计算机对古典诗歌自动分类的准确性,提出一种基于特征项聚合的分类方法.首先从文本中提取特征项并用向量表示,向量的每一分量表示该特征项在不同类别中的比重;然后通过聚类算法把相似的特征项聚合为一组,从而形成特征项聚合的诗歌模型;最后利用分类器对诗歌进行分类.《全唐诗》语料库的实验结果表明,利用该模型及算法可明显提高诗歌分类的准确率.  相似文献   

6.
基于Web内容挖掘的论坛发贴分类推荐技术   总被引:1,自引:0,他引:1  
随着Internet基础结构的不断扩大和其所含信息的持续增长,Internet用户感觉越来越容易在WWW服务中"资源迷向".目前提高用户使用效率的方法有页面预取技术、站点动态重构技术和Web个性化推荐技术等.因为网站的页面内容才是用户真正感兴趣的,本文应用了一种基于Web内容挖掘的文本分类技术来实现论坛中贴子的分类推荐...  相似文献   

7.
为解决时空正则项的相关滤波视觉跟踪算法在目标部分遮挡时存在的模型漂移和尺度估计不准确问题,提出了结合自适应空间权重的改进型时空正则项跟踪算法。采用平均特征能量比将无法准确表达目标或过多表达背景信息的特征通道裁剪掉,以提高跟踪精度。在滤波器训练时加入空间权重正则项,利用时间正则项在目标遮挡时被动更新滤波器,使得在空间权重更新时更为准确,以此着重学习目标未被遮挡部分,获取可靠的相关滤波器系数。将滤波器求解划分为2个子问题,分别采用交替方向乘子法进行优化计算,保证算法运算速率。在牛顿迭代法中设置精度阈值,在保证定位精度的同时减少迭代次数。实验结果表明:在OTB-100数据集上所选择的6个视频序列中,所提算法较STRCF算法的平均中心位置误差降低了12.3像素,平均重叠率增加了7%,运算帧率可达19.25帧/s;在OTB2015遮挡视频序列中,所提算法较STRCF算法的成功率曲线下积分面积(SAUC)增加了0.7%,使用深度特征的所提算法较DeepSTRCF和ASRCF算法的SAUC分别提升了3.9%与0.9%。  相似文献   

8.
校园无线网络产生大量用户位置数据,它使掌握用户行为轨迹、预测用户位置成为可能.协同过滤广泛用于预测和推荐系统中,但现有研究存在数据稀疏性和不适用于处理时空数据的缺点.本文提出基于聚类和时间权重的协同过滤位置预测算法.首先利用DBSCAN聚类算法对用户进行聚类,缓解数据稀疏性.然后在簇内计算用户-位置评分矩阵时引入时间权重,使用户近期的位置签到对预测有更大贡献.与传统协同过滤方法相比,该方法准确率提高9.1%,召回率提高5.2%,F1-SCORE提高7%.  相似文献   

9.
AdaBoost作为一种有效的集成学习方法,能够明显提高不稳定学习算法的分类正确率,但对稳定的Naive Bayesian分类算法的提升效果却不明显.为此,利用多种特征评估函数建立不同的特征视图,生成多个有差异的加权朴素贝叶斯(WNB)基分类器;尝试使用几种不同的方式将样本权重嵌入WNB基分类器的参数中,对WNB产生扰动,进一步增加基分类器的不稳定性.实验结果表明,对比AdaBoost所提算法,BoostMV-WNB能够明显提升WNB文本分类器的性能.  相似文献   

10.
意见挖掘在企业智能分析、政府舆情分析等领域发挥着重要作用,为了充分挖掘主观性文本所蕴含的商业价值和社会价值,提出了一种基于情感主题模型的特征选择方法。该方法重点考察极性词及其共现现象,采用主题模型挖掘出正面褒义主题和负面贬义主题中极性词的分布情况,旨在度量情感特征在情感倾向表达中的重要性。实验阶段结合支持向量机分类器进行分析。实验表明该特征选择方法能有效提高跨领域文本情感分类准确性,具有较好的实用价值。  相似文献   

11.
基于特征相关的改进加权朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.  相似文献   

12.
在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性.  相似文献   

13.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。  相似文献   

14.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

15.
提出一种自适应权重的融合卷积特征和方向梯度直方图(HOG)特征的目标分类方法,实现快速精准分类目的.首先,利用ResNet网络框架提取图像卷积特征,增加OpenCV接口以提取图像HOG特征,对HOG特征图扩维处理至与卷积特征同维;然后,在ResNet网络框架中嵌入SENet模块,计算卷积特征和HOG特征的权重向量,将卷积特征、HOG特征及相应的权重向量加以变权值叠加,实现多特征的自适应同步融合,以此构建二分类网络模块;其次,将二分类网络模块嵌入Faster Rcnn网络,构成Faster Rcnn-HOG新型网络,通过基于变阈值的粗检测策略和先验知识的区域关注策略得到图像中目标预处理检测框,利用二分类网络模块精确判定,实现目标分类.将Faster Rcnn-HOG与传统Faster Rcnn网络及另一特征融合网络Net-BB-HOG进行对比试验,三种方法在目标大类识别方面性能基本相当,但是FasterRcnn-HOG在目标小类识别方面效果更佳,证明了提出的多特征融合自适应目标分类方法的有效性和正确性.  相似文献   

16.
根据科技文献的结构特点搭建了一个四层挖掘模式,并结合K-medoids算法提出了一个特征选择方法.该选择方法首先依据科技文献的结构将其分为4个层次,然后通过K-medoids算法聚类对前3层逐层实现特征词提取,紧接着再使用Aprori算法找出4层的最大频繁项集,并作为4层的特征词集合.同时,由于K-medoids算法的精度受初始中心点影响较大,为了改善该算法在特征选择中的效果,论文又对K-medoids算法的初始中心点选择进行优化.实验结果表明,结合优化K-medoids的四层挖掘模式在科技文献分类方面有较高的准确率.  相似文献   

17.
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度.改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度.经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高.  相似文献   

18.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

19.
张晖  张艳 《科技信息》2007,(30):87-87
基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。  相似文献   

20.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号