首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于加权熵的重要性不对等样本学习的知识约简   总被引:1,自引:1,他引:0  
由于学习样本的分布特性和所反映的主观特性的不同,每一个样本相对于学习算法的重要性程度往往是不对等的,为了能够在知识约简过程中考虑到学习样本的不对等性,提出了基于加权熵的知识约简方法。针对各类别样本分布不均匀的样本重要性不对等情况,为了加强小类样本所蕴含的知识在知识约简中的体现,提出一种逆类概率加权的不对等样本加权方法,实验表明该方法能够明显提高小类样本的分类正确率,也验证了基于加权熵的知识约简方法能够将样本的不对等性体现在知识约简结果中。  相似文献   

2.
针对LDA(Latent Dirichlet Allocation)主题模型生成的大量topic,很大部分topic内部词语相关度很低,可解释性差,对语言模型后的应用效果带来一定的影响.针对这一问题,该文提出了一种基于主题加权LDA模型的情感分类方法,该模型实现不同主题中内部相关的词语特征加权计算,能够消除不同主题内具有相关度词语的相互影响.实验结果表明,与传统LDA模型分类方法对比,该文提出的基于主题加权LDA模型的情感分类方法平均F1值提高了6.7%~8.1%,验证了该文提出的方法是有效的,提高了分类效果.  相似文献   

3.
训练集类别分布对文本分类的影响   总被引:11,自引:0,他引:11  
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%.实验结果显示,类别均衡法显著提高了分类性能.  相似文献   

4.
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。  相似文献   

5.
改进的线性判别分析算法及其在人脸识别中的应用   总被引:7,自引:0,他引:7  
提出了一种改进的线性判别分析(LDA)算法,能有效地解决传统LDA算法的两个局限,即小样本问题及在多类情况下传统的Fisher准则非最优.该算法还能提高某一(几)个指定类别的分类率.这种算法的关键在于使用不损失“有判别力信息”的方法来降维,同时在传统的Fisher准则中引入加权函数,得到与分类率直接相关的改进准则.在ORL人脸数据库上的比较实验结果证实了该算法的有效性.  相似文献   

6.
负荷侧管理是利用不同特性负荷作为需求响应资源,对具有多样性和复杂性的负荷种类进行较高精度的分类,提高负荷曲线的相似度,便于组合优化。为了对实际负荷更加精确地分类,提出一种基于改进的模糊c-均值聚类算法的负荷特性指标分类方法。该算法在聚类分割迭代中采用加权欧氏距离,对每种聚类中心进行负荷特性指标分析,并对各类别中的负荷采用不同控制方法。最后分类结果表明,所提方法使各分类中负荷具有较高相似性,为后续负荷的预测和控制奠定了基础。  相似文献   

7.
针对传统KNN算法忽略样本分布对分类的影响,易受到孤立样本、噪音等干扰,时间代价大等问题,提出了一种改进的近邻分类算法.该算法首先采用类维样本存储,打破了样本的整体性,转换了训练样本存储模式;其次按类维度寻求未知样本的类维近邻域,计算类维相似度进而得到未知样本的类别相似度;最后以最大类别相似度标识未知样本.该算法提高了分类效率,降低了独立样本对样本分类的影响.同时可处理连续型和标识型样本分类,并可适应各类样本分布情况,扩大了算法的应用范围.实验结果表明,该算法较传统的近邻算法与邻域分类算法在分类精度与分类时间上有了较大提升.  相似文献   

8.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

9.
针对类别保局投影基于类内散度的特点,提出了一种基于类间散度的特征提取方法——类别非局保留投影. 利用Matlab软件对类别保局投影、主分量分析和类别非局保留投影进行了可视化效果和聚类识别率的比较、分析. 结果表明,在类间信息起主导作用的基因表达数据分类任务中,类别非局保留投影比类别保局投影能获得更好的分类特征. 因此类别非局保留投影更适合于类间信息其主导作用的分类任务.  相似文献   

10.
为了有效解决类间相似度高、类内差异化大、数据类别不平衡的皮肤病变识别,提出了基于改进AlexNet的可变形卷积网络皮肤病变识别算法. 构建改进的AlexNet可变形卷积网络模型,增加采样偏移量,使不同位置的卷积核采样点可根据图像内容自适应变化,自动调整不同尺度或感受野,提取比标准卷积更精细的特征. 使用交叉熵损失函数和焦点损失函数的加权损失函数,削弱易分类样本在训练中所占的权重,使模型专注于相似度高、易错分的样本,解决样本比例不平衡的问题,优化模型的识别率. 在HAM10000数据集上进行仿真实验,主客观的实验结果表明, 提出的方法在7种皮肤病变上的识别优于现有方法,具有更高的准确性、特异性和鲁棒性.   相似文献   

11.
"华丽"一词在当代语言生活中呈现出丰富的变异现象.首先是它趋于抽象化,着重体现为其词义发展和由之带来的搭配对象的变化.其次是该词的"状语化"演变,包括其衍生的修饰动词、充当状语的语法功能.从言内理据和言外理据两个角度分析了其蜕变的成因,并对其未来走向作出宏观预测.  相似文献   

12.
 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。  相似文献   

13.
音字转换是汉字的语音输入系统的一个主要组成部分,音字转换的速度和准确性直接影响整系统的性能。本文提出在音字转换过程中利用字词的概率统计信息进行辅助判决的方法,优化字词的选择,提高音字转换的速度,考虑到人们用词的时变性,提出一种在使用过程中对字词频进行智能调整的算法,并引入遗忘机制以适应词频的减量变化。  相似文献   

14.
本文从语言视角,词义的“历时性变化”,英语的区域性变体等方面分析了英语词汇一词多义的现象。  相似文献   

15.
安福话两字组词语的轻重音格式可分为两类:非后重式和后重式。轻重音格式会影响连读变调。  相似文献   

16.
联系查询旨在查找不同实体之间的相互联系.目前,联系查询并不能快速准确找到实体间的真正联系.为解决此问题,提出了基于混合文档频率(mDF)的关系查询新方法,主要包括:(1) 分析传统联系查询的不足;(2) 提出基于mDF的联系查询算法,有效提升了真正连接词的排序;(3) 做了翔实的实验,表明新的联系查询方法在最坏情况下较传统词权度量方法在连接词质量上平均提高了18.78%,在停止词删除时准确性提高了19.2%.  相似文献   

17.
在影响木材密度的晚材率、胸径、木材年龄、径向生长速率和抽样点相对位置的5个因子中,晚材率是影响木材密度最重要的因子。根据晚材率可精确地估算马尾松天然林林木胸高木材密度。在包括有晚材率因子的多元回归分析中,随着所含因子的增多,估测效果并非相应地增加。所以,不能以树木常用测定性状如胸径、树高和年龄来预估胸高木材密度。  相似文献   

18.
基于源地址约束的垃圾邮件过滤模型   总被引:2,自引:0,他引:2  
提出了一种基于关联规则的垃圾邮件挖掘算法,通过计算邮件源地址和邮件关键词的支持度来定位垃圾邮件源地址.该算法在Apriori算法基础上进行了改进,增加了邮件源地址和关键词约束,与基于关键词过滤算法相比提高了准确率,与基于语义分析的过滤算法相比降低了算法复杂度.实验结果表明,该算法的误判率在邮件数量增加到350封时会减小到4%,其过滤速度也会随着邮件的增加而提高。  相似文献   

19.
现代汉语词语形象色彩的形成,从语言基础看,运用了比喻法、借代法、摹声法等造词方式和复合式、附加式、重叠式等构词方式.现代汉语词语形象色彩的功用,主要表现在命名取号、精确表义和构成风格要素等三个方面.  相似文献   

20.
根据3种典型的AGB星s-过程核合成模型的中子辐照量分布,讨论了各恒星模型氦壳层区域内受中子照射的铁种子核数目比率(或铁种子核受中子照射的概率).该值在一定程度上反映了s-过程核合成模型的特点.结果表明,所有概率都随重叠因子r单调增加,r=1时,存在极限值1.在辐射s-过程核合成模型的情形,概率对13C壳层占氦壳层的质量比例q的变化很敏感.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号