首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

2.
提出了一种基于隐含狄利克雷分布(LDA)与距离度量学习(DML)的文本分类方法,该方法利用LDA为文本建立主题模型,借助Gibbs抽样算法计算模型参数,挖掘隐藏在文本内主题与词的关系,得到文本的主题概率分布.以此主题分布作为文本的特征,利用DML方法为不同类别的文本学习马氏距离矩阵,从而较好的表达了文本之间的相似性.最后在学习到的文本间距离上,利用常用的KNN及SVM分类器进行文本分类.在经典的3个数据集中的实验结果表明,该方法提高了文本分类的准确率,并且在不同的隐含主题数目参数下能体现较好的稳定性.  相似文献   

3.
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.  相似文献   

4.
情感分类是当今网络环境下的热门应用之一,其目标在于判断文本内所包含的感情色彩和观点倾向。传统的情感词典分类法在面对长度短、非正式的文本时,会遇到部分文本无法被归入任何一个分类中的问题。为解决这一难题,文章选择将监督学习思想和情感词典结合,使得原本无法分类的文本都能被标注到一个特定分类中。最终,这一方法对中文电影短评论取得了理想的效果,准确率比单纯的情感词典方法有所提高。  相似文献   

5.
针对某市公安110接处警文本描述进行案件分类的需求,参考现有文本分类方法在其他行业的应用,搭建了应用于警情描述的文本分类系统.通过论证常见分类网络适用场合及其优缺点,结合对警情数据中案件描述特征的分析,提出了基于改进卷积循环神经网络的模型,该模型优化了关键特征提取过程,弥补了现有模型短文本局部特征提取不足的缺陷.实验表明,该模型的准确率比常见分类模型提升了2%~3%,且能够有效保证数据局部特征的关联性,可以对案件描述所对应的案件类型进行准确分类,从而提高公安接处警平台的自动化效率.  相似文献   

6.
LDA是重要的分类方法,应用LDA于ERP成分分类时需要对高维空间协方差矩阵进行准确的估计,这个估计是一个复杂且难以求解的问题.为了改善这个问题,提出使用收缩估计,并证明了应用收缩估计的LDA产生的分类结果远远优于原始的LDA.  相似文献   

7.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

8.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

9.
一种基于SOM和层次凝聚的中文文本聚类方法   总被引:2,自引:0,他引:2  
研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间,通过数值实验对比表明该方法对中文文本聚类具有有效性。  相似文献   

10.
基于知网的领域概念抽取与关系分析研究   总被引:2,自引:0,他引:2  
针对目前领域概念抽取手工完成的现况,提出了一种基于知网的领域概念抽取和关系分析系统模型.本模型利用知网语义相关性从文本中生成领域语义词典,结合TFIDF算法建立"词-文本文档矩阵",用以代替传统的词形频率统计;通过产生领域语义本体,利用语义相似度对概念进行聚类.讨论了这3个步骤所涉及的算法,包括基于统计模式从文本中抽词,基于奇异值分解从词-文档矩阵中提取概念,基于语义相似度对概念进行聚类等.实验表明,本文提出的抽取方法相对与词频算法具有较高的准确度.  相似文献   

11.
以福清市区为研究区,应用SOM网络建立城镇基准地价评估模型,输入层为店长、店宽、标准进深、层高修正系数、建筑物成新度和年租金等6个指标,选取有代表性的65个商业样点进行网络训练,并将训练结果与租金剥离法的分类结果进行对比.结果表明:65个商业样点可分为6类,SOM网络分类预期效果很好,其与租金剥离法的吻合率达98.5%,得出应用SOM网络模型划分城镇基准地价级别具有较高实用价值的结论.  相似文献   

12.
基于统计量化分析法对我国唐宋诗词的用词进行研究,综合运用数理统计数据处理方法和其他方法,建立了余弦相似度算法模型和隐含狄利克雷分布(Latent dirichlet allocation, LDA)模型,验证了字词能够很好地代表不同诗词的风格和主题,进一步根据LDA模型分别选取了唐宋时期各3个主题和30个关键词,证明主题和关键词对唐宋诗词分类有显著的相关性,并取得了很好的分类效果,最后运用支持向量机(Support vector machines, SVM)算法模型验证了题目、风格和用词等变量对题材分类产生影响的假设,进一步验证了LDA模型结果,也为唐宋诗词的分类和本体研究提供了科学依据。  相似文献   

13.
基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法。TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度。实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性。  相似文献   

14.
将推广的非线性传染率βIS/ψ(I)引入具有常数输入的SIS型和SIRS型传染病模型中进行研究,希望得到其动力学性态的完整分析结果.  相似文献   

15.
针对KNN算法在中文文本分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出改进的基于中心向量KNN算法.算法首先引入基于密度的思想对训练样本进行调整,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.实验结果表明,该算法在不损失精确度的情况下,提高了分类实时性.  相似文献   

16.
文本分类是自然语言处理的重要内容,而有效提取文本全局语义是成功完成分类任务的关键.为了体现卷积神经网络提取特征的非局部重要性,在模型中引入Attention机制并建立了包含4个Attention CNN层的A-CNN文本分类模型.其中,Attention CNN层中普通卷积层用于提取局部特征,Attention机制用于生成非局部相关度特征.最后,使用A-CNN模型分别在情感分析、问题分类、问题答案选择等数据集上进行了实验和对比分析.结果表明:相比于其他对比模型,A-CNN模型完成上述3个文本分类任务时的最高精度分别提高了1.9%、4.3%、0.6%,可见A-CNN模型在文本分类任务中具有较高的精度和较强的通用性.  相似文献   

17.
针对最大间距准则算法中训练样本类内平均值并不能对类内中心做精确估计的问题,提出一种基于中间值的最大间距准则特征提取方法.首先应用样本中间值代替样本的平均值来重新定义类间散度矩阵和类内散度矩阵,然后根据最大间距准则思想得到最优投影矩阵,最后利用三阶近邻分类器进行分类识别.在ORL、Yale和FERET人脸图像库上的仿真实验结果表明,该方法不仅提高了人脸识别率,而且具有较强的鲁棒性.  相似文献   

18.
就2021年“高教社杯”全国大学生数学建模竞赛E题“中药材的鉴别”的第1、2问给出了可行的解法。针对问题1,使用极差和主成分分析方法将数据进行降维,利用平均轮廓法和肘部法则来确定最佳的聚类个数,使用K-Means聚类的方法将中药品聚类分为3类。针对问题2,分别使用支持向量机、BP神经网络、Logistic回归方法构建了药材产地分类模型,三个模型在训练集和测试集的准确率、精确率、召回率和F1值都分别均在0.8及0.7以上。特别地,Logistic回归模型在训练集和测试集的F1值高达0.866、0.789。结合三个分类模型为待鉴别的15个产品找到了合适的产地。这样的药材鉴别方法分析速度快、分类效果好,可为其他红外光谱数据分类鉴别问题提供借鉴。  相似文献   

19.
针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统的检测方法进行对比.实验结果证明了提出方法的有效性和准确性.  相似文献   

20.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号