首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.  相似文献   

2.
基于统计量化分析法对我国唐宋诗词的用词进行研究,综合运用数理统计数据处理方法和其他方法,建立了余弦相似度算法模型和隐含狄利克雷分布(Latent dirichlet allocation, LDA)模型,验证了字词能够很好地代表不同诗词的风格和主题,进一步根据LDA模型分别选取了唐宋时期各3个主题和30个关键词,证明主题和关键词对唐宋诗词分类有显著的相关性,并取得了很好的分类效果,最后运用支持向量机(Support vector machines, SVM)算法模型验证了题目、风格和用词等变量对题材分类产生影响的假设,进一步验证了LDA模型结果,也为唐宋诗词的分类和本体研究提供了科学依据。  相似文献   

3.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

4.
提出一种基于深度学习的文本情感分析方法,将整个卷积神经网络的模型作为一种自动学习器,对输入词语的预表达特征进行学习,引入深度学习领域的递归自编码作为输出层情感分类器,实现语义情感信息的深度提取.设置实验对比卷积神经网络和递归自编码模型的参数,找出了实验过程的最佳参数组合,实验对比了CNN、RSC、CNN-RSC三种不同的算法.实验结果表明:基于CNN-RSC的组合优化算法在对文本情感特征的自动学习上有着较好的效果,在准确度和训练时间以及分类性能上均优于其他两种算法.  相似文献   

5.
针对国内旅游人数预测研究了旅游人数的影响因素,讨论了输入层、隐含层、输出层等神经元的设置及网络训练的参数,综合考虑训练精度、训练时间、泛化能力等条件,动量—自适应学习速率调整算法是适合国内旅游人数预测的,并基于动量—自适应学习速率调整算法建立了神经网络模型;将模型应用于国内旅游人数预测系统,结果表明,该算法具有较好的准确性和鲁棒性,利用神经网络模型预测国内旅游人数是可行的.  相似文献   

6.
针对传统深度学习算法在样本不足时易出现过拟合的问题,提出了一类新的小样本深度学习模型:UGES反向传导模型。其基本思路是:在保留深层结构的同时,压缩需要学习参数的数量。作为一种与误差反向传导算法相容的间接编码模型,该算法对权值的随机分布特性进行重新编码,打破了不同隐含层之间的隔阂,并使用变分贝叶斯学习对网络进行全局训练。新模型的参数数目不再与输入变量维数及网络结构大小相关,同时强迫权值对于一定程度的扰动具有鲁棒性。最后,将所提出的算法用于外包软件项目风险识别这一典型的多维小样本问题中。对比实验表明,该模型达到了93.3%的样本外准确率,不仅保留了深度模型非线性表达能力,亦具备了小样本下优秀的泛化能力。  相似文献   

7.
首先建立泊松分布参数多变点模型,给出该分布参数多变点的似然函数,探究变点位置参数和分布参数的满条件后验分布。利用可逆跳跃马尔科夫链蒙特卡洛(RJMCMC)算法确定该模型中变点的个数,在变点个数确定的基础上,进一步利用马尔科夫链蒙特卡洛(MCMC)方法中的Gibbs抽样和Metropolis-Hastings算法对参数满条件后验分布进行抽样,利用抽样均值和最大后验法对变点位置参数和分布参数进行估计。仿真结果和美国矿难实例均表明,结合RJMCMC算法和普通MCMC方法对泊松分布序列的变点检测很有效。  相似文献   

8.
针对当前基于深度学习的金融文本分类模型严重依赖于标记数据的问题,提出了一种基于跨领域迁移的AM-AdpGRU金融文本分类模型,通过学习相关领域数据的分类准则将其迁移到目标领域数据。AM-AdpGRU模型首先利用深度网络自适应来克服源领域和目标域之间数据分布差异导致的迁移损失,使得即使数据分布发生变化时模型也无需重构;然后利用注意力机制建立了目标域对源领域的特征选择机制,使得模型对源领域的注意力可以集中在与目标域相似性更高的部分。在公开的跨域情感评论Amazon数据集和SemEval-2017的Microblog金融数据集上进行了实验,将AM-AdpGRU模型与其他方法进行比较,结果表明AM-AdpGRU模型的分类平均准确性相对于其他模型有了显着提升。  相似文献   

9.
利用贝叶斯方法研究了k阶Erlang分布参数单变点模型,得到该分布的似然函数.利用Fisher信息矩阵选取无信息先验分布,从而得到每个参数的满条件分布.使用Gibbs抽样与M-H算法相结合的MCMC方法对各参数进行随机模拟得到贝叶斯估计.模拟结果表明,各参数的估计值的精度在较高水平上都是有效的.  相似文献   

10.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

11.
自然场景中文本检测易受光照、复杂背景、多语言文字、字体及尺寸等因素影响,该文提出了一种基于Itti视觉关注模型与多尺度最大稳定极值区域(maximally stable extremal region, MSER)结合的自然场景文本检测算法.首先利用改进的Itti视觉关注模型提取文本特征图,并采用不同结合策略得到各尺度文本显著图;然后结合多尺度的MSER区域得到3种文本候选区域.根据文字与生成文本框的几何规则合并文本候选区域得到文本行;最后利用随机森林分类器除去非文本区域得到最终文本区域.实验结果表明,该方法对于自然场景图像中的文本检测具有较高的精确度和一定的鲁棒性.  相似文献   

12.
对伽玛分布Ga(a,l)进行了研究,由定义给出了2个具有不同参数的伽玛分布之间的Pearson-x~2距离的表达式,并推出了其中1个参数相同时2个伽玛分布之间的Pearson-x~2距离,得到了伽玛分布Ga(a,λ_1),Ga(a,λ_2)(λ_1≠λ_2)之间的Pearson-x~2最大距离.  相似文献   

13.
Curvelet变换域自适应收缩图像去噪   总被引:1,自引:0,他引:1  
研究了Curvelet变换域非参数贝叶斯估计图像去噪问题。利用先验概率模型-正态反高斯(NIG)分布对图像Curvelet系数的稀疏分布进行统计建模,并在此基础上设计出基于NIG的最大后验概率(MAP)估计器。通过估计Curvelet子带系数分布的参数,实现基于MAP的子带自适应收缩图像去噪,最后通过仿真验证了去噪算法的性能。结果表明,该方法能有效地去除图像中的噪声,同时较好地保留了图像的纹理和边缘等细节。  相似文献   

14.
启发于脉冲耦合网络(PCN)在视觉特征表示方面的优势,提出使用引力搜索算法(GSA)优化脉冲耦合网络(PCN)来提取图像的视觉特征,对PCN的参数使用优化机制来提高所获取的特征质量,由此来提高基于内容的图像检索(CBIR)的分类和检索结果.首先对学习的图像用PCN生成特征码;然后计算特征码间的距离,距离变量作为适应度函数的输入;最后利用引力搜索算法优化PCN的几个变量,进行参数更新.在Caltech256和Corel数据库上的实验结果表明提出方法的有效性,相比于改进的相关反馈方法(IRF)、颜色边缘结合离散小波变换方法(CE-DWT)和色矩结合局部二进制模式方法(CM-LBP),提出的方法检索精确度至少提高了5%,查全率提高4%左右.  相似文献   

15.
针对某市公安110接处警文本描述进行案件分类的需求,参考现有文本分类方法在其他行业的应用,搭建了应用于警情描述的文本分类系统.通过论证常见分类网络适用场合及其优缺点,结合对警情数据中案件描述特征的分析,提出了基于改进卷积循环神经网络的模型,该模型优化了关键特征提取过程,弥补了现有模型短文本局部特征提取不足的缺陷.实验表明,该模型的准确率比常见分类模型提升了2%~3%,且能够有效保证数据局部特征的关联性,可以对案件描述所对应的案件类型进行准确分类,从而提高公安接处警平台的自动化效率.  相似文献   

16.
卤代苯和苯酚的衍生物的结构表征和毒性预测   总被引:1,自引:0,他引:1  
应用按非氢原子分类的分子电性距离矢量(MEDV)表征了25个卤代苯和苯酚的衍生物的结构,以MDEV为参数通过多元线性回归建立了结构与活性的定量相关模型(R=0.949).另外,采用逐步回归的方法从原模型中选择3个参数建立了新的定量数学模型(R=0.938),继以留一法进行交互检验,Ra2为0.800,说明模型具有良好的稳定性和预测能力,能用来评估和预测卤代苯和苯酚的衍生物的环境行为.  相似文献   

17.
提出了一种基于Pre-LN Transformer的静态多模态情感分类模型.该模型首先利用Pre-LN Transformer结构中的编码器提取评论文本中的语义特征,其中编码器的多头自注意力机制允许模型在不同的子空间内学到相关情感信息.然后根据ResNet提取评论的图像特征,在特征水平融合的基础上通过视觉方面注意力机制...  相似文献   

18.
提出基于分类器可信度的权重计算策略,解决动态数据流集成分类中子分类器权重分配难题.该方法充分考虑了所处不同位置样本对权重计算的影响,利用信息熵描述分类器对预测结果的不确定性,建立分类器可信度与样本之间的关系,进而给出分类器可信度的定量计算方法.最后结合动态数据流分类需求和概念漂移特点,借助批量学习和时间遗忘策略构建基于分类器可信度的动态加权集成分类模型.理论分析和实验结果表明该分类方案可行,相比传统集中方法具有一定的优势.  相似文献   

19.
针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类. 在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选. 依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别. 实验表明,该方法可有效降低特征空间维数,在提高分类效率的同时保证了分类效果,F1值略有提高. 与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.  相似文献   

20.
基于支持向量机的文本分类技术研究   总被引:2,自引:2,他引:0  
介绍了文本分类的基本过程,讨论了常用的文本分类方法如K-最近邻分类算法K-NN(K-Nearest Neighbors,K-NN)、朴素贝叶斯分类算法NB(Naive Bayesian Classifier,NB)、决策树分类算法DT(Decision Trees,DT),并探讨了基于支撑向量机SVM(Support Vector Machines,SVM)的文本分类基本原理及方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号