首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%.  相似文献   

2.
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%.  相似文献   

3.
针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.  相似文献   

4.
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.  相似文献   

5.
当采用传统的全显式算法对高度非线性的弹塑性本构模型进行数值实现过程中,存在计算效率低、误差积累、精度较低的缺点.为提高计算效率和改善计算精度,采用四阶的Dormand and Prince Runge-Kutta法代替传统的全显式算法中的向前Euler法,并结合切平面算法形成了改进显式算法.以考虑土体结构性的SANICLAY模型为例,对传统的全显式算法、改进显式算法和隐式算法在计算收敛性、效率和精度方面进行对比.将改进显式算法用于隧道开挖工程多单元计算中.结果表明,与隐式算法相比,传统的全显式算法的计算精度和计算效率均比较低,改进显式算法计算效率和计算精度均比传统的全显式算法高很多.  相似文献   

6.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

7.
针对现有图像配准过程中难以保持图像的局部精度和边缘细节的问题,在A-KAZE算法的基础上提出了一种改进的图像特征提取算法AKAZE-ILDB.该算法首先利用非线性扩散滤波方程构造图像金字塔,采用快速显示扩散(FED)求得数值解,得到具有亚像素精度的图像特征点坐标;然后利用改进的LDB(ILDB)描述子构造具有尺度和旋转不变性的图像特征向量,对特征向量采用汉明距离进行KNN匹配;最后基于仿射变换模型计算空间映射参数矩阵来实现图像配准.实验结果表明:在保持相同图像特征匹配正确率的情况下,AKAZE-ILDB算法比A-KAZE算法平均配准时间缩短了300 ms;在配准精度方面,比A-KAZE算法提高了3.7%,比传统特征提取算法SURF匹配正确率提高了29%.  相似文献   

8.
参照计算Lyapunov指数的Wolf方法,考虑预测中心点与邻近点和上一个演化点的夹角,对混沌理论基于最大Lyapunov指数的预测方法进行了改进.通过对城市用水量短期预测的实例研究,将改进算法与传统算法进行比较.结果表明,与传统算法相比,改进算法的预测精度在整个预测周期内提高了10.2%,在最大可预测时间尺度内提高了1.1%.  相似文献   

9.
问句相似度计算是基于常问问题库的问答系统的重点。现在的问句相似度计算准确率较低,为此,提出了一种基于主题和焦点的中文问句相似度计算方法。主题和焦点能够反映问句的主旨,识别出问句的主题能够更好地理解问句。其中抽取问句主题和焦点的方法能获取部分语义信息,而且比传统的根据疑问词进行语义分析的方法适用类型更广,同时在计算问句相似度时考虑了主题和焦点的影响。最后通过设计实验与其他方法进行比较,实验表明,该方法提高了准确率。  相似文献   

10.
对传神经网络算法的改进及其应用   总被引:3,自引:0,他引:3  
针对传统对传神经网络(Counter propagation networks,即CPN)要求输入向量必须均匀分布以及隐含层神经元个数难以确定,其应用受到很大局限等问题,对CPN算法进行改进并运用于电力负荷预测.研究结果表明:通过改进CPN算法的初始权重设置规则,克服了对输入向量限制过于严格的不足;通过优化算法运行步骤,提高了算法的运行效果;改进后的CPN算法比BP算法所得预测结果误差小,比目前电力负荷预测研究中RBF和Elman神经网络所得预测结果误差也小;与BP算法相比,CPN改进算法的预测精度提高4%左右,运算时间减少45%,适用于电力负荷的预测.  相似文献   

11.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%.   相似文献   

12.
关于文本特征抽取新方法的研究   总被引:57,自引:1,他引:56  
该文研究了已有和最新的各种基于评估函数的特征筛选方法 ,评价了它们的优缺点和适用范围 ,并实现了一种用评估函数代替 TFIDF法中 IDF函数进行分类的新算法。然后进一步从如何放宽特征独立性假设 ,利用等级关系的角度探讨了对特征筛选可能的改善  相似文献   

13.
提出一种基于二阶隐马尔可夫模型(HMM)的新闻分类算法,旨在提取新闻内容中的类别字,构成特征词集合.以该特征词集合作为不同二阶HMM分类器的观察序列,二阶HMM的隐藏状态反映了文档中词语之间的相关性差异,每个状态表示出现在语料库中的词语的相关性水平.实验结果表明,相比k近邻(k NN)、朴素贝叶斯(Naive Bayes)以及支持向量机(SVM)算法,二阶HMM算法的分类表现更显优势.  相似文献   

14.
用句子标注图像,建立图像与文本间的跨媒体关联,以提升信息检索准确率,改善用户检索交互体验.利用KDES模型抽取图像特征,在多核学习模型中融合出MK-KDES特征,准确刻画图像视觉特性;设计自然语言生成模型:词序列拼积木,评估单词与图像内容的相关性,优选单词,并根据单词间的语义相关性与句法模式约束,将单词组合成N元词序列;把N元词序列输入模板生成句子.结果表明:MK-KDES-1特征聚焦于图像的纹理及形状视觉特性,它是改善句子BLEU-1评分的关键;而单词间的语义相关性与句法模式约束是提升句子BLEU-2评分的重要前提.   相似文献   

15.
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量,同时,用IDF权重计算公式来计算词语的权重并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为 。  相似文献   

16.
目的了解江西省吉安市人群高尿酸血症患病特点及相关危险因素分析。方法在2018年1月1日至7月30日期间于吉安医院体检的人群中,随机抽取1000名16岁及以上吉安常住居民体检者作为研究样本,统计不同年龄段、不同性别者高尿酸血症的患病率,并应用Logistic回归模型进行高尿酸血症相关危险因素分析。结果1000名体检者中高尿酸血症患病率为23.3%(95%CI20.68%~25.92%),其中男性患病率28.08%(95%CI24.44%~31.73%)明显高于女性患病率16.59%(95%CI13.01%~20.16%),具有统计学意义(P0.001)。多因素logistic回归分析显示收缩压(OR=1.014,95%CI=1.005-1.023,P=0.002)、甘油三酯(OR=1.263,95%CI=1.106-1.443,P=0.001)、低密度脂蛋白(OR=1.376, 95%CI=1.026-1.845,P=0.033)升高,肾小球滤过率(OR=0.985,95%CI=0.977-0.993,P0.001)和高密度脂蛋白(OR=0.612,95%CI=0.402-0.931,P=0.022)降低是高尿酸血症的独立危险因素。结论在江西省吉安地区人群中,收缩压、甘油三酯、低密度脂蛋白升高,肾小球滤过率和高密度脂蛋白降低是高尿酸血症的独立危险因素。积极控制血压、血脂,保护肾脏功能,对于预防和治疗高尿酸血症具有重要意义。  相似文献   

17.
基于朴素贝叶斯的垃圾邮件分类系统的设计   总被引:1,自引:0,他引:1  
结合垃圾邮件分类系统的具体要求,在传统规则分类方法的基础上引入机器学习的知识,给出了系统体系结构和特征提取算法,试验了一种对新邮件计算所属类别后验概率的方法,并详细讨论了一个基于朴素贝叶斯方法的个性化垃圾邮件分类系统的设计。提出的分TFIDF特征子集提取算法和朴素贝叶斯方法对邮件进行分类具有较好的分类精度,应用朴素贝叶斯方法在新邮件到达的同时对其进行分类,具有较好的分类速度。  相似文献   

18.
由于传统KNN算法在应用于高分辨一维距离像进行目标识别时,存在全局使用固定k值和未考虑各特征分量对分类的影响等不足,使得目标识别性能较差.提出一种改进的KNN算法:FLAKNN.通过提取目标高分辨率一维距离像的尺寸、熵、中心距、不规则度、去尺度特征、对称度等稳定特征,使用Fisher判别分析将所有特征分量投影至低维空间,使不同类别间具备最大可分性;结合相邻样本局部的分布情况和k取值的调整,最终使用少数服从多数的投票原则决定测试样本的类别.结果表明,相对传统KNN算法,该算法进一步提升了识别性能.   相似文献   

19.
目前数字图像采集系统中采用的反马赛克算法存在插值伪像严重、算法计算量大等问题.为了解决上述问题,本文提出了一种基于梯度方向的反马赛克算法,可提升实际应用中反马赛克处理性能.计算当前像素位置水平和竖直梯度,并据此完成G分量的插值恢复,采用双线性插值完成R分量和B分量恢复并用G分量进行校正处理.从复合峰值信噪比(CPSNR)以及计算量两方面将本算法与其他典型算法进行对比,本文算法以更低的运算量,获得优秀的反马赛克性能.这种高性价比的特点有利于其未来完成硬件电路实现,并应用于实时成像等高技术领域.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号