首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Quora Question Pairs”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高.  相似文献   

2.
3.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

4.
合成孔径雷达有着观测范围广和分辨率高的特点,可以全天候工作,并能有效地识别伪装和穿透掩盖物,但也存在雷达图像数据量大且目标电磁散射特征复杂等特点,为目标的识别引入了噪声和干扰,因此发展快速和智能化的SAR图像目标识别技术得到越来越多的关注.本文针对美国空军研究实验室SAR图像中的8个目标物引入3种机器学习算法和一些数据处理方法构建了相关的识别模型,并对其识别能力进行对比分析,结果显示这3种机器学习算法通过优化算法都可以获得较高的识别准确率(> 80%),尤其是KNN算法的测试集准确率都可以高达97%.本文研究结果可为SAR目标识别的人工智能化技术提供一些方法上的参考和指导.  相似文献   

5.
针对手写中文文本交错、粘连、字内过分离等问题,提出一种基于贪吃蛇算法和部首识别的文本切分方法.首先,根据贪吃蛇算法建立文本原始切分轨迹,并依据多重规则优化切分路径;之后,基于粘连字符的轮廓和骨架提取候选粘连点,利用贪吃蛇算法进行二次切分;最后,对过切分字符,进行部首的笔段提取和识别,依据汉字结构确定合并方向,并结合几何...  相似文献   

6.
获取建筑工人个性特征是实现其不安全行为精准化、个性化干预管理的重要前提,而人格特质是分析建筑工人个性特征的重要依据。本研究以292名一线建筑工人为研究对象,通过问卷调研和深度访谈探究人格特质与不安全行为之间的映射关系,基于大五人格生成不安全行为偏好,利用机器学习分类算法实现建筑工人的不安全行为识别。研究表明:高外倾性、中神经质、中宜人性、低责任心、低开放性映射习惯偏差型不安全行为;中外倾性、低神经质、低宜人性、低责任心、高开放性映射程序偏差型不安全行为;中外倾性、高神经质、中宜人性、高责任心、中开放性映射感知偏差型不安全行为;中外倾性、中神经质、中宜人性、中责任心、中开放性映射技能偏差型不安全行为。同时通过比选CART、RF、AdaBoost和GBDT四种分类算法模型的评估指标,结果发现GBDT算法的不安全行为预测性能最优。  相似文献   

7.
针对带有噪声点与粘连的验证码图像,使用DBSCAN聚类与竖直投影法做去噪与分割处理,提出了基于AdaBoost方法的半监督Kmeans聚类算法。基于此算法对分割的单个字符图像进行了批量标注,在聚类结果的基础上使用Fisher判别、随机森林、K近邻、神经网络、支持向量机等方法进行训练并识别验证码测试数据集,比较各算法的识别效果,揭示所研究的验证码不安全的可能性.  相似文献   

8.
机器学习算法是岩性识别领域重点研究内容之一。与传统岩性识别方法相比,通过监测随钻参数变化进行岩性识别,具有高精度、多信息、集成化、智能化的优点。近年来,随着岩性识别技术不断发展,机器学习算法在岩性识别领域的研究和应用日益广泛。利用机器学习算法分析随钻数据,能够提高岩性识别结果的准确性,更高效地识别地层的岩性和构造。为了厘清岩性识别机器学习算法的发展现状,发掘其在岩性识别技术领域中的技术难题,综述了岩性识别机器学习算法的研究进展。首先,简要介绍了机器学习的概念与发展历程;其次,分类阐述能够用于岩性识别领域的机器学习算法;再次,总结了岩性识别领域各类常用机器学习算法的应用现状,比较了各类算法在岩性识别应用中的优缺点;最后,总结了岩性识别算法存在的问题和面临的挑战,并对其下一步发展方向提出了建议,使未来能更加准确高效地利用机器学习算法分析处理随钻数据,实现机器学习算法与岩性识别技术的深度结合。  相似文献   

9.
利用计算机视觉技术进行图片分类是公安部门打击违法犯罪的重要手段。由于存在不同种类图片特征相似的问题,单纯基于视觉特征的证件类图片分类效果有待进一步提高,因此提出一种融合MobileNet和文本识别匹配的证件图片分类算法,用于证件类图片的分类任务中。该方法把图片分类及文本匹配算法相结合,提高了证件类图片分类的准确性。在证件类图片数据集上的实验结果表明,算法在损失一定召回率的情况下,准确率有显著提升。  相似文献   

10.
近年来,场景文本识别技术得到了飞速发展.然而,由于不规则场景文本图像中经常存在诸如杂物遮挡、分布扭曲、光照不足等视觉障碍,使得现有方法不能对单词中某些字符进行准确识别,进而产生较多的错误识别.为了解决这一问题,本文提出了一种基于错误纠正(errorcorrection,EC)模块的场景文本识别算法.与现有算法中的纠错模块不同,所提出的EC模块是一个序列到序列的预测模型.在EC模块的编解码结构中增加了多单元注意力机制,能够更加关注特征图中的一些重要信息.EC模块可直接从纯文本中学习语义信息,用于纠正拼写错误的文本.此外,提出了一种基于场景文本识别的多特征(multi-feature,MF)提取器,该提取器由5个MF单元组成,可分别从Resnet-45后5个模块的输出中提取特征信息.与传统的方法相比,MF提取器可以从不同深度挖掘更加丰富的图像信息.在7个数据集上的对比实验结果表明,与当前先进方法相比,所提算法在性能上具有明显的优势.  相似文献   

11.
针对目前短文本词汇量少、 表达形式多样, 导致同种类文本聚类方法无效的问题, 提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法, 以解决短文本包含信息少、 词汇表达形式多样的不足. 实验结果表明, 该算法可有效提升短文本的聚类效果.  相似文献   

12.
针对移动机器人在未知环境中探测和规避障碍物困难等问题,提出一种基于椭圆建模和自然语言处理(nataral language processing,NLP)算法的移动机器人路径规划方法。首先将激光采集的点信息进行分类和最小椭圆包围,建立障碍物的椭圆模型并估算出障碍物的速度。然后采用NLP算法,把移动机器人在未知环境中的路径规划问题,描述成了满足一组非线性约束和目标函数最小的非线性规划问题,从而实现复杂未知环境下机器人的路径规划。最后进行物理与仿真实验,验证了该方法的有效性。  相似文献   

13.
基于机器学习的文本分类方法综述   总被引:1,自引:0,他引:1  
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。  相似文献   

14.
本文基于偏微分方程和机器学习相结合的方法,通过减少函数微分不变量的个数,提出新的模型来提高机器学习的效率.仿真实验显示,新的模型在程序运行时间上有了巨大的缩减,并且视觉效果与原先模型相差不大,峰值信噪比与原模型相差不大.  相似文献   

15.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

16.
在产业用地信息梳理的过程中,首先需要确定地块的底数,其中图斑所在土地的用地性质是关键信息。由于一些早期的纸质信息对相关信息的关键字缺少明确标识,所以只能花费很多人力和时间去阅读这些纸质内容或者扫描文件中的数据,最后进行人工判断、总结。现基于自然语言处理和机器学习,通过引入重要词权重构建改进型朴素贝叶斯模型,对需要的土地信息进行识别,并和实际正确的信息进行比较。结果表明:通过机器学习对字典的构建后,运用自然语言处理技术对产业用地关键信息识别的准确度和效率有较大提升。  相似文献   

17.
舌裂纹是中医舌诊辨证施治的重要信息源,能够客观、准确地反映某些典型疾病和中医证候的变化。针对传统的裂纹舌诊断易受医生经验、环境变化等因素的影响,提出了基于舌图像多特征融合与机器学习的裂纹舌识别算法。首先,采用Grabcut方法对原始舌图像进行舌体分割;然后,提取图像基于灰度共生矩阵的纹理特征,基于低阶颜色矩的颜色特征,以及基于方向梯度直方图的形状特征;最后,将三类特征及其不同的组合形式分别输入四个经典的机器学习模型,完成裂纹舌识别。实验结果表明:多特征融合往往有助于提高机器学习模型的识别能力,尤其是融合三类特征的自适应提升树(AdaBoost)取得了几乎能与深度学习模型相媲美的识别效果:AUC为0.97,准确率为0.91,精确率为0.91。可见,提出的裂纹舌识别算法有助于传统中医舌诊的客观化、定量化和标准化。  相似文献   

18.
为了量化分析样本中的缺陷,利用卷积神经网络(Convolutional Neural Network,CNN)结合阈值分割和深度优先搜索算法实现了对超声检测图像中样品内部缺陷的识别,将实际图像输入神经网络模型中,成功完成了对缺陷的标记,验证了模型的可靠性.利用Field Ⅱ对全矩阵捕获(Full Matrix Capture,FMC)过程及对数据以全聚焦成像方法(Total Focus Method,TFM)进行成像的过程进行了仿真模拟,获得了可用于机器学习的数据集.基于方向梯度直方图(Histogram of Oriented Gradient,HOG)提取了全聚焦成像结果图的图像特征,利用改进的支持向量机(Support Vector Machine,SVM)获得由图像预测缺陷半径的模型并对该模型进行了评价.结果表明,利用上述方法提取的缺陷半径信息精准度在0.1 mm,能够应用于缺陷半径的量化分析,预测误差主要来源于数据集两端,可以通过预处理算法进一步提升检测精度.  相似文献   

19.
恶意软件的日益增长是对网络世界最大的威胁,基于签名的检测对于恶意软件检测率较低,局限性大,因此提出基于机器学习的恶意软件检测技术来代替传统的签名检测。根据沙箱中提取软件的特征类型包括注册表和API函数调用,并量化数据,使用机器学习的模型对此数据进行分类识别,并取得了较好的分类效果。  相似文献   

20.
由于丙型病毒性肝炎病毒感染后约有3~10%丙肝病例发展为肝细胞癌,因此准确预测丙肝感染情况,提高丙型肝炎病毒检测技术非常重要,为此,采用机器学习中的集成算法进行丙肝预测。为挑选出最优检测丙肝模型,将不同机器学习模型在UCI(University of California Irvine)丙肝数据进行比较分析。实验结果表明,梯度提升树,随机森林以及轻量级梯度提升机表现较好,其中梯度提升树在预测丙肝准确率高达0.935 1。使用梯度提升树对丙肝感染情况进行预测最为准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号