首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
随着电子商务的不断革新,网购消费者在众多同类型商品中挑选一件物美价廉的商品需要耗费大量时间和精力.本文以京东商城羽毛球商品为例,通过L DA主题模型从畅销商品的电商评论中挖掘用户购买羽毛球商品的需求信息,据此提取商品特征作为建立模型所需的解释变量,建立对商品价格的回归预测模型.得出结论,基于电商评论提取商品特征建立价格...  相似文献   

2.
安康市汉滨区地质环境脆弱,滑坡频发对当地居民生命财产安全造成严重威胁,针对该区域进行滑坡易发性评价是滑坡防治的有效措施。自适应提升模型和随机森林模型作为新颖的集成学习方法被应用至中外滑坡易发性评价研究中,但基于两者的混合模型在滑坡易发性中的应用研究尚未开展。为对比混合模型与单一模型的滑坡易发性评价精度,根据地质灾害详查资料圈定509处滑坡,结合研究区地质环境背景,选取高程、坡度、坡向、年均降雨量、地层岩性等13类因子进行评价。受试者工作特性曲线(receiver operating characteristic curve, ROC)结果表明,同单一模型相比,混合模型的训练集正确率和验证集预测率均为最高;混合模型的高易发区滑坡密度达到1.94,高于随机森林(1.86)和自适应提升模型(1.68);通过区内三处历史滑坡进行验证,结果显示区划结果与滑坡分布相吻合,说明自适应提升-随机森林混合模型可作为滑坡易发性评价的新方法,其区划结果可为滑坡防治与土地利用规划提供借鉴。  相似文献   

3.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

4.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

5.
以获取有助于改进电子商务中商品质量的评论为直接目标,研究用户评论的内容价值。主要面向用户极端消极评论,从评论内容的极端消极评论的筛选、文本词条化、词条之间的紧密联系等方面来探讨评论文本的价值,采用多层次的文本内容分析技术提取词条间联系,设计可行的面向极端消极评论的内容价值的CRTP模型。实验表明,基于CRTP模型的极端消极评论内容分析可有助于商品质量及服务改进,提高评论的效用价值。  相似文献   

6.
地震破坏预测研究对于建筑结构减灾规划、震前风险预测、震后应急评估有着重要意义。传统的方法因为受到震害资料数量的限制以及计算精度和能力的制约,一般基于经验只考虑少数因素对结构破坏的影响。通过使用随机森林算法,设计了一个综合考虑地震动、结构和场地等多维度信息的分类方法,用以预测建筑物的地震破坏程度。本文研究框架基于新西兰国家地震委员会所收集的27次地震详细破坏资料,处理得到14.2万条高质量建筑物损失数据,考虑了谱加速度、建筑形状、层数等16个影响因素,将4种不同的损伤状态作为模型的学习标签进行地震破坏预测训练。结果表明,随机森林算法在6种分类算法中性能最佳,经过学习曲线法调参、代价敏感学习之后,经过优化得到的随机森林模型对于测试集的整体预测精确率可以达到75.4%,对4种损伤标签的召回率分别达到了88.2%、55.0%、60.7%和70.8%,远好于其他方法。当只考虑对结果影响最重要的前12个因素,该模型的预测精度仍然能够达到73.7%。可见,基于此框架所训练的预测模型具有良好的精度与适用性,同时该框架对于中国震害资料大数据库的研究具有较高的参考价值。  相似文献   

7.
商品短评论的情感分析可有效地为用户和决策者提供产品选择的判断依据,但由于商品短评论文本特征呈现分散性和交错性的特点,因此难以有效地抽取短文本情感特征并作出分类。为解决这个问题,基于预训练模型提出一种商品短评论文本情感分类的新方法,便于用户决策。提出的基于ELECTRA的商品短评论文本情感分类方法包括三个过程,即嵌入层用Electra替换Bert进行向量映射和特征选择的过程,训练层神经网络模型的迭代优化过程,分类层进行商品短评情感分类过程。实验结果表明,所提出的模型在准确率上有明显的提高。  相似文献   

8.
生存或寄生于野外的各种病原体通过进化、基因变异或生态适宜性改变,可能具有潜在的感染人类的风险。因此,开展人类与重要寄主动物的时空交错风险分析,对不明疫病感染的溯源追踪、野外环境健康管理与预警具有重要意义。蝙蝠类动物携带着多种危险病原,本文以其为目标寄主构建随机森林模型,预测蝙蝠适生分布区,并融合与蝙蝠、人类活动有关的空间变量,建立人与蝙蝠空间交错的风险评估模型,制作风险分布地图;为方便行政管理,还进行以乡镇级为管理单元的风险分析。结果表明:1)影响蝙蝠适生的主导变量有年均降水量、温度全年波动范围、昼夜温差月均值、温度季节性变化、降水量季节性变化和最冷季度均温。2)随机森林预测蝙蝠高适生分布区面积为9.796 5×104 km2,占云南省总面积的24.86%,主要分布在云南省南部、西南部和中东部地区。3)疫病传染风险评估发现45个乡镇属疫病传染高风险区,面积约0.534 6×104 km2,受影响人口约287万,主要分布在云南省南部、西南部和中东部地区。  相似文献   

9.
意见挖掘在企业智能分析、政府舆情分析等领域发挥着重要作用,为了充分挖掘主观性文本所蕴含的商业价值和社会价值,提出了一种基于情感主题模型的特征选择方法。该方法重点考察极性词及其共现现象,采用主题模型挖掘出正面褒义主题和负面贬义主题中极性词的分布情况,旨在度量情感特征在情感倾向表达中的重要性。实验阶段结合支持向量机分类器进行分析。实验表明该特征选择方法能有效提高跨领域文本情感分类准确性,具有较好的实用价值。  相似文献   

10.
针对电商销量数据的复杂性和现有预测模型的稳定性及泛化能力不足问题,本研究基于大样本多变量数据,应用随机森林和渐进梯度回归树等机器学习模型进行分析。研究结果表明,相比于广义线性回归、弹性网络、支持向量回归、KNN回归树、决策树、多层感知机、AdaBoost,随机森林和渐进梯度回归树对电商销售数据预测拟合更加精确。相比于广义线性回归、弹性网络等7种传统机器学习算法,随机森林和渐进梯度回归树这两种集成学习的方法对电商销量预测更加精确,且渐进梯度回归树算法拟合效果更好、均方根误差更小,是一种更加有效的电商销量预测方法。  相似文献   

11.
基于机器学习的地下水水质预测研究   总被引:1,自引:0,他引:1  
基于实测的地下水水质数据(pH、总硬度、溶解性总固体、硫酸盐、氯化物、Fe、Mn 7种)和气象数据(平均气温、最低气温、最高气温、平均最低气温、平均最高气温、20:00—20:00降水量、日降水量≥0.1 mm的时间、最大日降水量8种),分别使用BP神经网络、随机森林(RF)和支持向量机(SVM)构建了地下水水质参数的机器学习预测模型.对于每一种水质参数,分别使用不同的机器学习算法基于不同滞后期的数据进行模拟,将结果与实测水质进行对比,选择精度最高的机器学习模型及其对应的滞后期作为该水质参数的最优模型和最佳滞后期.结果表明,不同机器学习方法和滞后期的选择对预测精度影响很大,BP神经网络对pH(R2=0.225,RMSE为2.411)、总硬度(R2=0.503,RMSE为47.973 mg·L?1)、氯化物(R2=0.994,RMSE为0.544 mg·L?1)和Fe(R2=0.302,RMSE为7.772 mg·L?1)的预测精度最高,RF对硫酸盐(R2=0.908,RMSE为3.788 mg·L?1)和Mn(R2=0.522,RMSE为0.429 mg·L?1)的预测精度最高,BP神经网络、RF和SVM对溶解性总固体的预测性能均较好(R2=0.994~0.996,RMSE为674.660~950.470 mg·L?1).此外,硫酸盐和Mn预测模型对应的最佳滞后期为0个月,溶解性总固体和氯化物预测模型对应的最佳滞后期为1个月,pH、总硬度和Fe预测模型对应的最佳滞后期为2个月.   相似文献   

12.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

13.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

14.
以金融领域的科技文献作为实验数据,提出了一种新的用于动态挖掘领域相关的作者研究兴趣的复合主题演化模型。该模型能够获取作者在不同时间片下的主题概率分布以及主题下词汇概率分布,并充分考虑作者在合作作者文献中的排名对于其研究主题和主题变化的影响。通过金融领域的实证研究表明,该复合主题演化模型能够有效地揭示金融领域作者研究兴趣的动态变化。  相似文献   

15.
使用情感分析算法获取在线评论的效价,并应用前景理论和熵值法对在线评论的效价进行调整,结合评论数量和网络搜索数据,建立了自回归分布滞后模型,并对不同价位档次汽车销量进行预测分析.研究发现,考虑了消费者受负面信息影响的在线评论的效价、数量和网络搜索数据的模型预测效果优于传统模型,更符合实际情况,但对不同价位档次汽车预测效果存在差异,低档汽车销量预测效果最佳,其次是中档汽车,最后为高档汽车.  相似文献   

16.
针对传统预测模型易陷入过拟合、缺失数据敏感、计算量大等不足,利用随机森林算法的双重随机性、处理数据集优异等特点,对A股股票涨跌预测进行研究。首先运用相关性分析对初始指标体系进行一次Spearman和二次Pearson筛选,去除指标体系中的冗余指标。然后对随机森林的各项重要参数进行优化,并对优化后的模型采用重要性估计方法以提升训练模型精确度。通过不同指标体系的对比,验证实验过程的正确性。最后,对比不同建模方法的实证预测结果,表明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。  相似文献   

17.
随着计算机科学的发展,世界对计算机的依赖越来越强,计算机安全也越来越重要,恶意代码是计算机安全面临的最大敌人.针对传统的恶意代码检测和分析技术在现在已经无法满足需求的问题,提出使用机器学习并应用新的分类特征来识别恶意程序,并且对他们进行初级的家族分类,指出以往机器学习在恶意代码检测和分类上的不足,筛选出更好的区分特征.首先使用了n-gram算法来优化恶意代码反汇编代码中的操作码特征,然后使用词袋模型和TF-IDF算法优化API调用特征,最后编程实现模型并使用数据集进行了模型的训练和测试.实验中使用决策树算法的模型的分类准确率上达到了87.41%,使用随机森林算法的模型的分类准确率上达到了90.06%,实验结果表明提出的特征相比以往在恶意代码检测分类上应用的特征有着更好的效果.  相似文献   

18.
暴雨内涝的快速预测对于提升灾害应急处置能力具有重要意义。针对传统数值模拟复杂耗时导致难以满足暴雨内涝预测时限要求的问题,该文基于机器学习方法构建城市暴雨内涝时空快速预测模型。利用城市综合流域排水模型(InfoWorks ICM)模拟的高精度网格结果作为数据驱动,综合考虑降雨因素、地理数据以及排水管网的分布情况,分别基于随机森林、极限梯度提升(XGBoost)、K最近邻以及长短期记忆(LSTM)神经网络建立城市暴雨内涝快速预测模型。以北京市某区域为例,开展算例研究,结果表明:随机森林模型的空间预测效果最佳,淹没范围预测准确率可达99.51%,积水深度平均预测误差3.55%; LSTM神经网络模型能准确预测内涝点积涝过程的水深时序变化。在该算例场景下,所构建的机器学习模型可实现s级的暴雨内涝时空快速预测。  相似文献   

19.
20.
为了有效处理企业越来越多的业务数据,为企业业务提升和用户价值挖掘提供积极帮助,将机器学习方法应用于某运营商客户业务数据处理过程。首先对原始数据进行预处理,去除重复值、缺失值、异常值,并进行标准化处理,然后对不平衡数据采用合成少数类过采样(synthetic minority over-sampling technique, SMOTE)技术进行过采样,减少了预测的偏差。对处理后数据分别建立传统神经网络模型、优化神经网络模型和随机森林模型,并通过结构调优和参数调优等进行模型优化,对运营商客户进行预测与分析。结果表明,优化后的模型预测准确率可达96%,有良好的客户预测与分析效果,可见优化模型的有效性。最后为运营商挽留流失客户、维系非流失客户提供了解决方案,为运营商实施精准营销、节省运营商营销成本和创造更多利润提供了技术支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号