首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 687 毫秒
1.
应用隐马尔可夫模型是文本信息抽取的一种重要方法。对于网上不同来源的文本,由于其格式很不相同,进行混合训练,一般难以得到较优化的模型。将聚簇应用到文本信息抽取中,首先通过一种改进的k-平均方法对训练文本的Markov链模型进行聚簇,然后训练各簇的隐马尔可夫模型,提出了一种基于聚簇隐马尔可夫模型的文本信息抽取算法(C-HMM)。对700篇网上不同来源的文本进行信息抽取仿真实验,结果表明,新的算法能有效地提高抽取性能。  相似文献   

2.
基于隐马尔可夫模型的文本信息抽取   总被引:30,自引:2,他引:28  
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。  相似文献   

3.
基于向量空间模型文本过滤算法   总被引:2,自引:0,他引:2  
贺卫红  曹毅 《系统工程》2005,23(10):122-125
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程.本文详细地论述了基于向量空间模型的文本过滤算法,该算法由训练和自适应过滤两个阶段组成,在训练阶段,通过主题处理和特征抽取建立初始的过滤模板,设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值,以获得最佳的过滤性能.  相似文献   

4.
针对支持向量机(souport vector machine,SVM)训练学习过程中样本分布不均衡、难以获得大量带有类标注样本的问题,提出一种基于委员会投票选择(query by committee,QBC)的SVM主动学习算法QBC-ASVM,将改进的QBC主动学习方法与加权SVM方法有机地结合应用于SVM训练学习中,通过改进的QBC主动学习,主动选择那些对当前SVM分类器最有价值的样本进行标注,在SVM主动学习中应用改进的加权SVM,减少了样本分布不均衡对SVM主动学习性能的影响,实验结果表明在保证不影响分类精度的情况下,所提出的算法需要标记的样本数量大大少于随机采样法需要标记的样本数量,降低了学习的样本标记代价,提高了SVM泛化性能而且训练速度同样有所提高。  相似文献   

5.
针对惯性导航平台漂移误差高阶非线性动态系统的特点,利用神经网络的任意逼近能力和自适应抽取系统动态信息的能力,提出基于Elman网络结构的惯性导航平台漂移模型辨识方案。首先建立惯性导航平台漂移误差模型,并选择了用于网络辩识的输入、输出量。采用动量及可变学习速率算法加速网络的收敛;在该算法的基础上,针对网络隐层,提出的扩展非线性节点函数能更好地改善网络学习效率,满足系统辨识实时性和精确性的需要。通过测得的惯性导航平台漂移误差数据对网络进行训练,获得了较为满意的辨识结果。  相似文献   

6.
基于分类和关键词组抽取的信息检索算法   总被引:7,自引:0,他引:7  
钟敏娟  林亚平  陈治平 《系统仿真学报》2004,16(5):1009-1012,1016
本文提出一种基于分类和关键词组抽取的信息检索算法。该算法利用文本分类和信息抽取技术辅助检索,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序。实验结果表明,所提算法与TFIDF算法、基于分类的交互式检索算法相比,具有更快的查询速度,更高的查准率和更小的排序误差率。  相似文献   

7.
基于Choquet积分的HMM商品信息抽取方法   总被引:2,自引:0,他引:2  
邓斌  邵培基  夏国恩 《系统工程》2008,26(12):110-114
电子商务网站使用不同的网页编码技术和页面布局为比较购物信息获取带来了很大的难度.基于隐马尔可夫模型(HMM)的信息抽取模型有着易于建立、适应性强等优点,被视为一种有效的信息抽取方法.但是这种算法存在状态序列计算复杂、难以训练优化抽取模型等缺点.本文应用模糊积分单调性建立基于Choquet积分的隐马尔可夫模型(CI-HMM),解决HMM观察序列概率计算所需的条件独立性假设,优化HMM观察序列的计算.本文以网上书店商品数据进行实证,实验证明CI-HMM比HMM有更好适用性和精确度.  相似文献   

8.
针对基于机器学习的本体映射方法存在的人工标记代价高和样本不平衡问题,将本体映射建模为二视图上的协同训练问题,分别从本体模式层和数据层提取特征集。通过对本体概念对进行预匹配,缩小样本不平衡度。分析了传统协同训练方法的局限性,结合主动学习思想,设计了一种考虑样本价值的改进协同训练算法,在每轮迭代中选择更有价值的未标记样本更新训练集。实验结果表明,该方法学习效率更高,同时能取得较好的本体映射结果。  相似文献   

9.
传统的信用评分模型主要基于有监督学习(supervised learning)方法,但是,在实际的贷款问题中,有标记样本信息的获取往往成本较高、难度较大、周期较长,而无标记样本信息则大量存在.为了能在建模中充分利用无标记样本信息,本文提出了一种基于半监督广义可加(semi-supervised generalized additive,SSGA) Logistic回归的信用评分模型.该模型不但能处理线性不可分问题,也能同时利用有标记与无标记样本信息,并同步实现模型参数的估计和显著变量的选择.通过模拟实验表明,所提出的模型在外推预测和变量选择方面的表现均显著优于有监督模型.最后,将该模型应用于个人信用贷款违约风险的评估中.  相似文献   

10.
运用样本更新的实时神经网络进行短期电力负荷预测   总被引:1,自引:1,他引:0  
用多层神经网络模型解决短期电力负荷预测问题 ,提出了运用基于非梯度的单参数动态搜索(SPDS)算法训练网络 .这种学习算法可以克服 BP学习算法对规模大、特征多的问题难以收敛的困难 .根据预测日的天气信息进行样本集的动态构造和网络的实时训练 .计算结果表明 ,文中提出的模型可以较好地进行短期电力负荷预测 ,也验证了 SPDS学习算法的有效性.  相似文献   

11.
社交媒体中的文本内容可对交通量数据进行补充,为此提出一个交通事件可视分析方法。建立交通事件文本处理模型,提取事件的描述信息;基于图嵌入算法学习道路节点属性的向量表示,建立道路相似性模型;结合核密度模型建立交通事件发生概率预测模型;设计了一个交互式可视分析界面对于交通事件进行可视分析与探索。通过交通信息抽取、道路相似性度量以及交通事件交互预测等案例分析,验证了所提方法的有效性,可以辅助交通部门管理决策。  相似文献   

12.
一种有效特征词发现的贝叶斯文本分类方法   总被引:1,自引:0,他引:1  
杨晔  彭宏  林嘉宜  陈绍坚 《系统工程》2004,22(9):107-110
根据信息学理论和贝叶斯语义模型,提出一种有效特征词发现方法,利用该方法对训练文本的原始文本特征词集进行聚类,对测试文本进行分类计算和类别标注。闭式测试的结果表明,文本识别的正确率达到了90%以上,该算法对互联网信息处理有较好的应用价值。  相似文献   

13.
教育数据挖掘(educational data mining)是当代教育信息化发展的前沿研究领域,正在吸引越来越多教育学家和数据科学家的关注."大数据"时代背景下,随着数据处理规模的不断激增,现有的数据挖掘模型在单一处理节点的计算能力遭遇瓶颈,各类面向大数据处理的分布式计算框架应运而生.借助这些框架,面向解决高校就业数据挖掘问题的机器学习模型便可以满足未来大规模数据处理的需求,在未来数据集体量庞大的信息集成系统中为数据挖掘和决策支持提供帮助.以此为背景,本研究对比现有数据模型对研究目标对象的分类性能,提出了以引入输入特征加权系数来计算特征的信息增益作为特征最优分裂评判指标的改进随机森林模型来提升数据分类性能,通过仿真测试改进模型对于现有模型分类性能的提升情况,与此同时为解决大数据时代背景下面向海量数据分类任务的单节点性能瓶颈问题,提出了基于分布式改进随机森林算法的大规模学生就业数据分类预测模型.通过使用MapReduce分布式计算框架实现已训练模型在本地磁盘与分布式文件系统之间的序列化写入与反序列化加载过程,进而实现了基于改进随机森林模型的大规模数据分类模型的分布式扩展.  相似文献   

14.
当前深度学习是基于大量标注数据样本通过多层网络实现模型自动识别。然而,在很多特殊场景下,难以获取大量标注样本数据,小样本物体识别仍是深度学习下关键性的难题。针对这一问题,首先利用4层深度卷积神经网络(deep convolution neural network,DCNN)提取训练样本和测试样本的高层语义特征,然后基于改进的匹配网络分别采用双向LSTM和attLSTM算法对训练样本和测试样本深入提取更加关键和有用特征并进行编码,最后在平方欧氏距离上利用softmax非线性分类器对测试样本进行分类识别。实验通过Omniglot数据集对提出的改进模型进行测试,取得了非常好的效果。改进的模型即使在最复杂的20 way 1 shot情况下,依然能够达到93.2%的识别率,Vinyals的原创匹配网络模型在20 way 1 shot的情况下只能达到88.2%的识别率,与原创匹配网络模型相比,改进的模型在类别数更多而样本数较少的复杂场景下具有更好的识别效果。  相似文献   

15.
In many machine learning problems, a large amount of data is available but only a few of them can be labeled easily. This provides a research branch to effectively combine unlabeled and labeled data to infer the labels of unlabeled ones, that is, to develop transductive learning. In this article, based on Pattern classification via single sphere (SSPC), which seeks a hypersphere to separate data with the maximum separation ratio, a progressive transductive pattern classification method via single sphere (PTSSPC) is proposed to construct the classifier using both the labeled and unlabeled data. PTSSPC utilize the additional information of the unlabeled samples and obtain better classification performance than SSPC when insufficient labeled data information is available. Experiment results show the algorithm can yields better performance.  相似文献   

16.
设计了融合参数模型和非参数机器学习模型进行训练的算法,利用非参数模型拟合参数模型,将其作为先验分布,然后采用贝叶斯学习方法进行优化,并在训练中实现分布的动态调整。该方法在训练过程中有助于避免模型参数过度波动,提升模型泛化能力。针对期权定价,在BS、Heston等参数模型及神经网络等机器学习模型基础上,构建了相应的融合模型BS_BR和HS_BR,并利用市场数据进行了实证分析。研究表明,融合模型可以较好地发挥两类模型的优势,无论是在样本内拟合效率,还是样本外预测能力方面都具有更好的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号