首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 828 毫秒
1.
针对相似性连接问题, 提出了动态双重前缀的模糊相似性连接算法.与之前的算法不同的是,本文采用双重前缀,即在查找候选以及构建索引时使用不同的前缀来提高过滤效率,并在此基础上进行了优化.首先通过取各个前缀生成的候选集合的交集来缩小候选集合;其次提出最大区分任选前缀,利用此前缀进行预验证来减少最终进入到验证过程的候选对,以此来减少连接时间.并且在三个真实数据集上进行实验,将本文算法与Silkmoth算法以及MF-Join算法进行比较,结果表明所提算法可以生成更小的候选集集合并且需要更少的连接时间.  相似文献   

2.
“No Free Lunch”定理表明:若无任何先验假设,则没有理由认为一种算法优于另一种算法.算法的性能与问题的元特征密切相关.目前的元特征提取方法只关注从数据集中提取元特征,而忽略了候选算法元特征的提取.为此,在原有元特征集合的基础上提出基于决策树桩的元特征提取方法,将候选算法信息纳入新的元特征集合中.实验表明:在传统元特征集合中加入基于决策树桩的元特征后,算法排序的预测准确率能够得到显著提高.  相似文献   

3.
针对序列模式挖掘(GSP)算法在中文产品评论特征提取中准确率不够高的问题,提出了一种二次剪枝算法,即利用GSP算法产生候选特征集,然后采用词对共现度作为阈值对其进行进一步筛选,从而达到提高准确率的目的.利用定制化的爬虫工具从京东网站上抓取摄像头产品的中文评论,选取其中1 000条作为试验数据,采用分词工具ICTCLAS对评论进行分词和数据预处理,并将所提算法与GSP算法、交叉语言模型(CLM)和似然比检验(LRT)进行对比试验.结果表明,利用所提算法获得的中文产品评论特征提取准确率达到76.37%,较GSP算法、CLM和LRT的准确率分别提高2.94%,5.77%和7.57%.  相似文献   

4.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

5.
针对互联网中的产品评论信息,提出一种三层过滤的评价对象抽取方法.该方法采用一个自举式的抽取算法在评论文本中得到候选的评价对象和情感词;利用评价对象与情感词之间的关联度对候选词进行关联置信度计算,提取关联置信度高的评价对象以提高识别的准确率;引入一个不相关的平行领域对剩余的候选词进行领域置信度计算,挖掘低频的评价对象.3个公开数据集中的实验结果表明该方法能够显著地提高评价对象的识别效果.   相似文献   

6.
张青 《河南科学》2015,(1):65-68
Apriori算法是关联规则挖掘的经典算法,该算法在处理规模巨大的候选项目集时存在耗时长和效率低的问题,提出了采用分割法对数据进行分片的优化算法.实验证明该算法不仅能减少数据挖掘对系统资源的占用,而且解决了数据库中数据分割下局部频繁项目序列集产生和全局频繁项目序列集的转换问题.  相似文献   

7.
针对LEM2(Learning from Examples Module,Version 2)算法处理不完备信息系统的局限性,从规则提取的质量和效率两个方面对其进行改进,提出改进的LEM2规则提取算法.基于集对理论,引入集对势容差关系和基于集对势容差关系的扩充粗糙集模型,将该模型和LEM2算法相结合,提高规则提取的质量;定义冗余的属性-值对集合,在规则提取过程中,从候选属性-值对集中直接删除冗余的属性-值对,避免反向消除步骤,加快算法的收敛速度,提高规则提取的效率.最后通过仿真实验,证明了改进LEM2算法用于不完备信息系统规则提取的有效性.  相似文献   

8.
从评论的文本特征及元数据特征两个角度提取特征,避免特征向量过于稀疏.提出了基于随机森林的Adaboost算法,以减弱商品评论数据集不平衡性的影响.部分垃圾评论特征比较显著,采用规则匹配进一步提高垃圾评论识别的召回率.通过在COAE2015任务4提供的数据集上进行实验,取得较好的识别效果,验证了所提方法的有效性.  相似文献   

9.
提出融合用户评论的协同过滤推荐算法,通过挖掘电商网站的用户评论信息,获取用户评论中的产品特征和意见,通过计算每个特征意见对的极性,得到特征矩阵,结合用户意见质量形成的用户评分矩阵,求出用户评分的相似度.最后结合特征矩阵和用户评分相似度得出目标用户的综合相似度,并由预测评分得出产品推荐表,对用户进行产品推荐.实验结果表明,提出的算法与常用的推荐算法相比,改善了推荐的质量,同时推荐精度得到提高.  相似文献   

10.
李实 《科学技术与工程》2012,12(21):5181-5186
目前互联网已经成为信息和观点的交换主要媒介,因此也成为了手机用户对于产品观点的最佳来源.但是目前为止研究中文文本的评论挖掘问题的研究还比较少.为了进一步发展这一领域的研究,旨在从中文客户评论中得到用户关心的产品特征.方法基于关联规则理论中的Apriori算法.主要通过计算频繁特征项的各分量在文本中出现位置的概率,从而确定挖掘到的候选产品特征中词汇的语序,使挖掘结果满足中文的正规语法要求.采用因特网上的评论数据作为语料,通过实验结果表明所提出的方法使得中文评论中的产品特征挖掘性能有所提高.  相似文献   

11.
贾俊杰 《甘肃科技》2005,21(2):88-90,59
提出了一种新的关联规则挖掘算法-Suppoqui算法,该算法是通过对集合树进行遍历来求频繁项集,它取消了候选集的求解过程,抛弃了以往传统算法求解频繁项集的思路,因此该算法是高效的。  相似文献   

12.
针对复杂场景下的三维点云目标识别速度慢,准确率低的问题,提出了一种基于关键点的点对特征三维目标识别算法. 通过直接对关键点建立点对特征,避免了周围邻域局部曲面的特征计算,具有空间维度小和计算速度快的特点. 使用哈希表存储,加快了特征匹配的时间. 利用快速投票方案对模型点云和场景点云进行匹配识别,生成候选位姿,利用贪婪算法对候选位姿进行聚类与筛选,采用ICP算法对物体位姿进行优化,基于配准后的点云重叠情况完成目标识别. 对提出的算法在多个数据集以及真实场景下进行了实验,验证了所提出的识别方法具有可行性和有效性,且对噪声的鲁棒性较强,具有一定的实际工程应用价值.   相似文献   

13.
孤立性肺结节诊断模型中未得到充分解决的一个关键问题就是如何选择合适的特征子集。为了构建一个良好的诊断预测模型,提高肺结节良恶性诊断的效率以及准确率,提出了一种基于联合互信息的混合模型特征子集选择算法。该算法综合过滤式和包裹式特征选择模型各自的优势,首先使用过滤式方法得到与诊断有高相关度的候选特征子集,然后通过包裹式方法对候选特征子集进行特征间冗余分析,最后得到最优特征子集。实验表明,该算法与基于其他互信息的过滤式、混合模型特征选择方法相比,不仅在特征子集数目上,而且在良恶性诊断的敏感性、特异性和平均分类准确率上,均具有很好的性能效果。  相似文献   

14.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

15.
情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘情感词的边界特征、构建边界特征集,利用边界特征集提取情感新词候选集,通过bigram搭配、序列模式等方法对情感新词候选集进行过滤,根据候选串的频次、与其搭配的边界特征在语料中的分布情况对候选串进行评分。在微博语料上的实验结果显示,该方法对情感新词识别的准确率与候选串得分正相关,当候选串得分为11时准确率为83.33%。实验证明,基于边界特征的情感新词的提取方法能够有效地识别大规模语料中的情感新词。  相似文献   

16.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

17.
将人工免疫及集合最近邻方法应用于人脸检测中,实现一种基于特征的人脸检测算法.首先对人脸图象进行多分辨率小波分解,用低频分量来描述人脸识别,实现数据压缩,并有效削弱光照的影响;然后对小波低频图象进行傅立叶变换,分析变换后的系数矩阵,取得人脸图象的特征向量;采用了人工免疫中的克隆选择算法,对一个人的多张不同表情的人脸图像进行训练,产生一个简约特征集合,用这个简约集合代表此人的人脸特征数据库;就待识别人脸而言,以待识别人脸到人脸数据库中各个人脸特征集合的集合最近邻作为识别结果.实验结果表明,人工免疫算法可以有效地获取训练样本的人脸特征集简约集合,再通过集合最近邻进行人脸识别,可以提高准确率.  相似文献   

18.
为能够向广大读者精准推荐所需图书,达到节省搜寻精力和时间的目的,在传统图书推荐方法的基础上,将读者评论中的情感因素考虑在内,提出了一种基于情感分析和Word2Vec的图书推荐方法:抓取豆瓣网上的图书数据,构建专有特征数据集;针对情感词典设计了相应的情感计算规则,利用训练好的Word2Vec模型扩充情感词汇;通过情感词典完成对读者评论的情感分析,并将提取到的情感特征加入特征集内;采用随机森林算法对其进行口碑分类.研究发现,该方法优于基于原始特征集的方法,实验准确率和F值均有一定提升,是向读者实现图书精准推荐的有效途径,具有一定的实用价值和应用前景.  相似文献   

19.
基于约束的关联规则挖掘是针对特定约束的规则的挖掘,挖掘的结果有着更好的针对性和实用性,Separate算法是现有的效果较好的算法,但有2点不足:未修剪生成的候选集和候选项重复生成。对此该文提出了改进的SeparateP算法,算法中加入了对候选集的修剪,并且利用了项集重复生成的信息,使候选集的修剪更加有效快捷。实验表明,改进算法显著提高了原算法的效率。  相似文献   

20.
通过分析分类规则与训练集之间的映射关系,采用集合的相关运算寻找特征规则及相应特征集,从而消除分类规则集中存在的冗余,并在此基础上提出了基于集合运算的分类规则处理算法(PASO).最后,以恒星光谱数据为背景,实验验证了该方法的正确性和可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号