首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法。TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度。实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性。  相似文献   

2.
本文针对当前异构系统中存在的数据孤立问题,在对多源异构数据集成技术以及基于XML文档的异构数据集成、交换技术进行研究的基础上,设计了基于XML的异构数据集成的流程和技术路线,针对数据库与XML文档的异同,分析并设计了数据库与XML文档之间的映射和转换模型,通过应用实例描述了基于XML-QL查询语言的异构数据集成算法。  相似文献   

3.
一种基于结构信息总结树的XML文档聚类方法   总被引:2,自引:0,他引:2  
提出一种有效的XML文档结构信息表达方法,用数字化的结构总结树SST对XML文档的结构信息进行编码,在此基础上给出结构距离的定义,并采用遗传算法对XML文档进行聚类.实验证明该方法分类准确率高,易于实现,且不需先验的DTD知识.  相似文献   

4.
针对复杂网络社区跟踪中存在忽略演化时域因素以及忽略网络成员演化差异性不足等问题,提出一种社区跟踪方法.对相似函数添加时域信息,并考虑网络演化的平滑性与节点间的差异性,提取网络中的活跃节点进行社区跟踪.实验表明,该算法在DBLP数据集上能比其他社区跟踪算法更好地发现社区演化过程,且找到的社区信息相似度较高.  相似文献   

5.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

6.
一种改进的粗集综合评价方法   总被引:3,自引:0,他引:3  
基于区分矩阵的粗集综合评价方法由于存在对评价对象的反复比较,因此影响了求解指标约简及权重的效率.利用区分矩阵的变形———广义信息表提出的一种改进的粗集综合评价方法,能够减少对对象的重复比较,更快地进行指标约简和权重设置.此外,通过将该方法应用于政府效率评估来验证了方法的可行性和有效性.  相似文献   

7.
评分预测是推荐系统的重要环节,现在大部分的评分预测是利用用户的历史评分记录来推断该用户将给某个项目打多少分.该方法利用了用户历史评分记录,没有充分利用用户或者项目属性,平均绝对误差较大.针对以上问题,构造一种基于用户自画像的评分预测协同过滤推荐算法.该算法通过计算用户之间历史评分记录的相似度和用户自画像之间的相似度,然后计算出两种相似度的权重,把两种相似度乘以各自的权重进行组合.实验结果表明,构造的评分预测算法较好的减少预测评分和实际评分之间的平均绝对误差,提高了评分预测的准确性.  相似文献   

8.
传统的协同过滤推荐方法存在单视角信息利用不足、预测精度不高、对数据稀疏性敏感等问题,为此提出同时考虑相似用户和相似项目的双视角协同过滤推荐方法.根据辩证的思想,利用项目内部因子和外部因子生成项目融合相似度,有效度量了项目相似性和用户相似性,并解决了双视角协同过滤推荐方法对数据稀疏性敏感的问题.在标准数据集上多次进行的实验表明,基于用户和项目的双视角协同过滤推荐方法优于多个典型的协同过滤推荐方法.  相似文献   

9.
在改进灰色多层次评价方法的基础上,建立了应急预案实施效果评价模型,并辅以算例对模型进行了验证.改进主要体现在:一是引入专家权重,对AHP群决策中不同专家确定的指标权重进行加权修正;二是构建了基于AHP-熵权法的组合赋权法计算指标权重,避免了传统AHP过于依赖专家的不足;三是在综合评价的基础上,提出计算评价对象单项指标得分的方法.改进后的方法更加严谨,方法体系本身更加完善.根据模型计算结果,可以有针对性地对应急预案进行改进,提升其实施效果.  相似文献   

10.
为了提高中文地名字段匹配的准确度,提出中文地名的相似重复检测与清洗策略和矩阵相似重复匹配方法. 该清洗策略采用矩阵相似重复匹配方法,通过矩阵运算计算中文地名数据之间相同字符或者词语出现的频率,利用频率计算两者之间的语义相似度和结构相似度,然后将语义和结构相似性有机结合,作为相似性判断和重复数据清洗的依据. 实验验证了该方法的可行性和有效性. 结果表明,该方法对于中文地名字段匹配在查准率和召回率方面优于已有的其他算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号