首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种改进的基于树路径匹配的网页结构相似度算法   总被引:1,自引:0,他引:1  
提出一种改进的基于树路径匹配的网页结构相似度算法, 该算法定义了树路径的序列相似度和位置相似度, 找出网页的树路径集合, 通过网页间的最佳树路径匹配计算结构相似度. 实验结果表明, 用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际, 更合理有效.  相似文献   

2.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

3.
语句相似度计算是设计和实现智能答疑系统的关键技术.由于智能答疑系统一般面向受限领域的特点,在构建出其领域本体的基础上,利用本体语义树计算词汇相似度,从而计算出语句的语义相似度.最后,设计了一个实验模型验证了该语句相似度算法的有效性.  相似文献   

4.
属性相似度的准确性是影响实体分辨准确程度的重要因素之一.为提高属性相似度的准确性,分析了属性相似度与函数依赖的关系,给出了属性相似度调整原则,提出了依据函数依赖进行相似度划分、相似度传递调整和计算相似度调整代价的方法,提出了通过属性相似度调整提高属性相似度准确性的属性相似度传递调整算法.实验结果表明,该算法能够更好地区分匹配记录对和不匹配记录对,获得更高的查全率、查准率和F1值.  相似文献   

5.
谷春英  张顺利 《科学技术与工程》2013,(10):2871-2874,2879
恶意程序代码的相似度估计是恶意程序代码分析和检测的重要研究内容。现有的方法主要是对恶意程序代码进行属性计算或结构度量,但由于恶意程序代码结构的灵活性和恶意程序代码的伪装、恶意程序代码的相似度较难度量。提出了改进指纹和LSC加权的恶意程序代码相似度估计算法。该算法首先对恶意程序代码进行函数作用域划分和标准化预处理,然后对其进行字串序列化,利用改进的指纹相似度来对恶意程序代码的相似度进行度量;同时结合最大公共字串匹配算法进行结构度量,并对其相似度计算结果进行加权,对恶意程序代码结构的相似度进行综合估计。实验以C语言结构的程序代码为例,利用折半查找算法生成恶意程序代码测试数据集进行算法有效性验证。仿真证明该算法具有较好的恶意程序代码相似度估算精度。  相似文献   

6.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

7.
协同过滤算法为推荐系统提供了一种方法,但传统的协同过滤方法推荐精度低.提出一种考虑用户评分相似性的协同过滤算法,通过在皮尔逊相关系数中加入项目数量相似度和用户评分相似度两个因素来计算用户间的相似度,以产生更合理的邻居用户,提高推荐精度,完成对用户的推荐,同时邻居用户的选取采用动态阈值设定方法.实验结果表明,所提出的算法相比传统方法选择出的邻居更为精确,推荐质量更高.  相似文献   

8.
为了解决遗传算法(GA)中好的建筑块被破坏的问题,作者提出了CBR-GA算法.在构建案例库的过程中,基于案例相似度判断是否将新案例加入案例库.本文以4阶欺骗问题为例,分析了不同的案例相似度对CBR-GA算法性能的影响.  相似文献   

9.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

10.
介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客户分类的有效性.  相似文献   

11.
基于中文WordNet的中英文词语相似度计算   总被引:3,自引:0,他引:3  
介绍一种基于中文WordNet的中英文词语相似度计算方法.在WordNet同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度,采用一个自适应的方案来解决候选同义词集组合的权重和取舍问题.实现了一个可以计算英-英、汉-英、汉-汉词语之间相似度的算法,所得结果比较符合人们对词语的理解.  相似文献   

12.
针对现有本体映射过程中相似度计算方法的精度及效率的不足,提出一种新的综合概念相似度算法模型,该算法分别对本体概念的名称、属性和实例相似度进行计算,过程中融合了信息增益和聚类集方法,并最终对三种相似度量结果加权综合。实验表明,算法得出的概念相似度计算结果在合理性和准确率上都有所提高。  相似文献   

13.
为提高软件项目案例相似度算法的精确度,在分析传统的基于匹配函数的相似度算法基础上,结合软件项目案例的特点,建立了基于神经网络的软件项目案例相似度算法模型,通过对已完成项目案例学习,模型自动计算案例各个特征之间的权重,解决了人为给定特征权值的主观性,使软件项目案例相似度的更加准确,为软件项目相似案例搜索提供依据.  相似文献   

14.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

15.
词语相似度计算是论文复制检测的一个关键问题,在具有中英文词语知识的HowNet上,通过对现有典型的词语相似度算法分析,综合考虑词语相关性、层次树的深度和密度等多维度因素,提出一种新的词语相似度计算算法,实验表明计算结果更符合实际词语的相似度判断.  相似文献   

16.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

17.
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.  相似文献   

18.
协同过滤技术作为目前最常见的个性化推荐技术之一,被广泛认可和应用.作为基于内容的算法执行方式,协同过滤在准确性上具有相当的优势.该算法的核心问题是相似度的计算.本论文介绍了传统协同过滤算法,并对原有的相似度公式进行了优化,使得相似度计算更具有准确性.实验表明,文中提出的优化方法在推荐精度上有显著提高,降低了平均绝对误差(Mean Absolute Error,MAE).  相似文献   

19.
图像质量评价方法用来评价图像质量或图像处理算法的优劣,在图像处理领域至关重要。Zhou Wang等人提出的结构相似度图像质量评价方法,具有计算简单、性能优越的特性。但其不足之一是没有区别对待图像的边缘块,细节块和平滑块,仅简单地取子块结构相似度(SSIM)的平均值而得到整幅图像的平均结构相似度MSSIM。基于此,本文提出了一种基于图像块分类的加权平均结构相似度(WSSIM)的图像质量评价算法,并进行了大量的仿真实验,实验结果证明,本文所提算法明显比MSSIM更加符合人眼视觉系统特性(HVS)。  相似文献   

20.
针对传统的语义相似度计算方法计算量过大、 计算过程较复杂等问题, 提出了一种基于阶段递进的综合本体相似度计算方法。该方法把计算相似度的过程分为4个阶段, 每个阶段根据实际情况设定一个阈值, 如果此阶段计算的相似度大于阈值, 则计算下一阶段的相似度; 如果小于阈值, 则认为该对概念间不相似, 不必再计算以下各阶段的相似度, 可大大减少相似度的计算量, 使计算过程清晰可控。通过实验数据可知, 该算法与Glue算法相比, 其查全率、 查准率分别提高4.78%和3.05%, 而计算效率提高50%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号