首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

2.
词语相似度计算是论文复制检测的一个关键问题,在具有中英文词语知识的HowNet上,通过对现有典型的词语相似度算法分析,综合考虑词语相关性、层次树的深度和密度等多维度因素,提出一种新的词语相似度计算算法,实验表明计算结果更符合实际词语的相似度判断.  相似文献   

3.
语句相似度计算是设计和实现智能答疑系统的关键技术.由于智能答疑系统一般面向受限领域的特点,在构建出其领域本体的基础上,利用本体语义树计算词汇相似度,从而计算出语句的语义相似度.最后,设计了一个实验模型验证了该语句相似度算法的有效性.  相似文献   

4.
一种基于知网的词汇语义相似度改进计算方法   总被引:4,自引:0,他引:4  
汉语词语语义相似度计算是中文信息处理中的一个关键问题.在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程.实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性.  相似文献   

5.
PageRank算法是最为经典的Web结构挖掘算法,但是其存在主题漂移的问题,使得搜索结果中存在大量与查询主题无关的网页。在分析Page Rank算法的基础上,提出利用欧式距离计算主题相似度并融入传统的PageRank算法中,形成一个改进的网页排序算法,并把此算法应用到云计算环境中,研究MapReduce编程模型上的PageRank算法流程。  相似文献   

6.
谷春英  张顺利 《科学技术与工程》2013,(10):2871-2874,2879
恶意程序代码的相似度估计是恶意程序代码分析和检测的重要研究内容。现有的方法主要是对恶意程序代码进行属性计算或结构度量,但由于恶意程序代码结构的灵活性和恶意程序代码的伪装、恶意程序代码的相似度较难度量。提出了改进指纹和LSC加权的恶意程序代码相似度估计算法。该算法首先对恶意程序代码进行函数作用域划分和标准化预处理,然后对其进行字串序列化,利用改进的指纹相似度来对恶意程序代码的相似度进行度量;同时结合最大公共字串匹配算法进行结构度量,并对其相似度计算结果进行加权,对恶意程序代码结构的相似度进行综合估计。实验以C语言结构的程序代码为例,利用折半查找算法生成恶意程序代码测试数据集进行算法有效性验证。仿真证明该算法具有较好的恶意程序代码相似度估算精度。  相似文献   

7.
欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性.  相似文献   

8.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

9.
针对基于路径的半结构化数据结构相似度度量方法不能很好地处理路径部分相似以及忽略了元素之间兄弟关系的问题,提出一种基于频繁关联标签序列的结构相似度度量方法,该方法将半结构化数据的结构信息视为标签序列的集合,采用数据挖掘技术中频繁模式和关联项集的概念及算法,从半结构化数据中挖掘频繁关联标签序列并以此作为特征计算其结构相似度.实验结果证明:提出的基于频繁关联标签序列的半结构化数据结构相似度度量方法可以解决基于路径方法的不足,计算的结构相似度更准确、更合理.  相似文献   

10.
提出一种新的纹理合成技术,该方法对样本纹理图像进行采样,逐块合成纹理图像.在寻找最优候选匹配块时改变以往算法中仅匹配颜色相似度的做法,加入结构信息,提高了块边界结构的相似度.用该算法选择的最优匹配块更符合人的视觉特性,合成图像接缝区域的过渡更为流畅,结构单元的完整性明显优于原有方法.实验结果表明,该算法对结构性强的纹理具有良好的合成效果.  相似文献   

11.
云制造资源语义描述和服务匹配策略   总被引:2,自引:2,他引:0  
针对云制造环境下资源语义描述和服务匹配问题,在充分考虑用户个性化需求与制造资源异构性的基础上,分析了云制造资源描述和服务匹配的难点,利用规范化描述的特点,将制造资源描述问题转化为Web语义描述问题,提出一种通用的制造资源语义描述框架。结合4种相似度算法,设计了阀值和权重,提出了基于过滤器的服务匹配策略。实验结果证明了该策略和算法的有效性和可行性。应用这4种相似度算法能够有效缩小匹配的规模,提高了服务的查找效率与准确度。  相似文献   

12.
在对Web服务和领域本体研究的基础上,把语义网和Web服务相结合,提出了一个售票领域本体模型,用本体中丰富的关系表达传统Web服务所不能表达的语义,依据Web服务描述本身的特点,对基于语义的Web服务相似度计算方法进行了研究,提出了一种不同于关键字匹配的基于语义距离的Web服务匹配算法。  相似文献   

13.
提出了一种改进的基于空间结构约束的迭代最近点(ICP)影像配准方法.该方法通过结合特征点的空间结构相似性和特征相似性获得特征点的匹配矩阵,其中特征相似性通过特征点的局部特征描述算子进行计算,空间相似性则通过特征点的空间位置进行计算.特征点之间的空间结构相似性不仅包括了对应特征点之间的空间距离,还包含了特征点到邻近特征点的空间距离.在匹配过程中,分别从参考影像和待配准影像的角度出发,实现了匹配的对称性处理.通过对具有不同影像特征的真实遥感影像进行实验,结果表明该算法具有较高的配准精度.  相似文献   

14.
针对目前基于语义的服务匹配系统中的匹配方法存在对同一等级概念区别不清的问题,采用Web Services和语义Web技术,提出了一个基于UDDI和OWL-S的服务匹配模型,即对传统服务匹配模型的UDDI中引入语义化服务描述和基于数值计算的语义匹配功能.并综合利用基于几何距离和基于信息容量两种语义相似度算法的优点,设计了一种综合语义匹配算法,最后通过实验验证了该方法的优越性.  相似文献   

15.
为了克服当前图像匹配方法主要通过测量距离的方法来实现图像匹配,忽略了图像间的相似度,导致算法存在错误匹配较多以及鲁棒性较差的问题。本文提出了基于相似度模型耦合角度制约规则的图像匹配算法。采用FAST检测方法对图像特征进行检测,快速获取鲁棒特征点,以改善算法的匹配正确率。随后,利用SURF特征描述机制,通过计算特征圆域内的Haar小波响应值,对特征点进行描述。引入结构相似度SSIM(structural similarity index measurement)模型,将其与欧氏距离模型相结合,构造相似度模型,从结构相似度与测量距离两方面出发,将特征点进行粗匹配。最后,利用特征点的余弦关系,求取特征点间角度,建立角度制约规则,对粗匹配结果完成优化。实验结果显示:与典型的匹配方法相比,该算法具有更好的匹配性能较好,在多种几何变换下仍具有理想的匹配精度。  相似文献   

16.
在对Web服务和领域本体研究的基础上,把语义网和Web服务相结合,提出了一个售票领域本体模型,用本体中丰富的关系表达传统Web服务所不能表达的语义,依据Web服务描述本身的特点,对基于语义的Web服务相似度计算方法进行了研究,提出了一种不同于关键字匹配的基于语义距离的Web服务匹配算法。  相似文献   

17.
结构化自动问答系统采用传统方法缺少对词汇、词序和结构的划分,导致语句相似度较低,为了解决该问题,提出了基于Web语义的混合问句相似度计算方法。根据结构化自动问答系统结构,设计系统语句分析模型,通过正向匹配方法,对模型专业词库中的用户输入自然语句进行分词处理,并对字符串之间的关系展开分析。采用非恒定相似度系数来描述2个字符串的相似情况,并由此分析词形、词序和结构相似度,完成不同语句相似度的计算。通过实验对比可知,文章提出的基于Web语义的混合问句相似度计算方法最高计算精准度可达到96%,可提升自动问答系统的整体性能。  相似文献   

18.
基于本体的语义相似性研究   总被引:2,自引:2,他引:0  
李文超  杨妮妮 《科学技术与工程》2012,12(21):5328-5330,5336
为了在信息检索中,从语义层面全面理解用户查询意图,提高信息的查全率和查准率,提出了基于本体的语义相似性和相关性计算方法。该算法充分考虑了本体模型结构的特点和本体间语义距离、本体密集度等因素对语义相似性的影响,提高了信息检索性能。以煤炭矿井工程的知识体系为例,建立了本体库模型,并设计了本体库的树状内存数据结构。通过实验仿真计算验证了本体相似性算法的有效性。  相似文献   

19.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

20.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号