首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局限性,文中分析了文本语义与指纹排列顺序的关系,提出了语义匹配方法,将指纹向量投影到一个二进制向量,在降低维数的同时保留了指纹的位置信息.在PAN公用语料集上将该方法与Jaccard和Hamming距离法进行了对比测试,发现文中方法的召回率和准确度均更优.  相似文献   

2.
多文档文摘提取方法的研究   总被引:1,自引:0,他引:1  
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法.  相似文献   

3.
基于文档指纹的中文复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。  相似文献   

4.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

5.
文本生成技术的恶意滥用问题日益严重,因此生成文本检测技术至关重要. 现有的检测方法依赖于基于特定数据集的统计异常特征,从而导致方法的泛化能力较差. 本文考虑不同种类生成文本均易出现的事实错误、语义冲突问题,提出了一种基于事实和语义一致性的生成文本检测方法. 该方法通过实体将文本和外部知识库进行比较,得到文本的事实一致性特征. 另一方面,该方法借助文本蕴含技术对文本上文与下文进行关系推理,得到文本的语义一致性特征. 最后将这两类特征与RoBERTa的输出隐藏向量拼接,输入到线性分类层进行预测. 实验结果表明,该方法比当前的检测方法具有更高的准确率和泛化能力.  相似文献   

6.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

7.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

8.
基于潜在语义的多类文本分类模型研究   总被引:15,自引:0,他引:15  
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定.  相似文献   

9.
基于语义理解的文本相似度算法   总被引:26,自引:0,他引:26  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高.  相似文献   

10.
基于核方法的潜在语义文本分类模型   总被引:4,自引:0,他引:4  
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能.  相似文献   

11.
基于方向图的指纹纹线检出算法研究   总被引:1,自引:0,他引:1  
指纹纹线检出大多是先按指纹方向图增强指纹图象,然后进行图象分割。但因指纹脊线内和谷线内的图象增强方向可能不一致,使得图象分割的效果不好。作者提出一种直接按指纹方向图进行指纹纹线检出的算法,它先采用拓宽的Prewitt算子计算指纹图象的梯度矢量图,然后用局部最大梯度法计算指纹方向图,最后用阶跃函数模拟从原始指纹图象和指纹方向图中进行指纹纹线检出。  相似文献   

12.
In order to improve the efficiency of the fingerprint core location algorithm, a fingerprint core location method using sliding window on the basis of core location algorithm with the complex filter was proposed. The local region of the fingerprint image was extracted by a fixed-size window sliding in the region of the fingerprint image, and the selected local region by window as the calculation object is used to detect the core. The experiment results show that the method cannot only effectively detect fingerprint core, but also improve the efficiency of the detection algorithm comparing with the global fingerprint core location detection algorithm.  相似文献   

13.
长白山人参的毛细管电泳指纹图谱   总被引:1,自引:0,他引:1  
建立了长白山人参的高效毛细管电泳(HPCE)指纹图谱.研究了不同的预处理方法、检测波长、分离电压、缓冲体系对人参指纹图谱的影响,并对原产地长白山人参和人工种植人参的指纹图谱进行了比较.采用毛细管区带电泳法测定指纹图谱,电泳条件:75 μm i.d.未涂层石英毛细管(有效长度65 cm),以20 mmol/L的硼砂缓冲体系做背景电解质,分离电压18 kV,检测波长243 nm,气压进样3 s,进样压力8 kPa,温度为室温.  相似文献   

14.
针对传统的奇异点检测方法主要基于方向场变化且容易受噪声影响,提出了一种新的基于模型分析的指纹奇异点检测方法.首先用基于离散余弦变换基函数对方向场进行建模,在计算方向场的基础上,利用常微分方程系统线性化数学模型,通过对模型参数和平衡点进行分析,检测指纹奇异点位置.实验结果表明,基于常微分方程线性化模型分析的指纹奇异点检测方法比传统的Poincare Index方法对噪声更具有较好的鲁棒性,能进一步提高奇异点检测的准确度.
  相似文献   

15.
通过分析病毒程序的典型传染行为模式,总结出传染模块的典型语义特征,形成描述其语义特征的语义关系框架,在此基础上提出了一种针对未知病毒的检测方法——基于程序语义的病毒检测方法。该方法是通过抽取程序的语义关系框架,将之与病毒的语义关系框架进行匹配,达到检测未知病毒的目的。模拟实验中选取三种病毒作为样本,检测了20个程序,结果表明,在阈值D=0.9时,检测的准确率为87.5%。  相似文献   

16.
基于SUSAN的指纹细节点提取算法   总被引:3,自引:0,他引:3  
在整个指纹识别过程中,指纹图像的细节点提取至关重要.许多算法是先将脊线细化后进行提取,耗时较多,且易产生大量不易去除的伪细节点.作者将一般图象配准中常用的角点检测技术运用到指纹识别中,提出基于SUSAN的指纹细节点提取新算法.该法在传统的SUSAN上进行数项改进,使其适用于指纹图象,完成端点和分叉点的提取,再根据所产生伪细节点的分布情况将它们去除.此法计算简单、抗噪声能力强、不需事先对脊线进行细化.  相似文献   

17.
针对点云分割中分割目标不明确,边缘不清晰,全局特征与边缘特征未能有效融合等问题,提出 了一种融合边缘检测的 3D 点云语义分割算法。 首先,通过 3D 点云语义分割网络对点云数据进行初步提取 区域内的全局语义特征;然后,采用引入了注意力机制的语义边缘检测网络,能够更好地对点云数据中的物 体进行特征提取增强,抑制非边缘信息的产生,得到了具有丰富的语义信息的边缘特征;最后,通过融合模块 将属于同一物体的语义特征融合起来进行分割细化处理,使得分割目标更精确;此外,使用了双重语义损失 函数,使网络产生具有更好边界的语义分割结果。 通过搭建实验平台和使用 S3DIS 标准数据集进行测试,改 进后的算法在数据集上的平均交互比为 70. 21%,在精度上较 KPConv 语义分割算法有所提高。 实验结果表 明:该算法能够有效改善物体边界分割不清晰、边缘信息模糊等问题,总体分割性能良好。  相似文献   

18.
李应鑫  左韬  赵雄 《科学技术与工程》2023,23(15):6495-6505
传统的视觉SLAM系统在机器人定位和制图工作中取得了显著的成功,但存在着缺乏场景信息、地图过于稀疏、单目相机初始化困难等亟待解决的问题。本文提出了MNS-SLAM(Monocular-semantic SLAM),将目标检测算法与单目视觉SLAM(同时定位与地图构建)技术相结合,进而构建有助于环境理解的半稠密语义地图。首先,通过目标检测网络YOLOv4检测对象获取边界框和类别信息,通过消失点算法和二次曲面恢复算法由2D目标检测恢复出3D长方体及二次曲面,实现3D物体的位姿初始化。同时,引入了目标间相对位姿不变性的语义约束,构造了语义损失函数,将其添加到BA优化中,最后通过增量式3D线段提取,构建带有物体语义信息的半稠密地图。文中方法在TUM公开数据集和真实场景中进行试验,不仅构建了半稠密地图,同时添加了语义信息,为后端的优化提供了新的约束,相机的绝对和相对位姿误差表现出优于单目ORB-SLAM2的性能,有助于搭载单目相机的移动机器人感知和理解环境,执行更复杂的任务。  相似文献   

19.
基于语义的图像检索是目前人脸图像检索领域研究发展的新趋势,所谓语义化人脸图像检索,通常是指根据待检索人脸图像的特征,去语义数据库中搜索最为匹配的人脸图像的过程,眼睛是人脸部特征的重要组成部分,眼睛的检测对于人脸信息的处理具有重要的意义;当前学术领域关于眼部特征提取的研究有很多,目前还没有一种眼部特征提取技术是公认快速有效的,主要讨论了人眼特征提取技术的一些主要方法,对现有的人眼定位,人眼区域分割,人眼特征提取的方法进行分析和讨论;最后对基于眼部特征语义化图像检索的发展和应用做一个简单的展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号