首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对科技类学术论文的跨语种反抄袭识别问题,以中英跨语种抄袭的识别为目标展开了研究,用于探讨进行跨语种抄袭识别的方法.通过挖掘中文译文的内在规律找到了一组可以表明译文风格的译文特征,并通过这些译文特征和决策树算法识别出存在抄袭嫌疑的科技论文.试验系统开放测试的准确率和召回率分别到达了88.68%和79.17%.  相似文献   

2.
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。  相似文献   

3.
基于NLP的军用文书自动生成系统建模   总被引:2,自引:0,他引:2  
军用文书自动生成是C4ISR系统中的关键技术之一 ,是提高指挥效能必不可少的重要环节。通过系统分析 ,文中阐明了C4ISR系统中军用文书生成系统的一个重要发展方向是基于自然语言处理的文书自动生成。根据军用文书生成过程中的信息流向 ,提出了该系统 3个模块的结构模型 :信息理解模块、文书信息库模块、文书生成模块 ,描述了这 3个模块的整体运作流程。该模型对其它领域中基于自然语言理解的文本生成系统具有参考价值  相似文献   

4.
Multi-source information can be utilized collaboratively to improve the performance of information retrieval. To make full use of the document and collection information, this paper introduces a new information retrieval model that relies on the Dempster-Shafer theory of evidence. Each query-document pair is taken as a piece of evidence for the relevance between a document and a query. The evidence is combined using Dempster’s rule of combination, and the belief committed to the relevance is obtained. Retrieved documents are then ranked according to the belief committed to the relevance. Several basic probability assignments are also proposed. Extensive experiments over the Text REtrieval Conference (TREC) test collection ClueWeb09 show that the proposed model provides performance similar to that of the Vector Space Model (VSM). Under certain probability assignments, the proposed model outperforms the VSM by 63% in terms of mean average precision.  相似文献   

5.
与传统数据库对XML数据的处理不同,对XML流数据的处理不仅受实时性的约束,还受存储空间的限制.在Hole-Filler模型的基础上,首先利用XML的查询统计信息,定义了路径频率树,提出了基于兄弟关系的XML流数据剪切分片策略及其算法.在此基础上,提出了基于父子关系的XML流数据剪切分片策略及算法.这两个基于路径频率树的剪切算法有效地提高了XML片段的利用率,增强了XML片段的内聚性.实验结果表明,基于路径频率树的XML剪切算法在剪切时间、查询时间、空间消耗等方面都表现出较好的性能.  相似文献   

6.
科学研究的主要目的是进行知识创新 ,剽窃行为与科学研究的目的背道而驰 ,因而受到世界许多国家的反对与禁止。虽然如此 ,各国防剽窃措施产生的实际效果存在着很大的差异。美国作为世界科技强国 ,在防剽窃方面构筑了三道主要“防线” ,取得了较为理想的结果 ,本文介绍、分析了美国所构筑的这三道主要“防线”及其对我国治理剽窃问题所给予的启示  相似文献   

7.
一种基于主题的文档检索模型   总被引:2,自引:1,他引:1  
现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度.  相似文献   

8.
在XML文档中,相当大的部分是由文本数据组成的,针对XML文本数据占用空间较大、对压缩文本数据有效搜索效率较低的难点,基于BWC提出了压缩XML文本数据索引的技术,通过构造全文本数据模型,并利用整体压缩自索引存储XML文档的文本数据,实验结果表明,该技术不仅有效支持XPath查询语言文本搜索,而且内存消耗相对较小,实现了中小规模数据的内存搜索.  相似文献   

9.
基于PDF文本的信息隐藏技术   总被引:1,自引:1,他引:0  
针对网络环境中信息安全传输问题,给出了一种文本信息隐藏模型。通过分析PDF文档结构,提出了几种实用的文本信息隐藏算法。实验结果证明,算法具有一定的鲁棒性和隐蔽性。  相似文献   

10.
探讨了基于文件过滤驱动的文档透明加解密系统的原理,提出了基于证书体系的文档访问权限控制系统实现的方法。对实现文档透明加解密系统中所使用的一些关键技术进行了阐述,特别是基于证书体系的文档访问权限控制技术能够完整解决加密文档的权限访问控制需要。还对安全进程的识别以及对文件加密客户端的安全保护问题提出了规划。  相似文献   

11.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

12.
为了对频繁更新的文档信息进行有效检索,提出了一种基于贝叶斯的N-Gram统计信息检索模型(Bayesian-based N-Gram,BNG).BNG模型无需对所有文档信息进行重新学习,只需根据新增的文档信息自适应地调整BNG模型的权值,以突出各个词语、文档对语义空间不同的贡献程度.实验结果表明,与现有的统计信息模型相比,提出的BNG模型显著地提高了检索的准确率与召回率.  相似文献   

13.
对公文流转系统进行研究,提出:开发一个通用的公文流转系统,关键是要让用户能根据需要自主设定流程、分配角色和授权控制。并使用UML(统一建模语言)和RationalRose建立了一个灵活、通用的公文流转系统模型。  相似文献   

14.
结合新一代文档格式CEBX,提出一种电子文档动态版权管理方案SDDRM。基于等级密钥管理方法,以段为单位,对电子文档进行加密、授权以及授权的追加、更新与合并。SDDRM包括文档加密封装、文档请求与下载、License请求与下载使用等协议,能够根据客户需求提供按需授权的功能,实现所见即所买的阅读体验。通过对SDDRM的进一步分析,表明SDDRM能提供用户个性化的访问控制,兼顾授权的灵活性和安全性。SDDRM能够实现对数字内容的精细化保护,满足数字出版新型业务发展的需要。  相似文献   

15.
由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统.  相似文献   

16.
针对文本图像提出了一种基于小波域混合状态HMT(Hidden Markov Tree)文本图像子带分割算法.该算法在充分考虑经二维小波变换后各子带之间相关性的同时,分别对背景、文字、图片三种纹理建立了不同状态的HMT模型,并且通过计算机仿真实验说明了陔算法的有效性。  相似文献   

17.
针对基于编码-解码的生成式摘要模型不能充分提取语法知识导致摘要出现不符合语法规则的问题,循环神经网络易遗忘历史信息且训练时无法并行计算导致处理长文本时生成的摘要主旨不显著以及编码速度慢的问题,提出了一种融合序列语法知识的卷积-自注意力生成式摘要方法.该方法对文本构建短语结构树,将语法知识序列化并嵌入到编码器中,使编码时能充分利用语法信息;使用卷积-自注意力模型替换循环神经网络进行编码,更好学习文本的全局和局部信息.在CNN/Daily Mail语料上进行实验,结果表明提出的方法优于当前先进方法,生成的摘要更符合语法规则、主旨更显著且模型的编码速度更快.   相似文献   

18.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

19.
针对XML文档半结构化的特点及传统tf\|idf方法仅考虑关键字在文档中出现的频率, 而未考虑XML文档中节点的语义信息问题, 利用向量空间模型, 设计一种基于XML关键字查询结果的相关度排序策略. 相关度计算充分考虑XML文档中各节点对文档的区分程度、 节点描述文档的明确程度及节点描述文档的直接程度, 以提高节点权重度量的准确性, 从而将最相关的信息提供给用户, 经DBLP数据集实验验证了该方法的有效性.  相似文献   

20.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号