共查询到20条相似文献,搜索用时 15 毫秒
1.
《西北民族学院学报》2020,(2)
大型的、标记密集的数据集是利用大量在线论坛中发现的非结构化数据有效促进文本和图像分析的深度学习方法的创建.虽然这种非结构化数据包比租用的数据注释包花费更低,但它也更容易陷入自然语言应答的陷阱,因为数据的非结构化特性会使回答者可能无法正确回答所提的问题.为了解决这些问题,提出一种深度学习的方法来系统地识别混淆,并从Instagram收集的非结构化数据包注释的数据中提取答案.每个注释数据包含一个图像、一个机器生成的问题和一个非结构化数据包响应.本文使用一个基于Facebook人工智能研究的Pythia体系结构模型:(1)用R-CNN模型来识别突出的特征(自下而上);(2)问题文本用作上下文来衡量这些特征(自上而下).使用基于伯特BERT的分类器来重复训练来自问题和响应的文本特征(不包括图像特征)等任务.结果显示:基于伯特BERT模型(分类AUC-ROC=0.84,应答预测F1=0.77)优于Pythia体系结构(分类AUC-ROC=0.79,应答预测F1=0.46).此外,还提出了一种基于BERT的多任务并行训练模型(1)和(2)能够优于特定任务模型(分类AUC-ROC=0.84,应答预测F1=0.78). 相似文献
2.
XML文档检索技术研究 总被引:2,自引:0,他引:2
网络信息资源急剧增长,如何利用数据检索技术有效的发现和使用资源成为亟待解决的问题.XM L具备许多HTM L没有的优点,更加适合应用于网络检索,探讨了XM L文档检索模型的主要技术问题,并提出了一种基于树查询的索引和部分匹配检索算法. 相似文献
3.
非结构化信息在计算机信息中占了大量份额.非结构化信息分为书面文档信息和流媒体两种,其中书面文档是主要表现形式之一.提出了一种实现可扩展的,支持互操作的非结构化文档管理平台SEP(Sursen exchangeable platform).SEP是针对书面文档的描述、存储、处理、管理、安全的基础技术平台,是非结构化信息处理技术领域中的核心技术.SEP是第一个支持UOML(unstructured operation markup language)标准的非结构化文档管理系统. 相似文献
4.
在信息检索中,关键词之间的距离反映了其对信息描述的集中程度,并对检索结果与用户需求的相关度产生影响。通过对XML数据固有的结构信息进行深入分析,确定了被检索数据的信息对象和信息分支的概念,并考虑以上因素建立语义距离模型。通过该模型的计算,能够更准确地计算出查询结果的相关度。实验结果证明:在真实数据集上,查询质量方面优于现有的主流算法(EASE、SLCA),同时具有较高的查询效率。 相似文献
5.
针对现有专利检索中的用户意图理解及查询扩展不足问题,提出了一种基于自动查询扩展的专利文档检索方法。首先结合专利文档特点,采用基于改进TF-IDF公式的专利领域词表提取方法,构建专利领域词表。在检索阶段,对查询输入串进行分析得到查询关键词汇,同领域词表相结合,确定查询所在领域及查询扩展难度。利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。实验结果表明,该方法具有较高的召回率和平均准确率。 相似文献
6.
视频数据检索是多媒体技术与数据库技术相结合的产物。本文通过介绍非结构化数据库和视频检索技术发展研究和应用现状,提出将非结构化数据库用于视频内容检索,可通过利用XML构建基于非结构化数据库的数据仓库模型,构建非结构化数据库的视频数据检索系统来搭建平台。非结构性数据库作为新兴研究范式将视频检索等相关领域大有作为。 相似文献
7.
8.
基于非结构化P2P网络资源检索的自组织研究 总被引:1,自引:0,他引:1
通过自组织将非结构化P2P网络过渡到半结构化网络,改变传统P2P网络资源检索的盲目性,降低检索请求的响应延迟,减少检索时网络带宽的占用. 针对非结构化网络的不稳定性,设计了易于管理和重构的三层自组织结构,优化检索请求在自组织结构中的传播;当节点退出网络时,采用了平稳的过渡方法,使自组织结构在重构过程中对网络的影响较小;在重构过程中根据节点的稳定程度选择管理节点,使整个网络保持相对稳定. 相似文献
9.
在大规模文档中进行快速的相似搜索对绝大多数信息检索应用程序是至关重要的.基于局部敏感哈希的检索方法将高维的空间数据映射到低维的二进制海明空间,从而实现了快速搜索.本文给出了一个基于核化局部敏感哈希的快速文档检索方法,可以在保证时间效率下允许算法使用不同的相似函数进行快速检索.实验结果表明该方法在大规模文档集合检索中具有较好的效率和准确率. 相似文献
10.
倒排文档检索是情报检索系统的核心问题,而对逻辑提问式的处理又是倒排文档检索的关键步骤。倒排文档检索通常采用福岛方法,这种方法需要较多的内存空间,故对中、大型计算机系统是适宜的。但在情报检索与事务处理己经广泛应用到小型特别是微型计算机系统的情况下,福岛方法就未见得是一种有效的方法。本文在文献[3]的基础上,采用对逻辑提问式中的运算项、算子与算符、以及产生的中间结果统一确定优先级,对逻辑提问式直接进行一次扫描的方式,将中间结果在赋于优先级之后,作为中间文件暂存于外存,以后随用随调求得时间与空间的一种权衡,使之对逻辑提问式的处理在小型特别是微型计算机上得到较好的解决。 相似文献
11.
在非结构化数据的处理中,资源共享技术的研究,往往作为研究的重点。而现在大多数的资源共享技术研究,都仅仅限于2种数据的格式转换研究。每当增加一种格式的非结构化数据时,又需要针对进行转换的两种数据进行格式转换方法的研究。相当于在做着重复的工作。因此介绍了一种通用的非结构化数据格式转换方法,以规则库为基础,对非结构化数据进行格式描述,以及转换规则的描述,从而实现了非结构化数据格式转换的统一。创新点为制定格式转换"规则的规则"。 相似文献
12.
在传统的组合预测模型中,利用的数据大多为结构化数据,然而在网络环境下,非结构化数据广泛存在,因此充分利用非结构化数据所提供的有效信息是预测中要解决的关键问题之一.针对上述问题,文章构建了基于非结构化数据的局部线性嵌入和鲸鱼优化算法的最小二乘支持向量回归(locally linear embedding-whale op... 相似文献
13.
目前,WORD文档已经成为现代企事业单位办公的重要文件存储格式。随着互联网的高速发展,单位的政务公开、网上办公的需求越来越大,网站建设成为信息共享的重要技术手段,如何把电脑中的word文档重新整合,能够在短时间内发布到网络上,已经成为网站建设的重要课题之一,本文着力解决如何将计算机中的WORD文档转换成数据库并生成检索页面的技术问题。 相似文献
14.
随着多媒体资源的飞速增长,多媒体检索技术成为当前检索技术的一个热点,该文将介绍文档图像这类特殊的多媒体资源检索技术中的特征提取方法.根据汉字特点,从几个角度,介绍了几种汉字图像块的特征提取方法及相应的相似度算法,并进行了试验测试,试验结果表明几种方法可行. 相似文献
15.
16.
数字图书馆中的文档检索主要包括三个主要部分,文档存储。查询格式以及相似性计算。现存检索方法的主要差别即在于相似性计算。本文简要介绍了基于识别的检索技术和不基于识别的检索技术,对数字图书馆中文挡图像检索系统的建设具有一定的意义。 相似文献
17.
采用图像的结构化局部边缘模式特征(structured local edge pattern,SLEP)对文档图像进行分类,由于该算法精确描述了图像边缘方向邻域中的空间分布,因此相应的学习对于文档图像类型具有很强的区分能力.与基于图像复杂结构分布特征的方法或基于光学字符识别系统特征(OCR)的方法相比,基于SLEP特征的方法更简单有效.本实验通过组建文档图像数据库,利用支持向量机(SVM)作为分类器,总共对4种文档图像类型进行分类,分别为学术论文(paper),影像照片(photo),表格文件(table),幻灯影片(slide).实验结果表明,基于SLEP特征的方法在准确率、召回率等方面都明显优于所对比方法,并且即使在文档图像低分辨率的情况下,所分类结果仍然有不错表现. 相似文献
18.
段平 《吉林大学学报(信息科学版)》2008,38(5):595-600
当前大数据交互的不透明性以及数据文件访问形式的不合理性, 导致大数据存储存在存储延时长、 安全性较差的问题, 为此提出基于区块链的非结构化大数据动态安全存储技术。 构建多用户规则调度模型, 利用存储数据包生成独立的行向量与 n 阶矩阵, 基于列不满秩概率完成存储算法设计; 采用区块链非对称加密技术的公私钥, 实现透明与完整的数据交互, 对次要信息与数据访问形式实施记录。 引入分布式文件系统, 将其与Mongo DB 非关系型数据库有效结合, 从而使非结构化大数据得到安全存储。 仿真实验结果表明, 该方法不仅具有理想的存储速率, 而且使大数据的完整性得到了保证, 具有理想的有效性与实践性。 相似文献
19.
基于证券行业半结构化数据的抽取技术 总被引:1,自引:1,他引:1
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力. 相似文献
20.
一种基于主题的文档检索模型 总被引:1,自引:1,他引:1
现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度. 相似文献