首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
对第一轮检索的结果文档进行重新排序,以提高顶端结果的准确率,一直是信息检索研究中的基础和关键热点问题。文章在考虑文档与文档的基础上,充分考虑了文档与关键词项以及词项与词项之间的多种关系,提出了一种基于流形学习的检索结果重排序的方法。将文档-文档,文档-关键词项,以及词项-词项这三种关系利用流形学习模型进行融合,然后通过正则化框架,在第一轮检索结果分数的基础上,进行文档重排序。在CLEF数据集上进行的实验表明,与基于图的文档重排序,基于LDA模型的文档重排序等方法相比,文中提出的方法可以更好地提高检索准确率。特别是在奥地利图书馆数据集中,采用MRR评估方法,文章所提出方法的准确率比表现最好的基线系统提高了11.78%,比第一轮检索结果提高了33.46%。  相似文献   

2.
针对伪相关反馈模型反馈文档信息质量差和扩展词选择不适产生的漂移现象等问题,提出了一种基于约束的半监督聚类查询扩展方法。该方法对初检结果的前k个文档进行人工标注,分成相关文档与不相关文档两类;并利用一种半监督聚类算法对初检结果的前”个文档进行分析,提取出与查询相关的文档作为反馈文档。该方法通过对少量标注文档与查询相关性的学习,能够较准确地估计出大量未知文档与查询的相关性,提高反馈文档的质量,从而有效提高检索的查全率和查准率。实验结果表明,该方法比传统的伪相关反馈和基于无监督聚类的伪相关反馈有更优的检索性能。  相似文献   

3.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

4.
为了解决现有基于流形排序的三维模型的草图检索方法特征提取过程中特征描述不准确,且需要对检索草图进行人工标注的问题,本文提出了一种基于改进特征描述符和深度学习的方法用于三维模型草图检索。该方法首先综合考虑了整体形状及局部细节对检索性能的影响,提出用于描述草图和三维模型投影视图的多特征视觉描述符。然后利用深度学习的方法实现草图语义标注。最后在包含7200幅草图和1258个三维模型的公开数据集上进行了实验验证。结果表明:本文方法不仅降低了人为标注所带来的干扰,而且显著提高了三维模型检索的准确率。研究结果将为三维影视动画的自动化检索及编辑重用等相关应用提供设计思路与技术支撑。  相似文献   

5.
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。  相似文献   

6.
为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进行分类,并验证新模型在多个文本分类数据集上的有效性。实验结果表明,与需要大量标注文档的监督学习方法相比,所采用的方法未标注文本的分类精度提高了1%~3%,在多个文本分类数据集上验证了新模型性能先进,内存占用更少。研究结果可为解决小样本文本分类问题提供参考。  相似文献   

7.
提出一个基于多通道压缩双线性池化的模型, 对文档中的候选情感?原因句子对进行排序。该模型利用图注意力网络提取包含位置信息的情感特定化表示和原因特定化表示, 通过局部关系学习模块, 进一步学习情感与原因句子之间的局部关系表示, 再使用多通道压缩双线性池化来融合学习情感?原因候选句子对表示。最后, 对候选句子对进行排序。实验结果表明, 与最新模型相比, 所提模型在多方面表现更优。  相似文献   

8.
基于概念共现图的多文档自动摘要研究   总被引:1,自引:0,他引:1  
以概念统计为基础,以WordNet为语义资源进行语义消歧和概念归并,提出了一种概念共现图模型并把它应用于多文档自动文摘.该模型利用概念间的共现信息构造概念共现图,抽取多文档集合的主题概念,再根据主题概念构建向量空间模型并计算句子的重要性.由于对概念进行了良好的归纳,该模型能够挖掘蕴涵在文档集中的深层次主题.在DUC2005数据集上评测的结果表明,该方法取得的效果令人满意,可用于实际的应用.  相似文献   

9.
面向财税领域非事实型问题, 提出基于语义检索的方法来抽取答案。首先使用领域知识库对问题及领域文档进行语义标注, 引入语义相似度特征提高法规及案例的检索准确率; 其次使用排序学习算法融合领域文本的多种特征对法规检索结果优化; 最后使用法规特征对案例检索结果进行筛选, 并从相似案例中抽取相应答案。在真实数据集上的测试结果表明, 该方法在准确率和效率上比基准方法有显著提升。  相似文献   

10.
近年来,基于深层语义信息表征的pointwise重排序策略存在忽略被检索文档之间的偏序关系的问题,并且,患者病例查询的内容表征也需要满足生物医学领域的特定需求。针对以上问题,本文提出了一种基于生物医学预训练语言模型(BioBERT)的偏序文档检索方法,该方法基于BM25召回文档,对待排序文档依次使用pointwise与pairwise提取特征,其中,pointwise方法能够获取待排序文档的全局位置特征,而引入查询特征的pairwise方法可以学习待排序文档之间的相对偏序关系。在TREC 2019 Precision Medicine Track数据集上的实验表明,该方法在p@10指标中,相比于最优的基准方法提升了3.3%。  相似文献   

11.
为采用知识图谱技术实现对油藏构造知识的整合,解决在本体建模过程中,很少将标准融合到本体模型 中,且在转换过程中存在对叙词概念粒度划分较粗或完全不对叙词进行类型划分等问题,提出一种基于叙词表 构建知识图谱的新方法,即标注原叙词表,建立映射规则,构造转换算法和生成知识图谱。其中标注、映射规 则建立与转换算法定义了构建知识图谱标准化过程。最后,选取油藏构造领域的部分知识,采用所提方法构建 知识图谱,其结果表明了该方法的可行性。  相似文献   

12.
为解决排序任务聚合方法效果不明确的问题, 在群体智慧概念下, 对排序任务问题群体智慧效应发生的条件即集中化机制进行聚合方法的比较研究, 试图找到已知基本事实排序任务问题中使群体智慧效应最显著的排序聚合方法。 创新性提出评估群体智慧的概念即群体智慧效度。 运用实证研究方法对群体进行排序任务重建实验, 以实验测试的排序数据为基础, 使用 7 种不同的排序聚合方法对排序任务问题的所有个体排序进行聚合, 得到相应的群体排序。 测量7 种群体排序和真实排序之间的偏差, 并根据群体智慧效度大小判断不同聚合方法的表现。 实验结果显示, 在基于群体智慧效度的重建排序任务聚合方法中, 众数法的表现最好, 中位数法和 K-Y 方法表现次之。  相似文献   

13.
歌唱声音的自动标注是基于内容的音乐分析和检索领域的基础问题。该文在统计分析汉语歌唱声音声韵母时长和音高特征的基础上,提出了一种声乐自动标注模型。该模型将信号处理、语音学和音乐知识结合,通过韵母-乐谱音高对齐和基于声母时长分布的边界优化算法实现了高精度的音符切分。音高提取算法在移调检测的基础上,通过限定基音周期搜索范围的策略克服了信号频谱中半频/倍频点的干扰。结合音乐教学实践,通过检测音符内部最稳定音高成分、估计演唱速率和归一化音符时长的方法提取歌唱声音的音高、节奏和时长信息,并基于这3个客观物理量提出了一个视唱评价方法。实验表明,该文提出的算法能够准确地标注歌唱声音中的音符边界(平均误差26ms)和音高(平均误差0.23半音)。  相似文献   

14.
高分辨率遥感影像在实际应用中得到广泛使用。高分影像语义分割方法的研究具有重要实际应用价值。近来基于深度卷积网络的遥感影像标注方法表现出了比传统方法更为优越的性能;然而由于其基于固定感受野大小的上下文信息获取方法没有显式利用像素间约束关系,导致同一地物内部语义标注结果不一致。基于同一区域内部像素属于相同类别概率较大的假定,试图引入图像区域内部语义标注一致性约束,以改善现有深度卷积神经网络描述上下文信息的能力。在现有全卷积网络模型基础上,利用卷积神经网络最后一层特征,引入一个表示区域内部像素特征一致性的损失函数;将该损失函数与softmax损失函数进行联合训练,得到网络模型参数。在ISPRS(国际摄影测量与遥感学会)的Vaihingen 2D语义标注数据集上,对提出的方法进行了实验验证,实验结果表明所提方法在大多数类别上取得了较现有卷积神经网络模型更优的分类结果,总体准确率达85.18%。提出的引入区域内部像素标记一致性的全卷积网络模型,可以有效捕捉区域内部像素特征一致性的上下文信息,能有效纠正全卷积网络模型在区域内部像素分类中的冲突,获得区域一致较好的分类结果,从而改善图像的语义标注效果。  相似文献   

15.
Intrusion detection using rough set classification   总被引:6,自引:0,他引:6  
Recently machine learning-based intrusion detection approaches have been subjected to extensive researches because they can detect both misuse and anomaly. In this paper, rough set classification (RSC), a modern learning algorithm, is used to rank the features extracted for detecting intrusions and generate intrusion detection models. Feature ranking is a very critical step when building the model. RSC performs feature ranking before generating rules, and converts the feature ranking to minimal hitting set problem addressed by using genetic algorithm (GA). This is done in classical approaches using Support Vector Machine (SVM) by executing many iterations, each of which removes one useless feature. Compared with those methods, our method can avoid many iterations. In addition, a hybrid genetic algorithm is proposed to increase the convergence speed and decrease the training time of RSC. The models generated by RSC take the form of "IF-THEN" rules, which have the advantage of explication. Tests and comparison of RSC with SVM on DARPA benchmark data showed that for Probe and DoS attacks both RSC and SVM yielded highly accurate results (greater than 99% accuracy on testing set).  相似文献   

16.
由于现有的经典本体映射方法以及相似度计算方法无法处理模糊信息,因此它们都无法计算模糊概念之间的相似度.为此,提出了一种新的基于向量空间模型的模糊概念相似度计算方法SimFC-VSM(similarityoffuzzyconceptbasedonvectorspacemodel).SimFC-VSM方法首先利用模糊本体中的模糊关系构建向量空间模型;然后将模糊概念表示成此向量空间模型中的向量;最后通过向量运算的方法来计算模糊概念之间的相似度.因此,所提出的方法SimFC-VSM可以有效地利用向量空间模型来计算模糊概念之间的相似度.  相似文献   

17.
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能.  相似文献   

18.
针对具有随机变量的随机多属性决策(SMADM)问题,提出了一种基于占优度的随机多属性决策方法.首先,给出了两个方案之间比较的占优度定义;然后通过计算针对每个属性的两两方案比较的占优度,构建占优度矩阵,并在此基础上,运用PROMETHEE Ⅱ方法得到方案的排序结果.结果表明,该方法具有概念清晰、计算过程简单等特点,较好地解决了运用基于随机占优准则的方法可能产生的信息损失问题.并通过一个算例说明了所提出方法的可行性和有效性.  相似文献   

19.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号