首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.  相似文献   

2.
对第一轮检索的结果文档进行重新排序,以提高顶端结果的准确率,一直是信息检索研究中的基础和关键热点问题。文章在考虑文档与文档的基础上,充分考虑了文档与关键词项以及词项与词项之间的多种关系,提出了一种基于流形学习的检索结果重排序的方法。将文档-文档,文档-关键词项,以及词项-词项这三种关系利用流形学习模型进行融合,然后通过正则化框架,在第一轮检索结果分数的基础上,进行文档重排序。在CLEF数据集上进行的实验表明,与基于图的文档重排序,基于LDA模型的文档重排序等方法相比,文中提出的方法可以更好地提高检索准确率。特别是在奥地利图书馆数据集中,采用MRR评估方法,文章所提出方法的准确率比表现最好的基线系统提高了11.78%,比第一轮检索结果提高了33.46%。  相似文献   

3.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

4.
复杂网络在新闻网页关键词提取中的应用   总被引:1,自引:0,他引:1  
通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的正确性.  相似文献   

5.
网页搜索结果的多样化已经逐渐成为提高网页搜索效率和用户满意度的一个重要因素.文中将多样化问题形式化为信息面覆盖率的最大化问题,提出了一种基于关键词的网页搜索结果多样化方法KDM.该方法首先从与用户查询相关的结果文档中提取出可以描述结果文档所蕴含的信息面的关键词,然后根据关键词的同现性以及关键词对文档的描述能力,计算出结...  相似文献   

6.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

7.
基于语义联系的新闻网页关键词抽取   总被引:1,自引:0,他引:1  
提出一种基于语义联系的新闻网页度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词.对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于<知网>语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%.  相似文献   

8.
基于两级概念格的信息抽取的研究   总被引:1,自引:0,他引:1  
该文提出了结构关键词的概念,给出了结构概念格和内容概念格的形式化描述.结构概念格是对文档语义段的逻辑存储,内容概念格是对文档内容信息的逻辑存储.开发了一个基于文档的结构和内容构造两级概念格的信息抽取的实验系统.实验表明,该方法对减少信息抽取的时间和提高信息抽取的精度有显著的效果.  相似文献   

9.
近年来,基于深层语义信息表征的pointwise重排序策略存在忽略被检索文档之间的偏序关系的问题,并且,患者病例查询的内容表征也需要满足生物医学领域的特定需求。针对以上问题,本文提出了一种基于生物医学预训练语言模型(BioBERT)的偏序文档检索方法,该方法基于BM25召回文档,对待排序文档依次使用pointwise与pairwise提取特征,其中,pointwise方法能够获取待排序文档的全局位置特征,而引入查询特征的pairwise方法可以学习待排序文档之间的相对偏序关系。在TREC 2019 Precision Medicine Track数据集上的实验表明,该方法在p@10指标中,相比于最优的基准方法提升了3.3%。  相似文献   

10.
为了快速准确地理解语义网实体,提出了基于概念空间的摘要方法.针对RDF数据的无序性问题,首先将一个实体的不同侧面的RDF数据划分到不同的概念空间中去.其次在同一个概念空间中的数据依照谓语聚类的方法进行组织.对于实体重用带来的RDF数据的可信度问题,根据数据的来源,在数据的权威性维度上对实体数据进行划分.针对实体数据的大规模特性,提出实体数据摘要的方法,综合基于结构的重要性、用户偏好以及来源文档的重要性对数据的重要性进行计算.实验结果表明:基于概念空间的摘要方法能够有效地帮助人们快速理解语义网实体;该方法相对于其他RDF浏览器有4%~17%的效率提升;在用户比较熟悉RDF的情况下,使用该方法能够提高20%左右的效率.  相似文献   

11.
Keyword extraction is an important research topic of information retrieval. This paper gave the specification of keywords in Chinese news documents based on analyzing linguistic characteristics of news documents and then proposed a new keyword extraction method based on tf/idf with multi-strategies. The approach selected candidate keywords of uni-, hi- and tri-grams, and then defines the features according to their morphological characters and context information. Moreover, the paper proposed several strategies to amend the incomplete words gotten from the word segmentation and found unknown potential keywords in news documents. Experimental results show that our proposed method can significantly outperform the baseline method. We also applied it to retrospective event detection. Experimental results show that the accuracy and efficiency of news retrospective event detection can be significantly improved.  相似文献   

12.
一种改进的基于Web的新闻视频内容语义分析方法   总被引:1,自引:0,他引:1  
视频内容安全分析是多媒体内容安全的重要研究领域和热点问题.该文针对视频ASR识别精度不高的问题,提出一种改进的基于Web的新闻视频内容语义分析方法.该方法根据脚本在语音上的相似性来优化语义关键词,然后利用Web获得较为准确的新闻视频内容语义.通过对TRECVID2005内中文新闻视频CCTV4-NEWS进行的实验表明,提出的方法是可行的.  相似文献   

13.
随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全领域研究的热点。文档复制检测方法有两类:一是基于词频统计的方法,一是基于字符串匹配的方法。本文详尽分析了现有基于这两类方法的复制检测技术,并指出它们的优缺点,针对两类方法都存在的问题提出一些改进方案。最后总结了复制检测技术应满足的特性,讨论了检测方法的准确性和文档分解规则。  相似文献   

14.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

15.
提出了一种基于新闻环境的人物肖像检索方案. 该方案可从新闻中找到相关人物的描述,并以此作为人物的背景信息,对现有的通用图像搜索引擎的检索结果过滤,再通过人脸检测技术以及多媒体信息检索方法,最终找到新闻人物最佳的肖像图像,并在此基础上展示了一种新的互联网新闻表示方法. 实验证明,该方法能够比较准确地得到新闻人物的肖像表示,而且以新闻人物的肖像作为互联网新闻表示中的一个补充对提高读者的新闻阅读兴趣和阅读效率都有一定帮助.  相似文献   

16.
图书剔旧是图书馆藏书建设的重要一环。在论述了高校图书馆图书剔旧的作用、原则、依据的基础上,阐述了外观特征剔旧和内在特征剔旧两种图书剔旧方法,指出图书剔旧工作应作为一项日常工作对待,且应与图书采购置于同等重要的地位。  相似文献   

17.
提出一种基于二阶隐马尔可夫模型(HMM)的新闻分类算法,旨在提取新闻内容中的类别字,构成特征词集合.以该特征词集合作为不同二阶HMM分类器的观察序列,二阶HMM的隐藏状态反映了文档中词语之间的相关性差异,每个状态表示出现在语料库中的词语的相关性水平.实验结果表明,相比k近邻(k NN)、朴素贝叶斯(Naive Bayes)以及支持向量机(SVM)算法,二阶HMM算法的分类表现更显优势.  相似文献   

18.
根据杂草颜色特征,提出了新的图像分割算法,在RGB空间直接将杂草从土壤背帚中分割出来。首先顺序搜索图像中每一个像素点,如果当前像素RGB值中G〉R且G〉嚣,则将该像素值置1(杂草),否则为0(背景),从而完成图像分割。然后采用8邻域消除孤立点,并确定杂草区域位置。利用VisualC++开发了除草机器人杂草识别软件,设计了除草机器人结构模型。试验表明,该分割算法实时性好,可有效识别出杂草,并能够适应户外自然先变化。除草机器人机械臂能够准确定位,完成除草动作。  相似文献   

19.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

20.
陈阳 《科技咨询导报》2010,(11):223-224
连字式复合词在新闻英语中的应用非常普遍。本文对具有代表性的美国英语报刊《洛杉矶时报》的语料收集自建报刊新闻英语语料库,并从英国国家语料库随机抽取广播新闻英语和普通英语,旨在从语言学角度通过连字式复合词在新闻英语和普通英语不同语体的使用对比,统计分析其在新闻英语和普通英语中的应用比较,以及报刊新闻英语和广播新闻英语中的应用比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号