首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算法应用于铁路文献关键词的抽取,该算法融合多个特征因素改进词汇节点的初始权重设置,并利用Word2Vec训练的词向量表征改进词节点间的转移概率.实验结果表明:本文所提出的关键词抽取算法相对于经典的TextRank和TF-IDF算法在准确率,召回率以及F值上都有较大的提升.与TextRank相比,F值提升了13.9%.  相似文献   

2.
针对云存储中加密数据的搜索问题,提出了一种基于主题模型的多关键词排序搜索方法.首先,利用主题模型进行建模,在不同的主题下分别使用TextRank算法来提取文档关键词并为关键词赋予不同的权重值,并根据文档主题分布将不同主题下的关键词进行整合,然后利用平衡二叉树建立文档索引结构.此外,采用词干算法将同一词根的不同关键词转化为同一关键词,解决了同形关键词的问题.最后,通过真实数据进行实验分析.实验结果表明,所提出的方案具有更高的搜索效率和准确性.  相似文献   

3.
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。  相似文献   

4.
特征词提取算法大多以选取单个关键词为主,存在词与词关联度缺失,文本主题表达不准确的问题,为此提出一种基于词共现的文本分类算法。通过计算词间共现率,利用TextRank算法构建共现图得到共现词组,建立文本向量表示模型,并利用SVM算法实现文本分类。实验证明,共现词作为文本特征项相对于传统单个特征词有更好的分类效果。  相似文献   

5.
【目的】提出基于词嵌入的云存储可搜索加密方案,视图解决云储存的加密数据的管理,并高效地检索加密数据这一难题。该方案的优势在于克服了加密方案不能进行语义搜索的难题。【方法】通过建立高维关键词的词嵌入,增加语义距离扩展关键词集的方式建立安全索引,并用伪随机函数对私钥和关键词进行安全保护。【结果】此设计方案既保证了数据存储的安全性,又提供了数据检索的灵活性,安全检索模型避免了用户检索过程中关键信息的泄露。【结论】采用全同态加密验证了方案的有效性。在维基百科数据集上进行测试表明维度越高的词嵌入搜索精确率越高,同时开销也随之增大。
  相似文献   

6.
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.  相似文献   

7.
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。  相似文献   

8.
随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。  相似文献   

9.
以NLPCC-ICCPOL 2016中文词语相似度比赛中的PKU-500数据集作为评价的参考标准,采用动态权重多模型融合的词相似性进行分析.将得到的斯皮尔曼等级相关系数0.568与NLPCC 2016第1名的结果相比,效果提高了9.6%.结果表明:基于动态权重改进的多模型融合方法,提高计算词相似性的准确率.  相似文献   

10.
陈栋  刘泽高  贾丽斯  薛郁 《广西科学》2015,22(2):231-236
【目的】为了给国内城市信号交叉口规划设计和服务评价提供科学依据,研究城市交叉口延误模型。【方法】对比Australian延误模型和Canadian延误模型,提出改进的延误模型,再采用牌照法,对饱和度接近1的道路交通延误进行实测,并把实测结果与3个模型进行对比。【结果】改进的延误模型在饱和度较低和较高的情况下,与Australian延误模型和Canadian模型的模拟数据很接近;在饱和度接近1时,改进的延误模型与实测结果能较好吻合;改进模型与Brilon和Wu的马尔科夫链方法比较,形式简单,计算简便,可操作性好。【结论】改进的模型适合用于平面混合低速的城市交叉口道路延误分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号