首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对文本独立笔迹鉴别技术中需要大篇幅文档以提取图像纹理等笔迹信息的限制条件,和传统文本依存笔迹鉴别技术中需要内容完全相同的笔迹文档的限制条件,本文提出了一种新的文本依存笔迹鉴别技术.它以局部特征匹配与投票为手段进行关键词提取,对提取出的相同关键词建立训练集,在两篇文档的相同关键词之间进行匹配,将笔迹鉴别问题转化为签名识别问题.实验结果表明,在文档内容不完全相同的情况下,该技术仍然能够有效地对文档进行笔迹鉴别.  相似文献   

2.
复杂网络在新闻网页关键词提取中的应用   总被引:1,自引:0,他引:1  
通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的正确性.  相似文献   

3.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

4.
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。  相似文献   

5.
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。  相似文献   

6.
网页搜索结果的多样化已经逐渐成为提高网页搜索效率和用户满意度的一个重要因素.文中将多样化问题形式化为信息面覆盖率的最大化问题,提出了一种基于关键词的网页搜索结果多样化方法KDM.该方法首先从与用户查询相关的结果文档中提取出可以描述结果文档所蕴含的信息面的关键词,然后根据关键词的同现性以及关键词对文档的描述能力,计算出结...  相似文献   

7.
为了让用户从海量知识信息中精确、快速地获取到感兴趣的信息内容,综合考虑文档的头部信息(标题、摘要、关键词)和重点主体内容,采用基于主题词迭代提取的信息检索算法,使得主题词的提取在兼顾效率的同时准确率达到83%以上,主题信息检索的性能也随之增加.实验结果表明,在文档查询词频和倒排文档频率(TF-IDF)的基础上对候选主题词相关度权值的计算进行合理化调整,并利用所提出的主题词迭代提取算法,主题信息检索的有效性将显著增加.  相似文献   

8.
文本分类中的类别信息特征选择方法   总被引:1,自引:0,他引:1  
随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,该方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.  相似文献   

9.
针对文本中关键信息被忽略以及分类准确率不高的问题,提出一种加权word2vec的卷积神经网络(CNN)与ATT-BiGRU混合神经网络情感分析模型.由于word2vec生成的词向量无法突出文本关键词的作用,因此引入词频-逆文档频率(TF-IDF)算法计算词汇权重值.然后,将加权运算后的词向量输入CNN与ATT-BiGRU混合模型提取隐含特征.该模型通过卷积神经网络(CNN)和基于注意力机制的双向门限循环单元(ATT-BiGRU)分别提取文本特征,以此来提高文本的表示能力.多组实验对比结果表明,与其他算法相比较,该模型的分类准确率最高且耗费时间代价小.  相似文献   

10.
文本水印技术可以有效地保护数字作品的版权,防止盗版、侵权等行为。针对维吾尔文数字作品版权保护问题,通过分析维吾尔文左向连写、书写落于基线等特征,根据现有文档结构水印算法,提出基于行移结构的维吾尔文文本水印算法。通过行移结构编码嵌入水印信息,依据移动行相对于维吾尔文基线位置的变化,进行水印信息的提取。从水印嵌入和提取的仿真试验结果可知,该算法水印容量小、不可感知性高,具有较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号