首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

2.
根据应用场合和考察对象的不同,计算机笔迹鉴别有在线、离线和文本独立、文本依存等不同的分类方法.文中从笔迹图像预处理、特征提取、分类器以及分类器组合等方面展开研究,设计和实现了一个基于文本独立的离线手写体笔迹鉴别系统软件.结果表明:所采用的算法有效可行,鉴别速度快,识别效果好,准确率高达90%以上,具有良好的应用推广价值.  相似文献   

3.
基于改进微结构特征的笔迹鉴别   总被引:1,自引:0,他引:1  
该文作者已提出的基于网格微结构特征的笔迹鉴别方法,是一种能适用于多文种笔迹的文本无关方法。为了对笔画轨迹进行更加细致的描述,该文对微结构特征提取方法予以改进,修改了局部微结构的生成条件,并引入了加权Manhattan距离的相似度度量方法。改进方法在中文笔迹库上有效提高了鉴别正确率。在包含240人的HIT-MW笔迹库上,首选鉴别正确率为95.4%,前20选正确率达到100%。通过实验,进一步研究了实际应用中笔迹样本的文本内容相关度对鉴别性能的影响程度。  相似文献   

4.
基于改进VGG-16模型的英文笔迹鉴别方法   总被引:1,自引:0,他引:1  
笔迹鉴别是通过对待测文本和样本笔迹的相似度进行比较,来判定笔迹是否相同的一种检验技术,其在司法鉴定、法庭科学以及金融领域合同确认等多个领域都有广泛的应用.传统英文笔迹鉴别方法是通过比对被鉴别文本与模板的相似程度来实现,效率低,准确度差.近年来,随着深度神经网络技术的飞速发展,利用其自主学习的优势提取相关特征,可以大大提高笔迹鉴别的准确率.传统VGG-16模型在图像分类上一直表现良好,但由于网络结构一直采用顺次连接的方式,导致训练时间过长,参数调整难度大,且不能很好地提取图像的细微特征,因此对笔迹鉴定的效果不够理想.本文通过对传统VGG-16卷积神经网络模型进行改进,提出了一种CC-VGG网络模型,利用复合卷积层替换部分卷积层,实现了手写体英文笔迹的自动鉴别.在公开的CVL和ICDAR2013数据集上,该模型取得了较好的鉴别效果,平均正确率分别达到92.7%和86.9%,与现有算法相比准确率均有所提高.此外,建立了一个包含130类、共26 000张图片的手写英文笔迹图像数据集EI130,在该数据集上该模型也取得了较高的准确率.与其他算法的对比实验证明了本文算法在训练时间上具有优越性;此外,在多个数据集上的实验结果也证明了本文算法的有效性和先进性.  相似文献   

5.
针对已有的笔迹鉴别方法对笔迹版式要求比较严格,且在小样本数据情况下,鉴别性能水平较低的问题,提出了邻环结构特征方法。首先对笔迹轮廓图像随机采样,然后利用网格窗口提取笔迹的邻环结构特征,最后利用主成分分析和线性鉴别分析方法对特征降维,利用深度置信网络对特征进行训练和鉴别。本文方法与文本无关,简单易行,在手写笔迹字符数量平均为45个的小样本上仍能有效表征作者风格信息。在HIT-MW笔迹鉴别数据库上的测试结果表明,本文方法达到了与使用较大样本的其他笔迹鉴别方法相近的鉴别效果。  相似文献   

6.
基于纹理合成的打印文件鉴别   总被引:1,自引:0,他引:1  
为解决现有打印文件鉴别方法需要相同字符匹配的条件限制,提出了一种基于纹理合成的打印文件鉴别方法。通过对已知纹理样本块的操作,将字符图像中的空白部分修复,得到完整的纹理图像,从而消除字符内容的干扰。在打印文件鉴别实验中,通过提取完整纹理图像的灰度共生矩阵特征,并对两份打印文件的特征距离进行分类判别,最后取得了98%的正确率。  相似文献   

7.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

8.
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。  相似文献   

9.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

10.
笔迹鉴别是身份鉴别技术中的一种有效的方法,文章提出了一种提升小波变换在笔迹鉴别中的应用。笔迹纹理图像的主要特征表现在细节部分,而高频部分的小波系数体现了图像的细节,所以从这些小波系数中提取的特征,能够表征纹理图像的主要特性。并且这种分析法对亮度不敏感,这一特点是传统的纹理分析方法难以达到的。本文使用提升小波变化提取纹理图像的特征,并使用加权欧式距离分类器来完成匹配工作。在实验中,使用了27个人的不同笔迹,取得了很好的结果。  相似文献   

11.
一种改进的特征选择方法在文本分类系统中的应用   总被引:1,自引:0,他引:1  
在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.关键词,  相似文献   

12.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

13.
基于纹理分析的笔迹识别系统   总被引:6,自引:0,他引:6  
把手写笔迹作为一种纹理来看待,利用图象纹理处理技术和数学方法对笔迹的纹理信息进行鉴别,将笔迹识别问题转化为纹理识别.使用19个人的不同笔迹进行实验,采用游程长度分析法来提取这些笔迹的纹理特征,用欧氏距离分类器完成识别工作.取得了较好的效果.  相似文献   

14.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法.  相似文献   

15.
基于关键词提取的娱乐新闻文档去重算法   总被引:2,自引:2,他引:0  
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%~30%.  相似文献   

16.
针对信息与通信技术(information and communication,ICT)项目及产品数据种类多、形式复杂,难以提取其语义匹配信息,且现有句子级文本匹配模型对不同长度文本无差别编码会引入噪声导致匹配效果差的问题,本文提出一种融合局部和全局特征的实体-文档级联合匹配模型,利用TextCNN编码器提取实体级招投标项目和产品名称的局部信息,消除产品描述中与招投标项目无关信息的影响,再利用卷积-自注意力编码器提取文档级产品描述的局部和全局信息,最后结合实体级和文档级匹配信息进行决策.实验结果表明,招投标项目与供应商产品匹配映射准确率92%以上,方法可直接实际应用.   相似文献   

17.
随着信息技术的发展,互联网上的文本信息呈爆炸式增长,文本自动摘要技术成为目前研究的热点。文章提出一种基于向量空间模型的自动摘要冗余处理方法,该方法首先根据统计信息进行粗摘要提取,然后利用向量空间模型对粗摘要进行冗余处理;实验结果表明,该方法提取的摘要不受领域知识限制,有效去除冗余,能更好地反映文档内容。  相似文献   

18.
现有全文检索技术多是以文本信息为处理对象,对于以数学表达式为主要成分的科技文档检索还处在探索阶段.为了使用户可以方便地以数学公式作为查询语言对科技文档进行检索,提出了一种基于数学表达式特征的科技文档检索模型.首先通过将公式解析为二叉树得到数学表达式的子式信息,利用数学表达式及子式构造检索特征向量;在索引阶段,利用所提取的文档特征向量构建分层结构的索引表;在匹配阶段,对文档向量采用tf-idf进行加权操作,利用余弦相似度对检索向量和文档向量进行相似度计算,得到一个有序的文档检索结果.实验选取了来自不同领域的期刊、学术网站以及公共数据集的5 017篇科技文档,其中包含了96 362条数学公式,平均检索时间为0.428s,表明该模型达到了实现较高效率科技文档检索的目标.  相似文献   

19.
XPath是有关如何在XML文档中进行定位,即如何很快找出XML文档中具有某种特征标记的一种语言.XQuery、XML Schema等语言都需要通过XPath表达式来对XML文档进行定位、绑定变量、引用外部文档元素等等.所有这些应用都需要解决XPath表达式的包含问题以提高匹配效率.引入了条件同态的概念,提出了一种基于条件同态的包含关系的判定算法,该算法能够正确判定现有的实用算法不能正确处理的一类模式树的包含关系.  相似文献   

20.
针对云存储中加密数据的搜索问题,提出了一种基于主题模型的多关键词排序搜索方法.首先,利用主题模型进行建模,在不同的主题下分别使用TextRank算法来提取文档关键词并为关键词赋予不同的权重值,并根据文档主题分布将不同主题下的关键词进行整合,然后利用平衡二叉树建立文档索引结构.此外,采用词干算法将同一词根的不同关键词转化为同一关键词,解决了同形关键词的问题.最后,通过真实数据进行实验分析.实验结果表明,所提出的方案具有更高的搜索效率和准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号