首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为编辑PDF文档中的表格信息,设计一种基于Python平台的,包含文件选取与文件转换两大功能模块的信息提取软件。该软件利用Python内置库,针对PDF中不同表格的结构设计算法,识别表格内的文字信息与表格结构,将得到的表格结构还原至Word与Excel文档中,文字信息同样复原至对应单元格内。实验表明:开发的软件完整快速地提取了PDF中的表格信息,并将其转化为易于编辑的Excel和Word文档,达到了预期目的;其转换速度与收费软件WPS相当,转换速度明显快于其他免费转换软件;识别精确度与迅捷PDF转换器、Smallpdf等相比有所提高。  相似文献   

2.
用于PDF文档认证的数字水印算法   总被引:6,自引:0,他引:6  
针对网络环境中多媒体数据信息的真实性和完整性认证问题,通过分析PDF页面描述操作符的工作机理,给出了一种适用于PDF文档认证的数字水印算法,将PDF文档字符码的特征信息嵌入到文档字符间距中,检测时通过比较PDF文档的水印信息与字符码特征是否一致来判断文档的真伪。实验结果表明,采用该算法实现的水印不仅具有良好的视觉透明性,还有较强的检错及差错定位能力。  相似文献   

3.
通过Cocoon架构,将XML文档分别转换成能够被网络浏览器识别的HTML文档.以及能被Acrobat readers识别的PDF文档和能被手机识别的WML格式文档.给出了文档格式转换的代码.  相似文献   

4.
PDF文档与WEB网页有很大的差别,虽然其结构更复杂,但通常都有明确的标题、摘要和关键词等信息.重点研究如何利用WEB技术获取这些信息并利用它们对PDF文档中的图像进行索引,对其中的几种算法进行说明.  相似文献   

5.
基于XML的PDF文档认证和完整性保护的实现   总被引:1,自引:0,他引:1  
PDF文档已经成为了网络传输的通用文件格式,其认证和完整性保护始终是个难题,最重要的原因是常用的图像认证和完整性保护方法无法在PDF文档中发挥作用。XML是适用于描述文件结构和内容的工具,所以,对PDF文档的内容提取、数据挖掘和信息过滤等操作将完全转移到对XML文档的操作,最终实现了PDF文档认证和完整性保护。  相似文献   

6.
基于PDF项目文档管理系统的设计与实现   总被引:3,自引:0,他引:3  
目的设计一种基于.NET平台和PDF智能文档的开放式项目文档管理系统。方法通过分析基于PDF的项目文档管理系统的结构,在.NET平台下使用组件技术和PDF表单技术实现了基于PDF的项目文档管理系统。结果重点论述了PDF表单图形图像控件的实现、PDF文档内容的搜集、非PDF格式文档的转换等关键技术。通过在某企业的实际应用,验证了系统的功能。结论对提高项目管理水平和企业信息化发展具有较大的价值。  相似文献   

7.
介绍了西南林业大学图书馆利用PDFCreator开源软件开发文档数字化模块的过程,阐述了将其应用到论文提交系统中,实现了将任意可打印文档转换为PDF文档的成功经验。  相似文献   

8.
流式文档结构识别对于文档自动排版和优化、信息检索等领域有着重要作用.以往针对流式文档结构识别主要集中于学术论文领域,对于其他诸如公文、报告等多类型的文档结构识别研究较少.针对此现状,使用聚类的方法对文档进行分类,在此基础上提出了针对不同文档分类的、基于双向门控循环单元-条件随机场(bidirectional gated recurrent unit-conditional random field,BIGRU-CRF)的文档结构识别方法,以此来解决多类型文档结构识别的问题.实验结果表明,该方法不仅能够提高学术论文结构识别的效果,对其他类型的文档结构也能够进行较好地识别.  相似文献   

9.
田源 《科技资讯》2008,(12):192-192
目前最流行的电子文档格式——PDF文档,集多媒体信息于一身,交互方式丰富,并且可在Web上发布和传递具有独特优势。本文在分析PDF文档和Web数据库进行双向数据传递机理的基础上,对如何利用PDF文档结合ASP技术开发网络学习资源进行了探讨。  相似文献   

10.
PDF文档是目前常用的文档格式,本文介绍了一款小巧、简单易用的PDF文档阅读器,说明了其使用方法,并与传统的AdobeAcrobatReader加以比较.  相似文献   

11.
区别于传统基于图像和西文文档的公式定位方法, 针对中文电子文档的特点, 提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则; 选择适合中文文档的公式特征和机器学习算法; 针对公式定位中的过分割问题, 提出行合并与词块合并等后处理手段。实验结果表明, 该方法可以有效地从中文电子文档中自动定位公式区域。此外, 构建了公开可用的中文数据集, 以促进不同数学公式定位方法间的相互比较及性能评估。  相似文献   

12.
基于纹理合成的打印文件鉴别   总被引:1,自引:0,他引:1  
为解决现有打印文件鉴别方法需要相同字符匹配的条件限制,提出了一种基于纹理合成的打印文件鉴别方法。通过对已知纹理样本块的操作,将字符图像中的空白部分修复,得到完整的纹理图像,从而消除字符内容的干扰。在打印文件鉴别实验中,通过提取完整纹理图像的灰度共生矩阵特征,并对两份打印文件的特征距离进行分类判别,最后取得了98%的正确率。  相似文献   

13.
针对学术论文的剽窃检测,提出一种应用复杂特征集表示文档特征的方法,并扩展了复杂特征集的合一运算.对文档不同层次结构的特征,利用否决函数和概率函数的方法进行剽窃检测.基于文档不同部分在剽窃检测过程中的重要性不同的事实,采用shingling方法,结合段落权重定义了3种概率函数,形成了一套较完善的文档剽窃检测系统.实验结果表明,用该方法可取得良好的效果.  相似文献   

14.
针对当前复杂电磁环境下电子侦察中雷达辐射源识别困难的问题,提出了一种基于双谱分析和势函数分类识别雷达辐射源的新方法。首先用Hinich方法检验雷达辐射源信号,发现其具有非线性特性。然后用适合处理该类信号的双谱分析法提取信号的双谱对角切片,利用主成分分析法(PCA)从大量训练样本特征中挑选低维、低复杂度的特征矢量,并融合对分类具有显著贡献的辐射源属性参数作为识别特征矢量。最后采用势函数分类法实现雷达辐射源识别。仿真结果表明,基于双谱的识别法对噪声不敏感,对不同脉内调制的辐射源信号识别率达到了92.9%,该方法为决策层提供了识别不同雷达辐射源的新途径。  相似文献   

15.
针对非合作通信条件下缺少标签数据的通信辐射源个体识别问题,提出了一种基于深度聚类的通信辐射源个体识别方法。利用自编码器网络强大的特征提取和数据重构能力对原始I/Q数据进行表征学习,提取个体识别的指纹特征,同时将表征学习过程和特征聚类过程进行联合优化,使表征学习和特征聚类契合度更高,更好地完成无标签条件下的通信辐射源个体识别。通过对5种ZigBee设备采集的信号进行实验,结果表明在信噪比高于0 dB时,可以达到85%以上的识别准确率,证明了本文方法的有效性和稳定性。  相似文献   

16.
关键蛋白质的识别有助于从分子水平上理解生命的活动过程,然而仅从拓扑特性角度来识别的关键蛋白质不够精准,因此为了提高识别准确率,结合复合物信息提出了确定蛋白质关键性的指标模型EIC,该模型是基于蛋白质复合物内的局部中心性特性以及网络的全局信息特性来考虑.使用DIP和MIPS两种蛋白质相互作用(PPI)网络作为实验数据集,...  相似文献   

17.
智能配电网异常数据的准确辨识对于提高电网安全运行和调度具有重要意义。本文提出一种基于多元数据特征和改进随机森林算法的异常数据辨识方法。首先,在分析异常数据辨识过程的基础上,利用k-means、箱线图法等提取原始数据异常特征;考虑配电网技术需求,挖掘电网运行的衍生特征。然后,针对类不平衡问题提出结合过采样方法的混合Bootstrap抽样和加权投票策略,引入信息增益率优化最优特征选择,增加算法稳定性。最后,仿真分析了决策树数量和衍生特征对算法辨识性能的影响,并与支持向量机、神经网络等算法进行性能比较。实验结果表明本文方法有效、合理,具有优异的辨识性能和效率。  相似文献   

18.
针对非侵入式负荷辨识中,单一V-I轨迹特征无法对相似的轨迹特征进行有效识别以及所提取特征易出现冗余甚至噪声特征的问题,提出了一种基于K-means聚类与PSO特征优选的分级非侵入式负荷识别方法。首先,利用K-means算法对负荷V-I轨迹的HOG特征进行初步分类,将轨迹相似的电器分为一类;然后,对每一类中的电器电流数据进行多维特征提取并采用PSO算法选取最优特征子集;最后,利用KNN模型进行二级负荷识别。实验结果表明,该方法有效提高了负荷识别准确率;提取V-I轨迹的HOG特征解决了同一电器V-I轨迹波动的问题;对一级分类后的每一大类单独进行PSO特征优选KNN二级分类,解决了部分电器对特征子集适应性差的问题。所提方法在一定程度上解决了冗余特征甚至噪声特征对辨识准确率的影响,为负荷特征的选取提供了新的思路,对负荷辨识的实际应用具有重要的参考意义。  相似文献   

19.
针对广播音频语种识别中与语种识别无关的特征对识别结果产生影响的问题, 提出一种基于伽马频率倒谱系数的改进特征参数的语种识别方法. 通过提取每帧信号的能量谱包络, 去除部分与说话人相关的特征, 采用Gammatone滤波器组滤波, 经离散余弦变换后再进行倒谱提升, 得到改进的伽马频率倒谱系数特征参数. 将广播音频信号提取特征参数输入隐Markov模型中进行训练测试, 得到的语种识别结果表明, 该方法有效提升了广播音频语种识别的准确率, 优于目前使用的伽马频率倒谱系数特征及其衍生方法.  相似文献   

20.
针对传统基于机器学习损伤识别方法手工提取特征适应性差、识别能力弱等问题,提出一种基于卷积神经网络和迁移学习的新颖、快速结构损伤识别方法.首先根据损伤特征向量特点,提出原始信号的分帧处理流程;其次考虑多传感器数据融合要求,建立多通道一维卷积神经网络结构损伤识别模型,给出模型的整体流程和网络参数;然后采集不同通道和不同噪声水平下,模拟不同位置程度损伤的15层框架数值模型加速度数据,进行损伤识别;最后将网络模型进行迁移学习,对7层框架模型试验进行损伤识别,并验证所提方法的可行性、准确性和计算复杂性.结果表明,该方法实现了特征自适应提取、损伤位置和损伤程度的精准识别,具有突出的计算效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号