首页 | 本学科首页   官方微博 | 高级检索  
     

一种新闻类WORD格式文件数据抽取算法研究
作者姓名:张志强  王伟钧  张修军  施达
作者单位:成都大学计算机学院
基金项目:四川省教育厅教育科研项目(SCJG21A123);;成都市教育局教育科研项目(CY2020ZG05);
摘    要:为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库.

关 键 词:新闻类  WORD格式  数据抽取  清洗数据  批量文件自动读取  数据库
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号