一种新闻类WORD格式文件数据抽取算法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种新闻类WORD格式文件数据抽取算法研究

作者姓名：	张志强王伟钧张修军施达

作者单位：	成都大学计算机学院

基金项目：	四川省教育厅教育科研项目(SCJG21A123)；;成都市教育局教育科研项目(CY2020ZG05)；

摘要：	为了对新闻类信息进行搜索和数据分析，需要从大量保存新闻类信息的WORD文件中进行信息检索．使用人工直接检索WORD文件的方式效率较低，因此，考虑从WORD文件中抽取有用信息来构建新闻信息数据库，然后在数据库中进行数据搜索和新闻数据处理．提出一种新闻类WORD格式文件数据抽取算法，使用该算法从批量新闻类WORD文件中高效自动读取文件内容，清洗无用数据，并抽取有用信息数据构建数据库．
关键词：	新闻类 WORD格式数据抽取清洗数据批量文件自动读取数据库