首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
一种新闻类WORD格式文件数据抽取算法研究
作者姓名:
张志强
王伟钧
张修军
施达
作者单位:
成都大学计算机学院
基金项目:
四川省教育厅教育科研项目(SCJG21A123);;成都市教育局教育科研项目(CY2020ZG05);
摘 要:
为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库.
关 键 词:
新闻类
WORD格式
数据抽取
清洗数据
批量文件自动读取
数据库
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号