Web文本挖掘中的一种中文分词算法研究及其实现 |
| |
引用本文: | 苏芳仲,林世平. Web文本挖掘中的一种中文分词算法研究及其实现[J]. 福州大学学报(自然科学版), 2004, 32(Z1): 67-71 |
| |
作者姓名: | 苏芳仲 林世平 |
| |
作者单位: | 福州大学数学与计算机科学学院,福建,福州,350002 |
| |
基金项目: | 福建省自然科学基金资助项目(A0110009);福州大学科技发展基金资助项目(2002-XQ-21) |
| |
摘 要: | 针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高.
|
关 键 词: | 文本挖掘 字典索引 文档格式转化 消歧 |
文章编号: | 1000-2243(2004)增刊-0067-05 |
修稿时间: | 2004-10-15 |
The research and implementation on a Chinese automatic word - segment algorithm in Web text mining |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《福州大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《福州大学学报(自然科学版)》下载免费的PDF全文 |