首页 | 本学科首页   官方微博 | 高级检索  
     检索      

中文文本挖掘中最长频繁序列的发现算法
引用本文:胥桂仙,朴泰雄,杨丹丹,徐小博,高旭.中文文本挖掘中最长频繁序列的发现算法[J].中央民族大学学报(自然科学版),2004,13(1):36-42.
作者姓名:胥桂仙  朴泰雄  杨丹丹  徐小博  高旭
作者单位:1. 中央民族大学计算机科学与技术系,北京,100081
2. 联想集团有限公司政府与公共服务事业部,北京,100085
3. 华北电力调度局,北京,100053
摘    要:本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来.

关 键 词:文本挖掘  中文分词  频繁序列
文章编号:1005-8036(2004)01-0036-07
修稿时间:2003年6月5日

Arithmetic of Finding All Maximal Sequences in Chinese Text Mining
XU Gui-xian,PIAO Tai-xiong,YANG Dan-dan,XU Xiao-bo,GAO Xu.Arithmetic of Finding All Maximal Sequences in Chinese Text Mining[J].Journal of The Central University for Nationalities(Natural Sciences Edition),2004,13(1):36-42.
Authors:XU Gui-xian  PIAO Tai-xiong  YANG Dan-dan  XU Xiao-bo  GAO Xu
Institution:XU Gui-xian~1,PIAO Tai-xiong~1,YANG Dan-dan~1,XU Xiao-bo~2,GAO Xu~3
Abstract:The dealing technology of word in Chinese text mining was discussed in this article. The arithmetic of finding all maximal frequent sequences in Chinese text was put forward. This arithmetic which can cut words accurately was based on appearing of all maximal frequent sequences in texts at same time.
Keywords:text mining  cutting Chinese word  frequent sequence  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号