首页 | 本学科首页   官方微博 | 高级检索  
     检索      

采用并行遗传算法的文本分割研究
引用本文:赵煜,蔡皖东,樊娜,刘念.采用并行遗传算法的文本分割研究[J].西安交通大学学报,2009,43(12).
作者姓名:赵煜  蔡皖东  樊娜  刘念
作者单位:1. 西北工业大学计算机学院,710072,西安
2. 西安建筑科技大学图书馆,710055,西安
基金项目:国家"863计划"资助项目,教育部高等学校博士学科点专项科研基金资助项目 
摘    要:针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.

关 键 词:中文信息处理  文本分割  遗传算法

Research of Text Segmentation Based on Parallel Genetic Algorithm
ZHAO Yu,CAI Wandong,FAN Na,LIU Nian.Research of Text Segmentation Based on Parallel Genetic Algorithm[J].Journal of Xi'an Jiaotong University,2009,43(12).
Authors:ZHAO Yu  CAI Wandong  FAN Na  LIU Nian
Abstract:Focusing on the data sparseness of short texts,an algorithm based on knowledge from external corpus iS proposed to improve the accuracy of text segmentation.which contains two steps:Gibbs sampling is adopted to estimate the LDA model;corresponding to the corPus and the latent semantic structure information of the text iS inferred based on the LDA model.Two objective functions of internal cohesion and external dissimilarity are then defined to transform text segmentation into a multi-objective optimization problem.A parallel genetic algorithm based on the objective functions is emloyed to obtain the global optimal solution for text segmentation.According to the experiments,the proposed algorithm achieves higher accuracy than the MDA and LDA-based methods in the case of data sparseness.
Keywords:Chinese information processing  text segmentation  genetic algorithm
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号