首页 | 本学科首页   官方微博 | 高级检索  
     检索      

利用信息传播特性的中文网络新词发现方法
作者单位:;1.清华大学智能与网络化系统研究中心;2.国家计算机网络应急技术处理协调中心;3.西安交通大学智能网络与网络安全教育部重点实验室
摘    要:针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。

关 键 词:新词发现  信息传播  用户行为  时间特性

A Method of Discovering New Chinese Words from Internet Based on Information Propagation
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号