首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   1篇
  免费   0篇
  国内免费   1篇
系统科学   1篇
综合类   1篇
  2020年   1篇
  2018年   1篇
排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前字成为停用字的可能性作为模型的特征。实验结果表明:该方法的F值比基线系统提高了0.84%~1.49%,比目前最优的基于词边界标注(word boundary annotation,WBA)的主动学习方法提升效果更好。  相似文献   
2.
特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,进而实现对特征词重要性排序.分别在公共语料集和补充语料集上与其它多种特征词排序方法进行数值实验对比,实验结果验证了方法的有效性.该方法拓宽了流形排序思想和图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略.  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号