首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于互信息改进算法的新词发现对中文分词系统改进   总被引:6,自引:0,他引:6  
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。  相似文献   

2.
基于词向量的情感新词发现方法   总被引:1,自引:0,他引:1  
词语级的情感倾向性分析一直是文本情感计算领域的热点研究方向,如何自动识别情感新词,并判断其情感倾向性已经成为当前亟待解决的问题。首先用基于统计量的方法识别微博语料中的新词,然后利用神经网络去训练语料中词语的词向量,从语料自身挖掘出词与词之间的相关性,最后提出了基于词向量的情感新词发现方法。实验表明该方法可以有效应用于情感新词发现。  相似文献   

3.
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。  相似文献   

4.
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。  相似文献   

5.
基于密度提取的细胞荧光图像标识算法   总被引:1,自引:0,他引:1  
为解决常用的基于图像像素连通性的分类标识算法和当前的基于密度可达性的快速算法在处理类似线粒体等分布不连续的荧光图像上存在标识不稳定和误标识的问题,通过改进基于密度的算法在搜集对象上的策略,采用基于局部密度提取的搜集方法。结果表明:对于不连续分布的荧光图像,这种方法可以很稳定的给出符合实际的分类标识结果,优于基于连通性和基于密度的快速算法,准确率和稳定性较高。  相似文献   

6.
新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏.针对传统新词发现方法未考虑单字新词的识别,且忽略了上下文句法结构与语义信息对新词识别结果的影响,提出一种统计量计算结合相似性判断的网络新词发现算法.首先,基于字的粒度,依次计算单字词频、最大增强互信息和加权左右邻接熵,从左向右逐字扩展多字词,获得...  相似文献   

7.
提出了一种基于改进位置成词概率的新词识别算法.该算法在位置成词概率的基础上,结合新词内部模式的特征提出了改进的位置成词概率,然后再综合互信息、邻接类别等统计量对新词进行识别.采用小说语料进行测试,实验结果表明该算法在一定程度上能有效提取新词.  相似文献   

8.
提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%.  相似文献   

9.
针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。  相似文献   

10.
针对微博涌现出越来越多带有情感倾向的新词,为了将这些新词扩充到传统情感词典,本文提出基于共现概率训练的情感词典的扩充算法。首先进行文本预处理,然后运用共现概率以及新词情感概率判断新词是否可以扩充,并且计算已载入情感词典的新词的新情感词情感倾向,最后迭代计算将新词扩充到情感词典。实验表明此扩充算法优于传统无监督学习算法。  相似文献   

11.
基于统计的无词典分词方法   总被引:17,自引:0,他引:17       下载免费PDF全文
通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。  相似文献   

12.
语言是一种以语音为物质外壳,以词汇为建筑材料,以语法为结构规律而构成的体系。词汇是语言的最小单位,由语音、形态、语义三大要素构成。语言是人的思维的产物,人类的逻辑思维内嵌于词汇各要素信息内部。把握词汇内部的逻辑性规律,对借助词汇的逻辑知识来演绎新的词汇和语义,推动二语习得有借鉴。  相似文献   

13.
一种新的词语相似度计算方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种新的词语相似度计算方法.该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度.实验结果验证了该方法的有效性.  相似文献   

14.
本人利用邮件合并功能,将所需数据合并到word文档中即可一次性制作好学生成绩单,该项应用效果良好,工作效率高,值得推广。  相似文献   

15.
文章将给出两个元素字母表上的极大弱自避免字的完整刻画,同时给出三个元素字母表Σ3上,满足条件:x1[1]=2,2-1x1∈Σ2ω的无限弱自避免字x1=20012010150130111017012301150…,其中(20)-1x1中0的位置由序列fn决定:f2n 1=52n-2(n≥0),f2n=82n-1-2(n≥1).  相似文献   

16.
提出了一种新的词语相似度计算方法。该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度。实验结果验证了该方法的有效性。  相似文献   

17.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

18.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

19.
提出一种基于词模式的上下位关系分类方法, 可以有效地缓解传统的基于模式的分类方法存在的稀疏问题, 提高了关系分类的召回率。进一步地, 通过词模式嵌入, 将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性, 标注一个包含12000个汉语词语对的数据集。实验结果表明, 该词模式嵌入方法是有效的, F1值可以达到95.36%。  相似文献   

20.
本文通过具体实例,介绍了利用Word 中的公式编辑器来编辑工程计算中经常要用到的一些比较复杂的计算方程式或分类汇总表达式的处理方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号