首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
研究了词频规范化,通过实例指出并分析了极大规范化词频、对数词频和平均词频这3种现有的词频规范化方法的不足,在理论上探究了影响词频规范化的因素.通过引入新参数的方法对词频规范化予以改进,以试错法给出了3种可能的词频规范化形式,并经数学推导,最终给出了改进的词频规范化方法,并通过实验验证了改进的词频规范化形式的有效性.  相似文献   

2.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

3.
传统的TF-IDF算法主要依赖词频,往往忽略词语语义和一些具有重要意义的副词。针对这一问题,提出了一种基于语义分析的改进TF-IDF算法。该方法融入了词语语义来计算词频,改进了反义词语之间的相似度。实验结果表明,该方法在计算句子相似度中能根据语义方向对句中各词语词频进行统计,同时判断整个句子语义方向,与传统算法比较,语句相似度的准确性提高了5. 7%。  相似文献   

4.
用《标准频率指数》统计词频是一种先进的科学的词频统计方法,本文探讨了此种方法在新闻语料词频统计中的应用,这在汉语词频统计中尚属首次。  相似文献   

5.
以万方数据库儒家经典的研究论文为数据来源,借助计算机应用系统,对论文关键词进行了挖掘与整理,建成了关键词词频数据库,采用词频分析软件与词频分析方法,对关键词词语进行了多途径、广角度的系统性、综合性比较研究,探讨了儒家思想精髓及异同点,为我国儒家经典及古典文献研究开拓了新的研究途径。  相似文献   

6.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

7.
音字转换是汉字的语音输入系统的一个主要组成部分,音字转换的速度和准确性直接影响整系统的性能。本文提出在音字转换过程中利用字词的概率统计信息进行辅助判决的方法,优化字词的选择,提高音字转换的速度,考虑到人们用词的时变性,提出一种在使用过程中对字词频进行智能调整的算法,并引入遗忘机制以适应词频的减量变化。  相似文献   

8.
基于贝叶斯粗糙集的文本特征选择方法   总被引:3,自引:1,他引:2  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的.  相似文献   

9.
分析了传统的互信息特征选择算法的不足,针对可能赋予低频特征词过高权重的问题,利用词频、集中度这两个强信息特征指标对算法进行改进,提出了一种基于词频和文本类别的互信息改进算法(Improved Mutual Infonnation Algodthm based on Word Frequency and Text Category,简称改进的MIFC)。实验结果表明,改进的MIFC算法提取的特征空间比传统的互信息算法有更高的精确度。  相似文献   

10.
提出一种基于词频-极性强度值的情感词挖掘方法构建中文抑郁症情感词典。首先,对抑郁症患者评论语料进行有效分词,采用双向最大匹配和互信息方法选出候选情感词,再通过计算词频-极性强度值得到种子词集;然后,通过计算基础中文情感词典与种子词的语义相似度,得到抑郁症领域情感词表,将词表与种子词集合并,得到中文抑郁症情感词典。结果表明:本文提出的方法可准确地挖掘抑郁症专有领域情感词。  相似文献   

11.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

12.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

13.
语言是一种以语音为物质外壳,以词汇为建筑材料,以语法为结构规律而构成的体系。词汇是语言的最小单位,由语音、形态、语义三大要素构成。语言是人的思维的产物,人类的逻辑思维内嵌于词汇各要素信息内部。把握词汇内部的逻辑性规律,对借助词汇的逻辑知识来演绎新的词汇和语义,推动二语习得有借鉴。  相似文献   

14.
基于统计的无词典分词方法   总被引:17,自引:0,他引:17       下载免费PDF全文
通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。  相似文献   

15.
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。  相似文献   

16.
一种新的词语相似度计算方法   总被引:1,自引:0,他引:1  
提出了一种新的词语相似度计算方法.该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度.实验结果验证了该方法的有效性.  相似文献   

17.
副词与语序的关系十分密切,将副词和语序相结合进行尝试性的研究必将拓宽语序研究和副词研究的思路,从而更好地揭示汉语语法的规律。从关联副词的位置和副词“只”、“都”、“也”等对语序变化的制约和帮助两方面简要地说明与副词有关的语序问题,是很有价值的。这对以后的探索研究很有意义。  相似文献   

18.
语序问题是语法的核心问题,汉语语序的特点在很大程度上能够反映出汉语的特点。笔者根据配价理论建立起汉语语序的基本模型,并以此为参照描写汉语语序的种种变异形式:(1)价成分位序的改变:主要包括单纯的位序改变、分裂移位,以及部分同前置词隐现有关的位序改变。(2)价成分数量的改变,包括价成分的减少、增加及汉语特有的共价现象。笔者认为语序变异的深层动因是汉语”线性增量”的表意需要;并列举了语序研究的一个实例:语序变异研究对汉语作为第二语言的教学实践有着积极的促进作用。  相似文献   

19.
提出了一种新的词语相似度计算方法。该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度。实验结果验证了该方法的有效性。  相似文献   

20.
提出一种基于词模式的上下位关系分类方法, 可以有效地缓解传统的基于模式的分类方法存在的稀疏问题, 提高了关系分类的召回率。进一步地, 通过词模式嵌入, 将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性, 标注一个包含12000个汉语词语对的数据集。实验结果表明, 该词模式嵌入方法是有效的, F1值可以达到95.36%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号