首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 953 毫秒
1.
关联规则算法在中文文本挖掘中的应用研究   总被引:4,自引:0,他引:4  
本文介绍了关联规则的主要概念及关联规则的经典算法,并将关联规则算法应用于中文文本挖掘中,目的是通过计算文本特征词间的支持度、可信度关系了解文本间的关联关系.  相似文献   

2.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

3.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

4.
汉语自动分词中中文地名识别   总被引:6,自引:0,他引:6  
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果.  相似文献   

5.
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。  相似文献   

6.
针对中文机构名实体的识别提出了利用隐马尔科夫统计模型的方法.同时,在此方法的基础上通过构建一元模型来补充识别那些缩写的和没有核心词的机构名,弥补了单一统计模型在机构名实体识别中的不足.实验证明二者相结合的方法能获得较高的准确率和召回率,具有可行性.  相似文献   

7.
基于知网语义相似度计算的特征降维方法研究   总被引:9,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

8.
设计了一个中文姓名抽取系统, 该系统采用神经网络进行汉语句子的分词处理, 根据姓名后置特征词进行姓名的抽取, 成功解决了尾字和下文成词的姓名抽取问题. 以1998年1月份《人民日报》语料库中含有此类姓名的语句作为测试数据,结果表明, 姓名抽取的召回率和精确度较现有方法都有很大提高.  相似文献   

9.
量词是汉语特有的词类,本文通过对武冈方言特殊名量词和动量词用例的分析,来揭示武冈方言量词的特点,有助于汉语词汇的深入研究,对武冈方言特征词与其他方言特征词的比较研究也有帮助。  相似文献   

10.
基于量化同义词关系的改进特征词提取方法   总被引:1,自引:0,他引:1  
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性.  相似文献   

11.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

12.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

13.
提出一种基于词模式的上下位关系分类方法, 可以有效地缓解传统的基于模式的分类方法存在的稀疏问题, 提高了关系分类的召回率。进一步地, 通过词模式嵌入, 将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性, 标注一个包含12000个汉语词语对的数据集。实验结果表明, 该词模式嵌入方法是有效的, F1值可以达到95.36%。  相似文献   

14.
“离合词”是汉语中介于词与短语之间一种特殊的语法现象。从语法性质来说,它属于词;它最早出现于宋代,类化作用、认知方式、语体色彩、经济原则等都与离合词的产生和形成有密切联系。  相似文献   

15.
对数据库受限汉语自然语言查询语句进行分渊处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想足体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用.  相似文献   

16.
讨论了有限可交换特殊图厄系统 (Σ∶ R)及其字问题 ,证明了一个有限可交换特殊图厄系统 (Σ∶ R)是一个有限群与一个自由幺半群的直积 ;在所讨论的系统是完备的情况下 ,得到了一个判定有限阶元问题存在的线性时间算法 ,这个算法同时还构造了字方程 xm =xn 的所有解  相似文献   

17.
中文切分词典的最大匹配索引法   总被引:3,自引:0,他引:3  
提高自然语言词典的检索速度是提高计算机处理系统速度的重要途径,考虑到汉语语词的切分中使用词典的特点,参考“Trie索引”方法,提出了一种多层次的词典索引结构和最大匹配待渣汉字串的检索方法,使用这种方法,切分系统每次都能查到所需,大大提高了切分的工作效率,在查一个登录的词时,也较一般的方法快。  相似文献   

18.
鉴于中韩在文化上的同源相近,对韩汉语教学有明显的特异性,分别表现在文字词汇教学和语言文化教学上。基于此,设计有别于普适性对外汉语教学模式的特异教学模式,以期更快捷有效地实施对韩汉语教学。  相似文献   

19.
中文姓名识别是信息抽取的一个重要研究内容,同时也对自然语言处理的其他应用具有重要意义.本文针对中文姓名构成的一般规律和特点,提出了一种姓氏用字驱动的统计与规则相结合的混合中文姓名识别算法,该算法以姓氏用字为线索,通过对前后文中汉字串成词的可能性的评价来进行姓名识别.对所提出的算法用144 K文本进行了实验测试,验证了它的有效性.  相似文献   

20.
为充分利用汉字结构、轮廓、笔画、书写顺序等特征识别相似汉字,提出基于特征向量和笔顺编码的字形相似算法,用以解决形近字检索中准确度不高的问题。算法采用图像处理方法及五笔编码规则将汉字转化为特征向量形式和笔顺编码字符串,引入二值化差值算法和改进后的Jaro-Winkler Distance算法分别对其进行相似度计算,2个相似度分别从不同方面反映汉字的相似程度,吸取2种方法的优势对其进行融合,得到最终字形相似度。实验结果表明,该算法在字形检索中较3元组递归算法准确率提高27.8%,较模板匹配算法、结构方法、神经网络算法执行效率平均提高约66.7%,该算法不仅可以有效解决形近字检索中的准确性问题,同时效率也得以优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号