期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《广州大学学报(自然科学版)》2019,(5)

中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果. 相似文献

2.

基于BiLSTM-CRF的中文分词和词性标注联合方法

袁里驰《中南大学学报(自然科学版)》2023,(8):3145-3153

针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明：本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型-条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。相似文献

3.

中文文本特征选择中的分词方法研究

黄魏《科学技术与工程》2010,(1)

针对汉语自动分词后词条的特征信息缺失的问题,本文提出把整个分词过程分解为三个子过程,以词串为分词单位对文本进行分词：首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的特征信息更丰富,改善了文本特征选择的效果,提高了文本分类性能。相似文献

4.

语料库自然标注信息与中文分词应用研究

饶高琦修驰荀恩东《北京大学学报(自然科学版)》2013,49(1):140-146

以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。相似文献

5.

基于最大概率分词算法的中文分词方法研究 总被引：1，自引：0，他引：1

丁洁《科技信息》2010,(21):I0075-I0075

本文提出了一种基于最大概率分词算法的中文分词方法，以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现，根据针对大规模真实语料库的对比测试，分词运行效率有较大提高，该方法是行之有效的，并且提出了该算法的改进方向。相似文献

6.

中文分词技术 总被引：3，自引：0，他引：3

《科技信息》2007,(36)

在现代化的社会,为了更好的利用计算机来处理以自然语言为载体的信息,让计算机能读懂人类的语言,只有计算机读懂了人类的语言,人和计算机的交流才成为可能,对于中文来讲,词是语言的最小单位,所以,汉语的文本分词是解决该问题的第一步,本文重要介绍了中文分词的必要性,以及中文分词的方法和存在的问题。相似文献

7.

基于伪标注样本融合的领域分词方法

《四川理工学院学报(自然科学版)》2021,34(1)

目前常用的神经网络分词模型,均需要大量的标注语料才可得到较好的泛化效果,但在面对领域标注语料稀缺的场景时,不能很好的适应。为解决这一问题,该文提出了一种基于伪标注样本融合的领域分词方法。该方法从领域专业辞典、电商及百科网站等数据源收集相关词汇组成领域词典,并从中随机抽取词汇生成伪标注样本。将伪标注样本与通用语料融合为训练样本,即将领域词典信息融合至模型训练当中。网络模型方面,该方法选用双向门限循环神经网络(Bidirectional Gate Recurrent Unit,BiGRU)作为主网络层,联合一维卷积(One-dimensional convolutional neural network,Conv1D)获取更多局部上下文信息,最终由条件随机场(Conditional random field,CRF)解码输出。通过实验证明,该文的方法可以有效提高模型的领域分词性能,与未使用伪样本的模型相比可提升F1值约6.67%。相似文献

8.

基于词条组合的中文文本分词方法

黄魏高兵刘异杨克巍《科学技术与工程》2010,10(1)

针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。相似文献

9.

浅谈中文分词技术

夏利玲《科技资讯》2011,(32):226-226

目前,中文信息处理涉及面广泛,中分分词作为中文信息处理中的基础环节,其重要性不言而喻。本文主要叙述了中文分词的重要性以及发展中的难点,重点分析了目前典型的分词算法及优缺点。相似文献

10.

汉语自动分词中中文地名识别 总被引：6，自引：0，他引：6

高红黄德根杨元生《大连理工大学学报》2006,46(4):576-581

以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名．在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案．在确定句子最佳切分时识别句子中的中文地名．对真实语料进行封闭和开放测试,封闭测试结果为召回率93．55％,精确率94．14％,F-1值93．85％;开放测试结果为召回率91．27％,精确率73．48％,F-1值81．42％．取得了比较令人满意的结果．相似文献

11.

中文分词技术研究 总被引：1，自引：0，他引：1

于洪波《东莞理工学院学报》2010,17(5):40-44

随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。相似文献

12.

中文分词中歧义切分处理策略 总被引：1，自引：0，他引：1

郑家恒张剑锋谭红叶《山西大学学报(自然科学版)》2007,30(2):163-167

文章试图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度,以规则库为辅助手段,构建相应概率统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明该模型在解决歧义切分问题上是有效的. 相似文献

13.

中文自动分词探讨 总被引：5，自引：2，他引：5

杨宪泽《西南民族学院学报(自然科学版)》1994,20(3):242-245

论述了现有中文自动分词方法，提出了自动分词软件质量评价标准，并对分词正确单和切分过度两个重要特性的度量方法进行了探讨。相似文献

14.

Nutch0.9中二分法中文分词的实现

刘洋《科技信息》2009,(36):171-172

Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样：文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出在中文分词上的改进。相似文献

15.

基于短语匹配的中文分词消歧方法 总被引：1，自引：0，他引：1

姚继伟赵东范《吉林大学学报(理学版)》2010,48(3):427-432

在短语结构文法的基础上,提出一种基于局部单一短语匹配和语义规则相结合的消歧方法.通过增加短语间的右嵌套规则和采用有限自动机的实现方式,解决了短语规则中存在冗余项的问题,提高了短语匹配效率和歧义消除类型的针对性.实验结果表明,该消歧方法的平均消歧率约为98%,优于一般未考虑词语间语法和语义消歧模型的处理效果. 相似文献

16.

适用于医疗卫生领域的中文分词方法研究

《新疆师范大学学报(自然科学版)》2017,(1)

目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大。相似文献

17.

基于Lucene的中文分词方法设计与实现 总被引：3，自引：2，他引：1

李颖李志蜀邓欢《四川大学学报(自然科学版)》2008,45(5):1095-1099

本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. 相似文献

18.

一种应用分治策略的中文分词方法

赵春红高希龙王柠赵威刘国华《燕山大学学报》2009,33(5):444-449

自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。相似文献

19.

数据清洗中中文地址分词技术研究

郭文龙《齐齐哈尔大学学报(自然科学版)》2012,28(5)

数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。相似文献

20.

中文全文检索系统中基于分词技术的研究

刘畅张猛《吉林大学学报(信息科学版)》2013,31(3):320-323

为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。相似文献