首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 610 毫秒
1.
关键词在自然语言处理的各个领域有着十分重要的意义.对于中文自然语言处理,一词多义和多词一义问题始终是困扰研究人员的一个重大难题.传统的一些基于统计的方法,诸如KEA只是机械地统计了词频,而没有考虑词之间的关系.文中提出了一种基于同义词的中文关键词提取方法SKEA,并建立一阶隐马尔可夫模型进行词义消歧,将文本从稀疏的词空间映射到语义空间,从而实现了文本的降维.同时改进了KEA的位置权重公式,并提出新的关键词特征选取项.最后对SKEA方法和KEA方法进行比较实验,证明SKEA是一种更优秀的中文关键词提取方法.  相似文献   

2.
文字学部首的内涵丰富多样,它形成的原因除了汉字形体因素外,还受字源因素、文化因素、结构流变因素等影响.文章还认为,文字学部首中的"部首"与偏旁相对应,偏旁是依据形义对汉字作二元平面拆分而成;查检法部首中的"部首"与部件相对应,部件只依据形体不考虑意义、对汉字作多个层次拆分而成.汉字的偏旁相对应于汉字的一级部件,偏旁大于或等于部件,但偏旁和部件不是同一性质的概念.这是文字学部首与查检法部首的主要区别.  相似文献   

3.
现有的文本隐写方法在隐藏容量和隐写成功率方面存在不足,针对此问题提出了一种基于汉字笔画的文本隐写方法,利用汉字笔画矩阵和编码矩阵将汉字笔画与"0"、"1"编码段进行映射,按照秘密消息的二进制编码段的顺序,找到对应的汉字笔画并按顺序组合成汉字,找到包含这些汉字的文本作为载体,对携带秘密信息的汉字在文本载体中的位置进行编码,编码后的位置信息放置在URL中,发送给接收方供其提取秘密消息。本方法不仅有较好的隐写成功率,而且在隐藏容量方面也有较大优势。  相似文献   

4.
立场检测任务通过自然语言处理技术,分析出文本内容对目标话题的立场倾向.本文提出的立场检测模块从文件系统取"文本数据",而后根据预先设定的字典,将文本中的文字和文字在字典中对应的数字进行映射,形成数字序列.将数字序列输入已预训练好的RoBERTa模型,得到数字序列的特征表示,将特征表示输入分类器进行立场识别.最后将立场分...  相似文献   

5.
中文情感分析是自然语言处理的重要研究内容,旨在探究中文文本中蕴含的情感倾向.近年来,中文情感分析研究取得了长足进步,但鲜有研究根据语言本身特征和下游任务需求进行探讨.鉴于此,针对中文文本的特殊性以及情感分析的实际需求,在字、词特征的基础上,引入部首特征和情感词性特征,利用双向长短期记忆网络、注意力机制、循环卷积神经网络等模型,提出了融合字、词、部首、词性等多粒度语义特征的中文文本情感分析方法.在融合各类特征的基础上,利用softmax函数进行情感预测.数据集NLPECC(natural language processing and Chinese computing)上的对比实验结果表明,所提方法的F1值均达到84.80%,一定程度上提高了已有方法的性能,较好地完成了中文文本情感分析任务.  相似文献   

6.
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理领域的热门方向之一.由于中文具有复杂的句式和语法,导致现有的神经网络提取的特征以及语义表示能力较差,从而影响中文关系抽取的性能.汉字是象形文字,其字形结构在一定程度上隐含了字义,为此提出了包含字形级别实体表示的BERT_BI-GRU_Glyph模型.模型中...  相似文献   

7.
针对当前中文词嵌入模型无法较好地建模汉字字形结构的语义信息,提出了一种改进的中文词嵌入模型.该模型基于词、字和部件(五笔编码)等粒度进行联合学习,通过结合部件、字和词来构造词嵌入,使得该模型可以有效学习汉字字形结构所蕴含的语义信息,在一定程度上提升了中文词嵌入的质量.  相似文献   

8.
文本分类是自然语言处理与理解当中重要的一个研究内容,在文本信息处理过程中有关键作用.目前深度学习已经在图像识别、机器翻译等领域取得了突破性的进展,而且它也被证明在自然语言处理任务中拥有着提取句子或文本更高层次表示的能力,也备受自然语言处理研究人员的关注.文章以基于深度学习的文本分类技术为研究背景,介绍了几种基于深度学习神经网络模型的文本分类方法,并对其进行分析.  相似文献   

9.
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.  相似文献   

10.
提出了基于汉字知识的文本水印算法,该算法属于自然语言技术文本水印算法,文中进行水印嵌入时,保持句子语义不变.先将一个句子划分成若干个词,再将词划分成若干汉字,最后将汉字细化为偏旁部首.算法根据语义对句子分词,对分词的字数、笔画数等进行运算,最终计算出句子的特征值,进而嵌入水印信息.文本图像水印算法将水印信息嵌入在视觉重要分量上从而获得较好的鲁棒性.针对网络博客中文章或图片被非法复制盗用及传播问题,利用自然语言处理技术,结合电子签名技术,提出了双水印版权保护算法.算法基本思想是将版权认证信息处理后双嵌入,第二次的嵌入以第一次为依托.另外,加密技术使得破解和篡改信息更加地困难.实验表明,该算法具有鲁棒性好,抗检测性强的优点.当文章或图片被非法复制、传播以及在发生侵权行为时能方便快速识别文章或图片的版权归属.  相似文献   

11.
中文姓名识别是信息抽取的一个重要研究内容,同时也对自然语言处理的其他应用具有重要意义.本文针对中文姓名构成的一般规律和特点,提出了一种姓氏用字驱动的统计与规则相结合的混合中文姓名识别算法,该算法以姓氏用字为线索,通过对前后文中汉字串成词的可能性的评价来进行姓名识别.对所提出的算法用144 K文本进行了实验测试,验证了它的有效性.  相似文献   

12.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

13.
在统计双语词典的基础上,提出一种特征加强的多语言文本分类方法.在执行文本分类时,考虑到其他语言的训练文本,使得多种语言的文本集合中均存在训练文本,放松了MLTC的要求.特征加强是一种交叉检查过程,即获取两种语言所有特征的卡方统计后,通过语言中相关特征的辨识力,再次对语言的特征辨识力进行评估,以提高分类的可信度.实验选择汉语或英语作为目标语言.实验结果表明:提出的方法具有更高的分类精度,且对训练集规格的敏感度更低.  相似文献   

14.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

15.
多语种自然语言生成系统中的语言模型   总被引:1,自引:0,他引:1  
介绍了在多语种自然语言生成系统中如何用统一的模型来表示各种语种的语言知识。本文将语言知识分为语义资源和语法资源两个部分。前者通过Schema和优化规则确定文本的内容;后者根据子结构类,句法规则和词典确定文本的具体形式。该模型以复杂特征集为语言知识的载体,将表示抽象语义的数据扩展为生成不同语种文本所需的语言资源。  相似文献   

16.
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM (bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值.  相似文献   

17.
18.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

19.
基于数学形态学的图像汉字笔划细化和提取   总被引:1,自引:0,他引:1  
文章提出了一种基于数学形态学的图像汉字笔划细化和提取方法。根据汉字的结构特点,定义了一组新的结构元素序列,保持了原样本图像汉字的连通性和拓扑性的骨架,有效地抑制样本细化后汉字笔划的扭曲和歪斜;在此细化的结果基础上,定义了一种新的汉字笔划提取算法,准确提取出原汉字的横竖撇捺笔划的形状、形态及形式结构信息,取得了理想的效果。  相似文献   

20.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号