首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 156 毫秒
1.
上下文相关汉语自动分词及词法预处理算法   总被引:8,自引:0,他引:8  
提出了一种适合于汉英机器翻译的上下文相关汉语自动分词及词法预处理算法.该算法采用正向多路径匹配算法和基于上下文相关知识的歧义切分消解算法,充分利用汉英机译系统词典库中的大量语法和语义等知识进行上下文相关的规则推导消歧,使自动分词的准确率达到了99%以上.同时,该算法还对汉语中意义冗余的重叠词和可以与中心词离合的虚词等进行了词法预处理,从而一方面可以减少系统词典的收词量,另一方面方便于对句子的分析处理.  相似文献   

2.
针对有监督和基于知识库的词义消歧问题,提出了一种新的基于Jaccard系数的词义消歧算法,以解决词义错误配对问题.利用WordNet知识库中的知识源表示歧义词的词义信息并生成词义资源库,结合提出的基于Jaccard系数词义消歧算法完成信息检索.试验测试结果显示,通过新的词义消歧算法,信息检索系统精确度比传统信息检索系统提高10%.  相似文献   

3.
实现彝语文自动分词是计算机彝文信息处理中一项不可缺少的基础性工作,计算机彝文信息处理只要涉及到信息检索、机器翻译、语法分析、语义分析等方面的应用,就都需要以词为基本的处理单位.论文以彝语言的特点作为出发点,首先提出了计算机彝文分词规则与分词词表的设计思路,其次提出了实现计算机彝文自动分词技术的算法基础、系统结构,以及实现流程,而且进行了抽样测试,其分词的速度和准确率都比较高.论文最后根据彝语言的特点对实现计算机彝文自动分词的难点进行了分析.  相似文献   

4.
挺出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法,该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本。这为解决长期困扰中文信息处理的分词此问题找到了一个可行的办法。  相似文献   

5.
随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加强文本分类速度,并通过文档建模、中文分词、分类器评估等形式,构建出的行之有效的统计语言模型,它可以推动文本分类工作的发展。本文结合国内外研究现状,探析文本分类内涵及支持向量机原理,提出基于支持向量机的文本分类算法。  相似文献   

6.
金融文书的自然语言处理是目前金融科技领域的研究热点,相关研究大多数着眼于传统的分词和基于机器学习的语义场景分析这种有监督的学习方法,难以满足当前金融监管行业快速处理金融文本的需求。针对这一问题,本文构建了一个基于多层LSTM的中文金融文书摘要自动生成算法框架,通过Seq2Seq模型,基于注意力机制的强化学习框架,发现最优策略,对文本进行编码、解码,从LSTM编码器中抽取文本序列并输出摘要。实验结果表明,多层LSTM结构相比传统RNN的ROUGE值更高,具有较好的学习能力。  相似文献   

7.
针对汉语语音文档检索中最优识别单元和检索单元不一致的问题,提出一种基于子词(position specific posterior lattices, PSPL)的语音文档索引方法;该方法以词为识别单元对语音文档进行解码,得到PSPL;然后对PSPL进行子词切分,并根据子词弧与原始词弧的后验概率关系,将PSPL转换为相应的子词PSPL,以子词PSPL为索引进行查询项检索. 实验结果表明,所提出的方法在利用丰富语言信息的同时,解决了词解码器存在的边界分割不正确的问题,检索性能明显优于目前普遍使用的识别单元和检索单元均为词的PSPL索引方法.  相似文献   

8.
在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成一个事件触发词,用基于Transformer的双向编码器的预训练语言模型获取句子的特征表示,进而生成触发词候选跨度;然后用一个分类器过滤低置信度的候选跨度,通过回归调整候选跨度的边界来准确定位触发词;最后对调整后的候选跨度进行分类得到抽取结果。在ACE2005中文数据集上的实验结果表明:基于跨度回归的方法对触发词识别任务的F1值为73.20%,对触发词分类任务的F1值为71.60%,优于现有模型;并与仅基于跨度的方法进行对比,验证了对跨度边界进行回归调整可以提高事件触发词检测的准确性。  相似文献   

9.
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性.  相似文献   

10.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC++/MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台.  相似文献   

11.
深度学习促进了自然语言处理技术的发展,基于文本生成的信息隐藏方法表现出了巨大的潜力.为此,提出了一种基于神经机器翻译的文本信息隐藏方法,在翻译文本生成过程中进行信息嵌入.神经机器翻译模型使用集束搜索(Beam Search)解码器,在翻译过程中通过Beam Search得到目标语言序列各位置上的候选单词集合,并将候选单词依据概率排序进行编码;然后在解码输出目标语言文本的过程中,根据秘密信息的二进制比特流选择对应编码的候选单词,实现以单词为单位的信息嵌入.实验结果表明,与已有的基于机器翻译的文本信息隐藏方法相比,该方法在隐藏容量方面明显提升,并且具有良好的抗隐写检测性和安全性.  相似文献   

12.
中文命名实体识别(named entity recognition, NER)字符级别模型会忽略句子中词语的信息,为此提出了一种基于知识图谱中实体类别信息增强的中文NER方法。首先,使用分词工具对训练集进行分词,选出所有可能的词语构建词表;其次,利用通用知识图谱检索词表中实体的类别信息,并以简单有效的方式构建与字符相关的词集,根据词集中实体对应的类别信息生成实体类别信息集合;最后,采用词嵌入的方法将类别信息的集合转换成嵌入与字符嵌入拼接,以此丰富嵌入层生成的特征。所提出的方法可以作为嵌入层扩充特征多样性的模块使用,也可与多种编码器-解码器的模型结合使用。在微软亚洲研究院提出的中文NER数据集上的实验展现了该模型的优越性,相较于双向长短期记忆网络与双向长短期记忆网络+条件随机场模型,在评价指标F1上分别提升了11.00%与3.09%,从而验证了知识图谱中实体的类别信息对中文NER增强的有效性。  相似文献   

13.
介绍一种基于bag-of-words(BOW)模型的无载体信息隐藏方法。该方法使用BOW模型提取图像的视觉关键词(visual words,VW)以表达待隐藏的文本信息,从而实现文本信息在图像中的隐藏。首先使用BOW模型提取图像集中每幅图像的VW,构建文本信息的关键词和VW的映射关系库;然后把每幅图像分为若干子图像,统计每一幅子图像的VW频数直方图,选择频数最高的VW表示该子图像;最后根据构建的文本关键词和子图像VW的映射关系库,搜索出与待隐藏文本信息存在映射关系的子图像序列,将含有这些子图像的图像作为含密图像进行传递。实验结果和分析表明,该隐藏算法在抗隐写分析、鲁棒性和安全性方面均有良好的表现。  相似文献   

14.
一种改进逐字二分中文分词词典设计   总被引:2,自引:0,他引:2  
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式.在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率.第3字及其后的字串的匹配仍然采用目前成熟的词典机制.通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%.  相似文献   

15.
在分析自然语言处理中规则法与统计法的优缺点的基础上,提出一种新的基于人工神经网络的汉语语义网络生成模型,该模型利用人工神经网络的可学习性,从而可有效覆盖相当规模的语言学知识,以应付自然语言的多变性,同时通过语义网络表征知识可深层次刻划词语之间的关系,为后续语言的理解与推理打下基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号