首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
面向专利文献的汉语分词技术研究   总被引:2,自引:0,他引:2  
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。  相似文献   

2.
由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。  相似文献   

3.
基于CNN-CRF的中文电子病历命名实体识别研究   总被引:1,自引:0,他引:1  
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。  相似文献   

4.
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型-条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。  相似文献   

5.
目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大。  相似文献   

6.
时间作为电子病历中的一类重要实体,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用。电子病历文本中的时间可分为独立时间和基于事件的时间,针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入了中文症状知识库作为词典特征,有效地提高了条件随机场识别结果的准确率、召回率和F1值。实验结果表明,该方法在独立时间和基于事件的时间识别上的F1值分别达到了92.57%和93.98%。  相似文献   

7.
李娜 《科技资讯》2010,(7):253-254
如何建立适于交通管理系统下信息检索子系统中的分词模块是提高检索性能的关键所在。本文在分析交通管理领域特点的基础上,提出了适合交通管理领域的分词方法,实现了适用于该领域内的分词系统。实验结果表明,系统测试的准确率和召回率分别达到95.9%和95.1%。  相似文献   

8.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

9.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

10.
藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model, BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory, BiLSTM)中,将前向长短时记忆网络(long-short-term memory, LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field, CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。  相似文献   

11.
针对微博短文本存在口语化、简洁化等社交网络特征,充分利用句法依存关系以及条件随机场(conditional random fields,CRFs),抽取候选评价对象,并在基于机器学习的微博情感分类方法的基础上结合情感分析词典,引入情感值、微博标签、主题等特征,优化分类性能。在COAE(Chinese opinion analysis evaluation)微博评测数据集上,以准确率、召回率、F1值为评价指标对所提方法进行验证,证实了基于句法依存分析与CRFs相结合的评价对象抽取方法的有效性,分析了各类特征对情感分类性能的影响,最终在COAE微博观点句识别任务中准确率达91.4%。  相似文献   

12.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

13.
微博的兴起与传播使得短文本情感分类成为目前的热门研究领域。通过对中文微博语料的情感倾向性分析进行研究,提出了一种新的情感分类方法。首先构建了两级情感词典,并对不同级别情感词作不同增强;然后在情感特征方面使用N-Gram方法,尽量获取有限长度博文中的未登录情感词和情感信息。经实验验证与传统方式相比较,该方法的准确率和召回率都有所提高,在COAE2014微博情感倾向性评测任务中也取得了较好的成绩。  相似文献   

14.
用户评论产品时经常带有明确的指向,例如,针对产品的某一部分或某一功能做出评价,因此,评论中的产品名称和产品属性的识别显得尤为重要。文章使用了cw2vec模型对中文文本进行表示,在此基础上,使用双向长短期记忆模型融合了条件随机场模型对产品中的对象和属性进行识别。该方法利用长短期记忆模型对上下文信息进行有效建模,同时利用条件随机场模型作为标签推理层很好地解决序列标签的依赖问题。通过在汽车领域数据上进行实验,实验结果表明cw2vec-BiLSTM-CRF模型在产品名称和产品属性识别任务中的是有效的。与仅使用CRF模型相比,产品名称的识别准确率、召回率、F值分别提升了5.87%、5.59%、5.89%,产品属性的识别准确率、召回率、F值分别提升了6.36%、4.41%and 5.28%。  相似文献   

15.
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力.  相似文献   

16.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

17.
随着Internet技术的不断发展,Web信息不断的变化和增长.为有效查找用户所需要的信息,需将传统的信息检索向Web信息检索方向发展.如果预先对网页文本进行分类,则面对用户的检索需求就可以在相应的类别中进行查找,这样大大提高了检索的效率.文章通过对网页进行预处理,中文分词,特征提取,再使用KNN分类算法对网页进行智能分类,并采用了PSO算法快速寻找K近邻.实验结果表明:该方法不仅减少了网页分类时间,准确率、召回率和F1标准也明显提高,有效地提高了网页智能分类的效率.  相似文献   

18.
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法。利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性。提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典。将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现。在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现。  相似文献   

19.
基于本体的渔业信息检索系统的研究与实现   总被引:1,自引:1,他引:1  
传统通用搜索引擎用于渔业信息检索存在返回结果的召回率和准确率较低的缺点,分析了产生这一问题的原因,阐述了本体的应用领域以及将本体用于渔业信息检索的可行性,用实例说明了渔业领域本体的构建过程;在此基础上提出基于本体的智能渔业信息检索系统体系结构,并用Java和Jena实现了该系统.实验结果表明,采用该体系结构的渔业专题检索系统召回率和准确率均优于通用检索系统.  相似文献   

20.
非结构化文本资源提供了大量与漏洞相关的信息,传统的特定领域实体识别依赖特征模板和领域知识来识别相关实体,其识别性能很大程度上依赖于人工选取的特征函数质量.如何利用机器挖掘文本隐含的特征,而不需要人工详细地制定领域术语的特征表达是一项具有挑战性的任务.该文针对安全漏洞领域,提出一种双向长短期记忆网络BLSTM与条件随机场CRF相结合的安全漏洞领域实体识别模型,并使用基于词典的方法对结果进行校正,F值可达到85%以上.实验表明,该方法在提高实体识别的准确率和召回率的同时,能够显著地降低人工选取特征的工作量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号