首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 128 毫秒
1.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

2.
生物医学命名实体识别是生物医学文本挖掘的基本任务.机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究.实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高.  相似文献   

3.
基于Camshift跟踪算法与SVM的大输液杂质检测识别方法研究   总被引:1,自引:0,他引:1  
针对我国医药生产检测包装线上大输液杂质智能检测技术问题,提出了一种利用实时视频图像处理技术检测识别大输液杂质的方法.该方法对连续多帧被旋转的大输液瓶图像运用差分图像运动分析方法提取目标杂质;运用图像处理技术去除气泡噪声,准确分割目标杂质,采用Camshift跟踪算法连续跟踪几帧运动杂质以确保检测准确率;根据Camshift跟踪算法提取出的杂质运动和几何特征,应用SVM(Support Vector Machine)准确识别杂质类型.实验结果表明,该方法检测识别直径大于等于4个像素的杂质的检测识别率平均可达到95.4%,检测识别速率平均可达到581 ms/瓶.  相似文献   

4.
基于CNN-CRF的中文电子病历命名实体识别研究   总被引:1,自引:0,他引:1  
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。  相似文献   

5.
传统的边缘检测方法具有一定的局限性,且自适应能力差,提出一种基于机器学习的边缘检测方法来解决上述问题.实验图像从伯克利图像数据库中选取,以Harr和梯度直方图(HoG)构成特征空间,将AdaBoost算法和决策树算法相结合进行分类器训练.实验结果表明,机器学习的边缘检测算法有更高的分类准确率.  相似文献   

6.
针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该算法将自然语言处理技术(Natural Language Processing, NLP)与不同的机器分类器相结合,根据多个不同的语言特征解决了简短嘈杂的评论文本的作者识别问题.实验结果表明,相对于基线模型而言,本文算法在引入NLP技术后,仅采用一元语法和一元与二元语法相结合的两个N-gram模型的分类精度均有明显提高,充分说明本文算法的有效性.  相似文献   

7.
为提高低清晰度车牌识别技术中字符分割和识别的准确率,提出了在HSV(色调,饱和度,亮度)颜色空间下使用最大类间方差(OTSU)算法来对车牌图像进行二值化,然后结合特殊间隔位置和投影法来精确分割字符,并在字符识别阶段引入了卷积神经网络.通过对真实场景中提取的低清晰度车牌进行实验可见:提出的分割算法能够准确分割字符,准确率可达96.5%,同时引入的卷积神经网络对车牌字符识别率为97.8%,能够有效解决低清晰度车牌字符的分割和识别问题.  相似文献   

8.
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers,Bert)和注意力机制的命名实体识别模型.模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field,CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体.实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%.Bert-BiL-STM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率.  相似文献   

9.
针对疲劳驾驶检测问题,提出一种以softmax损失与中心损失相结合的深度卷积神经网络算法。首先,利用含有方向的梯度直方图(histogram of oriented gridients,HOG)和级联分类器(support vector machine,SVM)算法的Dlib库中预训练的人脸检测器,来检测驾驶员的脸部区域。其次,使用级联回归(ensemble of regression trees,ERT)算法实现脸部68个关键点标定及眼睛和嘴巴的定位。最后,为了优化softmax损失在深度卷积网络分类中出现的类内间距大的问题,加入中心损失函数,提高类间差异性、类内紧密性以及驾驶员脸部疲劳状态识别准确率。在自建测试集和YawDD哈欠数据集中的实验结果显示,该方法能够准确地识别检测驾驶员疲劳表情,平均识别准确率达到98.81%。与传统的疲劳驾驶检测识别方法相比,该方法可以自动进行疲劳特征提取,并且训练准确率、检测识别率及鲁棒性得到提高;与未改进的深度卷积网络相比,检测识别的概率平均提高了约5.09%。  相似文献   

10.
手写文字识别是计算机视觉、自然语言处理领域中的重要问题和研究热点.本文针对手写文字识别问题,提出一种基于双向LSTM网络的手写文字识别方法.首先根据数据集特点进行归一化等预处理;然后使用CNN网络对图像的特征进行提取;接着通过双向LSTM网络来记忆手写文字序列的字句关系,并对文字序列进行预测;最后使用CTC-Loss作为损失函数,可以让整句标注的训练集在上述网络下收敛.对比实验表明本文提出的算法模型的有效性.  相似文献   

11.
针对传统的能量检测方法不能识别信号类型以及基于单一特征的循环平稳特征检测方法的识别准确率较低等问题,提出一种融合物理层信号特征和介质访问控制(MAC)层协议特征的网络识别算法.其中,利用滑动窗口能量检测来识别MAC层协议特征,同时,利用正交频分复用符号进行快速傅里叶变换的点数和循环前缀因子的循环平稳特征进行特定时延的渐近最优卡方检测来识别物理层信号特征.仿真结果表明,所提出的网络识别算法能够有效识别基于IEEE 802.22、IEEE802.11af、IEEE802.16h和ECMA392标准的异构多认知无线网络.  相似文献   

12.
针对嵌入式眼-机交互技术中所采用的传统眼行为识别方法准确率低、速度慢等问题,并结合所研制眼机交互系统硬件特点及应用场景,提出一种基于改进YOLO-v3的眼机交互模型.该模型通过去除13×13特征分辨率的检测模块、增加浅层网络的层数以及采用K-means聚类算法选取初始先验框,提高了网络像素特征提取细粒度并加快了检测速度,进而结合人眼特征参数提取方法和眼行为识别算法,构建出了眼机交互模型并进行实验.实验结果表明,该模型对不同眼行为的识别率达91.30%,改进的YOLO-v3网络的平均检测准确率(mean average precision,mAP)为99.9%,识别速度达22.8 FPS,相比原YOLO-v3方法检测时间缩短了11.4%.  相似文献   

13.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

14.
实体识别(Entity Resolution)是指判断一个或多个数据源中两个不同记录是否描述相同实体,它有时也被称作记录连接(Record Linkage),在数据集成中被用于数据清洗(Data Clean)、去重(Deduplication)和相似连接(Similarity Joins)等集成操作中.实体识别技术可被广泛应用于人口普查、引文识别、Web搜索、数据清洗以及剽窃检验等诸多领域.然而,在真实世界中,实体的属性会随着时间的变化而变化,两条记录的属性值不同不能表明这两条记录对应不同的实体,具有相同的属性值的两条记录也不能表明对应相同的实体.时间记录链接就是匹配描述同一实体的带有时间戳的记录.已有的解决时间记录链接的方法依赖于时间模型来捕捉实体的演化,但是已有的时间模型在预测实体的演化时,实体匹配准确率不高,而聚类计算复杂度较高.为此提出了更加细致的捕捉实体演化的模型和新的两阶段的快速聚类算法.通过在三个真实数据集上的实验结果表明,提出的时间模型可以更加细致地捕捉实体的演化,提出的聚类算法能更快速而准确的聚类描述同一实体的记录,提高了识别的准确率和效率.  相似文献   

15.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

16.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

17.
传统的煤矸石图像识别方法存在特征提取困难、泛化能力弱等问题,采用可见光方式进行煤矸石图像采集又容易受光照、粉尘等环境因素的影响,本文提出一种基于热成像技术和深度学习算法的煤矸石图像识别方法,利用热成像技术进行煤矸石图像采集,分别采用AlexNet、LeNet、ResNet_50这三个卷积神经网络构建煤矸石图像识别模型.根据总损失、识别准确率、训练速度进行模型性能比较,选择识别效果最好的模型,与两个可见光煤矸石图像进行对比实验.实验结果表明利用热成像技术能显著提升煤和矸石图像的差异性,采用热成像技术构建煤矸石数据集,结合AlexNet卷积神经网络训练的煤矸石识别模型,具有良好的识别效果.测试集识别准确率为97.88%.相对于利用传统的可见光成像技术,识别准确率有显著提升.  相似文献   

18.
近年来, 伪造盗版产品带来的经济损失逐年增大, 伪造技术不断提升, 防伪检测问题受到了广泛关注. 为了解决现有防伪检测方法的计算量大、资源占用高、检测耗时较长等问题, 提出了一种基于轻量级网络的防伪标签识别检测模型, 该模型采用更为轻量的卷积神经网络(convolutional neural network, CNN)来进行形状和纹理的识别. 在形状识别任务中, 降低池化层大小以增强模型学习能力; 在纹理分类任务中, 使用协调注意力(coordinate attention, CA)模块来增强模型对单一特征图的信息获取. 通过设计损失函数增强模型对真伪样本识别能力, 并通过特征向量最大值得到预测结果. 实验结果表明, 该方法整体识别检测的准确率可达 95.67%, 检测时间相较于传统方法有显著减少.  相似文献   

19.
视频文字检测与多尺度定位算法   总被引:4,自引:1,他引:3  
视频文字识别(video optical character recognition, Video-OCR)的关键环节是视频文字检测.该文提出一套文字检测与定位算法,综合应用文字的梯度、纹理和时序特性,其核心技术是一种基于支持向量机(support vector machine, SVM)分类器的多尺度定位算法.用闭包矩形检测技术作为预检测限制SVM的搜索范围; 时序优化利用时序特性排除部分偶然误检.实验表明 该检测算法与同类算法相比在命中率和误检率上最多分别超出21%和57%.综合利用多种文字特性不仅加强相互限制,降低计算量,而且获得更佳检测性能.  相似文献   

20.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别.在同一数据集上进行5种方法实验比较分析,结果表明该模型较BiLSTM-CRF和IDCNN-CRF方法F1值提高9.98%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号