首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   15篇
  完全免费   7篇
  综合类   22篇
  2015年   4篇
  2014年   2篇
  2013年   1篇
  2012年   2篇
  2011年   1篇
  2010年   3篇
  2009年   3篇
  2008年   2篇
  2007年   3篇
  2006年   1篇
排序方式: 共有22条查询结果,搜索用时 31 毫秒
1.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:0  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献
2.
CRF与规则相结合的中文地名识别   总被引:1,自引:0,他引:1       下载免费PDF全文
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.  相似文献
3.
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献
4.
How to integrate heterogeneous semi-structured Web records into relational database is an important and challengeable research topic. An improved model of conditional random fields was presented to combine the learning of labeled samples and unlabeled database records in order to reduce the dependence on tediously hand-labeled training data. The pro- posed model was used to solve the problem of schema matching between data source schema and database schema. Experimental results using a large number of Web pages from diverse domains show the novel approach's effectiveness.  相似文献
5.
提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F1=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏 置问题.  相似文献
6.
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献
7.
Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的.因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题.文中提出一种基于内容信任的方法用以验证Web信息的可信程度.采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算.实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的.  相似文献
8.
研究针对颅内各组织的MRI图像的新型分割算法.利用支持向量机(support vector machine, SVM)在解决高维及非线性问题的优势和条件随机场(conditional random field, CRF)有效学习数据之间局部依赖关系的优势,将SVM与CRF相结合,提出了多分类的支持向量机条件随机场分割算法(SVM-CRF),并应用于MR图像中各脑组织的分割.实验结果显示,对于较易识别的脑脊液,SVM-CRF算法比SVM算法和CRF算法的分割精度分别提高了1.83%和5.81%;对于较难识别的骨松质,SVM-CRF算法比SVM算法和CRF算法的分割精度分别提高了1.84%和7.60%.理论分析与实验结果表明,SVM-CRF算法的分割精度均明显优于SVM和CRF算法,并且对于较难识别的组织,该算法的优势更能得以体现.  相似文献
9.
利用多资源转化方法进行词性标注研究,旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源与目标资源合并,增大训练数据规模.做了两方面创新:在转化过程中,额外利用指导特征的置信度信息;在转化后的资源中,用模糊标注表示方法减少错误标注.实验表明,利用置信度信息能有效帮助转化,而模糊标注表示方法的影响不大.  相似文献
10.
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号