首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   13篇
  完全免费   7篇
  综合类   20篇
  2015年   4篇
  2014年   2篇
  2013年   1篇
  2012年   2篇
  2011年   1篇
  2010年   3篇
  2009年   2篇
  2008年   1篇
  2007年   3篇
  2006年   1篇
排序方式: 共有20条查询结果,搜索用时 46 毫秒
1.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:0  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献
2.
利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题.为了解决这一难题,设计了一种六字位标记集,提出了一种基于层叠式条件随机场模型的古文断句与句读标记方法.基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记.实验在5 M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%.  相似文献
3.
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。  相似文献
4.
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献
5.
How to integrate heterogeneous semi-structured Web records into relational database is an important and challengeable research topic. An improved model of conditional random fields was presented to combine the learning of labeled samples and unlabeled database records in order to reduce the dependence on tediously hand-labeled training data. The pro- posed model was used to solve the problem of schema matching between data source schema and database schema. Experimental results using a large number of Web pages from diverse domains show the novel approach's effectiveness.  相似文献
6.
提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F1=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏 置问题.  相似文献
7.
为了有效检索和管理新闻视频资源,提出了一种利用多模态特征、基于上下文信息的新闻故事单元分割方法。首先利用字幕变化、音频类型和视频镜头类型信息将新闻镜头序列转换成为相应的关键词序列,使新闻故事单元分割转换成为文体序列分割的问题;然后应用一种有效的序列分割模型—条件随机场,来分割新闻故事单元。对多段视频的测试结果证明了该方法的有效性,取得了查全率为72.9%、查准率为88.4%的较好结果。  相似文献
8.
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献
9.
Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的.因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题.文中提出一种基于内容信任的方法用以验证Web信息的可信程度.采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算.实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的.  相似文献
10.
研究针对颅内各组织的MRI图像的新型分割算法.利用支持向量机(support vector machine, SVM)在解决高维及非线性问题的优势和条件随机场(conditional random field, CRF)有效学习数据之间局部依赖关系的优势,将SVM与CRF相结合,提出了多分类的支持向量机条件随机场分割算法(SVM-CRF),并应用于MR图像中各脑组织的分割.实验结果显示,对于较易识别的脑脊液,SVM-CRF算法比SVM算法和CRF算法的分割精度分别提高了1.83%和5.81%;对于较难识别的骨松质,SVM-CRF算法比SVM算法和CRF算法的分割精度分别提高了1.84%和7.60%.理论分析与实验结果表明,SVM-CRF算法的分割精度均明显优于SVM和CRF算法,并且对于较难识别的组织,该算法的优势更能得以体现.  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号